{
  "best_global_step": 20988,
  "best_metric": 0.47602909803390503,
  "best_model_checkpoint": "saves_multiple/p-tuning/llama-3-8b-instruct/train_codealpacapy_123_1762532132/checkpoint-20988",
  "epoch": 20.0,
  "eval_steps": 1908,
  "global_step": 38160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002620545073375262,
      "grad_norm": 353.1950378417969,
      "learning_rate": 1.0482180293501048e-06,
      "loss": 8.0707,
      "num_input_tokens_seen": 2944,
      "step": 5
    },
    {
      "epoch": 0.005241090146750524,
      "grad_norm": 54.095970153808594,
      "learning_rate": 2.358490566037736e-06,
      "loss": 5.2249,
      "num_input_tokens_seen": 6816,
      "step": 10
    },
    {
      "epoch": 0.007861635220125786,
      "grad_norm": 83.99058532714844,
      "learning_rate": 3.668763102725367e-06,
      "loss": 4.7456,
      "num_input_tokens_seen": 9760,
      "step": 15
    },
    {
      "epoch": 0.010482180293501049,
      "grad_norm": 36.75820541381836,
      "learning_rate": 4.979035639412998e-06,
      "loss": 4.0222,
      "num_input_tokens_seen": 13472,
      "step": 20
    },
    {
      "epoch": 0.01310272536687631,
      "grad_norm": 35.4510383605957,
      "learning_rate": 6.289308176100629e-06,
      "loss": 3.0567,
      "num_input_tokens_seen": 16864,
      "step": 25
    },
    {
      "epoch": 0.015723270440251572,
      "grad_norm": 23.03349494934082,
      "learning_rate": 7.59958071278826e-06,
      "loss": 2.824,
      "num_input_tokens_seen": 20352,
      "step": 30
    },
    {
      "epoch": 0.018343815513626835,
      "grad_norm": 18.388507843017578,
      "learning_rate": 8.90985324947589e-06,
      "loss": 1.9205,
      "num_input_tokens_seen": 23008,
      "step": 35
    },
    {
      "epoch": 0.020964360587002098,
      "grad_norm": 14.33892822265625,
      "learning_rate": 1.0220125786163522e-05,
      "loss": 1.7677,
      "num_input_tokens_seen": 25920,
      "step": 40
    },
    {
      "epoch": 0.02358490566037736,
      "grad_norm": 26.594194412231445,
      "learning_rate": 1.1530398322851153e-05,
      "loss": 1.5162,
      "num_input_tokens_seen": 28672,
      "step": 45
    },
    {
      "epoch": 0.02620545073375262,
      "grad_norm": 9.176081657409668,
      "learning_rate": 1.2840670859538784e-05,
      "loss": 0.8018,
      "num_input_tokens_seen": 31488,
      "step": 50
    },
    {
      "epoch": 0.028825995807127882,
      "grad_norm": 5.68742036819458,
      "learning_rate": 1.4150943396226415e-05,
      "loss": 0.5673,
      "num_input_tokens_seen": 34496,
      "step": 55
    },
    {
      "epoch": 0.031446540880503145,
      "grad_norm": 4.728950500488281,
      "learning_rate": 1.5461215932914046e-05,
      "loss": 0.8676,
      "num_input_tokens_seen": 38112,
      "step": 60
    },
    {
      "epoch": 0.034067085953878404,
      "grad_norm": 3.416335344314575,
      "learning_rate": 1.6771488469601677e-05,
      "loss": 0.7674,
      "num_input_tokens_seen": 40864,
      "step": 65
    },
    {
      "epoch": 0.03668763102725367,
      "grad_norm": 2.3444881439208984,
      "learning_rate": 1.8081761006289308e-05,
      "loss": 0.7882,
      "num_input_tokens_seen": 44192,
      "step": 70
    },
    {
      "epoch": 0.03930817610062893,
      "grad_norm": 9.671417236328125,
      "learning_rate": 1.9392033542976942e-05,
      "loss": 0.6779,
      "num_input_tokens_seen": 46784,
      "step": 75
    },
    {
      "epoch": 0.041928721174004195,
      "grad_norm": 4.81410026550293,
      "learning_rate": 2.070230607966457e-05,
      "loss": 0.648,
      "num_input_tokens_seen": 50176,
      "step": 80
    },
    {
      "epoch": 0.044549266247379454,
      "grad_norm": 1.1163392066955566,
      "learning_rate": 2.20125786163522e-05,
      "loss": 0.7088,
      "num_input_tokens_seen": 54400,
      "step": 85
    },
    {
      "epoch": 0.04716981132075472,
      "grad_norm": 2.743971109390259,
      "learning_rate": 2.3322851153039832e-05,
      "loss": 0.7502,
      "num_input_tokens_seen": 56992,
      "step": 90
    },
    {
      "epoch": 0.04979035639412998,
      "grad_norm": 3.0177273750305176,
      "learning_rate": 2.4633123689727463e-05,
      "loss": 0.4624,
      "num_input_tokens_seen": 60896,
      "step": 95
    },
    {
      "epoch": 0.05241090146750524,
      "grad_norm": 1.6970480680465698,
      "learning_rate": 2.5943396226415097e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 64576,
      "step": 100
    },
    {
      "epoch": 0.055031446540880505,
      "grad_norm": 4.488434791564941,
      "learning_rate": 2.7253668763102725e-05,
      "loss": 0.5234,
      "num_input_tokens_seen": 67616,
      "step": 105
    },
    {
      "epoch": 0.057651991614255764,
      "grad_norm": 1.269905924797058,
      "learning_rate": 2.8563941299790356e-05,
      "loss": 0.5976,
      "num_input_tokens_seen": 72544,
      "step": 110
    },
    {
      "epoch": 0.06027253668763103,
      "grad_norm": 1.1021747589111328,
      "learning_rate": 2.987421383647799e-05,
      "loss": 0.6046,
      "num_input_tokens_seen": 75648,
      "step": 115
    },
    {
      "epoch": 0.06289308176100629,
      "grad_norm": 3.3528294563293457,
      "learning_rate": 3.118448637316562e-05,
      "loss": 0.6548,
      "num_input_tokens_seen": 78368,
      "step": 120
    },
    {
      "epoch": 0.06551362683438156,
      "grad_norm": 3.3859243392944336,
      "learning_rate": 3.2494758909853245e-05,
      "loss": 0.6282,
      "num_input_tokens_seen": 81952,
      "step": 125
    },
    {
      "epoch": 0.06813417190775681,
      "grad_norm": 1.881908893585205,
      "learning_rate": 3.380503144654088e-05,
      "loss": 0.5244,
      "num_input_tokens_seen": 84960,
      "step": 130
    },
    {
      "epoch": 0.07075471698113207,
      "grad_norm": 2.473771572113037,
      "learning_rate": 3.5115303983228514e-05,
      "loss": 0.8082,
      "num_input_tokens_seen": 88576,
      "step": 135
    },
    {
      "epoch": 0.07337526205450734,
      "grad_norm": 2.4079997539520264,
      "learning_rate": 3.642557651991614e-05,
      "loss": 0.5674,
      "num_input_tokens_seen": 92160,
      "step": 140
    },
    {
      "epoch": 0.0759958071278826,
      "grad_norm": 1.3401073217391968,
      "learning_rate": 3.7735849056603776e-05,
      "loss": 0.7499,
      "num_input_tokens_seen": 95840,
      "step": 145
    },
    {
      "epoch": 0.07861635220125786,
      "grad_norm": 2.575449228286743,
      "learning_rate": 3.90461215932914e-05,
      "loss": 0.5315,
      "num_input_tokens_seen": 98816,
      "step": 150
    },
    {
      "epoch": 0.08123689727463312,
      "grad_norm": 1.0630289316177368,
      "learning_rate": 4.035639412997904e-05,
      "loss": 0.5579,
      "num_input_tokens_seen": 102880,
      "step": 155
    },
    {
      "epoch": 0.08385744234800839,
      "grad_norm": 1.2921674251556396,
      "learning_rate": 4.1666666666666665e-05,
      "loss": 0.6231,
      "num_input_tokens_seen": 105920,
      "step": 160
    },
    {
      "epoch": 0.08647798742138364,
      "grad_norm": 2.43254017829895,
      "learning_rate": 4.29769392033543e-05,
      "loss": 0.642,
      "num_input_tokens_seen": 108800,
      "step": 165
    },
    {
      "epoch": 0.08909853249475891,
      "grad_norm": 1.1353685855865479,
      "learning_rate": 4.4287211740041934e-05,
      "loss": 0.592,
      "num_input_tokens_seen": 111968,
      "step": 170
    },
    {
      "epoch": 0.09171907756813417,
      "grad_norm": 1.970340609550476,
      "learning_rate": 4.5597484276729555e-05,
      "loss": 0.5039,
      "num_input_tokens_seen": 114976,
      "step": 175
    },
    {
      "epoch": 0.09433962264150944,
      "grad_norm": 15.488524436950684,
      "learning_rate": 4.690775681341719e-05,
      "loss": 0.537,
      "num_input_tokens_seen": 117568,
      "step": 180
    },
    {
      "epoch": 0.09696016771488469,
      "grad_norm": 1.1274511814117432,
      "learning_rate": 4.8218029350104823e-05,
      "loss": 0.4518,
      "num_input_tokens_seen": 120384,
      "step": 185
    },
    {
      "epoch": 0.09958071278825996,
      "grad_norm": 1.17266047000885,
      "learning_rate": 4.952830188679246e-05,
      "loss": 0.5204,
      "num_input_tokens_seen": 123680,
      "step": 190
    },
    {
      "epoch": 0.10220125786163523,
      "grad_norm": 1.0619374513626099,
      "learning_rate": 5.0838574423480085e-05,
      "loss": 0.5623,
      "num_input_tokens_seen": 127168,
      "step": 195
    },
    {
      "epoch": 0.10482180293501048,
      "grad_norm": 0.8363428711891174,
      "learning_rate": 5.214884696016771e-05,
      "loss": 0.4587,
      "num_input_tokens_seen": 130176,
      "step": 200
    },
    {
      "epoch": 0.10744234800838574,
      "grad_norm": 0.8792678713798523,
      "learning_rate": 5.345911949685535e-05,
      "loss": 0.5325,
      "num_input_tokens_seen": 133056,
      "step": 205
    },
    {
      "epoch": 0.11006289308176101,
      "grad_norm": 0.8811668157577515,
      "learning_rate": 5.4769392033542975e-05,
      "loss": 0.456,
      "num_input_tokens_seen": 136864,
      "step": 210
    },
    {
      "epoch": 0.11268343815513626,
      "grad_norm": 1.3098993301391602,
      "learning_rate": 5.607966457023061e-05,
      "loss": 0.6188,
      "num_input_tokens_seen": 140064,
      "step": 215
    },
    {
      "epoch": 0.11530398322851153,
      "grad_norm": 1.001065731048584,
      "learning_rate": 5.7389937106918244e-05,
      "loss": 0.5567,
      "num_input_tokens_seen": 143712,
      "step": 220
    },
    {
      "epoch": 0.1179245283018868,
      "grad_norm": 1.0982869863510132,
      "learning_rate": 5.870020964360587e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 146880,
      "step": 225
    },
    {
      "epoch": 0.12054507337526206,
      "grad_norm": 1.0158226490020752,
      "learning_rate": 6.00104821802935e-05,
      "loss": 0.4988,
      "num_input_tokens_seen": 150560,
      "step": 230
    },
    {
      "epoch": 0.12316561844863731,
      "grad_norm": 0.9683811068534851,
      "learning_rate": 6.132075471698113e-05,
      "loss": 0.6588,
      "num_input_tokens_seen": 153664,
      "step": 235
    },
    {
      "epoch": 0.12578616352201258,
      "grad_norm": 1.1902754306793213,
      "learning_rate": 6.263102725366875e-05,
      "loss": 0.4852,
      "num_input_tokens_seen": 157568,
      "step": 240
    },
    {
      "epoch": 0.12840670859538783,
      "grad_norm": 1.3591293096542358,
      "learning_rate": 6.39412997903564e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 160512,
      "step": 245
    },
    {
      "epoch": 0.1310272536687631,
      "grad_norm": 0.6662598848342896,
      "learning_rate": 6.525157232704402e-05,
      "loss": 0.4922,
      "num_input_tokens_seen": 164512,
      "step": 250
    },
    {
      "epoch": 0.13364779874213836,
      "grad_norm": 1.7656142711639404,
      "learning_rate": 6.656184486373166e-05,
      "loss": 0.4092,
      "num_input_tokens_seen": 167200,
      "step": 255
    },
    {
      "epoch": 0.13626834381551362,
      "grad_norm": 0.8967506289482117,
      "learning_rate": 6.787211740041929e-05,
      "loss": 0.5102,
      "num_input_tokens_seen": 169984,
      "step": 260
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 0.8275458812713623,
      "learning_rate": 6.918238993710691e-05,
      "loss": 0.4771,
      "num_input_tokens_seen": 173856,
      "step": 265
    },
    {
      "epoch": 0.14150943396226415,
      "grad_norm": 1.7469079494476318,
      "learning_rate": 7.049266247379455e-05,
      "loss": 0.5465,
      "num_input_tokens_seen": 176192,
      "step": 270
    },
    {
      "epoch": 0.1441299790356394,
      "grad_norm": 0.9037020206451416,
      "learning_rate": 7.180293501048218e-05,
      "loss": 0.3969,
      "num_input_tokens_seen": 179840,
      "step": 275
    },
    {
      "epoch": 0.14675052410901468,
      "grad_norm": 0.5450003147125244,
      "learning_rate": 7.311320754716982e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 182976,
      "step": 280
    },
    {
      "epoch": 0.14937106918238993,
      "grad_norm": 1.1175267696380615,
      "learning_rate": 7.442348008385745e-05,
      "loss": 0.516,
      "num_input_tokens_seen": 186400,
      "step": 285
    },
    {
      "epoch": 0.1519916142557652,
      "grad_norm": 1.1265426874160767,
      "learning_rate": 7.573375262054507e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 190144,
      "step": 290
    },
    {
      "epoch": 0.15461215932914046,
      "grad_norm": 1.136690616607666,
      "learning_rate": 7.70440251572327e-05,
      "loss": 0.5394,
      "num_input_tokens_seen": 193344,
      "step": 295
    },
    {
      "epoch": 0.15723270440251572,
      "grad_norm": 2.2872507572174072,
      "learning_rate": 7.835429769392034e-05,
      "loss": 0.3889,
      "num_input_tokens_seen": 195904,
      "step": 300
    },
    {
      "epoch": 0.159853249475891,
      "grad_norm": 2.1735777854919434,
      "learning_rate": 7.966457023060797e-05,
      "loss": 0.5118,
      "num_input_tokens_seen": 198944,
      "step": 305
    },
    {
      "epoch": 0.16247379454926625,
      "grad_norm": 1.665367841720581,
      "learning_rate": 8.09748427672956e-05,
      "loss": 0.4761,
      "num_input_tokens_seen": 201792,
      "step": 310
    },
    {
      "epoch": 0.1650943396226415,
      "grad_norm": 0.9489037394523621,
      "learning_rate": 8.228511530398323e-05,
      "loss": 0.458,
      "num_input_tokens_seen": 206080,
      "step": 315
    },
    {
      "epoch": 0.16771488469601678,
      "grad_norm": 0.6093006134033203,
      "learning_rate": 8.359538784067086e-05,
      "loss": 0.5963,
      "num_input_tokens_seen": 209376,
      "step": 320
    },
    {
      "epoch": 0.17033542976939203,
      "grad_norm": 0.7816970944404602,
      "learning_rate": 8.490566037735848e-05,
      "loss": 0.5364,
      "num_input_tokens_seen": 212160,
      "step": 325
    },
    {
      "epoch": 0.17295597484276728,
      "grad_norm": 0.7518143057823181,
      "learning_rate": 8.621593291404613e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 216128,
      "step": 330
    },
    {
      "epoch": 0.17557651991614256,
      "grad_norm": 5.511392116546631,
      "learning_rate": 8.752620545073375e-05,
      "loss": 0.6306,
      "num_input_tokens_seen": 219232,
      "step": 335
    },
    {
      "epoch": 0.17819706498951782,
      "grad_norm": 3.665975332260132,
      "learning_rate": 8.883647798742137e-05,
      "loss": 0.4421,
      "num_input_tokens_seen": 222464,
      "step": 340
    },
    {
      "epoch": 0.18081761006289307,
      "grad_norm": 0.585472047328949,
      "learning_rate": 9.014675052410902e-05,
      "loss": 0.6928,
      "num_input_tokens_seen": 225184,
      "step": 345
    },
    {
      "epoch": 0.18343815513626835,
      "grad_norm": 0.4730232059955597,
      "learning_rate": 9.145702306079664e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 228000,
      "step": 350
    },
    {
      "epoch": 0.1860587002096436,
      "grad_norm": 0.5911393165588379,
      "learning_rate": 9.276729559748428e-05,
      "loss": 0.4242,
      "num_input_tokens_seen": 230944,
      "step": 355
    },
    {
      "epoch": 0.18867924528301888,
      "grad_norm": 0.7046552300453186,
      "learning_rate": 9.407756813417191e-05,
      "loss": 0.4395,
      "num_input_tokens_seen": 233728,
      "step": 360
    },
    {
      "epoch": 0.19129979035639413,
      "grad_norm": 0.7097725868225098,
      "learning_rate": 9.538784067085953e-05,
      "loss": 0.4838,
      "num_input_tokens_seen": 236480,
      "step": 365
    },
    {
      "epoch": 0.19392033542976939,
      "grad_norm": 1.236029863357544,
      "learning_rate": 9.669811320754718e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 239488,
      "step": 370
    },
    {
      "epoch": 0.19654088050314467,
      "grad_norm": 0.8019404411315918,
      "learning_rate": 9.80083857442348e-05,
      "loss": 0.6065,
      "num_input_tokens_seen": 242144,
      "step": 375
    },
    {
      "epoch": 0.19916142557651992,
      "grad_norm": 0.4889918267726898,
      "learning_rate": 9.931865828092243e-05,
      "loss": 0.5109,
      "num_input_tokens_seen": 245216,
      "step": 380
    },
    {
      "epoch": 0.20178197064989517,
      "grad_norm": 0.5759305357933044,
      "learning_rate": 0.00010062893081761007,
      "loss": 0.66,
      "num_input_tokens_seen": 249632,
      "step": 385
    },
    {
      "epoch": 0.20440251572327045,
      "grad_norm": 0.3798573911190033,
      "learning_rate": 0.0001019392033542977,
      "loss": 0.5418,
      "num_input_tokens_seen": 253312,
      "step": 390
    },
    {
      "epoch": 0.2070230607966457,
      "grad_norm": 0.4701255261898041,
      "learning_rate": 0.00010324947589098532,
      "loss": 0.499,
      "num_input_tokens_seen": 256384,
      "step": 395
    },
    {
      "epoch": 0.20964360587002095,
      "grad_norm": 4.5595903396606445,
      "learning_rate": 0.00010455974842767296,
      "loss": 0.4663,
      "num_input_tokens_seen": 259744,
      "step": 400
    },
    {
      "epoch": 0.21226415094339623,
      "grad_norm": 0.6655166149139404,
      "learning_rate": 0.00010587002096436059,
      "loss": 0.7084,
      "num_input_tokens_seen": 263456,
      "step": 405
    },
    {
      "epoch": 0.2148846960167715,
      "grad_norm": 0.7401774525642395,
      "learning_rate": 0.00010718029350104821,
      "loss": 0.5162,
      "num_input_tokens_seen": 266496,
      "step": 410
    },
    {
      "epoch": 0.21750524109014674,
      "grad_norm": 0.7847152352333069,
      "learning_rate": 0.00010849056603773586,
      "loss": 0.5897,
      "num_input_tokens_seen": 269600,
      "step": 415
    },
    {
      "epoch": 0.22012578616352202,
      "grad_norm": 0.4578048586845398,
      "learning_rate": 0.00010980083857442348,
      "loss": 0.507,
      "num_input_tokens_seen": 273152,
      "step": 420
    },
    {
      "epoch": 0.22274633123689727,
      "grad_norm": 0.5239537954330444,
      "learning_rate": 0.0001111111111111111,
      "loss": 0.6495,
      "num_input_tokens_seen": 276992,
      "step": 425
    },
    {
      "epoch": 0.22536687631027252,
      "grad_norm": 0.7400632500648499,
      "learning_rate": 0.00011242138364779875,
      "loss": 0.6555,
      "num_input_tokens_seen": 279296,
      "step": 430
    },
    {
      "epoch": 0.2279874213836478,
      "grad_norm": 0.24519266188144684,
      "learning_rate": 0.00011373165618448637,
      "loss": 0.4239,
      "num_input_tokens_seen": 283296,
      "step": 435
    },
    {
      "epoch": 0.23060796645702306,
      "grad_norm": 0.9140758514404297,
      "learning_rate": 0.00011504192872117402,
      "loss": 0.6821,
      "num_input_tokens_seen": 286016,
      "step": 440
    },
    {
      "epoch": 0.23322851153039834,
      "grad_norm": 0.6755123734474182,
      "learning_rate": 0.00011635220125786164,
      "loss": 0.5629,
      "num_input_tokens_seen": 289248,
      "step": 445
    },
    {
      "epoch": 0.2358490566037736,
      "grad_norm": 0.3885110020637512,
      "learning_rate": 0.00011766247379454926,
      "loss": 0.5791,
      "num_input_tokens_seen": 292160,
      "step": 450
    },
    {
      "epoch": 0.23846960167714884,
      "grad_norm": 0.4275256395339966,
      "learning_rate": 0.00011897274633123691,
      "loss": 0.5262,
      "num_input_tokens_seen": 295296,
      "step": 455
    },
    {
      "epoch": 0.24109014675052412,
      "grad_norm": 0.7501170635223389,
      "learning_rate": 0.00012028301886792453,
      "loss": 0.5856,
      "num_input_tokens_seen": 299360,
      "step": 460
    },
    {
      "epoch": 0.24371069182389937,
      "grad_norm": 0.304898202419281,
      "learning_rate": 0.00012159329140461216,
      "loss": 0.479,
      "num_input_tokens_seen": 303072,
      "step": 465
    },
    {
      "epoch": 0.24633123689727462,
      "grad_norm": 0.39936572313308716,
      "learning_rate": 0.0001229035639412998,
      "loss": 0.4741,
      "num_input_tokens_seen": 307616,
      "step": 470
    },
    {
      "epoch": 0.2489517819706499,
      "grad_norm": 0.3903646767139435,
      "learning_rate": 0.00012421383647798743,
      "loss": 0.4627,
      "num_input_tokens_seen": 310112,
      "step": 475
    },
    {
      "epoch": 0.25157232704402516,
      "grad_norm": 0.7134882211685181,
      "learning_rate": 0.00012552410901467507,
      "loss": 0.4878,
      "num_input_tokens_seen": 313472,
      "step": 480
    },
    {
      "epoch": 0.25419287211740044,
      "grad_norm": 0.3349967896938324,
      "learning_rate": 0.00012683438155136267,
      "loss": 0.5157,
      "num_input_tokens_seen": 316128,
      "step": 485
    },
    {
      "epoch": 0.25681341719077566,
      "grad_norm": 0.35967978835105896,
      "learning_rate": 0.0001281446540880503,
      "loss": 0.4692,
      "num_input_tokens_seen": 319584,
      "step": 490
    },
    {
      "epoch": 0.25943396226415094,
      "grad_norm": 0.3216862976551056,
      "learning_rate": 0.00012945492662473794,
      "loss": 0.5515,
      "num_input_tokens_seen": 322496,
      "step": 495
    },
    {
      "epoch": 0.2620545073375262,
      "grad_norm": 0.5329647064208984,
      "learning_rate": 0.00013076519916142558,
      "loss": 0.832,
      "num_input_tokens_seen": 325120,
      "step": 500
    },
    {
      "epoch": 0.26467505241090145,
      "grad_norm": 0.6499010324478149,
      "learning_rate": 0.0001320754716981132,
      "loss": 0.6141,
      "num_input_tokens_seen": 327840,
      "step": 505
    },
    {
      "epoch": 0.2672955974842767,
      "grad_norm": 0.4975769519805908,
      "learning_rate": 0.00013338574423480085,
      "loss": 0.4243,
      "num_input_tokens_seen": 331776,
      "step": 510
    },
    {
      "epoch": 0.269916142557652,
      "grad_norm": 0.9727177619934082,
      "learning_rate": 0.00013469601677148845,
      "loss": 0.5228,
      "num_input_tokens_seen": 336544,
      "step": 515
    },
    {
      "epoch": 0.27253668763102723,
      "grad_norm": 0.3398466408252716,
      "learning_rate": 0.0001360062893081761,
      "loss": 0.6741,
      "num_input_tokens_seen": 340768,
      "step": 520
    },
    {
      "epoch": 0.2751572327044025,
      "grad_norm": 0.4460262358188629,
      "learning_rate": 0.00013731656184486375,
      "loss": 0.644,
      "num_input_tokens_seen": 343296,
      "step": 525
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.37911689281463623,
      "learning_rate": 0.00013862683438155136,
      "loss": 0.4166,
      "num_input_tokens_seen": 346848,
      "step": 530
    },
    {
      "epoch": 0.280398322851153,
      "grad_norm": 0.4375778138637543,
      "learning_rate": 0.000139937106918239,
      "loss": 0.5531,
      "num_input_tokens_seen": 349632,
      "step": 535
    },
    {
      "epoch": 0.2830188679245283,
      "grad_norm": 0.5336134433746338,
      "learning_rate": 0.00014124737945492663,
      "loss": 0.5366,
      "num_input_tokens_seen": 353024,
      "step": 540
    },
    {
      "epoch": 0.2856394129979036,
      "grad_norm": 0.45630016922950745,
      "learning_rate": 0.00014255765199161423,
      "loss": 0.5077,
      "num_input_tokens_seen": 355552,
      "step": 545
    },
    {
      "epoch": 0.2882599580712788,
      "grad_norm": 0.5667334794998169,
      "learning_rate": 0.0001438679245283019,
      "loss": 0.4653,
      "num_input_tokens_seen": 360128,
      "step": 550
    },
    {
      "epoch": 0.2908805031446541,
      "grad_norm": 0.30445241928100586,
      "learning_rate": 0.00014517819706498953,
      "loss": 0.5146,
      "num_input_tokens_seen": 363360,
      "step": 555
    },
    {
      "epoch": 0.29350104821802936,
      "grad_norm": 0.44088080525398254,
      "learning_rate": 0.00014648846960167716,
      "loss": 0.517,
      "num_input_tokens_seen": 366144,
      "step": 560
    },
    {
      "epoch": 0.29612159329140464,
      "grad_norm": 0.331349641084671,
      "learning_rate": 0.00014779874213836477,
      "loss": 0.5415,
      "num_input_tokens_seen": 369216,
      "step": 565
    },
    {
      "epoch": 0.29874213836477986,
      "grad_norm": 0.853751003742218,
      "learning_rate": 0.00014910901467505243,
      "loss": 0.6098,
      "num_input_tokens_seen": 372512,
      "step": 570
    },
    {
      "epoch": 0.30136268343815514,
      "grad_norm": 0.8114909529685974,
      "learning_rate": 0.00015041928721174007,
      "loss": 0.5425,
      "num_input_tokens_seen": 374976,
      "step": 575
    },
    {
      "epoch": 0.3039832285115304,
      "grad_norm": 0.7637882232666016,
      "learning_rate": 0.00015172955974842767,
      "loss": 0.4523,
      "num_input_tokens_seen": 377632,
      "step": 580
    },
    {
      "epoch": 0.30660377358490565,
      "grad_norm": 0.38486000895500183,
      "learning_rate": 0.0001530398322851153,
      "loss": 0.6788,
      "num_input_tokens_seen": 380768,
      "step": 585
    },
    {
      "epoch": 0.30922431865828093,
      "grad_norm": 0.336457759141922,
      "learning_rate": 0.00015435010482180294,
      "loss": 0.5009,
      "num_input_tokens_seen": 383520,
      "step": 590
    },
    {
      "epoch": 0.3118448637316562,
      "grad_norm": 0.9971457123756409,
      "learning_rate": 0.00015566037735849058,
      "loss": 0.7855,
      "num_input_tokens_seen": 386496,
      "step": 595
    },
    {
      "epoch": 0.31446540880503143,
      "grad_norm": 0.6216027140617371,
      "learning_rate": 0.0001569706498951782,
      "loss": 0.5911,
      "num_input_tokens_seen": 390464,
      "step": 600
    },
    {
      "epoch": 0.3170859538784067,
      "grad_norm": 0.5926283001899719,
      "learning_rate": 0.00015828092243186584,
      "loss": 0.4598,
      "num_input_tokens_seen": 393440,
      "step": 605
    },
    {
      "epoch": 0.319706498951782,
      "grad_norm": 0.302273690700531,
      "learning_rate": 0.00015959119496855345,
      "loss": 0.4559,
      "num_input_tokens_seen": 398336,
      "step": 610
    },
    {
      "epoch": 0.3223270440251572,
      "grad_norm": 0.8800482153892517,
      "learning_rate": 0.00016090146750524109,
      "loss": 0.4361,
      "num_input_tokens_seen": 401504,
      "step": 615
    },
    {
      "epoch": 0.3249475890985325,
      "grad_norm": 0.6246578097343445,
      "learning_rate": 0.00016221174004192875,
      "loss": 0.5046,
      "num_input_tokens_seen": 404864,
      "step": 620
    },
    {
      "epoch": 0.3275681341719078,
      "grad_norm": 0.20104533433914185,
      "learning_rate": 0.00016352201257861635,
      "loss": 0.5719,
      "num_input_tokens_seen": 409056,
      "step": 625
    },
    {
      "epoch": 0.330188679245283,
      "grad_norm": 0.3319444954395294,
      "learning_rate": 0.000164832285115304,
      "loss": 0.5561,
      "num_input_tokens_seen": 412544,
      "step": 630
    },
    {
      "epoch": 0.3328092243186583,
      "grad_norm": 0.6465520858764648,
      "learning_rate": 0.00016614255765199162,
      "loss": 0.5529,
      "num_input_tokens_seen": 415520,
      "step": 635
    },
    {
      "epoch": 0.33542976939203356,
      "grad_norm": 0.3829881548881531,
      "learning_rate": 0.00016745283018867923,
      "loss": 0.9051,
      "num_input_tokens_seen": 417760,
      "step": 640
    },
    {
      "epoch": 0.3380503144654088,
      "grad_norm": 0.32239365577697754,
      "learning_rate": 0.0001687631027253669,
      "loss": 0.5686,
      "num_input_tokens_seen": 421728,
      "step": 645
    },
    {
      "epoch": 0.34067085953878407,
      "grad_norm": 2.002542734146118,
      "learning_rate": 0.00017007337526205453,
      "loss": 0.5226,
      "num_input_tokens_seen": 425664,
      "step": 650
    },
    {
      "epoch": 0.34329140461215935,
      "grad_norm": 0.537585437297821,
      "learning_rate": 0.00017138364779874213,
      "loss": 0.4562,
      "num_input_tokens_seen": 428896,
      "step": 655
    },
    {
      "epoch": 0.34591194968553457,
      "grad_norm": 1.001967430114746,
      "learning_rate": 0.00017269392033542977,
      "loss": 0.5403,
      "num_input_tokens_seen": 431744,
      "step": 660
    },
    {
      "epoch": 0.34853249475890985,
      "grad_norm": 0.3008553087711334,
      "learning_rate": 0.0001740041928721174,
      "loss": 0.5323,
      "num_input_tokens_seen": 435520,
      "step": 665
    },
    {
      "epoch": 0.35115303983228513,
      "grad_norm": 0.24896055459976196,
      "learning_rate": 0.00017531446540880504,
      "loss": 0.4759,
      "num_input_tokens_seen": 438592,
      "step": 670
    },
    {
      "epoch": 0.35377358490566035,
      "grad_norm": 0.29194894433021545,
      "learning_rate": 0.00017662473794549267,
      "loss": 0.5443,
      "num_input_tokens_seen": 441664,
      "step": 675
    },
    {
      "epoch": 0.35639412997903563,
      "grad_norm": 0.6346237659454346,
      "learning_rate": 0.0001779350104821803,
      "loss": 0.5879,
      "num_input_tokens_seen": 444832,
      "step": 680
    },
    {
      "epoch": 0.3590146750524109,
      "grad_norm": 0.452536404132843,
      "learning_rate": 0.0001792452830188679,
      "loss": 0.6109,
      "num_input_tokens_seen": 447392,
      "step": 685
    },
    {
      "epoch": 0.36163522012578614,
      "grad_norm": 0.5201688408851624,
      "learning_rate": 0.00018055555555555555,
      "loss": 0.5567,
      "num_input_tokens_seen": 450528,
      "step": 690
    },
    {
      "epoch": 0.3642557651991614,
      "grad_norm": 0.4112483859062195,
      "learning_rate": 0.0001818658280922432,
      "loss": 0.4362,
      "num_input_tokens_seen": 453504,
      "step": 695
    },
    {
      "epoch": 0.3668763102725367,
      "grad_norm": 1.0383464097976685,
      "learning_rate": 0.00018317610062893082,
      "loss": 0.6543,
      "num_input_tokens_seen": 456288,
      "step": 700
    },
    {
      "epoch": 0.3694968553459119,
      "grad_norm": 1.0916218757629395,
      "learning_rate": 0.00018448637316561845,
      "loss": 0.4207,
      "num_input_tokens_seen": 459840,
      "step": 705
    },
    {
      "epoch": 0.3721174004192872,
      "grad_norm": 0.2630499601364136,
      "learning_rate": 0.00018579664570230608,
      "loss": 0.4416,
      "num_input_tokens_seen": 463168,
      "step": 710
    },
    {
      "epoch": 0.3747379454926625,
      "grad_norm": 0.38489264249801636,
      "learning_rate": 0.0001871069182389937,
      "loss": 0.4991,
      "num_input_tokens_seen": 466112,
      "step": 715
    },
    {
      "epoch": 0.37735849056603776,
      "grad_norm": 0.43404844403266907,
      "learning_rate": 0.00018841719077568135,
      "loss": 0.646,
      "num_input_tokens_seen": 469568,
      "step": 720
    },
    {
      "epoch": 0.379979035639413,
      "grad_norm": 0.3157044053077698,
      "learning_rate": 0.000189727463312369,
      "loss": 0.4312,
      "num_input_tokens_seen": 472896,
      "step": 725
    },
    {
      "epoch": 0.38259958071278827,
      "grad_norm": 0.3362652063369751,
      "learning_rate": 0.00019103773584905662,
      "loss": 0.3465,
      "num_input_tokens_seen": 475744,
      "step": 730
    },
    {
      "epoch": 0.38522012578616355,
      "grad_norm": 0.13580411672592163,
      "learning_rate": 0.00019234800838574423,
      "loss": 0.5233,
      "num_input_tokens_seen": 481216,
      "step": 735
    },
    {
      "epoch": 0.38784067085953877,
      "grad_norm": 0.38262316584587097,
      "learning_rate": 0.00019365828092243186,
      "loss": 0.5432,
      "num_input_tokens_seen": 483488,
      "step": 740
    },
    {
      "epoch": 0.39046121593291405,
      "grad_norm": 0.23297370970249176,
      "learning_rate": 0.00019496855345911953,
      "loss": 0.5759,
      "num_input_tokens_seen": 487072,
      "step": 745
    },
    {
      "epoch": 0.39308176100628933,
      "grad_norm": 0.2818368077278137,
      "learning_rate": 0.00019627882599580713,
      "loss": 0.5275,
      "num_input_tokens_seen": 490496,
      "step": 750
    },
    {
      "epoch": 0.39570230607966456,
      "grad_norm": 0.2653247117996216,
      "learning_rate": 0.00019758909853249477,
      "loss": 0.4793,
      "num_input_tokens_seen": 493824,
      "step": 755
    },
    {
      "epoch": 0.39832285115303984,
      "grad_norm": 0.34078967571258545,
      "learning_rate": 0.0001988993710691824,
      "loss": 0.6808,
      "num_input_tokens_seen": 496192,
      "step": 760
    },
    {
      "epoch": 0.4009433962264151,
      "grad_norm": 0.22886693477630615,
      "learning_rate": 0.00020020964360587,
      "loss": 0.6046,
      "num_input_tokens_seen": 498880,
      "step": 765
    },
    {
      "epoch": 0.40356394129979034,
      "grad_norm": 0.2967199385166168,
      "learning_rate": 0.00020151991614255767,
      "loss": 0.5254,
      "num_input_tokens_seen": 502016,
      "step": 770
    },
    {
      "epoch": 0.4061844863731656,
      "grad_norm": 0.16838428378105164,
      "learning_rate": 0.0002028301886792453,
      "loss": 0.5381,
      "num_input_tokens_seen": 505120,
      "step": 775
    },
    {
      "epoch": 0.4088050314465409,
      "grad_norm": 0.26053962111473083,
      "learning_rate": 0.0002041404612159329,
      "loss": 0.5089,
      "num_input_tokens_seen": 508256,
      "step": 780
    },
    {
      "epoch": 0.4114255765199161,
      "grad_norm": 0.24549201130867004,
      "learning_rate": 0.00020545073375262055,
      "loss": 0.5151,
      "num_input_tokens_seen": 511776,
      "step": 785
    },
    {
      "epoch": 0.4140461215932914,
      "grad_norm": 0.5920221209526062,
      "learning_rate": 0.00020676100628930818,
      "loss": 0.4924,
      "num_input_tokens_seen": 514464,
      "step": 790
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.3391115963459015,
      "learning_rate": 0.00020807127882599581,
      "loss": 0.5073,
      "num_input_tokens_seen": 518144,
      "step": 795
    },
    {
      "epoch": 0.4192872117400419,
      "grad_norm": 0.3965491056442261,
      "learning_rate": 0.00020938155136268345,
      "loss": 0.5474,
      "num_input_tokens_seen": 520768,
      "step": 800
    },
    {
      "epoch": 0.4219077568134172,
      "grad_norm": 0.3811449110507965,
      "learning_rate": 0.00021069182389937108,
      "loss": 0.6547,
      "num_input_tokens_seen": 523808,
      "step": 805
    },
    {
      "epoch": 0.42452830188679247,
      "grad_norm": 0.32492467761039734,
      "learning_rate": 0.0002120020964360587,
      "loss": 0.3903,
      "num_input_tokens_seen": 527136,
      "step": 810
    },
    {
      "epoch": 0.4271488469601677,
      "grad_norm": 0.5750910043716431,
      "learning_rate": 0.00021331236897274632,
      "loss": 0.6412,
      "num_input_tokens_seen": 530240,
      "step": 815
    },
    {
      "epoch": 0.429769392033543,
      "grad_norm": 0.38186442852020264,
      "learning_rate": 0.00021462264150943399,
      "loss": 0.5321,
      "num_input_tokens_seen": 534496,
      "step": 820
    },
    {
      "epoch": 0.43238993710691825,
      "grad_norm": 0.3879508972167969,
      "learning_rate": 0.0002159329140461216,
      "loss": 0.5591,
      "num_input_tokens_seen": 538624,
      "step": 825
    },
    {
      "epoch": 0.4350104821802935,
      "grad_norm": 0.5815920829772949,
      "learning_rate": 0.00021724318658280923,
      "loss": 0.5263,
      "num_input_tokens_seen": 542112,
      "step": 830
    },
    {
      "epoch": 0.43763102725366876,
      "grad_norm": 0.24620421230793,
      "learning_rate": 0.00021855345911949686,
      "loss": 0.6318,
      "num_input_tokens_seen": 545408,
      "step": 835
    },
    {
      "epoch": 0.44025157232704404,
      "grad_norm": 0.20083288848400116,
      "learning_rate": 0.00021986373165618447,
      "loss": 0.5099,
      "num_input_tokens_seen": 548416,
      "step": 840
    },
    {
      "epoch": 0.44287211740041926,
      "grad_norm": 0.31087249517440796,
      "learning_rate": 0.00022117400419287213,
      "loss": 0.552,
      "num_input_tokens_seen": 551264,
      "step": 845
    },
    {
      "epoch": 0.44549266247379454,
      "grad_norm": 0.17727473378181458,
      "learning_rate": 0.00022248427672955977,
      "loss": 0.4347,
      "num_input_tokens_seen": 554592,
      "step": 850
    },
    {
      "epoch": 0.4481132075471698,
      "grad_norm": 0.3791254758834839,
      "learning_rate": 0.00022379454926624737,
      "loss": 0.4028,
      "num_input_tokens_seen": 558304,
      "step": 855
    },
    {
      "epoch": 0.45073375262054505,
      "grad_norm": 0.2870747148990631,
      "learning_rate": 0.000225104821802935,
      "loss": 0.5622,
      "num_input_tokens_seen": 561248,
      "step": 860
    },
    {
      "epoch": 0.4533542976939203,
      "grad_norm": 0.2984979450702667,
      "learning_rate": 0.00022641509433962264,
      "loss": 0.3698,
      "num_input_tokens_seen": 564352,
      "step": 865
    },
    {
      "epoch": 0.4559748427672956,
      "grad_norm": 0.4597456455230713,
      "learning_rate": 0.00022772536687631028,
      "loss": 0.482,
      "num_input_tokens_seen": 567712,
      "step": 870
    },
    {
      "epoch": 0.4585953878406709,
      "grad_norm": 0.4131336510181427,
      "learning_rate": 0.0002290356394129979,
      "loss": 0.5399,
      "num_input_tokens_seen": 570240,
      "step": 875
    },
    {
      "epoch": 0.4612159329140461,
      "grad_norm": 0.4534759223461151,
      "learning_rate": 0.00023034591194968554,
      "loss": 0.5589,
      "num_input_tokens_seen": 572768,
      "step": 880
    },
    {
      "epoch": 0.4638364779874214,
      "grad_norm": 0.3893905580043793,
      "learning_rate": 0.00023165618448637318,
      "loss": 0.5674,
      "num_input_tokens_seen": 576512,
      "step": 885
    },
    {
      "epoch": 0.46645702306079667,
      "grad_norm": 0.5613384246826172,
      "learning_rate": 0.00023296645702306079,
      "loss": 0.5461,
      "num_input_tokens_seen": 579264,
      "step": 890
    },
    {
      "epoch": 0.4690775681341719,
      "grad_norm": 0.33013033866882324,
      "learning_rate": 0.00023427672955974845,
      "loss": 0.5286,
      "num_input_tokens_seen": 581440,
      "step": 895
    },
    {
      "epoch": 0.4716981132075472,
      "grad_norm": 0.2530709505081177,
      "learning_rate": 0.00023558700209643608,
      "loss": 0.368,
      "num_input_tokens_seen": 584544,
      "step": 900
    },
    {
      "epoch": 0.47431865828092246,
      "grad_norm": 0.5503144860267639,
      "learning_rate": 0.0002368972746331237,
      "loss": 0.5545,
      "num_input_tokens_seen": 588160,
      "step": 905
    },
    {
      "epoch": 0.4769392033542977,
      "grad_norm": 0.6314334869384766,
      "learning_rate": 0.00023820754716981132,
      "loss": 0.4696,
      "num_input_tokens_seen": 590400,
      "step": 910
    },
    {
      "epoch": 0.47955974842767296,
      "grad_norm": 0.37460392713546753,
      "learning_rate": 0.00023951781970649896,
      "loss": 0.4617,
      "num_input_tokens_seen": 593440,
      "step": 915
    },
    {
      "epoch": 0.48218029350104824,
      "grad_norm": 0.41681787371635437,
      "learning_rate": 0.0002408280922431866,
      "loss": 0.4816,
      "num_input_tokens_seen": 596480,
      "step": 920
    },
    {
      "epoch": 0.48480083857442346,
      "grad_norm": 0.3374175727367401,
      "learning_rate": 0.00024213836477987423,
      "loss": 0.4835,
      "num_input_tokens_seen": 599392,
      "step": 925
    },
    {
      "epoch": 0.48742138364779874,
      "grad_norm": 0.4046839773654938,
      "learning_rate": 0.00024344863731656186,
      "loss": 0.4272,
      "num_input_tokens_seen": 602432,
      "step": 930
    },
    {
      "epoch": 0.490041928721174,
      "grad_norm": 0.2516684830188751,
      "learning_rate": 0.00024475890985324947,
      "loss": 0.4743,
      "num_input_tokens_seen": 604512,
      "step": 935
    },
    {
      "epoch": 0.49266247379454925,
      "grad_norm": 0.11231878399848938,
      "learning_rate": 0.0002460691823899371,
      "loss": 0.4479,
      "num_input_tokens_seen": 608864,
      "step": 940
    },
    {
      "epoch": 0.49528301886792453,
      "grad_norm": 0.29005101323127747,
      "learning_rate": 0.00024737945492662474,
      "loss": 0.5193,
      "num_input_tokens_seen": 612448,
      "step": 945
    },
    {
      "epoch": 0.4979035639412998,
      "grad_norm": 0.8764209151268005,
      "learning_rate": 0.00024868972746331237,
      "loss": 0.4832,
      "num_input_tokens_seen": 614944,
      "step": 950
    },
    {
      "epoch": 0.500524109014675,
      "grad_norm": 0.3534151315689087,
      "learning_rate": 0.00025,
      "loss": 0.4949,
      "num_input_tokens_seen": 617472,
      "step": 955
    },
    {
      "epoch": 0.5031446540880503,
      "grad_norm": 0.38239341974258423,
      "learning_rate": 0.00025131027253668764,
      "loss": 0.4492,
      "num_input_tokens_seen": 620192,
      "step": 960
    },
    {
      "epoch": 0.5057651991614256,
      "grad_norm": 0.20880283415317535,
      "learning_rate": 0.0002526205450733753,
      "loss": 0.5445,
      "num_input_tokens_seen": 623232,
      "step": 965
    },
    {
      "epoch": 0.5083857442348009,
      "grad_norm": 0.32443922758102417,
      "learning_rate": 0.0002539308176100629,
      "loss": 0.6504,
      "num_input_tokens_seen": 626016,
      "step": 970
    },
    {
      "epoch": 0.5110062893081762,
      "grad_norm": 0.2768639326095581,
      "learning_rate": 0.0002552410901467505,
      "loss": 0.468,
      "num_input_tokens_seen": 629472,
      "step": 975
    },
    {
      "epoch": 0.5136268343815513,
      "grad_norm": 0.6497332453727722,
      "learning_rate": 0.0002565513626834381,
      "loss": 0.5524,
      "num_input_tokens_seen": 632608,
      "step": 980
    },
    {
      "epoch": 0.5162473794549266,
      "grad_norm": 0.485954225063324,
      "learning_rate": 0.0002578616352201258,
      "loss": 0.4089,
      "num_input_tokens_seen": 636192,
      "step": 985
    },
    {
      "epoch": 0.5188679245283019,
      "grad_norm": 0.17553697526454926,
      "learning_rate": 0.00025917190775681345,
      "loss": 0.4816,
      "num_input_tokens_seen": 640544,
      "step": 990
    },
    {
      "epoch": 0.5214884696016772,
      "grad_norm": 0.31874069571495056,
      "learning_rate": 0.0002604821802935011,
      "loss": 0.4726,
      "num_input_tokens_seen": 644448,
      "step": 995
    },
    {
      "epoch": 0.5241090146750524,
      "grad_norm": 0.17051485180854797,
      "learning_rate": 0.0002617924528301887,
      "loss": 0.4626,
      "num_input_tokens_seen": 648288,
      "step": 1000
    },
    {
      "epoch": 0.5267295597484277,
      "grad_norm": 0.5744087100028992,
      "learning_rate": 0.0002631027253668763,
      "loss": 0.6481,
      "num_input_tokens_seen": 651296,
      "step": 1005
    },
    {
      "epoch": 0.5293501048218029,
      "grad_norm": 0.25427722930908203,
      "learning_rate": 0.00026441299790356393,
      "loss": 0.4141,
      "num_input_tokens_seen": 654176,
      "step": 1010
    },
    {
      "epoch": 0.5319706498951782,
      "grad_norm": 0.26382318139076233,
      "learning_rate": 0.00026572327044025156,
      "loss": 0.5462,
      "num_input_tokens_seen": 657664,
      "step": 1015
    },
    {
      "epoch": 0.5345911949685535,
      "grad_norm": 0.2597537934780121,
      "learning_rate": 0.0002670335429769392,
      "loss": 0.5996,
      "num_input_tokens_seen": 660064,
      "step": 1020
    },
    {
      "epoch": 0.5372117400419287,
      "grad_norm": 0.38650527596473694,
      "learning_rate": 0.00026834381551362683,
      "loss": 0.6091,
      "num_input_tokens_seen": 662880,
      "step": 1025
    },
    {
      "epoch": 0.539832285115304,
      "grad_norm": 0.2523575723171234,
      "learning_rate": 0.0002696540880503145,
      "loss": 0.4494,
      "num_input_tokens_seen": 665920,
      "step": 1030
    },
    {
      "epoch": 0.5424528301886793,
      "grad_norm": 0.33034566044807434,
      "learning_rate": 0.0002709643605870021,
      "loss": 0.4488,
      "num_input_tokens_seen": 668864,
      "step": 1035
    },
    {
      "epoch": 0.5450733752620545,
      "grad_norm": 0.2892834544181824,
      "learning_rate": 0.00027227463312368973,
      "loss": 0.4613,
      "num_input_tokens_seen": 671776,
      "step": 1040
    },
    {
      "epoch": 0.5476939203354297,
      "grad_norm": 0.2368573248386383,
      "learning_rate": 0.00027358490566037737,
      "loss": 0.5574,
      "num_input_tokens_seen": 674912,
      "step": 1045
    },
    {
      "epoch": 0.550314465408805,
      "grad_norm": 0.19301189482212067,
      "learning_rate": 0.000274895178197065,
      "loss": 0.3901,
      "num_input_tokens_seen": 678368,
      "step": 1050
    },
    {
      "epoch": 0.5529350104821803,
      "grad_norm": 0.1468258947134018,
      "learning_rate": 0.00027620545073375264,
      "loss": 0.5479,
      "num_input_tokens_seen": 682336,
      "step": 1055
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.5694209933280945,
      "learning_rate": 0.00027751572327044027,
      "loss": 0.4777,
      "num_input_tokens_seen": 685760,
      "step": 1060
    },
    {
      "epoch": 0.5581761006289309,
      "grad_norm": 0.452732115983963,
      "learning_rate": 0.00027882599580712785,
      "loss": 0.4291,
      "num_input_tokens_seen": 688480,
      "step": 1065
    },
    {
      "epoch": 0.560796645702306,
      "grad_norm": 0.18916817009449005,
      "learning_rate": 0.0002801362683438155,
      "loss": 0.5916,
      "num_input_tokens_seen": 692064,
      "step": 1070
    },
    {
      "epoch": 0.5634171907756813,
      "grad_norm": 0.4808495342731476,
      "learning_rate": 0.0002814465408805031,
      "loss": 0.5582,
      "num_input_tokens_seen": 694464,
      "step": 1075
    },
    {
      "epoch": 0.5660377358490566,
      "grad_norm": 0.22980323433876038,
      "learning_rate": 0.0002827568134171908,
      "loss": 0.5032,
      "num_input_tokens_seen": 697344,
      "step": 1080
    },
    {
      "epoch": 0.5686582809224319,
      "grad_norm": 0.4706246852874756,
      "learning_rate": 0.00028406708595387844,
      "loss": 0.4889,
      "num_input_tokens_seen": 700256,
      "step": 1085
    },
    {
      "epoch": 0.5712788259958071,
      "grad_norm": 0.19461442530155182,
      "learning_rate": 0.0002853773584905661,
      "loss": 0.46,
      "num_input_tokens_seen": 703968,
      "step": 1090
    },
    {
      "epoch": 0.5738993710691824,
      "grad_norm": 0.1531781107187271,
      "learning_rate": 0.00028668763102725366,
      "loss": 0.4891,
      "num_input_tokens_seen": 708160,
      "step": 1095
    },
    {
      "epoch": 0.5765199161425576,
      "grad_norm": 0.2523746192455292,
      "learning_rate": 0.0002879979035639413,
      "loss": 0.68,
      "num_input_tokens_seen": 710976,
      "step": 1100
    },
    {
      "epoch": 0.5791404612159329,
      "grad_norm": 0.7362321019172668,
      "learning_rate": 0.00028930817610062893,
      "loss": 0.6241,
      "num_input_tokens_seen": 713696,
      "step": 1105
    },
    {
      "epoch": 0.5817610062893082,
      "grad_norm": 0.39760148525238037,
      "learning_rate": 0.00029061844863731656,
      "loss": 0.4502,
      "num_input_tokens_seen": 716608,
      "step": 1110
    },
    {
      "epoch": 0.5843815513626834,
      "grad_norm": 0.37051281332969666,
      "learning_rate": 0.0002919287211740042,
      "loss": 0.4804,
      "num_input_tokens_seen": 719488,
      "step": 1115
    },
    {
      "epoch": 0.5870020964360587,
      "grad_norm": 0.2023560255765915,
      "learning_rate": 0.00029323899371069183,
      "loss": 0.3935,
      "num_input_tokens_seen": 722304,
      "step": 1120
    },
    {
      "epoch": 0.589622641509434,
      "grad_norm": 0.3054812252521515,
      "learning_rate": 0.00029454926624737946,
      "loss": 0.4246,
      "num_input_tokens_seen": 725472,
      "step": 1125
    },
    {
      "epoch": 0.5922431865828093,
      "grad_norm": 0.26221963763237,
      "learning_rate": 0.0002958595387840671,
      "loss": 0.3642,
      "num_input_tokens_seen": 728896,
      "step": 1130
    },
    {
      "epoch": 0.5948637316561844,
      "grad_norm": 0.3821733295917511,
      "learning_rate": 0.00029716981132075473,
      "loss": 0.4236,
      "num_input_tokens_seen": 732000,
      "step": 1135
    },
    {
      "epoch": 0.5974842767295597,
      "grad_norm": 4.769843101501465,
      "learning_rate": 0.00029848008385744237,
      "loss": 0.5632,
      "num_input_tokens_seen": 735328,
      "step": 1140
    },
    {
      "epoch": 0.600104821802935,
      "grad_norm": 0.17404742538928986,
      "learning_rate": 0.00029979035639413,
      "loss": 0.3775,
      "num_input_tokens_seen": 738528,
      "step": 1145
    },
    {
      "epoch": 0.6027253668763103,
      "grad_norm": 0.28083541989326477,
      "learning_rate": 0.00030110062893081764,
      "loss": 0.5964,
      "num_input_tokens_seen": 741376,
      "step": 1150
    },
    {
      "epoch": 0.6053459119496856,
      "grad_norm": 0.24412387609481812,
      "learning_rate": 0.00030241090146750527,
      "loss": 0.5261,
      "num_input_tokens_seen": 743872,
      "step": 1155
    },
    {
      "epoch": 0.6079664570230608,
      "grad_norm": 0.1953205168247223,
      "learning_rate": 0.00030372117400419285,
      "loss": 0.5389,
      "num_input_tokens_seen": 746720,
      "step": 1160
    },
    {
      "epoch": 0.610587002096436,
      "grad_norm": 0.2395385503768921,
      "learning_rate": 0.0003050314465408805,
      "loss": 0.5614,
      "num_input_tokens_seen": 750240,
      "step": 1165
    },
    {
      "epoch": 0.6132075471698113,
      "grad_norm": 0.3091142177581787,
      "learning_rate": 0.0003063417190775681,
      "loss": 0.4869,
      "num_input_tokens_seen": 753344,
      "step": 1170
    },
    {
      "epoch": 0.6158280922431866,
      "grad_norm": 0.18419021368026733,
      "learning_rate": 0.00030765199161425575,
      "loss": 0.447,
      "num_input_tokens_seen": 755968,
      "step": 1175
    },
    {
      "epoch": 0.6184486373165619,
      "grad_norm": 0.27234503626823425,
      "learning_rate": 0.00030896226415094344,
      "loss": 0.5716,
      "num_input_tokens_seen": 759520,
      "step": 1180
    },
    {
      "epoch": 0.6210691823899371,
      "grad_norm": 0.27823492884635925,
      "learning_rate": 0.0003102725366876311,
      "loss": 0.4904,
      "num_input_tokens_seen": 762048,
      "step": 1185
    },
    {
      "epoch": 0.6236897274633124,
      "grad_norm": 0.3587390184402466,
      "learning_rate": 0.00031158280922431866,
      "loss": 0.6092,
      "num_input_tokens_seen": 765504,
      "step": 1190
    },
    {
      "epoch": 0.6263102725366876,
      "grad_norm": 0.23242872953414917,
      "learning_rate": 0.0003128930817610063,
      "loss": 0.4745,
      "num_input_tokens_seen": 768192,
      "step": 1195
    },
    {
      "epoch": 0.6289308176100629,
      "grad_norm": 0.18772409856319427,
      "learning_rate": 0.0003142033542976939,
      "loss": 0.5267,
      "num_input_tokens_seen": 771168,
      "step": 1200
    },
    {
      "epoch": 0.6315513626834381,
      "grad_norm": 0.1585255116224289,
      "learning_rate": 0.00031551362683438156,
      "loss": 0.3152,
      "num_input_tokens_seen": 777504,
      "step": 1205
    },
    {
      "epoch": 0.6341719077568134,
      "grad_norm": 0.3702187240123749,
      "learning_rate": 0.0003168238993710692,
      "loss": 0.4642,
      "num_input_tokens_seen": 780512,
      "step": 1210
    },
    {
      "epoch": 0.6367924528301887,
      "grad_norm": 0.3408811390399933,
      "learning_rate": 0.00031813417190775683,
      "loss": 0.5313,
      "num_input_tokens_seen": 784192,
      "step": 1215
    },
    {
      "epoch": 0.639412997903564,
      "grad_norm": 0.25153443217277527,
      "learning_rate": 0.0003194444444444444,
      "loss": 0.5757,
      "num_input_tokens_seen": 787552,
      "step": 1220
    },
    {
      "epoch": 0.6420335429769392,
      "grad_norm": 0.18717046082019806,
      "learning_rate": 0.00032075471698113204,
      "loss": 0.6324,
      "num_input_tokens_seen": 790720,
      "step": 1225
    },
    {
      "epoch": 0.6446540880503144,
      "grad_norm": 0.5250399708747864,
      "learning_rate": 0.00032206498951781973,
      "loss": 0.576,
      "num_input_tokens_seen": 793696,
      "step": 1230
    },
    {
      "epoch": 0.6472746331236897,
      "grad_norm": 0.34032878279685974,
      "learning_rate": 0.00032337526205450737,
      "loss": 0.5611,
      "num_input_tokens_seen": 796640,
      "step": 1235
    },
    {
      "epoch": 0.649895178197065,
      "grad_norm": 0.3478530943393707,
      "learning_rate": 0.000324685534591195,
      "loss": 0.5218,
      "num_input_tokens_seen": 799648,
      "step": 1240
    },
    {
      "epoch": 0.6525157232704403,
      "grad_norm": 0.23170365393161774,
      "learning_rate": 0.00032599580712788263,
      "loss": 0.3381,
      "num_input_tokens_seen": 802496,
      "step": 1245
    },
    {
      "epoch": 0.6551362683438156,
      "grad_norm": 0.2052462249994278,
      "learning_rate": 0.0003273060796645702,
      "loss": 0.5513,
      "num_input_tokens_seen": 805760,
      "step": 1250
    },
    {
      "epoch": 0.6577568134171907,
      "grad_norm": 0.5055520534515381,
      "learning_rate": 0.00032861635220125785,
      "loss": 0.5339,
      "num_input_tokens_seen": 808832,
      "step": 1255
    },
    {
      "epoch": 0.660377358490566,
      "grad_norm": 0.3061434030532837,
      "learning_rate": 0.0003299266247379455,
      "loss": 0.4474,
      "num_input_tokens_seen": 812256,
      "step": 1260
    },
    {
      "epoch": 0.6629979035639413,
      "grad_norm": 0.3506244421005249,
      "learning_rate": 0.0003312368972746331,
      "loss": 0.4747,
      "num_input_tokens_seen": 815680,
      "step": 1265
    },
    {
      "epoch": 0.6656184486373166,
      "grad_norm": 0.17142407596111298,
      "learning_rate": 0.00033254716981132075,
      "loss": 0.3565,
      "num_input_tokens_seen": 818400,
      "step": 1270
    },
    {
      "epoch": 0.6682389937106918,
      "grad_norm": 0.2158118486404419,
      "learning_rate": 0.0003338574423480084,
      "loss": 0.5648,
      "num_input_tokens_seen": 821536,
      "step": 1275
    },
    {
      "epoch": 0.6708595387840671,
      "grad_norm": 0.20754766464233398,
      "learning_rate": 0.0003351677148846961,
      "loss": 0.4811,
      "num_input_tokens_seen": 825024,
      "step": 1280
    },
    {
      "epoch": 0.6734800838574424,
      "grad_norm": 0.14567285776138306,
      "learning_rate": 0.00033647798742138366,
      "loss": 0.4636,
      "num_input_tokens_seen": 829248,
      "step": 1285
    },
    {
      "epoch": 0.6761006289308176,
      "grad_norm": 0.16815528273582458,
      "learning_rate": 0.0003377882599580713,
      "loss": 0.4446,
      "num_input_tokens_seen": 831872,
      "step": 1290
    },
    {
      "epoch": 0.6787211740041929,
      "grad_norm": 0.24867086112499237,
      "learning_rate": 0.0003390985324947589,
      "loss": 0.5864,
      "num_input_tokens_seen": 834880,
      "step": 1295
    },
    {
      "epoch": 0.6813417190775681,
      "grad_norm": 0.1796182245016098,
      "learning_rate": 0.00034040880503144656,
      "loss": 0.5809,
      "num_input_tokens_seen": 837824,
      "step": 1300
    },
    {
      "epoch": 0.6839622641509434,
      "grad_norm": 0.31439709663391113,
      "learning_rate": 0.0003417190775681342,
      "loss": 0.5058,
      "num_input_tokens_seen": 840896,
      "step": 1305
    },
    {
      "epoch": 0.6865828092243187,
      "grad_norm": 0.2035488784313202,
      "learning_rate": 0.00034302935010482183,
      "loss": 0.6836,
      "num_input_tokens_seen": 844000,
      "step": 1310
    },
    {
      "epoch": 0.689203354297694,
      "grad_norm": 0.11577075719833374,
      "learning_rate": 0.0003443396226415094,
      "loss": 0.4736,
      "num_input_tokens_seen": 847840,
      "step": 1315
    },
    {
      "epoch": 0.6918238993710691,
      "grad_norm": 0.17344996333122253,
      "learning_rate": 0.00034564989517819704,
      "loss": 0.5957,
      "num_input_tokens_seen": 850976,
      "step": 1320
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 0.20690259337425232,
      "learning_rate": 0.0003469601677148847,
      "loss": 0.4579,
      "num_input_tokens_seen": 855616,
      "step": 1325
    },
    {
      "epoch": 0.6970649895178197,
      "grad_norm": 0.14804573357105255,
      "learning_rate": 0.00034827044025157236,
      "loss": 0.3221,
      "num_input_tokens_seen": 858528,
      "step": 1330
    },
    {
      "epoch": 0.699685534591195,
      "grad_norm": 0.213948592543602,
      "learning_rate": 0.00034958071278826,
      "loss": 0.5032,
      "num_input_tokens_seen": 862144,
      "step": 1335
    },
    {
      "epoch": 0.7023060796645703,
      "grad_norm": 0.20315048098564148,
      "learning_rate": 0.00035089098532494763,
      "loss": 0.5788,
      "num_input_tokens_seen": 865440,
      "step": 1340
    },
    {
      "epoch": 0.7049266247379455,
      "grad_norm": 0.17267177999019623,
      "learning_rate": 0.0003522012578616352,
      "loss": 0.5248,
      "num_input_tokens_seen": 868992,
      "step": 1345
    },
    {
      "epoch": 0.7075471698113207,
      "grad_norm": 0.2525996267795563,
      "learning_rate": 0.00035351153039832285,
      "loss": 0.4886,
      "num_input_tokens_seen": 871968,
      "step": 1350
    },
    {
      "epoch": 0.710167714884696,
      "grad_norm": 0.23031026124954224,
      "learning_rate": 0.0003548218029350105,
      "loss": 0.4903,
      "num_input_tokens_seen": 874912,
      "step": 1355
    },
    {
      "epoch": 0.7127882599580713,
      "grad_norm": 0.20569933950901031,
      "learning_rate": 0.0003561320754716981,
      "loss": 0.526,
      "num_input_tokens_seen": 878112,
      "step": 1360
    },
    {
      "epoch": 0.7154088050314465,
      "grad_norm": 0.32944780588150024,
      "learning_rate": 0.00035744234800838575,
      "loss": 0.5097,
      "num_input_tokens_seen": 880928,
      "step": 1365
    },
    {
      "epoch": 0.7180293501048218,
      "grad_norm": 0.12437570095062256,
      "learning_rate": 0.0003587526205450734,
      "loss": 0.5291,
      "num_input_tokens_seen": 884832,
      "step": 1370
    },
    {
      "epoch": 0.7206498951781971,
      "grad_norm": 0.12316600978374481,
      "learning_rate": 0.00036006289308176097,
      "loss": 0.4802,
      "num_input_tokens_seen": 888800,
      "step": 1375
    },
    {
      "epoch": 0.7232704402515723,
      "grad_norm": 0.16767826676368713,
      "learning_rate": 0.00036137316561844865,
      "loss": 0.4881,
      "num_input_tokens_seen": 892416,
      "step": 1380
    },
    {
      "epoch": 0.7258909853249476,
      "grad_norm": 0.2000400871038437,
      "learning_rate": 0.0003626834381551363,
      "loss": 0.5905,
      "num_input_tokens_seen": 895840,
      "step": 1385
    },
    {
      "epoch": 0.7285115303983228,
      "grad_norm": 0.21004927158355713,
      "learning_rate": 0.0003639937106918239,
      "loss": 0.5286,
      "num_input_tokens_seen": 899392,
      "step": 1390
    },
    {
      "epoch": 0.7311320754716981,
      "grad_norm": 0.20570069551467896,
      "learning_rate": 0.00036530398322851156,
      "loss": 0.4657,
      "num_input_tokens_seen": 903264,
      "step": 1395
    },
    {
      "epoch": 0.7337526205450734,
      "grad_norm": 0.20368343591690063,
      "learning_rate": 0.0003666142557651992,
      "loss": 0.4758,
      "num_input_tokens_seen": 906016,
      "step": 1400
    },
    {
      "epoch": 0.7363731656184487,
      "grad_norm": 0.2855258584022522,
      "learning_rate": 0.00036792452830188677,
      "loss": 0.5985,
      "num_input_tokens_seen": 909152,
      "step": 1405
    },
    {
      "epoch": 0.7389937106918238,
      "grad_norm": 0.27094292640686035,
      "learning_rate": 0.0003692348008385744,
      "loss": 0.566,
      "num_input_tokens_seen": 912416,
      "step": 1410
    },
    {
      "epoch": 0.7416142557651991,
      "grad_norm": 0.258931428194046,
      "learning_rate": 0.00037054507337526204,
      "loss": 0.6408,
      "num_input_tokens_seen": 915616,
      "step": 1415
    },
    {
      "epoch": 0.7442348008385744,
      "grad_norm": 0.3991406261920929,
      "learning_rate": 0.0003718553459119497,
      "loss": 0.5317,
      "num_input_tokens_seen": 921568,
      "step": 1420
    },
    {
      "epoch": 0.7468553459119497,
      "grad_norm": 0.18345853686332703,
      "learning_rate": 0.0003731656184486373,
      "loss": 0.4565,
      "num_input_tokens_seen": 924864,
      "step": 1425
    },
    {
      "epoch": 0.749475890985325,
      "grad_norm": 0.19197212159633636,
      "learning_rate": 0.000374475890985325,
      "loss": 0.5283,
      "num_input_tokens_seen": 927968,
      "step": 1430
    },
    {
      "epoch": 0.7520964360587002,
      "grad_norm": 0.16714860498905182,
      "learning_rate": 0.00037578616352201263,
      "loss": 0.5093,
      "num_input_tokens_seen": 931584,
      "step": 1435
    },
    {
      "epoch": 0.7547169811320755,
      "grad_norm": 0.2969982624053955,
      "learning_rate": 0.0003770964360587002,
      "loss": 0.4704,
      "num_input_tokens_seen": 934816,
      "step": 1440
    },
    {
      "epoch": 0.7573375262054507,
      "grad_norm": 0.2275213599205017,
      "learning_rate": 0.00037840670859538785,
      "loss": 0.5577,
      "num_input_tokens_seen": 937856,
      "step": 1445
    },
    {
      "epoch": 0.759958071278826,
      "grad_norm": 0.2571065127849579,
      "learning_rate": 0.0003797169811320755,
      "loss": 0.5326,
      "num_input_tokens_seen": 945632,
      "step": 1450
    },
    {
      "epoch": 0.7625786163522013,
      "grad_norm": 0.20997580885887146,
      "learning_rate": 0.0003810272536687631,
      "loss": 0.5762,
      "num_input_tokens_seen": 948608,
      "step": 1455
    },
    {
      "epoch": 0.7651991614255765,
      "grad_norm": 0.2307385951280594,
      "learning_rate": 0.00038233752620545075,
      "loss": 0.424,
      "num_input_tokens_seen": 951488,
      "step": 1460
    },
    {
      "epoch": 0.7678197064989518,
      "grad_norm": 0.24136221408843994,
      "learning_rate": 0.0003836477987421384,
      "loss": 0.5187,
      "num_input_tokens_seen": 955072,
      "step": 1465
    },
    {
      "epoch": 0.7704402515723271,
      "grad_norm": 0.3044678568840027,
      "learning_rate": 0.00038495807127882596,
      "loss": 0.5827,
      "num_input_tokens_seen": 958272,
      "step": 1470
    },
    {
      "epoch": 0.7730607966457023,
      "grad_norm": 0.12080492824316025,
      "learning_rate": 0.0003862683438155136,
      "loss": 0.6512,
      "num_input_tokens_seen": 961888,
      "step": 1475
    },
    {
      "epoch": 0.7756813417190775,
      "grad_norm": 0.4141887426376343,
      "learning_rate": 0.0003875786163522013,
      "loss": 0.7032,
      "num_input_tokens_seen": 964256,
      "step": 1480
    },
    {
      "epoch": 0.7783018867924528,
      "grad_norm": 0.2578999400138855,
      "learning_rate": 0.0003888888888888889,
      "loss": 0.5275,
      "num_input_tokens_seen": 968224,
      "step": 1485
    },
    {
      "epoch": 0.7809224318658281,
      "grad_norm": 0.14012856781482697,
      "learning_rate": 0.00039019916142557656,
      "loss": 0.4824,
      "num_input_tokens_seen": 971136,
      "step": 1490
    },
    {
      "epoch": 0.7835429769392034,
      "grad_norm": 0.218227356672287,
      "learning_rate": 0.0003915094339622642,
      "loss": 0.5062,
      "num_input_tokens_seen": 975936,
      "step": 1495
    },
    {
      "epoch": 0.7861635220125787,
      "grad_norm": 0.23654520511627197,
      "learning_rate": 0.00039281970649895177,
      "loss": 0.5283,
      "num_input_tokens_seen": 979360,
      "step": 1500
    },
    {
      "epoch": 0.7887840670859538,
      "grad_norm": 0.1007685512304306,
      "learning_rate": 0.0003941299790356394,
      "loss": 0.4669,
      "num_input_tokens_seen": 983616,
      "step": 1505
    },
    {
      "epoch": 0.7914046121593291,
      "grad_norm": 0.28256678581237793,
      "learning_rate": 0.00039544025157232704,
      "loss": 0.488,
      "num_input_tokens_seen": 986944,
      "step": 1510
    },
    {
      "epoch": 0.7940251572327044,
      "grad_norm": 0.17880721390247345,
      "learning_rate": 0.0003967505241090147,
      "loss": 0.4969,
      "num_input_tokens_seen": 989888,
      "step": 1515
    },
    {
      "epoch": 0.7966457023060797,
      "grad_norm": 0.2357046753168106,
      "learning_rate": 0.0003980607966457023,
      "loss": 0.509,
      "num_input_tokens_seen": 992768,
      "step": 1520
    },
    {
      "epoch": 0.799266247379455,
      "grad_norm": 0.14782963693141937,
      "learning_rate": 0.00039937106918238994,
      "loss": 0.3835,
      "num_input_tokens_seen": 996896,
      "step": 1525
    },
    {
      "epoch": 0.8018867924528302,
      "grad_norm": 0.14742125570774078,
      "learning_rate": 0.0004006813417190776,
      "loss": 0.5431,
      "num_input_tokens_seen": 999840,
      "step": 1530
    },
    {
      "epoch": 0.8045073375262054,
      "grad_norm": 0.16031627357006073,
      "learning_rate": 0.0004019916142557652,
      "loss": 0.4376,
      "num_input_tokens_seen": 1003680,
      "step": 1535
    },
    {
      "epoch": 0.8071278825995807,
      "grad_norm": 0.2308616191148758,
      "learning_rate": 0.00040330188679245284,
      "loss": 0.4546,
      "num_input_tokens_seen": 1006656,
      "step": 1540
    },
    {
      "epoch": 0.809748427672956,
      "grad_norm": 0.35938146710395813,
      "learning_rate": 0.0004046121593291405,
      "loss": 0.4303,
      "num_input_tokens_seen": 1008768,
      "step": 1545
    },
    {
      "epoch": 0.8123689727463312,
      "grad_norm": 0.1486857831478119,
      "learning_rate": 0.0004059224318658281,
      "loss": 0.472,
      "num_input_tokens_seen": 1011968,
      "step": 1550
    },
    {
      "epoch": 0.8149895178197065,
      "grad_norm": 0.160597026348114,
      "learning_rate": 0.00040723270440251575,
      "loss": 0.4996,
      "num_input_tokens_seen": 1018784,
      "step": 1555
    },
    {
      "epoch": 0.8176100628930818,
      "grad_norm": 0.15023893117904663,
      "learning_rate": 0.00040854297693920333,
      "loss": 0.3585,
      "num_input_tokens_seen": 1023520,
      "step": 1560
    },
    {
      "epoch": 0.820230607966457,
      "grad_norm": 0.15883566439151764,
      "learning_rate": 0.00040985324947589096,
      "loss": 0.4691,
      "num_input_tokens_seen": 1027200,
      "step": 1565
    },
    {
      "epoch": 0.8228511530398323,
      "grad_norm": 0.13160166144371033,
      "learning_rate": 0.0004111635220125786,
      "loss": 0.7999,
      "num_input_tokens_seen": 1030848,
      "step": 1570
    },
    {
      "epoch": 0.8254716981132075,
      "grad_norm": 0.19461865723133087,
      "learning_rate": 0.00041247379454926623,
      "loss": 0.5536,
      "num_input_tokens_seen": 1035232,
      "step": 1575
    },
    {
      "epoch": 0.8280922431865828,
      "grad_norm": 0.22568732500076294,
      "learning_rate": 0.0004137840670859539,
      "loss": 0.4979,
      "num_input_tokens_seen": 1038176,
      "step": 1580
    },
    {
      "epoch": 0.8307127882599581,
      "grad_norm": 0.4273598790168762,
      "learning_rate": 0.00041509433962264155,
      "loss": 0.4053,
      "num_input_tokens_seen": 1041216,
      "step": 1585
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.17128883302211761,
      "learning_rate": 0.00041640461215932913,
      "loss": 0.5402,
      "num_input_tokens_seen": 1043840,
      "step": 1590
    },
    {
      "epoch": 0.8359538784067087,
      "grad_norm": 0.1522848755121231,
      "learning_rate": 0.00041771488469601677,
      "loss": 0.4279,
      "num_input_tokens_seen": 1046656,
      "step": 1595
    },
    {
      "epoch": 0.8385744234800838,
      "grad_norm": 0.15320654213428497,
      "learning_rate": 0.0004190251572327044,
      "loss": 0.4324,
      "num_input_tokens_seen": 1051616,
      "step": 1600
    },
    {
      "epoch": 0.8411949685534591,
      "grad_norm": 0.21052803099155426,
      "learning_rate": 0.00042033542976939204,
      "loss": 0.6104,
      "num_input_tokens_seen": 1053824,
      "step": 1605
    },
    {
      "epoch": 0.8438155136268344,
      "grad_norm": 0.19723621010780334,
      "learning_rate": 0.00042164570230607967,
      "loss": 0.4738,
      "num_input_tokens_seen": 1056512,
      "step": 1610
    },
    {
      "epoch": 0.8464360587002097,
      "grad_norm": 0.16454137861728668,
      "learning_rate": 0.0004229559748427673,
      "loss": 0.5052,
      "num_input_tokens_seen": 1060160,
      "step": 1615
    },
    {
      "epoch": 0.8490566037735849,
      "grad_norm": 0.22425806522369385,
      "learning_rate": 0.00042426624737945494,
      "loss": 0.6328,
      "num_input_tokens_seen": 1062880,
      "step": 1620
    },
    {
      "epoch": 0.8516771488469602,
      "grad_norm": 0.2809930145740509,
      "learning_rate": 0.0004255765199161425,
      "loss": 0.5764,
      "num_input_tokens_seen": 1066528,
      "step": 1625
    },
    {
      "epoch": 0.8542976939203354,
      "grad_norm": 0.21822597086429596,
      "learning_rate": 0.0004268867924528302,
      "loss": 0.4083,
      "num_input_tokens_seen": 1069472,
      "step": 1630
    },
    {
      "epoch": 0.8569182389937107,
      "grad_norm": 0.23542208969593048,
      "learning_rate": 0.00042819706498951784,
      "loss": 0.5258,
      "num_input_tokens_seen": 1074304,
      "step": 1635
    },
    {
      "epoch": 0.859538784067086,
      "grad_norm": 0.2557927370071411,
      "learning_rate": 0.0004295073375262055,
      "loss": 0.4408,
      "num_input_tokens_seen": 1077376,
      "step": 1640
    },
    {
      "epoch": 0.8621593291404612,
      "grad_norm": 0.1423024833202362,
      "learning_rate": 0.0004308176100628931,
      "loss": 0.5217,
      "num_input_tokens_seen": 1080672,
      "step": 1645
    },
    {
      "epoch": 0.8647798742138365,
      "grad_norm": 0.18430736660957336,
      "learning_rate": 0.00043212788259958075,
      "loss": 0.5598,
      "num_input_tokens_seen": 1084224,
      "step": 1650
    },
    {
      "epoch": 0.8674004192872118,
      "grad_norm": 0.26984742283821106,
      "learning_rate": 0.0004334381551362683,
      "loss": 0.6615,
      "num_input_tokens_seen": 1086912,
      "step": 1655
    },
    {
      "epoch": 0.870020964360587,
      "grad_norm": 0.20390206575393677,
      "learning_rate": 0.00043474842767295596,
      "loss": 0.5963,
      "num_input_tokens_seen": 1089696,
      "step": 1660
    },
    {
      "epoch": 0.8726415094339622,
      "grad_norm": 0.25074324011802673,
      "learning_rate": 0.0004360587002096436,
      "loss": 0.4564,
      "num_input_tokens_seen": 1092608,
      "step": 1665
    },
    {
      "epoch": 0.8752620545073375,
      "grad_norm": 0.17635977268218994,
      "learning_rate": 0.00043736897274633123,
      "loss": 0.6734,
      "num_input_tokens_seen": 1095808,
      "step": 1670
    },
    {
      "epoch": 0.8778825995807128,
      "grad_norm": 0.1359816938638687,
      "learning_rate": 0.00043867924528301886,
      "loss": 0.5658,
      "num_input_tokens_seen": 1098816,
      "step": 1675
    },
    {
      "epoch": 0.8805031446540881,
      "grad_norm": 0.1047283485531807,
      "learning_rate": 0.00043998951781970655,
      "loss": 0.5732,
      "num_input_tokens_seen": 1103136,
      "step": 1680
    },
    {
      "epoch": 0.8831236897274634,
      "grad_norm": 0.13171781599521637,
      "learning_rate": 0.00044129979035639413,
      "loss": 0.4547,
      "num_input_tokens_seen": 1107872,
      "step": 1685
    },
    {
      "epoch": 0.8857442348008385,
      "grad_norm": 0.16733397543430328,
      "learning_rate": 0.00044261006289308177,
      "loss": 0.6409,
      "num_input_tokens_seen": 1111072,
      "step": 1690
    },
    {
      "epoch": 0.8883647798742138,
      "grad_norm": 0.20848225057125092,
      "learning_rate": 0.0004439203354297694,
      "loss": 0.5503,
      "num_input_tokens_seen": 1113792,
      "step": 1695
    },
    {
      "epoch": 0.8909853249475891,
      "grad_norm": 0.27201494574546814,
      "learning_rate": 0.00044523060796645704,
      "loss": 0.4594,
      "num_input_tokens_seen": 1116384,
      "step": 1700
    },
    {
      "epoch": 0.8936058700209644,
      "grad_norm": 0.15552200376987457,
      "learning_rate": 0.00044654088050314467,
      "loss": 0.462,
      "num_input_tokens_seen": 1119296,
      "step": 1705
    },
    {
      "epoch": 0.8962264150943396,
      "grad_norm": 0.151203915476799,
      "learning_rate": 0.0004478511530398323,
      "loss": 0.6092,
      "num_input_tokens_seen": 1122720,
      "step": 1710
    },
    {
      "epoch": 0.8988469601677149,
      "grad_norm": 0.5475959181785583,
      "learning_rate": 0.0004491614255765199,
      "loss": 0.5724,
      "num_input_tokens_seen": 1125088,
      "step": 1715
    },
    {
      "epoch": 0.9014675052410901,
      "grad_norm": 0.18938785791397095,
      "learning_rate": 0.0004504716981132075,
      "loss": 0.6438,
      "num_input_tokens_seen": 1128288,
      "step": 1720
    },
    {
      "epoch": 0.9040880503144654,
      "grad_norm": 0.3805573582649231,
      "learning_rate": 0.00045178197064989515,
      "loss": 0.5746,
      "num_input_tokens_seen": 1131040,
      "step": 1725
    },
    {
      "epoch": 0.9067085953878407,
      "grad_norm": 0.12065698206424713,
      "learning_rate": 0.00045309224318658284,
      "loss": 0.5262,
      "num_input_tokens_seen": 1135136,
      "step": 1730
    },
    {
      "epoch": 0.9093291404612159,
      "grad_norm": 0.15095074474811554,
      "learning_rate": 0.0004544025157232705,
      "loss": 0.6524,
      "num_input_tokens_seen": 1139008,
      "step": 1735
    },
    {
      "epoch": 0.9119496855345912,
      "grad_norm": 0.13687218725681305,
      "learning_rate": 0.0004557127882599581,
      "loss": 0.4933,
      "num_input_tokens_seen": 1141920,
      "step": 1740
    },
    {
      "epoch": 0.9145702306079665,
      "grad_norm": 0.17556306719779968,
      "learning_rate": 0.0004570230607966457,
      "loss": 0.4604,
      "num_input_tokens_seen": 1144960,
      "step": 1745
    },
    {
      "epoch": 0.9171907756813418,
      "grad_norm": 0.17974413931369781,
      "learning_rate": 0.0004583333333333333,
      "loss": 0.5587,
      "num_input_tokens_seen": 1147712,
      "step": 1750
    },
    {
      "epoch": 0.9198113207547169,
      "grad_norm": 0.18961955606937408,
      "learning_rate": 0.00045964360587002096,
      "loss": 0.5596,
      "num_input_tokens_seen": 1150528,
      "step": 1755
    },
    {
      "epoch": 0.9224318658280922,
      "grad_norm": 0.32685455679893494,
      "learning_rate": 0.0004609538784067086,
      "loss": 0.5842,
      "num_input_tokens_seen": 1154272,
      "step": 1760
    },
    {
      "epoch": 0.9250524109014675,
      "grad_norm": 0.29897341132164,
      "learning_rate": 0.00046226415094339623,
      "loss": 0.465,
      "num_input_tokens_seen": 1157088,
      "step": 1765
    },
    {
      "epoch": 0.9276729559748428,
      "grad_norm": 0.1675989031791687,
      "learning_rate": 0.00046357442348008386,
      "loss": 0.6276,
      "num_input_tokens_seen": 1160192,
      "step": 1770
    },
    {
      "epoch": 0.9302935010482181,
      "grad_norm": 0.21518893539905548,
      "learning_rate": 0.00046488469601677155,
      "loss": 0.5547,
      "num_input_tokens_seen": 1163424,
      "step": 1775
    },
    {
      "epoch": 0.9329140461215933,
      "grad_norm": 0.13391157984733582,
      "learning_rate": 0.00046619496855345913,
      "loss": 0.5871,
      "num_input_tokens_seen": 1167104,
      "step": 1780
    },
    {
      "epoch": 0.9355345911949685,
      "grad_norm": 0.21145473420619965,
      "learning_rate": 0.00046750524109014677,
      "loss": 0.5089,
      "num_input_tokens_seen": 1170368,
      "step": 1785
    },
    {
      "epoch": 0.9381551362683438,
      "grad_norm": 0.140525683760643,
      "learning_rate": 0.0004688155136268344,
      "loss": 0.6274,
      "num_input_tokens_seen": 1173888,
      "step": 1790
    },
    {
      "epoch": 0.9407756813417191,
      "grad_norm": 0.10738681256771088,
      "learning_rate": 0.00047012578616352203,
      "loss": 0.5199,
      "num_input_tokens_seen": 1177408,
      "step": 1795
    },
    {
      "epoch": 0.9433962264150944,
      "grad_norm": 0.157743439078331,
      "learning_rate": 0.00047143605870020967,
      "loss": 0.5025,
      "num_input_tokens_seen": 1181056,
      "step": 1800
    },
    {
      "epoch": 0.9460167714884696,
      "grad_norm": 0.19218942523002625,
      "learning_rate": 0.0004727463312368973,
      "loss": 0.6912,
      "num_input_tokens_seen": 1184256,
      "step": 1805
    },
    {
      "epoch": 0.9486373165618449,
      "grad_norm": 0.1462411731481552,
      "learning_rate": 0.0004740566037735849,
      "loss": 0.4382,
      "num_input_tokens_seen": 1187168,
      "step": 1810
    },
    {
      "epoch": 0.9512578616352201,
      "grad_norm": 0.09676425158977509,
      "learning_rate": 0.0004753668763102725,
      "loss": 0.4532,
      "num_input_tokens_seen": 1190784,
      "step": 1815
    },
    {
      "epoch": 0.9538784067085954,
      "grad_norm": 0.17510144412517548,
      "learning_rate": 0.00047667714884696015,
      "loss": 0.5811,
      "num_input_tokens_seen": 1193312,
      "step": 1820
    },
    {
      "epoch": 0.9564989517819706,
      "grad_norm": 0.11158362030982971,
      "learning_rate": 0.00047798742138364784,
      "loss": 0.505,
      "num_input_tokens_seen": 1196608,
      "step": 1825
    },
    {
      "epoch": 0.9591194968553459,
      "grad_norm": 0.2634057402610779,
      "learning_rate": 0.0004792976939203355,
      "loss": 0.5859,
      "num_input_tokens_seen": 1200160,
      "step": 1830
    },
    {
      "epoch": 0.9617400419287212,
      "grad_norm": 0.28848785161972046,
      "learning_rate": 0.0004806079664570231,
      "loss": 0.4195,
      "num_input_tokens_seen": 1203040,
      "step": 1835
    },
    {
      "epoch": 0.9643605870020965,
      "grad_norm": 0.10864304006099701,
      "learning_rate": 0.0004819182389937107,
      "loss": 0.3897,
      "num_input_tokens_seen": 1205408,
      "step": 1840
    },
    {
      "epoch": 0.9669811320754716,
      "grad_norm": 0.46643203496932983,
      "learning_rate": 0.0004832285115303983,
      "loss": 0.3578,
      "num_input_tokens_seen": 1208896,
      "step": 1845
    },
    {
      "epoch": 0.9696016771488469,
      "grad_norm": 0.13449126482009888,
      "learning_rate": 0.00048453878406708596,
      "loss": 0.4889,
      "num_input_tokens_seen": 1212576,
      "step": 1850
    },
    {
      "epoch": 0.9722222222222222,
      "grad_norm": 0.1399487406015396,
      "learning_rate": 0.0004858490566037736,
      "loss": 0.489,
      "num_input_tokens_seen": 1215872,
      "step": 1855
    },
    {
      "epoch": 0.9748427672955975,
      "grad_norm": 0.2461676150560379,
      "learning_rate": 0.0004871593291404612,
      "loss": 0.4795,
      "num_input_tokens_seen": 1219968,
      "step": 1860
    },
    {
      "epoch": 0.9774633123689728,
      "grad_norm": 0.14189714193344116,
      "learning_rate": 0.0004884696016771489,
      "loss": 0.5117,
      "num_input_tokens_seen": 1222048,
      "step": 1865
    },
    {
      "epoch": 0.980083857442348,
      "grad_norm": 0.1955861747264862,
      "learning_rate": 0.0004897798742138365,
      "loss": 0.5399,
      "num_input_tokens_seen": 1225120,
      "step": 1870
    },
    {
      "epoch": 0.9827044025157232,
      "grad_norm": 0.11850286275148392,
      "learning_rate": 0.0004910901467505241,
      "loss": 0.5256,
      "num_input_tokens_seen": 1229056,
      "step": 1875
    },
    {
      "epoch": 0.9853249475890985,
      "grad_norm": 0.17094965279102325,
      "learning_rate": 0.0004924004192872118,
      "loss": 0.3959,
      "num_input_tokens_seen": 1231776,
      "step": 1880
    },
    {
      "epoch": 0.9879454926624738,
      "grad_norm": 0.104640893638134,
      "learning_rate": 0.0004937106918238993,
      "loss": 0.4709,
      "num_input_tokens_seen": 1235040,
      "step": 1885
    },
    {
      "epoch": 0.9905660377358491,
      "grad_norm": 0.22945500910282135,
      "learning_rate": 0.000495020964360587,
      "loss": 0.4236,
      "num_input_tokens_seen": 1238048,
      "step": 1890
    },
    {
      "epoch": 0.9931865828092243,
      "grad_norm": 0.12984830141067505,
      "learning_rate": 0.0004963312368972746,
      "loss": 0.5332,
      "num_input_tokens_seen": 1241344,
      "step": 1895
    },
    {
      "epoch": 0.9958071278825996,
      "grad_norm": 0.16296349465847015,
      "learning_rate": 0.0004976415094339623,
      "loss": 0.3688,
      "num_input_tokens_seen": 1243840,
      "step": 1900
    },
    {
      "epoch": 0.9984276729559748,
      "grad_norm": 0.17354297637939453,
      "learning_rate": 0.0004989517819706499,
      "loss": 0.6045,
      "num_input_tokens_seen": 1246816,
      "step": 1905
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.5060390830039978,
      "eval_runtime": 13.8134,
      "eval_samples_per_second": 61.39,
      "eval_steps_per_second": 15.347,
      "num_input_tokens_seen": 1248304,
      "step": 1908
    },
    {
      "epoch": 1.00104821802935,
      "grad_norm": 0.16414310038089752,
      "learning_rate": 0.0005002620545073376,
      "loss": 0.4757,
      "num_input_tokens_seen": 1249200,
      "step": 1910
    },
    {
      "epoch": 1.0036687631027255,
      "grad_norm": 0.16933315992355347,
      "learning_rate": 0.0005015723270440253,
      "loss": 0.4808,
      "num_input_tokens_seen": 1251664,
      "step": 1915
    },
    {
      "epoch": 1.0062893081761006,
      "grad_norm": 0.08360383659601212,
      "learning_rate": 0.0005028825995807128,
      "loss": 0.462,
      "num_input_tokens_seen": 1254928,
      "step": 1920
    },
    {
      "epoch": 1.0089098532494758,
      "grad_norm": 0.27564623951911926,
      "learning_rate": 0.0005041928721174004,
      "loss": 0.4194,
      "num_input_tokens_seen": 1257744,
      "step": 1925
    },
    {
      "epoch": 1.0115303983228512,
      "grad_norm": 0.1588655710220337,
      "learning_rate": 0.0005055031446540881,
      "loss": 0.434,
      "num_input_tokens_seen": 1261904,
      "step": 1930
    },
    {
      "epoch": 1.0141509433962264,
      "grad_norm": 0.0928366631269455,
      "learning_rate": 0.0005068134171907757,
      "loss": 0.4092,
      "num_input_tokens_seen": 1264432,
      "step": 1935
    },
    {
      "epoch": 1.0167714884696017,
      "grad_norm": 0.1894826740026474,
      "learning_rate": 0.0005081236897274634,
      "loss": 0.5538,
      "num_input_tokens_seen": 1268400,
      "step": 1940
    },
    {
      "epoch": 1.019392033542977,
      "grad_norm": 0.14025235176086426,
      "learning_rate": 0.000509433962264151,
      "loss": 0.4311,
      "num_input_tokens_seen": 1272752,
      "step": 1945
    },
    {
      "epoch": 1.0220125786163523,
      "grad_norm": 0.17722390592098236,
      "learning_rate": 0.0005107442348008385,
      "loss": 0.5674,
      "num_input_tokens_seen": 1275568,
      "step": 1950
    },
    {
      "epoch": 1.0246331236897275,
      "grad_norm": 0.10239315032958984,
      "learning_rate": 0.0005120545073375262,
      "loss": 0.5708,
      "num_input_tokens_seen": 1278160,
      "step": 1955
    },
    {
      "epoch": 1.0272536687631026,
      "grad_norm": 0.16958297789096832,
      "learning_rate": 0.0005133647798742138,
      "loss": 0.4686,
      "num_input_tokens_seen": 1281424,
      "step": 1960
    },
    {
      "epoch": 1.029874213836478,
      "grad_norm": 0.11732950061559677,
      "learning_rate": 0.0005146750524109015,
      "loss": 0.4687,
      "num_input_tokens_seen": 1283920,
      "step": 1965
    },
    {
      "epoch": 1.0324947589098532,
      "grad_norm": 0.20219242572784424,
      "learning_rate": 0.0005159853249475891,
      "loss": 0.4398,
      "num_input_tokens_seen": 1287920,
      "step": 1970
    },
    {
      "epoch": 1.0351153039832286,
      "grad_norm": 0.2465120106935501,
      "learning_rate": 0.0005172955974842768,
      "loss": 0.5334,
      "num_input_tokens_seen": 1290960,
      "step": 1975
    },
    {
      "epoch": 1.0377358490566038,
      "grad_norm": 0.1051005870103836,
      "learning_rate": 0.0005186058700209643,
      "loss": 0.3713,
      "num_input_tokens_seen": 1294544,
      "step": 1980
    },
    {
      "epoch": 1.040356394129979,
      "grad_norm": 0.13504107296466827,
      "learning_rate": 0.0005199161425576519,
      "loss": 0.6754,
      "num_input_tokens_seen": 1298160,
      "step": 1985
    },
    {
      "epoch": 1.0429769392033543,
      "grad_norm": 1.4777450561523438,
      "learning_rate": 0.0005212264150943396,
      "loss": 0.4893,
      "num_input_tokens_seen": 1300368,
      "step": 1990
    },
    {
      "epoch": 1.0455974842767295,
      "grad_norm": 0.10830362886190414,
      "learning_rate": 0.0005225366876310272,
      "loss": 0.4269,
      "num_input_tokens_seen": 1307184,
      "step": 1995
    },
    {
      "epoch": 1.0482180293501049,
      "grad_norm": 0.1817770153284073,
      "learning_rate": 0.000523846960167715,
      "loss": 0.7678,
      "num_input_tokens_seen": 1309840,
      "step": 2000
    },
    {
      "epoch": 1.05083857442348,
      "grad_norm": 0.20318755507469177,
      "learning_rate": 0.0005251572327044026,
      "loss": 0.4683,
      "num_input_tokens_seen": 1313648,
      "step": 2005
    },
    {
      "epoch": 1.0534591194968554,
      "grad_norm": 0.13706432282924652,
      "learning_rate": 0.0005264675052410901,
      "loss": 0.4898,
      "num_input_tokens_seen": 1316496,
      "step": 2010
    },
    {
      "epoch": 1.0560796645702306,
      "grad_norm": 0.2924070358276367,
      "learning_rate": 0.0005277777777777778,
      "loss": 0.5138,
      "num_input_tokens_seen": 1319952,
      "step": 2015
    },
    {
      "epoch": 1.0587002096436058,
      "grad_norm": 0.12733393907546997,
      "learning_rate": 0.0005290880503144654,
      "loss": 0.4393,
      "num_input_tokens_seen": 1323344,
      "step": 2020
    },
    {
      "epoch": 1.0613207547169812,
      "grad_norm": 0.17233525216579437,
      "learning_rate": 0.0005303983228511531,
      "loss": 0.5397,
      "num_input_tokens_seen": 1326704,
      "step": 2025
    },
    {
      "epoch": 1.0639412997903563,
      "grad_norm": 0.11309721320867538,
      "learning_rate": 0.0005317085953878407,
      "loss": 0.4763,
      "num_input_tokens_seen": 1330128,
      "step": 2030
    },
    {
      "epoch": 1.0665618448637317,
      "grad_norm": 0.13518130779266357,
      "learning_rate": 0.0005330188679245284,
      "loss": 0.4469,
      "num_input_tokens_seen": 1333040,
      "step": 2035
    },
    {
      "epoch": 1.069182389937107,
      "grad_norm": 0.1517646610736847,
      "learning_rate": 0.000534329140461216,
      "loss": 0.5097,
      "num_input_tokens_seen": 1335504,
      "step": 2040
    },
    {
      "epoch": 1.0718029350104823,
      "grad_norm": 0.17738838493824005,
      "learning_rate": 0.0005356394129979035,
      "loss": 0.5259,
      "num_input_tokens_seen": 1339280,
      "step": 2045
    },
    {
      "epoch": 1.0744234800838575,
      "grad_norm": 0.16506509482860565,
      "learning_rate": 0.0005369496855345912,
      "loss": 0.5718,
      "num_input_tokens_seen": 1342576,
      "step": 2050
    },
    {
      "epoch": 1.0770440251572326,
      "grad_norm": 0.15272817015647888,
      "learning_rate": 0.0005382599580712788,
      "loss": 0.4751,
      "num_input_tokens_seen": 1346256,
      "step": 2055
    },
    {
      "epoch": 1.079664570230608,
      "grad_norm": 0.16468855738639832,
      "learning_rate": 0.0005395702306079665,
      "loss": 0.5851,
      "num_input_tokens_seen": 1349008,
      "step": 2060
    },
    {
      "epoch": 1.0822851153039832,
      "grad_norm": 0.1206926628947258,
      "learning_rate": 0.0005408805031446541,
      "loss": 0.5407,
      "num_input_tokens_seen": 1353552,
      "step": 2065
    },
    {
      "epoch": 1.0849056603773586,
      "grad_norm": 0.17466124892234802,
      "learning_rate": 0.0005421907756813418,
      "loss": 0.4644,
      "num_input_tokens_seen": 1356400,
      "step": 2070
    },
    {
      "epoch": 1.0875262054507338,
      "grad_norm": 0.18646235764026642,
      "learning_rate": 0.0005435010482180293,
      "loss": 0.5159,
      "num_input_tokens_seen": 1361008,
      "step": 2075
    },
    {
      "epoch": 1.090146750524109,
      "grad_norm": 0.39131057262420654,
      "learning_rate": 0.0005448113207547169,
      "loss": 0.5669,
      "num_input_tokens_seen": 1363184,
      "step": 2080
    },
    {
      "epoch": 1.0927672955974843,
      "grad_norm": 0.27866190671920776,
      "learning_rate": 0.0005461215932914046,
      "loss": 0.4711,
      "num_input_tokens_seen": 1365872,
      "step": 2085
    },
    {
      "epoch": 1.0953878406708595,
      "grad_norm": 0.17584548890590668,
      "learning_rate": 0.0005474318658280922,
      "loss": 0.541,
      "num_input_tokens_seen": 1369168,
      "step": 2090
    },
    {
      "epoch": 1.0980083857442349,
      "grad_norm": 0.1142503097653389,
      "learning_rate": 0.0005487421383647799,
      "loss": 0.486,
      "num_input_tokens_seen": 1372208,
      "step": 2095
    },
    {
      "epoch": 1.10062893081761,
      "grad_norm": 0.14548355340957642,
      "learning_rate": 0.0005500524109014676,
      "loss": 0.399,
      "num_input_tokens_seen": 1377360,
      "step": 2100
    },
    {
      "epoch": 1.1032494758909852,
      "grad_norm": 0.22665786743164062,
      "learning_rate": 0.0005513626834381551,
      "loss": 0.4316,
      "num_input_tokens_seen": 1380400,
      "step": 2105
    },
    {
      "epoch": 1.1058700209643606,
      "grad_norm": 0.20192167162895203,
      "learning_rate": 0.0005526729559748428,
      "loss": 0.4858,
      "num_input_tokens_seen": 1383056,
      "step": 2110
    },
    {
      "epoch": 1.1084905660377358,
      "grad_norm": 0.1811741143465042,
      "learning_rate": 0.0005539832285115304,
      "loss": 0.5621,
      "num_input_tokens_seen": 1386160,
      "step": 2115
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.16057558357715607,
      "learning_rate": 0.0005552935010482181,
      "loss": 0.4638,
      "num_input_tokens_seen": 1389232,
      "step": 2120
    },
    {
      "epoch": 1.1137316561844863,
      "grad_norm": 0.17268696427345276,
      "learning_rate": 0.0005566037735849057,
      "loss": 0.5704,
      "num_input_tokens_seen": 1393328,
      "step": 2125
    },
    {
      "epoch": 1.1163522012578617,
      "grad_norm": 0.15233543515205383,
      "learning_rate": 0.0005579140461215934,
      "loss": 0.4372,
      "num_input_tokens_seen": 1396816,
      "step": 2130
    },
    {
      "epoch": 1.118972746331237,
      "grad_norm": 0.130537211894989,
      "learning_rate": 0.000559224318658281,
      "loss": 0.4141,
      "num_input_tokens_seen": 1400176,
      "step": 2135
    },
    {
      "epoch": 1.121593291404612,
      "grad_norm": 0.13477151095867157,
      "learning_rate": 0.0005605345911949685,
      "loss": 0.5805,
      "num_input_tokens_seen": 1403408,
      "step": 2140
    },
    {
      "epoch": 1.1242138364779874,
      "grad_norm": 0.13187533617019653,
      "learning_rate": 0.0005618448637316562,
      "loss": 0.4167,
      "num_input_tokens_seen": 1406448,
      "step": 2145
    },
    {
      "epoch": 1.1268343815513626,
      "grad_norm": 0.43217408657073975,
      "learning_rate": 0.0005631551362683438,
      "loss": 0.5397,
      "num_input_tokens_seen": 1409584,
      "step": 2150
    },
    {
      "epoch": 1.129454926624738,
      "grad_norm": 0.15813027322292328,
      "learning_rate": 0.0005644654088050315,
      "loss": 0.4947,
      "num_input_tokens_seen": 1413872,
      "step": 2155
    },
    {
      "epoch": 1.1320754716981132,
      "grad_norm": 0.1501828134059906,
      "learning_rate": 0.0005657756813417191,
      "loss": 0.6258,
      "num_input_tokens_seen": 1416528,
      "step": 2160
    },
    {
      "epoch": 1.1346960167714886,
      "grad_norm": 0.15568417310714722,
      "learning_rate": 0.0005670859538784067,
      "loss": 0.505,
      "num_input_tokens_seen": 1418896,
      "step": 2165
    },
    {
      "epoch": 1.1373165618448637,
      "grad_norm": 0.21103134751319885,
      "learning_rate": 0.0005683962264150943,
      "loss": 0.5506,
      "num_input_tokens_seen": 1421712,
      "step": 2170
    },
    {
      "epoch": 1.139937106918239,
      "grad_norm": 0.12872187793254852,
      "learning_rate": 0.0005697064989517819,
      "loss": 0.4653,
      "num_input_tokens_seen": 1425072,
      "step": 2175
    },
    {
      "epoch": 1.1425576519916143,
      "grad_norm": 0.13502153754234314,
      "learning_rate": 0.0005710167714884696,
      "loss": 0.6734,
      "num_input_tokens_seen": 1428848,
      "step": 2180
    },
    {
      "epoch": 1.1451781970649895,
      "grad_norm": 0.18015560507774353,
      "learning_rate": 0.0005723270440251572,
      "loss": 0.5294,
      "num_input_tokens_seen": 1432432,
      "step": 2185
    },
    {
      "epoch": 1.1477987421383649,
      "grad_norm": 0.15342827141284943,
      "learning_rate": 0.0005736373165618449,
      "loss": 0.665,
      "num_input_tokens_seen": 1436048,
      "step": 2190
    },
    {
      "epoch": 1.15041928721174,
      "grad_norm": 0.2622181475162506,
      "learning_rate": 0.0005749475890985325,
      "loss": 0.6623,
      "num_input_tokens_seen": 1440144,
      "step": 2195
    },
    {
      "epoch": 1.1530398322851152,
      "grad_norm": 0.11541362851858139,
      "learning_rate": 0.0005762578616352201,
      "loss": 0.5795,
      "num_input_tokens_seen": 1443760,
      "step": 2200
    },
    {
      "epoch": 1.1556603773584906,
      "grad_norm": 0.11485827714204788,
      "learning_rate": 0.0005775681341719078,
      "loss": 0.7743,
      "num_input_tokens_seen": 1446864,
      "step": 2205
    },
    {
      "epoch": 1.1582809224318658,
      "grad_norm": 0.14332477748394012,
      "learning_rate": 0.0005788784067085954,
      "loss": 0.3512,
      "num_input_tokens_seen": 1449456,
      "step": 2210
    },
    {
      "epoch": 1.1609014675052411,
      "grad_norm": 0.18749931454658508,
      "learning_rate": 0.0005801886792452831,
      "loss": 0.5633,
      "num_input_tokens_seen": 1452944,
      "step": 2215
    },
    {
      "epoch": 1.1635220125786163,
      "grad_norm": 0.0993976965546608,
      "learning_rate": 0.0005814989517819707,
      "loss": 0.4636,
      "num_input_tokens_seen": 1455952,
      "step": 2220
    },
    {
      "epoch": 1.1661425576519917,
      "grad_norm": 0.15875808894634247,
      "learning_rate": 0.0005828092243186583,
      "loss": 0.6015,
      "num_input_tokens_seen": 1459376,
      "step": 2225
    },
    {
      "epoch": 1.1687631027253669,
      "grad_norm": 0.12023809552192688,
      "learning_rate": 0.000584119496855346,
      "loss": 0.4817,
      "num_input_tokens_seen": 1462352,
      "step": 2230
    },
    {
      "epoch": 1.171383647798742,
      "grad_norm": 0.18354550004005432,
      "learning_rate": 0.0005854297693920335,
      "loss": 0.5722,
      "num_input_tokens_seen": 1465104,
      "step": 2235
    },
    {
      "epoch": 1.1740041928721174,
      "grad_norm": 0.1276668906211853,
      "learning_rate": 0.0005867400419287212,
      "loss": 0.5568,
      "num_input_tokens_seen": 1468624,
      "step": 2240
    },
    {
      "epoch": 1.1766247379454926,
      "grad_norm": 0.1380414068698883,
      "learning_rate": 0.0005880503144654088,
      "loss": 0.4275,
      "num_input_tokens_seen": 1475184,
      "step": 2245
    },
    {
      "epoch": 1.179245283018868,
      "grad_norm": 0.06544247269630432,
      "learning_rate": 0.0005893605870020965,
      "loss": 0.3923,
      "num_input_tokens_seen": 1478640,
      "step": 2250
    },
    {
      "epoch": 1.1818658280922432,
      "grad_norm": 0.1806761622428894,
      "learning_rate": 0.0005906708595387841,
      "loss": 0.5513,
      "num_input_tokens_seen": 1481552,
      "step": 2255
    },
    {
      "epoch": 1.1844863731656186,
      "grad_norm": 0.16010428965091705,
      "learning_rate": 0.0005919811320754716,
      "loss": 0.4541,
      "num_input_tokens_seen": 1485104,
      "step": 2260
    },
    {
      "epoch": 1.1871069182389937,
      "grad_norm": 0.14421182870864868,
      "learning_rate": 0.0005932914046121593,
      "loss": 0.5403,
      "num_input_tokens_seen": 1487728,
      "step": 2265
    },
    {
      "epoch": 1.189727463312369,
      "grad_norm": 0.1710042506456375,
      "learning_rate": 0.0005946016771488469,
      "loss": 0.4495,
      "num_input_tokens_seen": 1491312,
      "step": 2270
    },
    {
      "epoch": 1.1923480083857443,
      "grad_norm": 0.19841048121452332,
      "learning_rate": 0.0005959119496855346,
      "loss": 0.5451,
      "num_input_tokens_seen": 1494192,
      "step": 2275
    },
    {
      "epoch": 1.1949685534591195,
      "grad_norm": 0.16011065244674683,
      "learning_rate": 0.0005972222222222222,
      "loss": 0.64,
      "num_input_tokens_seen": 1497168,
      "step": 2280
    },
    {
      "epoch": 1.1975890985324948,
      "grad_norm": 0.16653303802013397,
      "learning_rate": 0.0005985324947589099,
      "loss": 0.4997,
      "num_input_tokens_seen": 1501936,
      "step": 2285
    },
    {
      "epoch": 1.20020964360587,
      "grad_norm": 0.12185951322317123,
      "learning_rate": 0.0005998427672955975,
      "loss": 0.4207,
      "num_input_tokens_seen": 1505040,
      "step": 2290
    },
    {
      "epoch": 1.2028301886792452,
      "grad_norm": 0.20987020432949066,
      "learning_rate": 0.000601153039832285,
      "loss": 0.6321,
      "num_input_tokens_seen": 1507856,
      "step": 2295
    },
    {
      "epoch": 1.2054507337526206,
      "grad_norm": 0.17848442494869232,
      "learning_rate": 0.0006024633123689728,
      "loss": 0.4773,
      "num_input_tokens_seen": 1510768,
      "step": 2300
    },
    {
      "epoch": 1.2080712788259957,
      "grad_norm": 0.15080401301383972,
      "learning_rate": 0.0006037735849056604,
      "loss": 0.6287,
      "num_input_tokens_seen": 1513808,
      "step": 2305
    },
    {
      "epoch": 1.2106918238993711,
      "grad_norm": 0.09426838159561157,
      "learning_rate": 0.0006050838574423481,
      "loss": 0.4603,
      "num_input_tokens_seen": 1517392,
      "step": 2310
    },
    {
      "epoch": 1.2133123689727463,
      "grad_norm": 0.08994641900062561,
      "learning_rate": 0.0006063941299790357,
      "loss": 0.5084,
      "num_input_tokens_seen": 1521648,
      "step": 2315
    },
    {
      "epoch": 1.2159329140461215,
      "grad_norm": 0.15255001187324524,
      "learning_rate": 0.0006077044025157233,
      "loss": 0.4404,
      "num_input_tokens_seen": 1524496,
      "step": 2320
    },
    {
      "epoch": 1.2185534591194969,
      "grad_norm": 0.1182633638381958,
      "learning_rate": 0.000609014675052411,
      "loss": 0.511,
      "num_input_tokens_seen": 1528144,
      "step": 2325
    },
    {
      "epoch": 1.221174004192872,
      "grad_norm": 0.14948365092277527,
      "learning_rate": 0.0006103249475890985,
      "loss": 0.4916,
      "num_input_tokens_seen": 1531664,
      "step": 2330
    },
    {
      "epoch": 1.2237945492662474,
      "grad_norm": 0.18391437828540802,
      "learning_rate": 0.0006116352201257862,
      "loss": 0.6106,
      "num_input_tokens_seen": 1535408,
      "step": 2335
    },
    {
      "epoch": 1.2264150943396226,
      "grad_norm": 0.10723782330751419,
      "learning_rate": 0.0006129454926624738,
      "loss": 0.5035,
      "num_input_tokens_seen": 1538448,
      "step": 2340
    },
    {
      "epoch": 1.229035639412998,
      "grad_norm": 0.1890917271375656,
      "learning_rate": 0.0006142557651991615,
      "loss": 0.5411,
      "num_input_tokens_seen": 1541968,
      "step": 2345
    },
    {
      "epoch": 1.2316561844863732,
      "grad_norm": 0.12024825066328049,
      "learning_rate": 0.0006155660377358491,
      "loss": 0.5327,
      "num_input_tokens_seen": 1544560,
      "step": 2350
    },
    {
      "epoch": 1.2342767295597485,
      "grad_norm": 0.18284866213798523,
      "learning_rate": 0.0006168763102725366,
      "loss": 0.4942,
      "num_input_tokens_seen": 1548080,
      "step": 2355
    },
    {
      "epoch": 1.2368972746331237,
      "grad_norm": 0.2363278865814209,
      "learning_rate": 0.0006181865828092243,
      "loss": 0.4511,
      "num_input_tokens_seen": 1551472,
      "step": 2360
    },
    {
      "epoch": 1.2395178197064989,
      "grad_norm": 0.12521623075008392,
      "learning_rate": 0.0006194968553459119,
      "loss": 0.576,
      "num_input_tokens_seen": 1553904,
      "step": 2365
    },
    {
      "epoch": 1.2421383647798743,
      "grad_norm": 0.12215536087751389,
      "learning_rate": 0.0006208071278825996,
      "loss": 0.4595,
      "num_input_tokens_seen": 1558352,
      "step": 2370
    },
    {
      "epoch": 1.2447589098532494,
      "grad_norm": 0.17612092196941376,
      "learning_rate": 0.0006221174004192872,
      "loss": 0.3767,
      "num_input_tokens_seen": 1561616,
      "step": 2375
    },
    {
      "epoch": 1.2473794549266248,
      "grad_norm": 0.11364550143480301,
      "learning_rate": 0.0006234276729559748,
      "loss": 0.3886,
      "num_input_tokens_seen": 1566000,
      "step": 2380
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.0919826403260231,
      "learning_rate": 0.0006247379454926625,
      "loss": 0.5094,
      "num_input_tokens_seen": 1569776,
      "step": 2385
    },
    {
      "epoch": 1.2526205450733752,
      "grad_norm": 0.19376850128173828,
      "learning_rate": 0.00062604821802935,
      "loss": 0.5842,
      "num_input_tokens_seen": 1572112,
      "step": 2390
    },
    {
      "epoch": 1.2552410901467506,
      "grad_norm": 0.08802530914545059,
      "learning_rate": 0.0006273584905660377,
      "loss": 0.517,
      "num_input_tokens_seen": 1575312,
      "step": 2395
    },
    {
      "epoch": 1.2578616352201257,
      "grad_norm": 0.09382776916027069,
      "learning_rate": 0.0006286687631027254,
      "loss": 0.5792,
      "num_input_tokens_seen": 1578256,
      "step": 2400
    },
    {
      "epoch": 1.2604821802935011,
      "grad_norm": 0.09616968035697937,
      "learning_rate": 0.0006299790356394131,
      "loss": 0.6964,
      "num_input_tokens_seen": 1581328,
      "step": 2405
    },
    {
      "epoch": 1.2631027253668763,
      "grad_norm": 0.09440279006958008,
      "learning_rate": 0.0006312893081761007,
      "loss": 0.548,
      "num_input_tokens_seen": 1583952,
      "step": 2410
    },
    {
      "epoch": 1.2657232704402515,
      "grad_norm": 0.36832746863365173,
      "learning_rate": 0.0006325995807127883,
      "loss": 0.5337,
      "num_input_tokens_seen": 1587472,
      "step": 2415
    },
    {
      "epoch": 1.2683438155136268,
      "grad_norm": 0.13499894738197327,
      "learning_rate": 0.000633909853249476,
      "loss": 0.4462,
      "num_input_tokens_seen": 1590384,
      "step": 2420
    },
    {
      "epoch": 1.270964360587002,
      "grad_norm": 0.13372640311717987,
      "learning_rate": 0.0006352201257861635,
      "loss": 0.4634,
      "num_input_tokens_seen": 1593264,
      "step": 2425
    },
    {
      "epoch": 1.2735849056603774,
      "grad_norm": 0.12333418428897858,
      "learning_rate": 0.0006365303983228512,
      "loss": 0.4426,
      "num_input_tokens_seen": 1597680,
      "step": 2430
    },
    {
      "epoch": 1.2762054507337526,
      "grad_norm": 0.20325788855552673,
      "learning_rate": 0.0006378406708595388,
      "loss": 0.5373,
      "num_input_tokens_seen": 1600912,
      "step": 2435
    },
    {
      "epoch": 1.2788259958071277,
      "grad_norm": 0.1719645857810974,
      "learning_rate": 0.0006391509433962265,
      "loss": 0.438,
      "num_input_tokens_seen": 1603472,
      "step": 2440
    },
    {
      "epoch": 1.2814465408805031,
      "grad_norm": 0.26838770508766174,
      "learning_rate": 0.0006404612159329141,
      "loss": 0.4637,
      "num_input_tokens_seen": 1606384,
      "step": 2445
    },
    {
      "epoch": 1.2840670859538785,
      "grad_norm": 0.138335719704628,
      "learning_rate": 0.0006417714884696016,
      "loss": 0.4842,
      "num_input_tokens_seen": 1609360,
      "step": 2450
    },
    {
      "epoch": 1.2866876310272537,
      "grad_norm": 0.189098060131073,
      "learning_rate": 0.0006430817610062893,
      "loss": 0.5076,
      "num_input_tokens_seen": 1612336,
      "step": 2455
    },
    {
      "epoch": 1.2893081761006289,
      "grad_norm": 0.1067529022693634,
      "learning_rate": 0.0006443920335429769,
      "loss": 0.4163,
      "num_input_tokens_seen": 1616048,
      "step": 2460
    },
    {
      "epoch": 1.2919287211740043,
      "grad_norm": 0.2207736074924469,
      "learning_rate": 0.0006457023060796646,
      "loss": 0.4108,
      "num_input_tokens_seen": 1618960,
      "step": 2465
    },
    {
      "epoch": 1.2945492662473794,
      "grad_norm": 0.07605145126581192,
      "learning_rate": 0.0006470125786163522,
      "loss": 0.3684,
      "num_input_tokens_seen": 1622544,
      "step": 2470
    },
    {
      "epoch": 1.2971698113207548,
      "grad_norm": 0.10337945818901062,
      "learning_rate": 0.0006483228511530398,
      "loss": 0.4674,
      "num_input_tokens_seen": 1625872,
      "step": 2475
    },
    {
      "epoch": 1.29979035639413,
      "grad_norm": 0.16856986284255981,
      "learning_rate": 0.0006496331236897275,
      "loss": 0.495,
      "num_input_tokens_seen": 1629456,
      "step": 2480
    },
    {
      "epoch": 1.3024109014675052,
      "grad_norm": 0.09544821083545685,
      "learning_rate": 0.000650943396226415,
      "loss": 0.6103,
      "num_input_tokens_seen": 1632432,
      "step": 2485
    },
    {
      "epoch": 1.3050314465408805,
      "grad_norm": 0.08853643387556076,
      "learning_rate": 0.0006522536687631027,
      "loss": 0.4676,
      "num_input_tokens_seen": 1636080,
      "step": 2490
    },
    {
      "epoch": 1.3076519916142557,
      "grad_norm": 0.10952591150999069,
      "learning_rate": 0.0006535639412997903,
      "loss": 0.4874,
      "num_input_tokens_seen": 1638960,
      "step": 2495
    },
    {
      "epoch": 1.310272536687631,
      "grad_norm": 0.06337454169988632,
      "learning_rate": 0.0006548742138364781,
      "loss": 0.4875,
      "num_input_tokens_seen": 1643120,
      "step": 2500
    },
    {
      "epoch": 1.3128930817610063,
      "grad_norm": 0.1618674248456955,
      "learning_rate": 0.0006561844863731657,
      "loss": 0.4146,
      "num_input_tokens_seen": 1646768,
      "step": 2505
    },
    {
      "epoch": 1.3155136268343814,
      "grad_norm": 0.091526098549366,
      "learning_rate": 0.0006574947589098533,
      "loss": 0.5053,
      "num_input_tokens_seen": 1650256,
      "step": 2510
    },
    {
      "epoch": 1.3181341719077568,
      "grad_norm": 0.12476815283298492,
      "learning_rate": 0.000658805031446541,
      "loss": 0.5172,
      "num_input_tokens_seen": 1652912,
      "step": 2515
    },
    {
      "epoch": 1.320754716981132,
      "grad_norm": 0.06961506605148315,
      "learning_rate": 0.0006601153039832285,
      "loss": 0.5023,
      "num_input_tokens_seen": 1656432,
      "step": 2520
    },
    {
      "epoch": 1.3233752620545074,
      "grad_norm": 0.10252875089645386,
      "learning_rate": 0.0006614255765199162,
      "loss": 0.4163,
      "num_input_tokens_seen": 1659472,
      "step": 2525
    },
    {
      "epoch": 1.3259958071278826,
      "grad_norm": 0.1963270753622055,
      "learning_rate": 0.0006627358490566038,
      "loss": 0.5096,
      "num_input_tokens_seen": 1662480,
      "step": 2530
    },
    {
      "epoch": 1.3286163522012577,
      "grad_norm": 0.11358249932527542,
      "learning_rate": 0.0006640461215932914,
      "loss": 0.5414,
      "num_input_tokens_seen": 1665424,
      "step": 2535
    },
    {
      "epoch": 1.3312368972746331,
      "grad_norm": 0.22253365814685822,
      "learning_rate": 0.0006653563941299791,
      "loss": 0.5684,
      "num_input_tokens_seen": 1667760,
      "step": 2540
    },
    {
      "epoch": 1.3338574423480085,
      "grad_norm": 0.12650375068187714,
      "learning_rate": 0.0006666666666666666,
      "loss": 0.4218,
      "num_input_tokens_seen": 1670800,
      "step": 2545
    },
    {
      "epoch": 1.3364779874213837,
      "grad_norm": 0.12999951839447021,
      "learning_rate": 0.0006679769392033543,
      "loss": 0.5363,
      "num_input_tokens_seen": 1675760,
      "step": 2550
    },
    {
      "epoch": 1.3390985324947589,
      "grad_norm": 0.3529612720012665,
      "learning_rate": 0.0006692872117400419,
      "loss": 0.5763,
      "num_input_tokens_seen": 1677936,
      "step": 2555
    },
    {
      "epoch": 1.3417190775681342,
      "grad_norm": 0.08504036068916321,
      "learning_rate": 0.0006705974842767296,
      "loss": 0.6071,
      "num_input_tokens_seen": 1685008,
      "step": 2560
    },
    {
      "epoch": 1.3443396226415094,
      "grad_norm": 0.13447274267673492,
      "learning_rate": 0.0006719077568134172,
      "loss": 0.6199,
      "num_input_tokens_seen": 1688240,
      "step": 2565
    },
    {
      "epoch": 1.3469601677148848,
      "grad_norm": 0.12672987580299377,
      "learning_rate": 0.0006732180293501048,
      "loss": 0.6606,
      "num_input_tokens_seen": 1690832,
      "step": 2570
    },
    {
      "epoch": 1.34958071278826,
      "grad_norm": 0.0927627682685852,
      "learning_rate": 0.0006745283018867925,
      "loss": 0.6291,
      "num_input_tokens_seen": 1695248,
      "step": 2575
    },
    {
      "epoch": 1.3522012578616351,
      "grad_norm": 0.12343382835388184,
      "learning_rate": 0.00067583857442348,
      "loss": 0.5072,
      "num_input_tokens_seen": 1698896,
      "step": 2580
    },
    {
      "epoch": 1.3548218029350105,
      "grad_norm": 0.21961894631385803,
      "learning_rate": 0.0006771488469601677,
      "loss": 0.6352,
      "num_input_tokens_seen": 1701296,
      "step": 2585
    },
    {
      "epoch": 1.3574423480083857,
      "grad_norm": 0.18439733982086182,
      "learning_rate": 0.0006784591194968553,
      "loss": 0.3714,
      "num_input_tokens_seen": 1705136,
      "step": 2590
    },
    {
      "epoch": 1.360062893081761,
      "grad_norm": 0.12308217585086823,
      "learning_rate": 0.0006797693920335431,
      "loss": 0.4781,
      "num_input_tokens_seen": 1708016,
      "step": 2595
    },
    {
      "epoch": 1.3626834381551363,
      "grad_norm": 0.47550296783447266,
      "learning_rate": 0.0006810796645702307,
      "loss": 0.6563,
      "num_input_tokens_seen": 1710864,
      "step": 2600
    },
    {
      "epoch": 1.3653039832285114,
      "grad_norm": 0.10857950896024704,
      "learning_rate": 0.0006823899371069183,
      "loss": 0.4252,
      "num_input_tokens_seen": 1713552,
      "step": 2605
    },
    {
      "epoch": 1.3679245283018868,
      "grad_norm": 0.1089089959859848,
      "learning_rate": 0.0006837002096436059,
      "loss": 0.427,
      "num_input_tokens_seen": 1716528,
      "step": 2610
    },
    {
      "epoch": 1.370545073375262,
      "grad_norm": 0.27245837450027466,
      "learning_rate": 0.0006850104821802935,
      "loss": 0.4454,
      "num_input_tokens_seen": 1719216,
      "step": 2615
    },
    {
      "epoch": 1.3731656184486374,
      "grad_norm": 0.11464738100767136,
      "learning_rate": 0.0006863207547169812,
      "loss": 0.5333,
      "num_input_tokens_seen": 1722384,
      "step": 2620
    },
    {
      "epoch": 1.3757861635220126,
      "grad_norm": 0.10686136037111282,
      "learning_rate": 0.0006876310272536688,
      "loss": 0.4496,
      "num_input_tokens_seen": 1725104,
      "step": 2625
    },
    {
      "epoch": 1.3784067085953877,
      "grad_norm": 0.21944409608840942,
      "learning_rate": 0.0006889412997903564,
      "loss": 0.4498,
      "num_input_tokens_seen": 1728112,
      "step": 2630
    },
    {
      "epoch": 1.381027253668763,
      "grad_norm": 0.13031277060508728,
      "learning_rate": 0.0006902515723270441,
      "loss": 0.5063,
      "num_input_tokens_seen": 1731536,
      "step": 2635
    },
    {
      "epoch": 1.3836477987421385,
      "grad_norm": 0.09014730155467987,
      "learning_rate": 0.0006915618448637316,
      "loss": 0.5428,
      "num_input_tokens_seen": 1734896,
      "step": 2640
    },
    {
      "epoch": 1.3862683438155137,
      "grad_norm": 0.2163953334093094,
      "learning_rate": 0.0006928721174004193,
      "loss": 0.5294,
      "num_input_tokens_seen": 1737584,
      "step": 2645
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 0.14065301418304443,
      "learning_rate": 0.0006941823899371069,
      "loss": 0.5742,
      "num_input_tokens_seen": 1740720,
      "step": 2650
    },
    {
      "epoch": 1.3915094339622642,
      "grad_norm": 0.11519290506839752,
      "learning_rate": 0.0006954926624737946,
      "loss": 0.3552,
      "num_input_tokens_seen": 1743216,
      "step": 2655
    },
    {
      "epoch": 1.3941299790356394,
      "grad_norm": 0.13276131451129913,
      "learning_rate": 0.0006968029350104822,
      "loss": 0.5674,
      "num_input_tokens_seen": 1746000,
      "step": 2660
    },
    {
      "epoch": 1.3967505241090148,
      "grad_norm": 0.22048451006412506,
      "learning_rate": 0.0006981132075471698,
      "loss": 0.4073,
      "num_input_tokens_seen": 1748560,
      "step": 2665
    },
    {
      "epoch": 1.39937106918239,
      "grad_norm": 0.11402955651283264,
      "learning_rate": 0.0006994234800838574,
      "loss": 0.5612,
      "num_input_tokens_seen": 1751504,
      "step": 2670
    },
    {
      "epoch": 1.4019916142557651,
      "grad_norm": 0.143966406583786,
      "learning_rate": 0.000700733752620545,
      "loss": 0.4776,
      "num_input_tokens_seen": 1754864,
      "step": 2675
    },
    {
      "epoch": 1.4046121593291405,
      "grad_norm": 0.2528938353061676,
      "learning_rate": 0.0007020440251572327,
      "loss": 0.5099,
      "num_input_tokens_seen": 1757648,
      "step": 2680
    },
    {
      "epoch": 1.4072327044025157,
      "grad_norm": 0.09343099594116211,
      "learning_rate": 0.0007033542976939203,
      "loss": 0.4814,
      "num_input_tokens_seen": 1760432,
      "step": 2685
    },
    {
      "epoch": 1.409853249475891,
      "grad_norm": 0.06953209638595581,
      "learning_rate": 0.0007046645702306079,
      "loss": 0.5042,
      "num_input_tokens_seen": 1763664,
      "step": 2690
    },
    {
      "epoch": 1.4124737945492662,
      "grad_norm": 0.08726987987756729,
      "learning_rate": 0.0007059748427672957,
      "loss": 0.4198,
      "num_input_tokens_seen": 1766640,
      "step": 2695
    },
    {
      "epoch": 1.4150943396226414,
      "grad_norm": 0.11155807971954346,
      "learning_rate": 0.0007072851153039833,
      "loss": 0.4975,
      "num_input_tokens_seen": 1769776,
      "step": 2700
    },
    {
      "epoch": 1.4177148846960168,
      "grad_norm": 0.18736819922924042,
      "learning_rate": 0.0007085953878406709,
      "loss": 0.5336,
      "num_input_tokens_seen": 1772112,
      "step": 2705
    },
    {
      "epoch": 1.420335429769392,
      "grad_norm": 0.11786796152591705,
      "learning_rate": 0.0007099056603773585,
      "loss": 0.5045,
      "num_input_tokens_seen": 1775312,
      "step": 2710
    },
    {
      "epoch": 1.4229559748427674,
      "grad_norm": 0.08355369418859482,
      "learning_rate": 0.0007112159329140462,
      "loss": 0.6176,
      "num_input_tokens_seen": 1779504,
      "step": 2715
    },
    {
      "epoch": 1.4255765199161425,
      "grad_norm": 0.07136718183755875,
      "learning_rate": 0.0007125262054507338,
      "loss": 0.4573,
      "num_input_tokens_seen": 1783248,
      "step": 2720
    },
    {
      "epoch": 1.4281970649895177,
      "grad_norm": 0.15631794929504395,
      "learning_rate": 0.0007138364779874214,
      "loss": 0.367,
      "num_input_tokens_seen": 1789168,
      "step": 2725
    },
    {
      "epoch": 1.430817610062893,
      "grad_norm": 0.12781859934329987,
      "learning_rate": 0.0007151467505241091,
      "loss": 0.4675,
      "num_input_tokens_seen": 1792592,
      "step": 2730
    },
    {
      "epoch": 1.4334381551362683,
      "grad_norm": 0.15217100083827972,
      "learning_rate": 0.0007164570230607966,
      "loss": 0.5171,
      "num_input_tokens_seen": 1795536,
      "step": 2735
    },
    {
      "epoch": 1.4360587002096437,
      "grad_norm": 0.06989631056785583,
      "learning_rate": 0.0007177672955974843,
      "loss": 0.4408,
      "num_input_tokens_seen": 1798064,
      "step": 2740
    },
    {
      "epoch": 1.4386792452830188,
      "grad_norm": 0.09405048936605453,
      "learning_rate": 0.0007190775681341719,
      "loss": 0.4995,
      "num_input_tokens_seen": 1801392,
      "step": 2745
    },
    {
      "epoch": 1.441299790356394,
      "grad_norm": 0.1830088198184967,
      "learning_rate": 0.0007203878406708596,
      "loss": 0.552,
      "num_input_tokens_seen": 1804368,
      "step": 2750
    },
    {
      "epoch": 1.4439203354297694,
      "grad_norm": 0.20249855518341064,
      "learning_rate": 0.0007216981132075472,
      "loss": 0.5453,
      "num_input_tokens_seen": 1807504,
      "step": 2755
    },
    {
      "epoch": 1.4465408805031448,
      "grad_norm": 0.1919872909784317,
      "learning_rate": 0.0007230083857442348,
      "loss": 0.3772,
      "num_input_tokens_seen": 1810160,
      "step": 2760
    },
    {
      "epoch": 1.44916142557652,
      "grad_norm": 0.12405221164226532,
      "learning_rate": 0.0007243186582809224,
      "loss": 0.5124,
      "num_input_tokens_seen": 1813616,
      "step": 2765
    },
    {
      "epoch": 1.4517819706498951,
      "grad_norm": 0.12536251544952393,
      "learning_rate": 0.00072562893081761,
      "loss": 0.4806,
      "num_input_tokens_seen": 1816752,
      "step": 2770
    },
    {
      "epoch": 1.4544025157232705,
      "grad_norm": 0.10743802785873413,
      "learning_rate": 0.0007269392033542977,
      "loss": 0.4699,
      "num_input_tokens_seen": 1820784,
      "step": 2775
    },
    {
      "epoch": 1.4570230607966457,
      "grad_norm": 0.17885029315948486,
      "learning_rate": 0.0007282494758909853,
      "loss": 0.4101,
      "num_input_tokens_seen": 1823024,
      "step": 2780
    },
    {
      "epoch": 1.459643605870021,
      "grad_norm": 0.11148086935281754,
      "learning_rate": 0.0007295597484276729,
      "loss": 0.5589,
      "num_input_tokens_seen": 1828016,
      "step": 2785
    },
    {
      "epoch": 1.4622641509433962,
      "grad_norm": 0.07363709807395935,
      "learning_rate": 0.0007308700209643606,
      "loss": 0.5452,
      "num_input_tokens_seen": 1831280,
      "step": 2790
    },
    {
      "epoch": 1.4648846960167714,
      "grad_norm": 0.07877551764249802,
      "learning_rate": 0.0007321802935010483,
      "loss": 0.4266,
      "num_input_tokens_seen": 1834896,
      "step": 2795
    },
    {
      "epoch": 1.4675052410901468,
      "grad_norm": 0.10289155691862106,
      "learning_rate": 0.0007334905660377359,
      "loss": 0.482,
      "num_input_tokens_seen": 1837488,
      "step": 2800
    },
    {
      "epoch": 1.470125786163522,
      "grad_norm": 0.07060684263706207,
      "learning_rate": 0.0007348008385744235,
      "loss": 0.5574,
      "num_input_tokens_seen": 1841584,
      "step": 2805
    },
    {
      "epoch": 1.4727463312368974,
      "grad_norm": 0.09243912994861603,
      "learning_rate": 0.0007361111111111112,
      "loss": 0.5468,
      "num_input_tokens_seen": 1844688,
      "step": 2810
    },
    {
      "epoch": 1.4753668763102725,
      "grad_norm": 0.12599553167819977,
      "learning_rate": 0.0007374213836477988,
      "loss": 0.4894,
      "num_input_tokens_seen": 1847472,
      "step": 2815
    },
    {
      "epoch": 1.4779874213836477,
      "grad_norm": 0.11914212256669998,
      "learning_rate": 0.0007387316561844864,
      "loss": 0.7202,
      "num_input_tokens_seen": 1851088,
      "step": 2820
    },
    {
      "epoch": 1.480607966457023,
      "grad_norm": 0.08213203400373459,
      "learning_rate": 0.0007400419287211741,
      "loss": 0.5027,
      "num_input_tokens_seen": 1855216,
      "step": 2825
    },
    {
      "epoch": 1.4832285115303983,
      "grad_norm": 0.07512710243463516,
      "learning_rate": 0.0007413522012578616,
      "loss": 0.4251,
      "num_input_tokens_seen": 1857744,
      "step": 2830
    },
    {
      "epoch": 1.4858490566037736,
      "grad_norm": 0.09964124113321304,
      "learning_rate": 0.0007426624737945493,
      "loss": 0.4426,
      "num_input_tokens_seen": 1860400,
      "step": 2835
    },
    {
      "epoch": 1.4884696016771488,
      "grad_norm": 0.13551637530326843,
      "learning_rate": 0.0007439727463312369,
      "loss": 0.5433,
      "num_input_tokens_seen": 1863248,
      "step": 2840
    },
    {
      "epoch": 1.491090146750524,
      "grad_norm": 0.1326923817396164,
      "learning_rate": 0.0007452830188679245,
      "loss": 0.4739,
      "num_input_tokens_seen": 1866576,
      "step": 2845
    },
    {
      "epoch": 1.4937106918238994,
      "grad_norm": 0.1380305290222168,
      "learning_rate": 0.0007465932914046122,
      "loss": 0.4536,
      "num_input_tokens_seen": 1869840,
      "step": 2850
    },
    {
      "epoch": 1.4963312368972748,
      "grad_norm": 0.11703670769929886,
      "learning_rate": 0.0007479035639412998,
      "loss": 0.6036,
      "num_input_tokens_seen": 1872624,
      "step": 2855
    },
    {
      "epoch": 1.49895178197065,
      "grad_norm": 0.31297528743743896,
      "learning_rate": 0.0007492138364779874,
      "loss": 0.5024,
      "num_input_tokens_seen": 1876016,
      "step": 2860
    },
    {
      "epoch": 1.501572327044025,
      "grad_norm": 0.1130535677075386,
      "learning_rate": 0.000750524109014675,
      "loss": 0.4134,
      "num_input_tokens_seen": 1880976,
      "step": 2865
    },
    {
      "epoch": 1.5041928721174003,
      "grad_norm": 0.24409480392932892,
      "learning_rate": 0.0007518343815513627,
      "loss": 0.5799,
      "num_input_tokens_seen": 1883568,
      "step": 2870
    },
    {
      "epoch": 1.5068134171907757,
      "grad_norm": 0.13771820068359375,
      "learning_rate": 0.0007531446540880503,
      "loss": 0.4685,
      "num_input_tokens_seen": 1886800,
      "step": 2875
    },
    {
      "epoch": 1.509433962264151,
      "grad_norm": 0.10999293625354767,
      "learning_rate": 0.0007544549266247379,
      "loss": 0.4511,
      "num_input_tokens_seen": 1890672,
      "step": 2880
    },
    {
      "epoch": 1.5120545073375262,
      "grad_norm": 0.10568291693925858,
      "learning_rate": 0.0007557651991614256,
      "loss": 0.3687,
      "num_input_tokens_seen": 1893456,
      "step": 2885
    },
    {
      "epoch": 1.5146750524109014,
      "grad_norm": 0.20546555519104004,
      "learning_rate": 0.0007570754716981131,
      "loss": 0.5006,
      "num_input_tokens_seen": 1896752,
      "step": 2890
    },
    {
      "epoch": 1.5172955974842768,
      "grad_norm": 0.10731994360685349,
      "learning_rate": 0.0007583857442348009,
      "loss": 0.4229,
      "num_input_tokens_seen": 1899664,
      "step": 2895
    },
    {
      "epoch": 1.519916142557652,
      "grad_norm": 0.10694629698991776,
      "learning_rate": 0.0007596960167714885,
      "loss": 0.4061,
      "num_input_tokens_seen": 1902320,
      "step": 2900
    },
    {
      "epoch": 1.5225366876310273,
      "grad_norm": 0.09843823313713074,
      "learning_rate": 0.0007610062893081762,
      "loss": 0.5464,
      "num_input_tokens_seen": 1905488,
      "step": 2905
    },
    {
      "epoch": 1.5251572327044025,
      "grad_norm": 0.17528103291988373,
      "learning_rate": 0.0007623165618448638,
      "loss": 0.4632,
      "num_input_tokens_seen": 1908144,
      "step": 2910
    },
    {
      "epoch": 1.5277777777777777,
      "grad_norm": 0.06080695986747742,
      "learning_rate": 0.0007636268343815514,
      "loss": 0.4822,
      "num_input_tokens_seen": 1911536,
      "step": 2915
    },
    {
      "epoch": 1.530398322851153,
      "grad_norm": 0.07349997013807297,
      "learning_rate": 0.0007649371069182391,
      "loss": 0.4826,
      "num_input_tokens_seen": 1916176,
      "step": 2920
    },
    {
      "epoch": 1.5330188679245285,
      "grad_norm": 0.08328389376401901,
      "learning_rate": 0.0007662473794549266,
      "loss": 0.4867,
      "num_input_tokens_seen": 1920592,
      "step": 2925
    },
    {
      "epoch": 1.5356394129979036,
      "grad_norm": 0.13304121792316437,
      "learning_rate": 0.0007675576519916143,
      "loss": 0.4612,
      "num_input_tokens_seen": 1923152,
      "step": 2930
    },
    {
      "epoch": 1.5382599580712788,
      "grad_norm": 0.11518119275569916,
      "learning_rate": 0.0007688679245283019,
      "loss": 0.5,
      "num_input_tokens_seen": 1926000,
      "step": 2935
    },
    {
      "epoch": 1.540880503144654,
      "grad_norm": 0.10733331739902496,
      "learning_rate": 0.0007701781970649895,
      "loss": 0.5491,
      "num_input_tokens_seen": 1929072,
      "step": 2940
    },
    {
      "epoch": 1.5435010482180294,
      "grad_norm": 0.0668906643986702,
      "learning_rate": 0.0007714884696016772,
      "loss": 0.3478,
      "num_input_tokens_seen": 1932208,
      "step": 2945
    },
    {
      "epoch": 1.5461215932914047,
      "grad_norm": 0.1282087117433548,
      "learning_rate": 0.0007727987421383648,
      "loss": 0.6601,
      "num_input_tokens_seen": 1935152,
      "step": 2950
    },
    {
      "epoch": 1.54874213836478,
      "grad_norm": 0.11053124815225601,
      "learning_rate": 0.0007741090146750524,
      "loss": 0.5282,
      "num_input_tokens_seen": 1938704,
      "step": 2955
    },
    {
      "epoch": 1.551362683438155,
      "grad_norm": 0.10762866586446762,
      "learning_rate": 0.00077541928721174,
      "loss": 0.5639,
      "num_input_tokens_seen": 1942192,
      "step": 2960
    },
    {
      "epoch": 1.5539832285115303,
      "grad_norm": 0.18429459631443024,
      "learning_rate": 0.0007767295597484277,
      "loss": 0.4487,
      "num_input_tokens_seen": 1945744,
      "step": 2965
    },
    {
      "epoch": 1.5566037735849056,
      "grad_norm": 0.11394539475440979,
      "learning_rate": 0.0007780398322851153,
      "loss": 0.4867,
      "num_input_tokens_seen": 1948944,
      "step": 2970
    },
    {
      "epoch": 1.559224318658281,
      "grad_norm": 0.10416369885206223,
      "learning_rate": 0.0007793501048218029,
      "loss": 0.4616,
      "num_input_tokens_seen": 1951792,
      "step": 2975
    },
    {
      "epoch": 1.5618448637316562,
      "grad_norm": 0.08062488585710526,
      "learning_rate": 0.0007806603773584906,
      "loss": 0.5398,
      "num_input_tokens_seen": 1955376,
      "step": 2980
    },
    {
      "epoch": 1.5644654088050314,
      "grad_norm": 0.07805725932121277,
      "learning_rate": 0.0007819706498951781,
      "loss": 0.4955,
      "num_input_tokens_seen": 1959120,
      "step": 2985
    },
    {
      "epoch": 1.5670859538784065,
      "grad_norm": 0.0681525468826294,
      "learning_rate": 0.0007832809224318658,
      "loss": 0.3908,
      "num_input_tokens_seen": 1964304,
      "step": 2990
    },
    {
      "epoch": 1.569706498951782,
      "grad_norm": 0.16590888798236847,
      "learning_rate": 0.0007845911949685535,
      "loss": 0.6133,
      "num_input_tokens_seen": 1966832,
      "step": 2995
    },
    {
      "epoch": 1.5723270440251573,
      "grad_norm": 0.11341973394155502,
      "learning_rate": 0.0007859014675052411,
      "loss": 0.5712,
      "num_input_tokens_seen": 1970224,
      "step": 3000
    },
    {
      "epoch": 1.5749475890985325,
      "grad_norm": 0.06664058566093445,
      "learning_rate": 0.0007872117400419288,
      "loss": 0.4948,
      "num_input_tokens_seen": 1974288,
      "step": 3005
    },
    {
      "epoch": 1.5775681341719077,
      "grad_norm": 0.09542667865753174,
      "learning_rate": 0.0007885220125786164,
      "loss": 0.4269,
      "num_input_tokens_seen": 1978064,
      "step": 3010
    },
    {
      "epoch": 1.580188679245283,
      "grad_norm": 0.27082905173301697,
      "learning_rate": 0.0007898322851153041,
      "loss": 0.5144,
      "num_input_tokens_seen": 1981744,
      "step": 3015
    },
    {
      "epoch": 1.5828092243186582,
      "grad_norm": 0.19666451215744019,
      "learning_rate": 0.0007911425576519916,
      "loss": 0.5099,
      "num_input_tokens_seen": 1984016,
      "step": 3020
    },
    {
      "epoch": 1.5854297693920336,
      "grad_norm": 0.12580955028533936,
      "learning_rate": 0.0007924528301886793,
      "loss": 0.3692,
      "num_input_tokens_seen": 1987056,
      "step": 3025
    },
    {
      "epoch": 1.5880503144654088,
      "grad_norm": 0.09045146405696869,
      "learning_rate": 0.0007937631027253669,
      "loss": 0.5357,
      "num_input_tokens_seen": 1992048,
      "step": 3030
    },
    {
      "epoch": 1.590670859538784,
      "grad_norm": 0.08434644341468811,
      "learning_rate": 0.0007950733752620545,
      "loss": 0.6331,
      "num_input_tokens_seen": 1995472,
      "step": 3035
    },
    {
      "epoch": 1.5932914046121593,
      "grad_norm": 0.08571337163448334,
      "learning_rate": 0.0007963836477987422,
      "loss": 0.3933,
      "num_input_tokens_seen": 1999152,
      "step": 3040
    },
    {
      "epoch": 1.5959119496855347,
      "grad_norm": 0.10565567761659622,
      "learning_rate": 0.0007976939203354298,
      "loss": 0.5243,
      "num_input_tokens_seen": 2001744,
      "step": 3045
    },
    {
      "epoch": 1.59853249475891,
      "grad_norm": 0.10159152746200562,
      "learning_rate": 0.0007990041928721174,
      "loss": 0.5982,
      "num_input_tokens_seen": 2004848,
      "step": 3050
    },
    {
      "epoch": 1.601153039832285,
      "grad_norm": 0.15577000379562378,
      "learning_rate": 0.000800314465408805,
      "loss": 0.5283,
      "num_input_tokens_seen": 2007920,
      "step": 3055
    },
    {
      "epoch": 1.6037735849056602,
      "grad_norm": 0.12959712743759155,
      "learning_rate": 0.0008016247379454927,
      "loss": 0.4644,
      "num_input_tokens_seen": 2011152,
      "step": 3060
    },
    {
      "epoch": 1.6063941299790356,
      "grad_norm": 0.17489495873451233,
      "learning_rate": 0.0008029350104821803,
      "loss": 0.5963,
      "num_input_tokens_seen": 2013968,
      "step": 3065
    },
    {
      "epoch": 1.609014675052411,
      "grad_norm": 0.2897011339664459,
      "learning_rate": 0.0008042452830188679,
      "loss": 0.5225,
      "num_input_tokens_seen": 2017936,
      "step": 3070
    },
    {
      "epoch": 1.6116352201257862,
      "grad_norm": 0.06907495856285095,
      "learning_rate": 0.0008055555555555556,
      "loss": 0.438,
      "num_input_tokens_seen": 2020528,
      "step": 3075
    },
    {
      "epoch": 1.6142557651991614,
      "grad_norm": 0.16467328369617462,
      "learning_rate": 0.0008068658280922431,
      "loss": 0.6447,
      "num_input_tokens_seen": 2023792,
      "step": 3080
    },
    {
      "epoch": 1.6168763102725365,
      "grad_norm": 0.10210806131362915,
      "learning_rate": 0.0008081761006289308,
      "loss": 0.5247,
      "num_input_tokens_seen": 2027152,
      "step": 3085
    },
    {
      "epoch": 1.619496855345912,
      "grad_norm": 0.13263294100761414,
      "learning_rate": 0.0008094863731656184,
      "loss": 0.3781,
      "num_input_tokens_seen": 2029968,
      "step": 3090
    },
    {
      "epoch": 1.6221174004192873,
      "grad_norm": 0.14738576114177704,
      "learning_rate": 0.0008107966457023061,
      "loss": 0.4488,
      "num_input_tokens_seen": 2033488,
      "step": 3095
    },
    {
      "epoch": 1.6247379454926625,
      "grad_norm": 0.1624656766653061,
      "learning_rate": 0.0008121069182389938,
      "loss": 0.5603,
      "num_input_tokens_seen": 2037136,
      "step": 3100
    },
    {
      "epoch": 1.6273584905660377,
      "grad_norm": 0.1176791861653328,
      "learning_rate": 0.0008134171907756814,
      "loss": 0.4947,
      "num_input_tokens_seen": 2039888,
      "step": 3105
    },
    {
      "epoch": 1.629979035639413,
      "grad_norm": 0.13623274862766266,
      "learning_rate": 0.0008147274633123691,
      "loss": 0.664,
      "num_input_tokens_seen": 2043024,
      "step": 3110
    },
    {
      "epoch": 1.6325995807127882,
      "grad_norm": 0.12239235639572144,
      "learning_rate": 0.0008160377358490566,
      "loss": 0.3859,
      "num_input_tokens_seen": 2047056,
      "step": 3115
    },
    {
      "epoch": 1.6352201257861636,
      "grad_norm": 0.18562552332878113,
      "learning_rate": 0.0008173480083857443,
      "loss": 0.5519,
      "num_input_tokens_seen": 2050000,
      "step": 3120
    },
    {
      "epoch": 1.6378406708595388,
      "grad_norm": 0.08557688444852829,
      "learning_rate": 0.0008186582809224319,
      "loss": 0.492,
      "num_input_tokens_seen": 2054032,
      "step": 3125
    },
    {
      "epoch": 1.640461215932914,
      "grad_norm": 0.1370205283164978,
      "learning_rate": 0.0008199685534591195,
      "loss": 0.4987,
      "num_input_tokens_seen": 2057072,
      "step": 3130
    },
    {
      "epoch": 1.6430817610062893,
      "grad_norm": 0.07773172110319138,
      "learning_rate": 0.0008212788259958072,
      "loss": 0.4609,
      "num_input_tokens_seen": 2060656,
      "step": 3135
    },
    {
      "epoch": 1.6457023060796647,
      "grad_norm": 0.23247678577899933,
      "learning_rate": 0.0008225890985324948,
      "loss": 0.5304,
      "num_input_tokens_seen": 2063568,
      "step": 3140
    },
    {
      "epoch": 1.64832285115304,
      "grad_norm": 0.13963063061237335,
      "learning_rate": 0.0008238993710691824,
      "loss": 0.4136,
      "num_input_tokens_seen": 2066960,
      "step": 3145
    },
    {
      "epoch": 1.650943396226415,
      "grad_norm": 0.11192473769187927,
      "learning_rate": 0.00082520964360587,
      "loss": 0.4914,
      "num_input_tokens_seen": 2070096,
      "step": 3150
    },
    {
      "epoch": 1.6535639412997902,
      "grad_norm": 0.0706571713089943,
      "learning_rate": 0.0008265199161425576,
      "loss": 0.4946,
      "num_input_tokens_seen": 2073072,
      "step": 3155
    },
    {
      "epoch": 1.6561844863731656,
      "grad_norm": 0.0842180922627449,
      "learning_rate": 0.0008278301886792453,
      "loss": 0.4487,
      "num_input_tokens_seen": 2075632,
      "step": 3160
    },
    {
      "epoch": 1.658805031446541,
      "grad_norm": 0.19465883076190948,
      "learning_rate": 0.0008291404612159329,
      "loss": 0.4232,
      "num_input_tokens_seen": 2079024,
      "step": 3165
    },
    {
      "epoch": 1.6614255765199162,
      "grad_norm": 0.08336740732192993,
      "learning_rate": 0.0008304507337526206,
      "loss": 0.6285,
      "num_input_tokens_seen": 2081744,
      "step": 3170
    },
    {
      "epoch": 1.6640461215932913,
      "grad_norm": 0.06192541867494583,
      "learning_rate": 0.0008317610062893081,
      "loss": 0.5323,
      "num_input_tokens_seen": 2084784,
      "step": 3175
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.10224351286888123,
      "learning_rate": 0.0008330712788259958,
      "loss": 0.429,
      "num_input_tokens_seen": 2087984,
      "step": 3180
    },
    {
      "epoch": 1.669287211740042,
      "grad_norm": 0.06900899112224579,
      "learning_rate": 0.0008343815513626834,
      "loss": 0.4707,
      "num_input_tokens_seen": 2091344,
      "step": 3185
    },
    {
      "epoch": 1.6719077568134173,
      "grad_norm": 0.06053796783089638,
      "learning_rate": 0.000835691823899371,
      "loss": 0.4224,
      "num_input_tokens_seen": 2095312,
      "step": 3190
    },
    {
      "epoch": 1.6745283018867925,
      "grad_norm": 0.0794854536652565,
      "learning_rate": 0.0008370020964360588,
      "loss": 0.4016,
      "num_input_tokens_seen": 2098832,
      "step": 3195
    },
    {
      "epoch": 1.6771488469601676,
      "grad_norm": 0.15374122560024261,
      "learning_rate": 0.0008383123689727464,
      "loss": 0.5872,
      "num_input_tokens_seen": 2101168,
      "step": 3200
    },
    {
      "epoch": 1.679769392033543,
      "grad_norm": 0.1283726692199707,
      "learning_rate": 0.000839622641509434,
      "loss": 0.6939,
      "num_input_tokens_seen": 2104816,
      "step": 3205
    },
    {
      "epoch": 1.6823899371069182,
      "grad_norm": 0.12972426414489746,
      "learning_rate": 0.0008409329140461216,
      "loss": 0.491,
      "num_input_tokens_seen": 2107728,
      "step": 3210
    },
    {
      "epoch": 1.6850104821802936,
      "grad_norm": 0.29720595479011536,
      "learning_rate": 0.0008422431865828093,
      "loss": 0.695,
      "num_input_tokens_seen": 2110992,
      "step": 3215
    },
    {
      "epoch": 1.6876310272536688,
      "grad_norm": 0.1432131975889206,
      "learning_rate": 0.0008435534591194969,
      "loss": 0.4574,
      "num_input_tokens_seen": 2113840,
      "step": 3220
    },
    {
      "epoch": 1.690251572327044,
      "grad_norm": 0.10791175067424774,
      "learning_rate": 0.0008448637316561845,
      "loss": 0.4899,
      "num_input_tokens_seen": 2116784,
      "step": 3225
    },
    {
      "epoch": 1.6928721174004193,
      "grad_norm": 0.07682786136865616,
      "learning_rate": 0.0008461740041928722,
      "loss": 0.6525,
      "num_input_tokens_seen": 2119696,
      "step": 3230
    },
    {
      "epoch": 1.6954926624737947,
      "grad_norm": 0.10266665369272232,
      "learning_rate": 0.0008474842767295598,
      "loss": 0.5479,
      "num_input_tokens_seen": 2122608,
      "step": 3235
    },
    {
      "epoch": 1.6981132075471699,
      "grad_norm": 0.10622585564851761,
      "learning_rate": 0.0008487945492662474,
      "loss": 0.462,
      "num_input_tokens_seen": 2125808,
      "step": 3240
    },
    {
      "epoch": 1.700733752620545,
      "grad_norm": 0.09507676213979721,
      "learning_rate": 0.000850104821802935,
      "loss": 0.4168,
      "num_input_tokens_seen": 2129584,
      "step": 3245
    },
    {
      "epoch": 1.7033542976939202,
      "grad_norm": 0.1418043076992035,
      "learning_rate": 0.0008514150943396226,
      "loss": 0.4644,
      "num_input_tokens_seen": 2132208,
      "step": 3250
    },
    {
      "epoch": 1.7059748427672956,
      "grad_norm": 0.08296779543161392,
      "learning_rate": 0.0008527253668763103,
      "loss": 0.4474,
      "num_input_tokens_seen": 2135632,
      "step": 3255
    },
    {
      "epoch": 1.708595387840671,
      "grad_norm": 0.16098085045814514,
      "learning_rate": 0.0008540356394129979,
      "loss": 0.6977,
      "num_input_tokens_seen": 2139760,
      "step": 3260
    },
    {
      "epoch": 1.7112159329140462,
      "grad_norm": 0.13052970170974731,
      "learning_rate": 0.0008553459119496856,
      "loss": 0.4863,
      "num_input_tokens_seen": 2143280,
      "step": 3265
    },
    {
      "epoch": 1.7138364779874213,
      "grad_norm": 0.08891309052705765,
      "learning_rate": 0.0008566561844863731,
      "loss": 0.4365,
      "num_input_tokens_seen": 2145648,
      "step": 3270
    },
    {
      "epoch": 1.7164570230607965,
      "grad_norm": 0.10494188219308853,
      "learning_rate": 0.0008579664570230608,
      "loss": 0.4715,
      "num_input_tokens_seen": 2149040,
      "step": 3275
    },
    {
      "epoch": 1.719077568134172,
      "grad_norm": 0.08291462808847427,
      "learning_rate": 0.0008592767295597484,
      "loss": 0.5355,
      "num_input_tokens_seen": 2151792,
      "step": 3280
    },
    {
      "epoch": 1.7216981132075473,
      "grad_norm": 0.11694904416799545,
      "learning_rate": 0.000860587002096436,
      "loss": 0.4646,
      "num_input_tokens_seen": 2155600,
      "step": 3285
    },
    {
      "epoch": 1.7243186582809225,
      "grad_norm": 0.0882720947265625,
      "learning_rate": 0.0008618972746331238,
      "loss": 0.4129,
      "num_input_tokens_seen": 2159088,
      "step": 3290
    },
    {
      "epoch": 1.7269392033542976,
      "grad_norm": 0.1440117508172989,
      "learning_rate": 0.0008632075471698114,
      "loss": 0.3797,
      "num_input_tokens_seen": 2162800,
      "step": 3295
    },
    {
      "epoch": 1.7295597484276728,
      "grad_norm": 0.1434842050075531,
      "learning_rate": 0.000864517819706499,
      "loss": 0.5513,
      "num_input_tokens_seen": 2165872,
      "step": 3300
    },
    {
      "epoch": 1.7321802935010482,
      "grad_norm": 0.0887598991394043,
      "learning_rate": 0.0008658280922431866,
      "loss": 0.5642,
      "num_input_tokens_seen": 2169456,
      "step": 3305
    },
    {
      "epoch": 1.7348008385744236,
      "grad_norm": 0.10903957486152649,
      "learning_rate": 0.0008671383647798742,
      "loss": 0.4853,
      "num_input_tokens_seen": 2172368,
      "step": 3310
    },
    {
      "epoch": 1.7374213836477987,
      "grad_norm": 0.06751784682273865,
      "learning_rate": 0.0008684486373165619,
      "loss": 0.5933,
      "num_input_tokens_seen": 2175504,
      "step": 3315
    },
    {
      "epoch": 1.740041928721174,
      "grad_norm": 0.10454393923282623,
      "learning_rate": 0.0008697589098532495,
      "loss": 0.5062,
      "num_input_tokens_seen": 2179440,
      "step": 3320
    },
    {
      "epoch": 1.7426624737945493,
      "grad_norm": 0.12740550935268402,
      "learning_rate": 0.0008710691823899372,
      "loss": 0.5945,
      "num_input_tokens_seen": 2181904,
      "step": 3325
    },
    {
      "epoch": 1.7452830188679245,
      "grad_norm": 0.1036904975771904,
      "learning_rate": 0.0008723794549266247,
      "loss": 0.4093,
      "num_input_tokens_seen": 2184816,
      "step": 3330
    },
    {
      "epoch": 1.7479035639412999,
      "grad_norm": 0.13866734504699707,
      "learning_rate": 0.0008736897274633124,
      "loss": 0.5863,
      "num_input_tokens_seen": 2187920,
      "step": 3335
    },
    {
      "epoch": 1.750524109014675,
      "grad_norm": 0.05189625918865204,
      "learning_rate": 0.000875,
      "loss": 0.5087,
      "num_input_tokens_seen": 2191216,
      "step": 3340
    },
    {
      "epoch": 1.7531446540880502,
      "grad_norm": 0.13164620101451874,
      "learning_rate": 0.0008763102725366876,
      "loss": 0.4339,
      "num_input_tokens_seen": 2193744,
      "step": 3345
    },
    {
      "epoch": 1.7557651991614256,
      "grad_norm": 0.10387524962425232,
      "learning_rate": 0.0008776205450733753,
      "loss": 0.4537,
      "num_input_tokens_seen": 2196368,
      "step": 3350
    },
    {
      "epoch": 1.758385744234801,
      "grad_norm": 0.08191710710525513,
      "learning_rate": 0.0008789308176100629,
      "loss": 0.3718,
      "num_input_tokens_seen": 2199632,
      "step": 3355
    },
    {
      "epoch": 1.7610062893081762,
      "grad_norm": 0.08327092975378036,
      "learning_rate": 0.0008802410901467506,
      "loss": 0.5034,
      "num_input_tokens_seen": 2202704,
      "step": 3360
    },
    {
      "epoch": 1.7636268343815513,
      "grad_norm": 0.11045286059379578,
      "learning_rate": 0.0008815513626834381,
      "loss": 0.6622,
      "num_input_tokens_seen": 2205616,
      "step": 3365
    },
    {
      "epoch": 1.7662473794549265,
      "grad_norm": 0.06267033517360687,
      "learning_rate": 0.0008828616352201258,
      "loss": 0.4355,
      "num_input_tokens_seen": 2209008,
      "step": 3370
    },
    {
      "epoch": 1.7688679245283019,
      "grad_norm": 0.10547378659248352,
      "learning_rate": 0.0008841719077568134,
      "loss": 0.4295,
      "num_input_tokens_seen": 2211824,
      "step": 3375
    },
    {
      "epoch": 1.7714884696016773,
      "grad_norm": 0.08074560016393661,
      "learning_rate": 0.000885482180293501,
      "loss": 0.471,
      "num_input_tokens_seen": 2215632,
      "step": 3380
    },
    {
      "epoch": 1.7741090146750524,
      "grad_norm": 0.10331319272518158,
      "learning_rate": 0.0008867924528301887,
      "loss": 0.446,
      "num_input_tokens_seen": 2218512,
      "step": 3385
    },
    {
      "epoch": 1.7767295597484276,
      "grad_norm": 0.06002737581729889,
      "learning_rate": 0.0008881027253668763,
      "loss": 0.3981,
      "num_input_tokens_seen": 2221776,
      "step": 3390
    },
    {
      "epoch": 1.7793501048218028,
      "grad_norm": 0.06588475406169891,
      "learning_rate": 0.000889412997903564,
      "loss": 0.4198,
      "num_input_tokens_seen": 2224784,
      "step": 3395
    },
    {
      "epoch": 1.7819706498951782,
      "grad_norm": 0.1685432493686676,
      "learning_rate": 0.0008907232704402516,
      "loss": 0.4947,
      "num_input_tokens_seen": 2227408,
      "step": 3400
    },
    {
      "epoch": 1.7845911949685536,
      "grad_norm": 0.12064092606306076,
      "learning_rate": 0.0008920335429769392,
      "loss": 0.4609,
      "num_input_tokens_seen": 2230064,
      "step": 3405
    },
    {
      "epoch": 1.7872117400419287,
      "grad_norm": 0.08119287341833115,
      "learning_rate": 0.0008933438155136269,
      "loss": 0.3693,
      "num_input_tokens_seen": 2234288,
      "step": 3410
    },
    {
      "epoch": 1.789832285115304,
      "grad_norm": 0.05500185489654541,
      "learning_rate": 0.0008946540880503145,
      "loss": 0.3877,
      "num_input_tokens_seen": 2237072,
      "step": 3415
    },
    {
      "epoch": 1.7924528301886793,
      "grad_norm": 0.06616494059562683,
      "learning_rate": 0.0008959643605870022,
      "loss": 0.3657,
      "num_input_tokens_seen": 2240016,
      "step": 3420
    },
    {
      "epoch": 1.7950733752620545,
      "grad_norm": 0.07318218052387238,
      "learning_rate": 0.0008972746331236897,
      "loss": 0.4543,
      "num_input_tokens_seen": 2242800,
      "step": 3425
    },
    {
      "epoch": 1.7976939203354299,
      "grad_norm": 0.10355672240257263,
      "learning_rate": 0.0008985849056603774,
      "loss": 0.4942,
      "num_input_tokens_seen": 2245680,
      "step": 3430
    },
    {
      "epoch": 1.800314465408805,
      "grad_norm": 0.0936349630355835,
      "learning_rate": 0.000899895178197065,
      "loss": 0.5249,
      "num_input_tokens_seen": 2248272,
      "step": 3435
    },
    {
      "epoch": 1.8029350104821802,
      "grad_norm": 0.1566527783870697,
      "learning_rate": 0.0009012054507337526,
      "loss": 0.3322,
      "num_input_tokens_seen": 2251376,
      "step": 3440
    },
    {
      "epoch": 1.8055555555555556,
      "grad_norm": 0.23799937963485718,
      "learning_rate": 0.0009025157232704403,
      "loss": 0.5488,
      "num_input_tokens_seen": 2254256,
      "step": 3445
    },
    {
      "epoch": 1.808176100628931,
      "grad_norm": 0.1600794792175293,
      "learning_rate": 0.0009038259958071279,
      "loss": 0.569,
      "num_input_tokens_seen": 2257104,
      "step": 3450
    },
    {
      "epoch": 1.8107966457023061,
      "grad_norm": 0.09525202959775925,
      "learning_rate": 0.0009051362683438156,
      "loss": 0.5288,
      "num_input_tokens_seen": 2259920,
      "step": 3455
    },
    {
      "epoch": 1.8134171907756813,
      "grad_norm": 0.06873496621847153,
      "learning_rate": 0.0009064465408805031,
      "loss": 0.3944,
      "num_input_tokens_seen": 2262736,
      "step": 3460
    },
    {
      "epoch": 1.8160377358490565,
      "grad_norm": 0.050034333020448685,
      "learning_rate": 0.0009077568134171907,
      "loss": 0.4461,
      "num_input_tokens_seen": 2266864,
      "step": 3465
    },
    {
      "epoch": 1.8186582809224319,
      "grad_norm": 0.1628057062625885,
      "learning_rate": 0.0009090670859538784,
      "loss": 0.6787,
      "num_input_tokens_seen": 2269584,
      "step": 3470
    },
    {
      "epoch": 1.8212788259958073,
      "grad_norm": 0.06148760765790939,
      "learning_rate": 0.000910377358490566,
      "loss": 0.4477,
      "num_input_tokens_seen": 2272720,
      "step": 3475
    },
    {
      "epoch": 1.8238993710691824,
      "grad_norm": 0.07078076899051666,
      "learning_rate": 0.0009116876310272537,
      "loss": 0.5706,
      "num_input_tokens_seen": 2276880,
      "step": 3480
    },
    {
      "epoch": 1.8265199161425576,
      "grad_norm": 0.39666399359703064,
      "learning_rate": 0.0009129979035639413,
      "loss": 0.4552,
      "num_input_tokens_seen": 2280016,
      "step": 3485
    },
    {
      "epoch": 1.8291404612159328,
      "grad_norm": 0.08194748312234879,
      "learning_rate": 0.000914308176100629,
      "loss": 0.4556,
      "num_input_tokens_seen": 2282640,
      "step": 3490
    },
    {
      "epoch": 1.8317610062893082,
      "grad_norm": 0.0887717455625534,
      "learning_rate": 0.0009156184486373166,
      "loss": 0.4248,
      "num_input_tokens_seen": 2286032,
      "step": 3495
    },
    {
      "epoch": 1.8343815513626835,
      "grad_norm": 0.09484518319368362,
      "learning_rate": 0.0009169287211740042,
      "loss": 0.5443,
      "num_input_tokens_seen": 2289136,
      "step": 3500
    },
    {
      "epoch": 1.8370020964360587,
      "grad_norm": 0.10731466114521027,
      "learning_rate": 0.0009182389937106919,
      "loss": 0.3916,
      "num_input_tokens_seen": 2292944,
      "step": 3505
    },
    {
      "epoch": 1.8396226415094339,
      "grad_norm": 0.11272712051868439,
      "learning_rate": 0.0009195492662473795,
      "loss": 0.4752,
      "num_input_tokens_seen": 2296240,
      "step": 3510
    },
    {
      "epoch": 1.8422431865828093,
      "grad_norm": 0.13928627967834473,
      "learning_rate": 0.0009208595387840672,
      "loss": 0.465,
      "num_input_tokens_seen": 2299088,
      "step": 3515
    },
    {
      "epoch": 1.8448637316561844,
      "grad_norm": 0.11732949316501617,
      "learning_rate": 0.0009221698113207547,
      "loss": 0.5048,
      "num_input_tokens_seen": 2302736,
      "step": 3520
    },
    {
      "epoch": 1.8474842767295598,
      "grad_norm": 0.05353361740708351,
      "learning_rate": 0.0009234800838574424,
      "loss": 0.5624,
      "num_input_tokens_seen": 2306640,
      "step": 3525
    },
    {
      "epoch": 1.850104821802935,
      "grad_norm": 0.08871431648731232,
      "learning_rate": 0.00092479035639413,
      "loss": 0.5413,
      "num_input_tokens_seen": 2309840,
      "step": 3530
    },
    {
      "epoch": 1.8527253668763102,
      "grad_norm": 0.18775326013565063,
      "learning_rate": 0.0009261006289308176,
      "loss": 0.4976,
      "num_input_tokens_seen": 2312208,
      "step": 3535
    },
    {
      "epoch": 1.8553459119496856,
      "grad_norm": 0.2786121666431427,
      "learning_rate": 0.0009274109014675053,
      "loss": 0.6083,
      "num_input_tokens_seen": 2315088,
      "step": 3540
    },
    {
      "epoch": 1.857966457023061,
      "grad_norm": 0.20792073011398315,
      "learning_rate": 0.0009287211740041929,
      "loss": 0.5126,
      "num_input_tokens_seen": 2318224,
      "step": 3545
    },
    {
      "epoch": 1.8605870020964361,
      "grad_norm": 0.044173672795295715,
      "learning_rate": 0.0009300314465408806,
      "loss": 0.4087,
      "num_input_tokens_seen": 2322800,
      "step": 3550
    },
    {
      "epoch": 1.8632075471698113,
      "grad_norm": 0.15407386422157288,
      "learning_rate": 0.0009313417190775681,
      "loss": 0.3407,
      "num_input_tokens_seen": 2329008,
      "step": 3555
    },
    {
      "epoch": 1.8658280922431865,
      "grad_norm": 0.13163195550441742,
      "learning_rate": 0.0009326519916142557,
      "loss": 0.6424,
      "num_input_tokens_seen": 2331344,
      "step": 3560
    },
    {
      "epoch": 1.8684486373165619,
      "grad_norm": 0.09108540415763855,
      "learning_rate": 0.0009339622641509434,
      "loss": 0.4762,
      "num_input_tokens_seen": 2334352,
      "step": 3565
    },
    {
      "epoch": 1.8710691823899372,
      "grad_norm": 0.06272780150175095,
      "learning_rate": 0.000935272536687631,
      "loss": 0.5648,
      "num_input_tokens_seen": 2338512,
      "step": 3570
    },
    {
      "epoch": 1.8736897274633124,
      "grad_norm": 0.06770816445350647,
      "learning_rate": 0.0009365828092243187,
      "loss": 0.573,
      "num_input_tokens_seen": 2342224,
      "step": 3575
    },
    {
      "epoch": 1.8763102725366876,
      "grad_norm": 0.2318352609872818,
      "learning_rate": 0.0009378930817610063,
      "loss": 0.4674,
      "num_input_tokens_seen": 2345808,
      "step": 3580
    },
    {
      "epoch": 1.8789308176100628,
      "grad_norm": 0.07032423466444016,
      "learning_rate": 0.0009392033542976939,
      "loss": 0.5252,
      "num_input_tokens_seen": 2348560,
      "step": 3585
    },
    {
      "epoch": 1.8815513626834381,
      "grad_norm": 0.08511608093976974,
      "learning_rate": 0.0009405136268343816,
      "loss": 0.38,
      "num_input_tokens_seen": 2351824,
      "step": 3590
    },
    {
      "epoch": 1.8841719077568135,
      "grad_norm": 0.1123364120721817,
      "learning_rate": 0.0009418238993710692,
      "loss": 0.3938,
      "num_input_tokens_seen": 2355696,
      "step": 3595
    },
    {
      "epoch": 1.8867924528301887,
      "grad_norm": 0.09034717828035355,
      "learning_rate": 0.0009431341719077569,
      "loss": 0.4243,
      "num_input_tokens_seen": 2358352,
      "step": 3600
    },
    {
      "epoch": 1.8894129979035639,
      "grad_norm": 0.054168034344911575,
      "learning_rate": 0.0009444444444444445,
      "loss": 0.4122,
      "num_input_tokens_seen": 2361776,
      "step": 3605
    },
    {
      "epoch": 1.892033542976939,
      "grad_norm": 0.087617427110672,
      "learning_rate": 0.0009457547169811322,
      "loss": 0.5531,
      "num_input_tokens_seen": 2365264,
      "step": 3610
    },
    {
      "epoch": 1.8946540880503144,
      "grad_norm": 0.09982077777385712,
      "learning_rate": 0.0009470649895178197,
      "loss": 0.6903,
      "num_input_tokens_seen": 2368080,
      "step": 3615
    },
    {
      "epoch": 1.8972746331236898,
      "grad_norm": 0.06838022917509079,
      "learning_rate": 0.0009483752620545073,
      "loss": 0.5008,
      "num_input_tokens_seen": 2371696,
      "step": 3620
    },
    {
      "epoch": 1.899895178197065,
      "grad_norm": 0.09867564588785172,
      "learning_rate": 0.000949685534591195,
      "loss": 0.4694,
      "num_input_tokens_seen": 2374160,
      "step": 3625
    },
    {
      "epoch": 1.9025157232704402,
      "grad_norm": 0.1223255842924118,
      "learning_rate": 0.0009509958071278826,
      "loss": 0.4105,
      "num_input_tokens_seen": 2376656,
      "step": 3630
    },
    {
      "epoch": 1.9051362683438156,
      "grad_norm": 0.08092232793569565,
      "learning_rate": 0.0009523060796645703,
      "loss": 0.4678,
      "num_input_tokens_seen": 2379856,
      "step": 3635
    },
    {
      "epoch": 1.9077568134171907,
      "grad_norm": 0.060325223952531815,
      "learning_rate": 0.0009536163522012579,
      "loss": 0.5613,
      "num_input_tokens_seen": 2382736,
      "step": 3640
    },
    {
      "epoch": 1.9103773584905661,
      "grad_norm": 0.10558436065912247,
      "learning_rate": 0.0009549266247379456,
      "loss": 0.4588,
      "num_input_tokens_seen": 2386672,
      "step": 3645
    },
    {
      "epoch": 1.9129979035639413,
      "grad_norm": 0.13577187061309814,
      "learning_rate": 0.0009562368972746331,
      "loss": 0.4038,
      "num_input_tokens_seen": 2389296,
      "step": 3650
    },
    {
      "epoch": 1.9156184486373165,
      "grad_norm": 0.09777159243822098,
      "learning_rate": 0.0009575471698113207,
      "loss": 0.5683,
      "num_input_tokens_seen": 2392080,
      "step": 3655
    },
    {
      "epoch": 1.9182389937106918,
      "grad_norm": 0.05301002785563469,
      "learning_rate": 0.0009588574423480084,
      "loss": 0.4023,
      "num_input_tokens_seen": 2395952,
      "step": 3660
    },
    {
      "epoch": 1.9208595387840672,
      "grad_norm": 0.06282627582550049,
      "learning_rate": 0.000960167714884696,
      "loss": 0.4244,
      "num_input_tokens_seen": 2398512,
      "step": 3665
    },
    {
      "epoch": 1.9234800838574424,
      "grad_norm": 0.06353446841239929,
      "learning_rate": 0.0009614779874213837,
      "loss": 0.5437,
      "num_input_tokens_seen": 2401904,
      "step": 3670
    },
    {
      "epoch": 1.9261006289308176,
      "grad_norm": 0.057982489466667175,
      "learning_rate": 0.0009627882599580712,
      "loss": 0.5161,
      "num_input_tokens_seen": 2405584,
      "step": 3675
    },
    {
      "epoch": 1.9287211740041927,
      "grad_norm": 0.05510927364230156,
      "learning_rate": 0.0009640985324947589,
      "loss": 0.5731,
      "num_input_tokens_seen": 2409712,
      "step": 3680
    },
    {
      "epoch": 1.9313417190775681,
      "grad_norm": 0.15754356980323792,
      "learning_rate": 0.0009654088050314465,
      "loss": 0.6331,
      "num_input_tokens_seen": 2412240,
      "step": 3685
    },
    {
      "epoch": 1.9339622641509435,
      "grad_norm": 0.0880756825208664,
      "learning_rate": 0.0009667190775681342,
      "loss": 0.4228,
      "num_input_tokens_seen": 2415056,
      "step": 3690
    },
    {
      "epoch": 1.9365828092243187,
      "grad_norm": 0.10950914025306702,
      "learning_rate": 0.0009680293501048219,
      "loss": 0.4598,
      "num_input_tokens_seen": 2419184,
      "step": 3695
    },
    {
      "epoch": 1.9392033542976939,
      "grad_norm": 0.1361812800168991,
      "learning_rate": 0.0009693396226415095,
      "loss": 0.5406,
      "num_input_tokens_seen": 2422512,
      "step": 3700
    },
    {
      "epoch": 1.941823899371069,
      "grad_norm": 0.15233276784420013,
      "learning_rate": 0.0009706498951781972,
      "loss": 0.4755,
      "num_input_tokens_seen": 2425936,
      "step": 3705
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 0.1702793836593628,
      "learning_rate": 0.0009719601677148847,
      "loss": 0.6182,
      "num_input_tokens_seen": 2428944,
      "step": 3710
    },
    {
      "epoch": 1.9470649895178198,
      "grad_norm": 0.08178053051233292,
      "learning_rate": 0.0009732704402515723,
      "loss": 0.3933,
      "num_input_tokens_seen": 2432080,
      "step": 3715
    },
    {
      "epoch": 1.949685534591195,
      "grad_norm": 0.08823682367801666,
      "learning_rate": 0.00097458071278826,
      "loss": 0.4401,
      "num_input_tokens_seen": 2434864,
      "step": 3720
    },
    {
      "epoch": 1.9523060796645701,
      "grad_norm": 0.12323993444442749,
      "learning_rate": 0.0009758909853249476,
      "loss": 0.4415,
      "num_input_tokens_seen": 2437104,
      "step": 3725
    },
    {
      "epoch": 1.9549266247379455,
      "grad_norm": 0.13969863951206207,
      "learning_rate": 0.0009772012578616353,
      "loss": 0.666,
      "num_input_tokens_seen": 2439792,
      "step": 3730
    },
    {
      "epoch": 1.9575471698113207,
      "grad_norm": 0.05843783915042877,
      "learning_rate": 0.0009785115303983228,
      "loss": 0.6213,
      "num_input_tokens_seen": 2442320,
      "step": 3735
    },
    {
      "epoch": 1.960167714884696,
      "grad_norm": 0.08013015240430832,
      "learning_rate": 0.0009798218029350107,
      "loss": 0.4197,
      "num_input_tokens_seen": 2445136,
      "step": 3740
    },
    {
      "epoch": 1.9627882599580713,
      "grad_norm": 0.08608205616474152,
      "learning_rate": 0.0009811320754716981,
      "loss": 0.4598,
      "num_input_tokens_seen": 2448080,
      "step": 3745
    },
    {
      "epoch": 1.9654088050314464,
      "grad_norm": 0.08915556967258453,
      "learning_rate": 0.0009824423480083858,
      "loss": 0.5234,
      "num_input_tokens_seen": 2451376,
      "step": 3750
    },
    {
      "epoch": 1.9680293501048218,
      "grad_norm": 0.08044935017824173,
      "learning_rate": 0.0009837526205450735,
      "loss": 0.5686,
      "num_input_tokens_seen": 2454672,
      "step": 3755
    },
    {
      "epoch": 1.9706498951781972,
      "grad_norm": 0.12562371790409088,
      "learning_rate": 0.000985062893081761,
      "loss": 0.4267,
      "num_input_tokens_seen": 2457712,
      "step": 3760
    },
    {
      "epoch": 1.9732704402515724,
      "grad_norm": 0.09757648408412933,
      "learning_rate": 0.0009863731656184487,
      "loss": 0.4693,
      "num_input_tokens_seen": 2461936,
      "step": 3765
    },
    {
      "epoch": 1.9758909853249476,
      "grad_norm": 0.09960178285837173,
      "learning_rate": 0.0009876834381551364,
      "loss": 0.4138,
      "num_input_tokens_seen": 2465296,
      "step": 3770
    },
    {
      "epoch": 1.9785115303983227,
      "grad_norm": 0.11498268693685532,
      "learning_rate": 0.0009889937106918238,
      "loss": 0.5067,
      "num_input_tokens_seen": 2469872,
      "step": 3775
    },
    {
      "epoch": 1.9811320754716981,
      "grad_norm": 0.08475956320762634,
      "learning_rate": 0.0009903039832285115,
      "loss": 0.3728,
      "num_input_tokens_seen": 2473840,
      "step": 3780
    },
    {
      "epoch": 1.9837526205450735,
      "grad_norm": 0.07998647540807724,
      "learning_rate": 0.0009916142557651992,
      "loss": 0.4902,
      "num_input_tokens_seen": 2476944,
      "step": 3785
    },
    {
      "epoch": 1.9863731656184487,
      "grad_norm": 0.09318742901086807,
      "learning_rate": 0.000992924528301887,
      "loss": 0.4585,
      "num_input_tokens_seen": 2479792,
      "step": 3790
    },
    {
      "epoch": 1.9889937106918238,
      "grad_norm": 0.11788788437843323,
      "learning_rate": 0.0009942348008385744,
      "loss": 0.5959,
      "num_input_tokens_seen": 2484464,
      "step": 3795
    },
    {
      "epoch": 1.991614255765199,
      "grad_norm": 0.10695851594209671,
      "learning_rate": 0.000995545073375262,
      "loss": 0.4463,
      "num_input_tokens_seen": 2487312,
      "step": 3800
    },
    {
      "epoch": 1.9942348008385744,
      "grad_norm": 0.11841293424367905,
      "learning_rate": 0.0009968553459119497,
      "loss": 0.4842,
      "num_input_tokens_seen": 2490288,
      "step": 3805
    },
    {
      "epoch": 1.9968553459119498,
      "grad_norm": 0.06505894660949707,
      "learning_rate": 0.0009981656184486372,
      "loss": 0.5202,
      "num_input_tokens_seen": 2494128,
      "step": 3810
    },
    {
      "epoch": 1.999475890985325,
      "grad_norm": 0.08932686597108841,
      "learning_rate": 0.000999475890985325,
      "loss": 0.4393,
      "num_input_tokens_seen": 2496848,
      "step": 3815
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.49355605244636536,
      "eval_runtime": 13.6651,
      "eval_samples_per_second": 62.056,
      "eval_steps_per_second": 15.514,
      "num_input_tokens_seen": 2497016,
      "step": 3816
    },
    {
      "epoch": 2.0020964360587,
      "grad_norm": 0.08156279474496841,
      "learning_rate": 0.0009999999811730266,
      "loss": 0.3759,
      "num_input_tokens_seen": 2499256,
      "step": 3820
    },
    {
      "epoch": 2.0047169811320753,
      "grad_norm": 0.09656905382871628,
      "learning_rate": 0.000999999866119305,
      "loss": 0.4642,
      "num_input_tokens_seen": 2502200,
      "step": 3825
    },
    {
      "epoch": 2.007337526205451,
      "grad_norm": 0.1389462798833847,
      "learning_rate": 0.000999999646471316,
      "loss": 0.6171,
      "num_input_tokens_seen": 2505080,
      "step": 3830
    },
    {
      "epoch": 2.009958071278826,
      "grad_norm": 0.11220165342092514,
      "learning_rate": 0.0009999993222291053,
      "loss": 0.4846,
      "num_input_tokens_seen": 2508216,
      "step": 3835
    },
    {
      "epoch": 2.0125786163522013,
      "grad_norm": 0.08543826639652252,
      "learning_rate": 0.0009999988933927404,
      "loss": 0.3732,
      "num_input_tokens_seen": 2511128,
      "step": 3840
    },
    {
      "epoch": 2.0151991614255764,
      "grad_norm": 0.08949469774961472,
      "learning_rate": 0.0009999983599623115,
      "loss": 0.5113,
      "num_input_tokens_seen": 2514776,
      "step": 3845
    },
    {
      "epoch": 2.0178197064989516,
      "grad_norm": 0.13383781909942627,
      "learning_rate": 0.0009999977219379299,
      "loss": 0.6258,
      "num_input_tokens_seen": 2517528,
      "step": 3850
    },
    {
      "epoch": 2.020440251572327,
      "grad_norm": 0.0653066337108612,
      "learning_rate": 0.000999996979319729,
      "loss": 0.5343,
      "num_input_tokens_seen": 2523032,
      "step": 3855
    },
    {
      "epoch": 2.0230607966457024,
      "grad_norm": 0.07972171157598495,
      "learning_rate": 0.0009999961321078645,
      "loss": 0.4602,
      "num_input_tokens_seen": 2526200,
      "step": 3860
    },
    {
      "epoch": 2.0256813417190775,
      "grad_norm": 0.0921136736869812,
      "learning_rate": 0.0009999951803025134,
      "loss": 0.5981,
      "num_input_tokens_seen": 2532760,
      "step": 3865
    },
    {
      "epoch": 2.0283018867924527,
      "grad_norm": 0.08437266200780869,
      "learning_rate": 0.0009999941239038747,
      "loss": 0.4179,
      "num_input_tokens_seen": 2535640,
      "step": 3870
    },
    {
      "epoch": 2.030922431865828,
      "grad_norm": 0.0913420170545578,
      "learning_rate": 0.0009999929629121696,
      "loss": 0.4556,
      "num_input_tokens_seen": 2539288,
      "step": 3875
    },
    {
      "epoch": 2.0335429769392035,
      "grad_norm": 0.14077183604240417,
      "learning_rate": 0.000999991697327641,
      "loss": 0.5443,
      "num_input_tokens_seen": 2541880,
      "step": 3880
    },
    {
      "epoch": 2.0361635220125787,
      "grad_norm": 0.09577487409114838,
      "learning_rate": 0.0009999903271505535,
      "loss": 0.4674,
      "num_input_tokens_seen": 2545080,
      "step": 3885
    },
    {
      "epoch": 2.038784067085954,
      "grad_norm": 0.05597813427448273,
      "learning_rate": 0.0009999888523811935,
      "loss": 0.3678,
      "num_input_tokens_seen": 2548376,
      "step": 3890
    },
    {
      "epoch": 2.041404612159329,
      "grad_norm": 0.07889457046985626,
      "learning_rate": 0.00099998727301987,
      "loss": 0.4069,
      "num_input_tokens_seen": 2550616,
      "step": 3895
    },
    {
      "epoch": 2.0440251572327046,
      "grad_norm": 0.07663159817457199,
      "learning_rate": 0.000999985589066913,
      "loss": 0.5877,
      "num_input_tokens_seen": 2555000,
      "step": 3900
    },
    {
      "epoch": 2.04664570230608,
      "grad_norm": 0.11965993791818619,
      "learning_rate": 0.000999983800522675,
      "loss": 0.5086,
      "num_input_tokens_seen": 2558328,
      "step": 3905
    },
    {
      "epoch": 2.049266247379455,
      "grad_norm": 0.10172625631093979,
      "learning_rate": 0.00099998190738753,
      "loss": 0.5612,
      "num_input_tokens_seen": 2561592,
      "step": 3910
    },
    {
      "epoch": 2.05188679245283,
      "grad_norm": 0.06495803594589233,
      "learning_rate": 0.000999979909661874,
      "loss": 0.3428,
      "num_input_tokens_seen": 2564472,
      "step": 3915
    },
    {
      "epoch": 2.0545073375262053,
      "grad_norm": 0.16132138669490814,
      "learning_rate": 0.000999977807346125,
      "loss": 0.4557,
      "num_input_tokens_seen": 2567352,
      "step": 3920
    },
    {
      "epoch": 2.057127882599581,
      "grad_norm": 0.08345118165016174,
      "learning_rate": 0.000999975600440723,
      "loss": 0.3579,
      "num_input_tokens_seen": 2571448,
      "step": 3925
    },
    {
      "epoch": 2.059748427672956,
      "grad_norm": 0.14558428525924683,
      "learning_rate": 0.000999973288946129,
      "loss": 0.4009,
      "num_input_tokens_seen": 2574264,
      "step": 3930
    },
    {
      "epoch": 2.0623689727463312,
      "grad_norm": 0.11207766085863113,
      "learning_rate": 0.0009999708728628271,
      "loss": 0.5782,
      "num_input_tokens_seen": 2577592,
      "step": 3935
    },
    {
      "epoch": 2.0649895178197064,
      "grad_norm": 0.1296481043100357,
      "learning_rate": 0.0009999683521913227,
      "loss": 0.4968,
      "num_input_tokens_seen": 2581624,
      "step": 3940
    },
    {
      "epoch": 2.0676100628930816,
      "grad_norm": 0.101580411195755,
      "learning_rate": 0.000999965726932143,
      "loss": 0.4928,
      "num_input_tokens_seen": 2584888,
      "step": 3945
    },
    {
      "epoch": 2.070230607966457,
      "grad_norm": 0.1635597199201584,
      "learning_rate": 0.0009999629970858371,
      "loss": 0.4959,
      "num_input_tokens_seen": 2587672,
      "step": 3950
    },
    {
      "epoch": 2.0728511530398324,
      "grad_norm": 0.11609206348657608,
      "learning_rate": 0.000999960162652976,
      "loss": 0.481,
      "num_input_tokens_seen": 2590136,
      "step": 3955
    },
    {
      "epoch": 2.0754716981132075,
      "grad_norm": 0.0819934755563736,
      "learning_rate": 0.0009999572236341527,
      "loss": 0.472,
      "num_input_tokens_seen": 2593976,
      "step": 3960
    },
    {
      "epoch": 2.0780922431865827,
      "grad_norm": 0.11426091939210892,
      "learning_rate": 0.000999954180029982,
      "loss": 0.9802,
      "num_input_tokens_seen": 2597208,
      "step": 3965
    },
    {
      "epoch": 2.080712788259958,
      "grad_norm": 0.09832228720188141,
      "learning_rate": 0.0009999510318411007,
      "loss": 0.4834,
      "num_input_tokens_seen": 2600536,
      "step": 3970
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.084592305123806,
      "learning_rate": 0.0009999477790681673,
      "loss": 0.4127,
      "num_input_tokens_seen": 2603608,
      "step": 3975
    },
    {
      "epoch": 2.0859538784067087,
      "grad_norm": 0.09579456597566605,
      "learning_rate": 0.000999944421711862,
      "loss": 0.4795,
      "num_input_tokens_seen": 2607288,
      "step": 3980
    },
    {
      "epoch": 2.088574423480084,
      "grad_norm": 0.09623146057128906,
      "learning_rate": 0.0009999409597728876,
      "loss": 0.5948,
      "num_input_tokens_seen": 2610392,
      "step": 3985
    },
    {
      "epoch": 2.091194968553459,
      "grad_norm": 0.08430558443069458,
      "learning_rate": 0.0009999373932519679,
      "loss": 0.5959,
      "num_input_tokens_seen": 2613208,
      "step": 3990
    },
    {
      "epoch": 2.0938155136268346,
      "grad_norm": 0.07408448308706284,
      "learning_rate": 0.0009999337221498492,
      "loss": 0.6058,
      "num_input_tokens_seen": 2616472,
      "step": 3995
    },
    {
      "epoch": 2.0964360587002098,
      "grad_norm": 0.10135363787412643,
      "learning_rate": 0.0009999299464672996,
      "loss": 0.48,
      "num_input_tokens_seen": 2620504,
      "step": 4000
    },
    {
      "epoch": 2.099056603773585,
      "grad_norm": 0.09236128628253937,
      "learning_rate": 0.0009999260662051084,
      "loss": 0.5428,
      "num_input_tokens_seen": 2624632,
      "step": 4005
    },
    {
      "epoch": 2.10167714884696,
      "grad_norm": 0.11505784094333649,
      "learning_rate": 0.0009999220813640877,
      "loss": 0.4736,
      "num_input_tokens_seen": 2627608,
      "step": 4010
    },
    {
      "epoch": 2.1042976939203353,
      "grad_norm": 0.07107269018888474,
      "learning_rate": 0.000999917991945071,
      "loss": 0.3995,
      "num_input_tokens_seen": 2630232,
      "step": 4015
    },
    {
      "epoch": 2.106918238993711,
      "grad_norm": 0.07900368422269821,
      "learning_rate": 0.0009999137979489136,
      "loss": 0.432,
      "num_input_tokens_seen": 2633624,
      "step": 4020
    },
    {
      "epoch": 2.109538784067086,
      "grad_norm": 0.2434682846069336,
      "learning_rate": 0.000999909499376493,
      "loss": 0.5179,
      "num_input_tokens_seen": 2636280,
      "step": 4025
    },
    {
      "epoch": 2.1121593291404612,
      "grad_norm": 0.09587856382131577,
      "learning_rate": 0.0009999050962287085,
      "loss": 0.5084,
      "num_input_tokens_seen": 2640152,
      "step": 4030
    },
    {
      "epoch": 2.1147798742138364,
      "grad_norm": 0.07006372511386871,
      "learning_rate": 0.0009999005885064811,
      "loss": 0.4703,
      "num_input_tokens_seen": 2643800,
      "step": 4035
    },
    {
      "epoch": 2.1174004192872116,
      "grad_norm": 0.08238204568624496,
      "learning_rate": 0.0009998959762107537,
      "loss": 0.4587,
      "num_input_tokens_seen": 2647608,
      "step": 4040
    },
    {
      "epoch": 2.120020964360587,
      "grad_norm": 0.08722227066755295,
      "learning_rate": 0.0009998912593424914,
      "loss": 0.5563,
      "num_input_tokens_seen": 2650200,
      "step": 4045
    },
    {
      "epoch": 2.1226415094339623,
      "grad_norm": 0.10411323606967926,
      "learning_rate": 0.0009998864379026804,
      "loss": 0.6267,
      "num_input_tokens_seen": 2653784,
      "step": 4050
    },
    {
      "epoch": 2.1252620545073375,
      "grad_norm": 0.050170619040727615,
      "learning_rate": 0.00099988151189233,
      "loss": 0.5009,
      "num_input_tokens_seen": 2658104,
      "step": 4055
    },
    {
      "epoch": 2.1278825995807127,
      "grad_norm": 0.17728523910045624,
      "learning_rate": 0.00099987648131247,
      "loss": 0.438,
      "num_input_tokens_seen": 2661080,
      "step": 4060
    },
    {
      "epoch": 2.130503144654088,
      "grad_norm": 0.06830895692110062,
      "learning_rate": 0.000999871346164153,
      "loss": 0.4079,
      "num_input_tokens_seen": 2664312,
      "step": 4065
    },
    {
      "epoch": 2.1331236897274635,
      "grad_norm": 0.15090329945087433,
      "learning_rate": 0.0009998661064484532,
      "loss": 0.5347,
      "num_input_tokens_seen": 2667704,
      "step": 4070
    },
    {
      "epoch": 2.1357442348008386,
      "grad_norm": 0.08811521530151367,
      "learning_rate": 0.0009998607621664666,
      "loss": 0.4069,
      "num_input_tokens_seen": 2671160,
      "step": 4075
    },
    {
      "epoch": 2.138364779874214,
      "grad_norm": 0.05779511481523514,
      "learning_rate": 0.0009998553133193113,
      "loss": 0.527,
      "num_input_tokens_seen": 2675544,
      "step": 4080
    },
    {
      "epoch": 2.140985324947589,
      "grad_norm": 0.11198428273200989,
      "learning_rate": 0.0009998497599081272,
      "loss": 0.4791,
      "num_input_tokens_seen": 2678264,
      "step": 4085
    },
    {
      "epoch": 2.1436058700209646,
      "grad_norm": 0.10404994338750839,
      "learning_rate": 0.0009998441019340761,
      "loss": 0.4319,
      "num_input_tokens_seen": 2684120,
      "step": 4090
    },
    {
      "epoch": 2.1462264150943398,
      "grad_norm": 0.1338169276714325,
      "learning_rate": 0.000999838339398341,
      "loss": 0.6463,
      "num_input_tokens_seen": 2686872,
      "step": 4095
    },
    {
      "epoch": 2.148846960167715,
      "grad_norm": 0.08984479308128357,
      "learning_rate": 0.000999832472302128,
      "loss": 0.4313,
      "num_input_tokens_seen": 2690456,
      "step": 4100
    },
    {
      "epoch": 2.15146750524109,
      "grad_norm": 0.09538953006267548,
      "learning_rate": 0.0009998265006466642,
      "loss": 0.4844,
      "num_input_tokens_seen": 2692824,
      "step": 4105
    },
    {
      "epoch": 2.1540880503144653,
      "grad_norm": 0.08528759330511093,
      "learning_rate": 0.0009998204244331987,
      "loss": 0.5904,
      "num_input_tokens_seen": 2695704,
      "step": 4110
    },
    {
      "epoch": 2.156708595387841,
      "grad_norm": 0.061722975224256516,
      "learning_rate": 0.0009998142436630027,
      "loss": 0.4609,
      "num_input_tokens_seen": 2699480,
      "step": 4115
    },
    {
      "epoch": 2.159329140461216,
      "grad_norm": 0.0973598062992096,
      "learning_rate": 0.0009998079583373692,
      "loss": 0.5295,
      "num_input_tokens_seen": 2703960,
      "step": 4120
    },
    {
      "epoch": 2.161949685534591,
      "grad_norm": 0.0777309462428093,
      "learning_rate": 0.0009998015684576128,
      "loss": 0.4381,
      "num_input_tokens_seen": 2706552,
      "step": 4125
    },
    {
      "epoch": 2.1645702306079664,
      "grad_norm": 0.096101775765419,
      "learning_rate": 0.0009997950740250703,
      "loss": 0.5217,
      "num_input_tokens_seen": 2709368,
      "step": 4130
    },
    {
      "epoch": 2.1671907756813416,
      "grad_norm": 0.1437966525554657,
      "learning_rate": 0.0009997884750411004,
      "loss": 0.5348,
      "num_input_tokens_seen": 2712248,
      "step": 4135
    },
    {
      "epoch": 2.169811320754717,
      "grad_norm": 0.09610491991043091,
      "learning_rate": 0.0009997817715070832,
      "loss": 0.4475,
      "num_input_tokens_seen": 2715448,
      "step": 4140
    },
    {
      "epoch": 2.1724318658280923,
      "grad_norm": 0.06477605551481247,
      "learning_rate": 0.0009997749634244213,
      "loss": 0.3774,
      "num_input_tokens_seen": 2719064,
      "step": 4145
    },
    {
      "epoch": 2.1750524109014675,
      "grad_norm": 0.07393469661474228,
      "learning_rate": 0.000999768050794539,
      "loss": 0.4405,
      "num_input_tokens_seen": 2722488,
      "step": 4150
    },
    {
      "epoch": 2.1776729559748427,
      "grad_norm": 0.10330794006586075,
      "learning_rate": 0.0009997610336188818,
      "loss": 0.3956,
      "num_input_tokens_seen": 2725528,
      "step": 4155
    },
    {
      "epoch": 2.180293501048218,
      "grad_norm": 0.050037533044815063,
      "learning_rate": 0.0009997539118989183,
      "loss": 0.4369,
      "num_input_tokens_seen": 2728824,
      "step": 4160
    },
    {
      "epoch": 2.1829140461215935,
      "grad_norm": 0.06627781689167023,
      "learning_rate": 0.0009997466856361376,
      "loss": 0.5784,
      "num_input_tokens_seen": 2732472,
      "step": 4165
    },
    {
      "epoch": 2.1855345911949686,
      "grad_norm": 0.05725691467523575,
      "learning_rate": 0.000999739354832052,
      "loss": 0.4766,
      "num_input_tokens_seen": 2735544,
      "step": 4170
    },
    {
      "epoch": 2.188155136268344,
      "grad_norm": 0.08776558190584183,
      "learning_rate": 0.0009997319194881944,
      "loss": 0.4856,
      "num_input_tokens_seen": 2739032,
      "step": 4175
    },
    {
      "epoch": 2.190775681341719,
      "grad_norm": 0.09640173614025116,
      "learning_rate": 0.0009997243796061204,
      "loss": 0.6064,
      "num_input_tokens_seen": 2742456,
      "step": 4180
    },
    {
      "epoch": 2.1933962264150946,
      "grad_norm": 0.14514705538749695,
      "learning_rate": 0.0009997167351874076,
      "loss": 0.432,
      "num_input_tokens_seen": 2744888,
      "step": 4185
    },
    {
      "epoch": 2.1960167714884697,
      "grad_norm": 0.09856859594583511,
      "learning_rate": 0.0009997089862336548,
      "loss": 0.5699,
      "num_input_tokens_seen": 2747512,
      "step": 4190
    },
    {
      "epoch": 2.198637316561845,
      "grad_norm": 0.10588225722312927,
      "learning_rate": 0.000999701132746483,
      "loss": 0.5147,
      "num_input_tokens_seen": 2750648,
      "step": 4195
    },
    {
      "epoch": 2.20125786163522,
      "grad_norm": 0.09632763266563416,
      "learning_rate": 0.0009996931747275352,
      "loss": 0.3746,
      "num_input_tokens_seen": 2753368,
      "step": 4200
    },
    {
      "epoch": 2.2038784067085953,
      "grad_norm": 0.12647645175457,
      "learning_rate": 0.000999685112178476,
      "loss": 0.4485,
      "num_input_tokens_seen": 2756696,
      "step": 4205
    },
    {
      "epoch": 2.2064989517819704,
      "grad_norm": 0.16164787113666534,
      "learning_rate": 0.0009996769451009922,
      "loss": 0.5259,
      "num_input_tokens_seen": 2759256,
      "step": 4210
    },
    {
      "epoch": 2.209119496855346,
      "grad_norm": 0.13179408013820648,
      "learning_rate": 0.000999668673496792,
      "loss": 0.5348,
      "num_input_tokens_seen": 2762296,
      "step": 4215
    },
    {
      "epoch": 2.211740041928721,
      "grad_norm": 0.11301252245903015,
      "learning_rate": 0.0009996602973676057,
      "loss": 0.453,
      "num_input_tokens_seen": 2765400,
      "step": 4220
    },
    {
      "epoch": 2.2143605870020964,
      "grad_norm": 0.10122741013765335,
      "learning_rate": 0.0009996518167151858,
      "loss": 0.4593,
      "num_input_tokens_seen": 2768120,
      "step": 4225
    },
    {
      "epoch": 2.2169811320754715,
      "grad_norm": 0.08531466871500015,
      "learning_rate": 0.000999643231541306,
      "loss": 0.5132,
      "num_input_tokens_seen": 2771096,
      "step": 4230
    },
    {
      "epoch": 2.219601677148847,
      "grad_norm": 0.1202835664153099,
      "learning_rate": 0.0009996345418477625,
      "loss": 0.5474,
      "num_input_tokens_seen": 2774328,
      "step": 4235
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.07102037966251373,
      "learning_rate": 0.000999625747636373,
      "loss": 0.5338,
      "num_input_tokens_seen": 2778008,
      "step": 4240
    },
    {
      "epoch": 2.2248427672955975,
      "grad_norm": 0.24602265655994415,
      "learning_rate": 0.000999616848908977,
      "loss": 0.5095,
      "num_input_tokens_seen": 2780216,
      "step": 4245
    },
    {
      "epoch": 2.2274633123689727,
      "grad_norm": 0.1270221620798111,
      "learning_rate": 0.0009996078456674363,
      "loss": 0.474,
      "num_input_tokens_seen": 2784088,
      "step": 4250
    },
    {
      "epoch": 2.230083857442348,
      "grad_norm": 0.10621394962072372,
      "learning_rate": 0.000999598737913634,
      "loss": 0.3898,
      "num_input_tokens_seen": 2786488,
      "step": 4255
    },
    {
      "epoch": 2.2327044025157234,
      "grad_norm": 0.12642982602119446,
      "learning_rate": 0.0009995895256494755,
      "loss": 0.3876,
      "num_input_tokens_seen": 2788920,
      "step": 4260
    },
    {
      "epoch": 2.2353249475890986,
      "grad_norm": 0.1333148330450058,
      "learning_rate": 0.000999580208876888,
      "loss": 0.6464,
      "num_input_tokens_seen": 2791640,
      "step": 4265
    },
    {
      "epoch": 2.237945492662474,
      "grad_norm": 0.10581608861684799,
      "learning_rate": 0.0009995707875978198,
      "loss": 0.3849,
      "num_input_tokens_seen": 2794904,
      "step": 4270
    },
    {
      "epoch": 2.240566037735849,
      "grad_norm": 0.0823887288570404,
      "learning_rate": 0.0009995612618142428,
      "loss": 0.4168,
      "num_input_tokens_seen": 2798840,
      "step": 4275
    },
    {
      "epoch": 2.243186582809224,
      "grad_norm": 0.07952577620744705,
      "learning_rate": 0.000999551631528149,
      "loss": 0.5313,
      "num_input_tokens_seen": 2802616,
      "step": 4280
    },
    {
      "epoch": 2.2458071278825997,
      "grad_norm": 0.13998284935951233,
      "learning_rate": 0.000999541896741553,
      "loss": 0.4703,
      "num_input_tokens_seen": 2805432,
      "step": 4285
    },
    {
      "epoch": 2.248427672955975,
      "grad_norm": 0.12429672479629517,
      "learning_rate": 0.0009995320574564912,
      "loss": 0.5183,
      "num_input_tokens_seen": 2808696,
      "step": 4290
    },
    {
      "epoch": 2.25104821802935,
      "grad_norm": 0.07934274524450302,
      "learning_rate": 0.000999522113675022,
      "loss": 0.4245,
      "num_input_tokens_seen": 2811640,
      "step": 4295
    },
    {
      "epoch": 2.2536687631027252,
      "grad_norm": 0.10593243688344955,
      "learning_rate": 0.0009995120653992255,
      "loss": 0.4331,
      "num_input_tokens_seen": 2815224,
      "step": 4300
    },
    {
      "epoch": 2.2562893081761004,
      "grad_norm": 0.09378724545240402,
      "learning_rate": 0.0009995019126312035,
      "loss": 0.4944,
      "num_input_tokens_seen": 2817688,
      "step": 4305
    },
    {
      "epoch": 2.258909853249476,
      "grad_norm": 0.08514834195375443,
      "learning_rate": 0.0009994916553730802,
      "loss": 0.4048,
      "num_input_tokens_seen": 2821016,
      "step": 4310
    },
    {
      "epoch": 2.261530398322851,
      "grad_norm": 0.13039705157279968,
      "learning_rate": 0.000999481293627001,
      "loss": 0.5694,
      "num_input_tokens_seen": 2823608,
      "step": 4315
    },
    {
      "epoch": 2.2641509433962264,
      "grad_norm": 0.052121929824352264,
      "learning_rate": 0.0009994708273951337,
      "loss": 0.4155,
      "num_input_tokens_seen": 2828248,
      "step": 4320
    },
    {
      "epoch": 2.2667714884696015,
      "grad_norm": 0.0810583084821701,
      "learning_rate": 0.0009994602566796673,
      "loss": 0.5202,
      "num_input_tokens_seen": 2832344,
      "step": 4325
    },
    {
      "epoch": 2.269392033542977,
      "grad_norm": 0.11271544545888901,
      "learning_rate": 0.0009994495814828136,
      "loss": 0.4377,
      "num_input_tokens_seen": 2836408,
      "step": 4330
    },
    {
      "epoch": 2.2720125786163523,
      "grad_norm": 0.06620848178863525,
      "learning_rate": 0.0009994388018068055,
      "loss": 0.5262,
      "num_input_tokens_seen": 2839320,
      "step": 4335
    },
    {
      "epoch": 2.2746331236897275,
      "grad_norm": 0.13613930344581604,
      "learning_rate": 0.0009994279176538977,
      "loss": 0.5724,
      "num_input_tokens_seen": 2842456,
      "step": 4340
    },
    {
      "epoch": 2.2772536687631026,
      "grad_norm": 0.2579110860824585,
      "learning_rate": 0.0009994169290263675,
      "loss": 0.6281,
      "num_input_tokens_seen": 2845432,
      "step": 4345
    },
    {
      "epoch": 2.279874213836478,
      "grad_norm": 0.09805566817522049,
      "learning_rate": 0.0009994058359265132,
      "loss": 0.5361,
      "num_input_tokens_seen": 2848536,
      "step": 4350
    },
    {
      "epoch": 2.2824947589098534,
      "grad_norm": 0.057624444365501404,
      "learning_rate": 0.0009993946383566558,
      "loss": 0.5876,
      "num_input_tokens_seen": 2851544,
      "step": 4355
    },
    {
      "epoch": 2.2851153039832286,
      "grad_norm": 0.08419319987297058,
      "learning_rate": 0.0009993833363191374,
      "loss": 0.4596,
      "num_input_tokens_seen": 2854392,
      "step": 4360
    },
    {
      "epoch": 2.2877358490566038,
      "grad_norm": 0.061162546277046204,
      "learning_rate": 0.0009993719298163222,
      "loss": 0.3991,
      "num_input_tokens_seen": 2858424,
      "step": 4365
    },
    {
      "epoch": 2.290356394129979,
      "grad_norm": 0.10091148316860199,
      "learning_rate": 0.0009993604188505965,
      "loss": 0.5053,
      "num_input_tokens_seen": 2861368,
      "step": 4370
    },
    {
      "epoch": 2.2929769392033545,
      "grad_norm": 0.1262519359588623,
      "learning_rate": 0.000999348803424368,
      "loss": 0.5117,
      "num_input_tokens_seen": 2863960,
      "step": 4375
    },
    {
      "epoch": 2.2955974842767297,
      "grad_norm": 0.15707731246948242,
      "learning_rate": 0.000999337083540067,
      "loss": 0.5719,
      "num_input_tokens_seen": 2867352,
      "step": 4380
    },
    {
      "epoch": 2.298218029350105,
      "grad_norm": 0.1100323274731636,
      "learning_rate": 0.0009993252592001448,
      "loss": 0.5355,
      "num_input_tokens_seen": 2871992,
      "step": 4385
    },
    {
      "epoch": 2.30083857442348,
      "grad_norm": 0.12150083482265472,
      "learning_rate": 0.0009993133304070747,
      "loss": 0.4397,
      "num_input_tokens_seen": 2874680,
      "step": 4390
    },
    {
      "epoch": 2.3034591194968552,
      "grad_norm": 0.1309337168931961,
      "learning_rate": 0.0009993012971633527,
      "loss": 0.3536,
      "num_input_tokens_seen": 2877688,
      "step": 4395
    },
    {
      "epoch": 2.3060796645702304,
      "grad_norm": 0.06198081746697426,
      "learning_rate": 0.0009992891594714952,
      "loss": 0.5633,
      "num_input_tokens_seen": 2885528,
      "step": 4400
    },
    {
      "epoch": 2.308700209643606,
      "grad_norm": 0.0631888210773468,
      "learning_rate": 0.0009992769173340422,
      "loss": 0.6063,
      "num_input_tokens_seen": 2889464,
      "step": 4405
    },
    {
      "epoch": 2.311320754716981,
      "grad_norm": 0.08863066881895065,
      "learning_rate": 0.000999264570753554,
      "loss": 0.3625,
      "num_input_tokens_seen": 2893464,
      "step": 4410
    },
    {
      "epoch": 2.3139412997903563,
      "grad_norm": 0.10837013274431229,
      "learning_rate": 0.0009992521197326135,
      "loss": 0.533,
      "num_input_tokens_seen": 2896792,
      "step": 4415
    },
    {
      "epoch": 2.3165618448637315,
      "grad_norm": 0.10464292764663696,
      "learning_rate": 0.0009992395642738252,
      "loss": 0.4629,
      "num_input_tokens_seen": 2900664,
      "step": 4420
    },
    {
      "epoch": 2.319182389937107,
      "grad_norm": 0.11912241578102112,
      "learning_rate": 0.0009992269043798158,
      "loss": 0.5535,
      "num_input_tokens_seen": 2904152,
      "step": 4425
    },
    {
      "epoch": 2.3218029350104823,
      "grad_norm": 0.07846089452505112,
      "learning_rate": 0.0009992141400532336,
      "loss": 0.4927,
      "num_input_tokens_seen": 2906776,
      "step": 4430
    },
    {
      "epoch": 2.3244234800838575,
      "grad_norm": 0.07477879524230957,
      "learning_rate": 0.0009992012712967484,
      "loss": 0.5177,
      "num_input_tokens_seen": 2909720,
      "step": 4435
    },
    {
      "epoch": 2.3270440251572326,
      "grad_norm": 0.12608543038368225,
      "learning_rate": 0.0009991882981130525,
      "loss": 0.3571,
      "num_input_tokens_seen": 2916536,
      "step": 4440
    },
    {
      "epoch": 2.329664570230608,
      "grad_norm": 0.08703423291444778,
      "learning_rate": 0.0009991752205048597,
      "loss": 0.5292,
      "num_input_tokens_seen": 2919608,
      "step": 4445
    },
    {
      "epoch": 2.3322851153039834,
      "grad_norm": 0.07162807136774063,
      "learning_rate": 0.0009991620384749058,
      "loss": 0.631,
      "num_input_tokens_seen": 2923352,
      "step": 4450
    },
    {
      "epoch": 2.3349056603773586,
      "grad_norm": 0.15651261806488037,
      "learning_rate": 0.0009991487520259479,
      "loss": 0.4533,
      "num_input_tokens_seen": 2926232,
      "step": 4455
    },
    {
      "epoch": 2.3375262054507338,
      "grad_norm": 0.0974804162979126,
      "learning_rate": 0.000999135361160766,
      "loss": 0.4352,
      "num_input_tokens_seen": 2929656,
      "step": 4460
    },
    {
      "epoch": 2.340146750524109,
      "grad_norm": 0.10201654583215714,
      "learning_rate": 0.0009991218658821608,
      "loss": 0.5448,
      "num_input_tokens_seen": 2932344,
      "step": 4465
    },
    {
      "epoch": 2.342767295597484,
      "grad_norm": 0.08535830676555634,
      "learning_rate": 0.0009991082661929556,
      "loss": 0.4003,
      "num_input_tokens_seen": 2936152,
      "step": 4470
    },
    {
      "epoch": 2.3453878406708597,
      "grad_norm": 0.0851699709892273,
      "learning_rate": 0.000999094562095995,
      "loss": 0.4388,
      "num_input_tokens_seen": 2939224,
      "step": 4475
    },
    {
      "epoch": 2.348008385744235,
      "grad_norm": 0.08569031208753586,
      "learning_rate": 0.0009990807535941461,
      "loss": 0.3945,
      "num_input_tokens_seen": 2941912,
      "step": 4480
    },
    {
      "epoch": 2.35062893081761,
      "grad_norm": 0.08784572035074234,
      "learning_rate": 0.0009990668406902976,
      "loss": 0.4058,
      "num_input_tokens_seen": 2944568,
      "step": 4485
    },
    {
      "epoch": 2.353249475890985,
      "grad_norm": 0.07424383610486984,
      "learning_rate": 0.0009990528233873594,
      "loss": 0.382,
      "num_input_tokens_seen": 2947480,
      "step": 4490
    },
    {
      "epoch": 2.3558700209643604,
      "grad_norm": 0.12249939888715744,
      "learning_rate": 0.0009990387016882642,
      "loss": 0.5255,
      "num_input_tokens_seen": 2951192,
      "step": 4495
    },
    {
      "epoch": 2.358490566037736,
      "grad_norm": 0.11261312663555145,
      "learning_rate": 0.000999024475595966,
      "loss": 0.4883,
      "num_input_tokens_seen": 2954648,
      "step": 4500
    },
    {
      "epoch": 2.361111111111111,
      "grad_norm": 0.05852862074971199,
      "learning_rate": 0.0009990101451134406,
      "loss": 0.3958,
      "num_input_tokens_seen": 2958552,
      "step": 4505
    },
    {
      "epoch": 2.3637316561844863,
      "grad_norm": 0.052468691021203995,
      "learning_rate": 0.0009989957102436858,
      "loss": 0.433,
      "num_input_tokens_seen": 2962040,
      "step": 4510
    },
    {
      "epoch": 2.3663522012578615,
      "grad_norm": 0.07393385469913483,
      "learning_rate": 0.0009989811709897212,
      "loss": 0.4844,
      "num_input_tokens_seen": 2964824,
      "step": 4515
    },
    {
      "epoch": 2.368972746331237,
      "grad_norm": 0.05684041604399681,
      "learning_rate": 0.0009989665273545884,
      "loss": 0.4349,
      "num_input_tokens_seen": 2967448,
      "step": 4520
    },
    {
      "epoch": 2.3715932914046123,
      "grad_norm": 0.06420253217220306,
      "learning_rate": 0.0009989517793413507,
      "loss": 0.5611,
      "num_input_tokens_seen": 2971000,
      "step": 4525
    },
    {
      "epoch": 2.3742138364779874,
      "grad_norm": 0.0995745062828064,
      "learning_rate": 0.000998936926953093,
      "loss": 0.486,
      "num_input_tokens_seen": 2973592,
      "step": 4530
    },
    {
      "epoch": 2.3768343815513626,
      "grad_norm": 0.07420902699232101,
      "learning_rate": 0.0009989219701929224,
      "loss": 0.5495,
      "num_input_tokens_seen": 2977560,
      "step": 4535
    },
    {
      "epoch": 2.379454926624738,
      "grad_norm": 0.10660765320062637,
      "learning_rate": 0.0009989069090639675,
      "loss": 0.4665,
      "num_input_tokens_seen": 2980280,
      "step": 4540
    },
    {
      "epoch": 2.3820754716981134,
      "grad_norm": 0.0833214819431305,
      "learning_rate": 0.0009988917435693793,
      "loss": 0.447,
      "num_input_tokens_seen": 2983352,
      "step": 4545
    },
    {
      "epoch": 2.3846960167714886,
      "grad_norm": 0.07722164690494537,
      "learning_rate": 0.0009988764737123297,
      "loss": 0.5304,
      "num_input_tokens_seen": 2986648,
      "step": 4550
    },
    {
      "epoch": 2.3873165618448637,
      "grad_norm": 0.12945996224880219,
      "learning_rate": 0.0009988610994960134,
      "loss": 0.4623,
      "num_input_tokens_seen": 2989880,
      "step": 4555
    },
    {
      "epoch": 2.389937106918239,
      "grad_norm": 0.11234690994024277,
      "learning_rate": 0.0009988456209236464,
      "loss": 0.4498,
      "num_input_tokens_seen": 2992536,
      "step": 4560
    },
    {
      "epoch": 2.392557651991614,
      "grad_norm": 0.19215422868728638,
      "learning_rate": 0.0009988300379984668,
      "loss": 0.5021,
      "num_input_tokens_seen": 2996152,
      "step": 4565
    },
    {
      "epoch": 2.3951781970649897,
      "grad_norm": 0.2848178446292877,
      "learning_rate": 0.0009988143507237341,
      "loss": 0.4718,
      "num_input_tokens_seen": 2999288,
      "step": 4570
    },
    {
      "epoch": 2.397798742138365,
      "grad_norm": 0.11178447306156158,
      "learning_rate": 0.00099879855910273,
      "loss": 0.3808,
      "num_input_tokens_seen": 3002520,
      "step": 4575
    },
    {
      "epoch": 2.40041928721174,
      "grad_norm": 0.08951963484287262,
      "learning_rate": 0.0009987826631387578,
      "loss": 0.5682,
      "num_input_tokens_seen": 3005752,
      "step": 4580
    },
    {
      "epoch": 2.403039832285115,
      "grad_norm": 0.092753566801548,
      "learning_rate": 0.000998766662835143,
      "loss": 0.4807,
      "num_input_tokens_seen": 3009432,
      "step": 4585
    },
    {
      "epoch": 2.4056603773584904,
      "grad_norm": 0.09850023686885834,
      "learning_rate": 0.0009987505581952325,
      "loss": 0.5134,
      "num_input_tokens_seen": 3014136,
      "step": 4590
    },
    {
      "epoch": 2.408280922431866,
      "grad_norm": 0.09914592653512955,
      "learning_rate": 0.0009987343492223954,
      "loss": 0.5136,
      "num_input_tokens_seen": 3017144,
      "step": 4595
    },
    {
      "epoch": 2.410901467505241,
      "grad_norm": 0.810672402381897,
      "learning_rate": 0.0009987180359200222,
      "loss": 0.5505,
      "num_input_tokens_seen": 3019448,
      "step": 4600
    },
    {
      "epoch": 2.4135220125786163,
      "grad_norm": 0.1029912680387497,
      "learning_rate": 0.0009987016182915257,
      "loss": 0.3658,
      "num_input_tokens_seen": 3022104,
      "step": 4605
    },
    {
      "epoch": 2.4161425576519915,
      "grad_norm": 0.08834843337535858,
      "learning_rate": 0.0009986850963403398,
      "loss": 0.5415,
      "num_input_tokens_seen": 3025688,
      "step": 4610
    },
    {
      "epoch": 2.418763102725367,
      "grad_norm": 0.12972067296504974,
      "learning_rate": 0.0009986684700699214,
      "loss": 0.3638,
      "num_input_tokens_seen": 3029816,
      "step": 4615
    },
    {
      "epoch": 2.4213836477987423,
      "grad_norm": 0.07066817581653595,
      "learning_rate": 0.000998651739483748,
      "loss": 0.3631,
      "num_input_tokens_seen": 3032824,
      "step": 4620
    },
    {
      "epoch": 2.4240041928721174,
      "grad_norm": 0.09891503304243088,
      "learning_rate": 0.0009986349045853196,
      "loss": 0.6073,
      "num_input_tokens_seen": 3036632,
      "step": 4625
    },
    {
      "epoch": 2.4266247379454926,
      "grad_norm": 0.13666605949401855,
      "learning_rate": 0.000998617965378158,
      "loss": 0.5026,
      "num_input_tokens_seen": 3039384,
      "step": 4630
    },
    {
      "epoch": 2.4292452830188678,
      "grad_norm": 0.06818220764398575,
      "learning_rate": 0.0009986009218658064,
      "loss": 0.4928,
      "num_input_tokens_seen": 3042296,
      "step": 4635
    },
    {
      "epoch": 2.431865828092243,
      "grad_norm": 0.07401219010353088,
      "learning_rate": 0.0009985837740518306,
      "loss": 0.4383,
      "num_input_tokens_seen": 3045304,
      "step": 4640
    },
    {
      "epoch": 2.4344863731656186,
      "grad_norm": 0.11034643650054932,
      "learning_rate": 0.0009985665219398173,
      "loss": 0.3847,
      "num_input_tokens_seen": 3048824,
      "step": 4645
    },
    {
      "epoch": 2.4371069182389937,
      "grad_norm": 0.060159217566251755,
      "learning_rate": 0.0009985491655333755,
      "loss": 0.5287,
      "num_input_tokens_seen": 3052120,
      "step": 4650
    },
    {
      "epoch": 2.439727463312369,
      "grad_norm": 0.08292126655578613,
      "learning_rate": 0.000998531704836136,
      "loss": 0.4691,
      "num_input_tokens_seen": 3055384,
      "step": 4655
    },
    {
      "epoch": 2.442348008385744,
      "grad_norm": 0.05971749871969223,
      "learning_rate": 0.0009985141398517513,
      "loss": 0.3691,
      "num_input_tokens_seen": 3058328,
      "step": 4660
    },
    {
      "epoch": 2.4449685534591197,
      "grad_norm": 0.05960997939109802,
      "learning_rate": 0.000998496470583896,
      "loss": 0.5419,
      "num_input_tokens_seen": 3063512,
      "step": 4665
    },
    {
      "epoch": 2.447589098532495,
      "grad_norm": 0.07083887606859207,
      "learning_rate": 0.0009984786970362663,
      "loss": 0.5184,
      "num_input_tokens_seen": 3068056,
      "step": 4670
    },
    {
      "epoch": 2.45020964360587,
      "grad_norm": 0.07653271406888962,
      "learning_rate": 0.00099846081921258,
      "loss": 0.4443,
      "num_input_tokens_seen": 3071608,
      "step": 4675
    },
    {
      "epoch": 2.452830188679245,
      "grad_norm": 0.11421933770179749,
      "learning_rate": 0.000998442837116577,
      "loss": 0.504,
      "num_input_tokens_seen": 3074872,
      "step": 4680
    },
    {
      "epoch": 2.4554507337526204,
      "grad_norm": 0.08078575879335403,
      "learning_rate": 0.0009984247507520193,
      "loss": 0.4279,
      "num_input_tokens_seen": 3077720,
      "step": 4685
    },
    {
      "epoch": 2.458071278825996,
      "grad_norm": 0.10841193050146103,
      "learning_rate": 0.0009984065601226896,
      "loss": 0.5777,
      "num_input_tokens_seen": 3080664,
      "step": 4690
    },
    {
      "epoch": 2.460691823899371,
      "grad_norm": 0.16165605187416077,
      "learning_rate": 0.0009983882652323942,
      "loss": 0.4849,
      "num_input_tokens_seen": 3084408,
      "step": 4695
    },
    {
      "epoch": 2.4633123689727463,
      "grad_norm": 0.06546305865049362,
      "learning_rate": 0.0009983698660849592,
      "loss": 0.5451,
      "num_input_tokens_seen": 3087640,
      "step": 4700
    },
    {
      "epoch": 2.4659329140461215,
      "grad_norm": 0.10210815072059631,
      "learning_rate": 0.0009983513626842342,
      "loss": 0.5626,
      "num_input_tokens_seen": 3090520,
      "step": 4705
    },
    {
      "epoch": 2.468553459119497,
      "grad_norm": 0.07557486742734909,
      "learning_rate": 0.0009983327550340893,
      "loss": 0.4223,
      "num_input_tokens_seen": 3093624,
      "step": 4710
    },
    {
      "epoch": 2.4711740041928723,
      "grad_norm": 0.07135426253080368,
      "learning_rate": 0.0009983140431384177,
      "loss": 0.4114,
      "num_input_tokens_seen": 3096184,
      "step": 4715
    },
    {
      "epoch": 2.4737945492662474,
      "grad_norm": 0.08783809840679169,
      "learning_rate": 0.0009982952270011331,
      "loss": 0.5711,
      "num_input_tokens_seen": 3099928,
      "step": 4720
    },
    {
      "epoch": 2.4764150943396226,
      "grad_norm": 0.13877199590206146,
      "learning_rate": 0.000998276306626172,
      "loss": 0.4677,
      "num_input_tokens_seen": 3102456,
      "step": 4725
    },
    {
      "epoch": 2.4790356394129978,
      "grad_norm": 0.3130215108394623,
      "learning_rate": 0.000998257282017492,
      "loss": 0.549,
      "num_input_tokens_seen": 3104728,
      "step": 4730
    },
    {
      "epoch": 2.481656184486373,
      "grad_norm": 0.16226093471050262,
      "learning_rate": 0.0009982381531790732,
      "loss": 0.4492,
      "num_input_tokens_seen": 3107704,
      "step": 4735
    },
    {
      "epoch": 2.4842767295597485,
      "grad_norm": 0.07040084153413773,
      "learning_rate": 0.0009982189201149167,
      "loss": 0.4171,
      "num_input_tokens_seen": 3110328,
      "step": 4740
    },
    {
      "epoch": 2.4868972746331237,
      "grad_norm": 0.0825980082154274,
      "learning_rate": 0.0009981995828290465,
      "loss": 0.504,
      "num_input_tokens_seen": 3113464,
      "step": 4745
    },
    {
      "epoch": 2.489517819706499,
      "grad_norm": 0.05623980984091759,
      "learning_rate": 0.0009981801413255068,
      "loss": 0.4043,
      "num_input_tokens_seen": 3117112,
      "step": 4750
    },
    {
      "epoch": 2.492138364779874,
      "grad_norm": 0.08400027453899384,
      "learning_rate": 0.0009981605956083657,
      "loss": 0.4274,
      "num_input_tokens_seen": 3120280,
      "step": 4755
    },
    {
      "epoch": 2.4947589098532497,
      "grad_norm": 0.08577036112546921,
      "learning_rate": 0.000998140945681711,
      "loss": 0.4626,
      "num_input_tokens_seen": 3123928,
      "step": 4760
    },
    {
      "epoch": 2.497379454926625,
      "grad_norm": 0.09738241881132126,
      "learning_rate": 0.0009981211915496536,
      "loss": 0.3997,
      "num_input_tokens_seen": 3126584,
      "step": 4765
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.1372053623199463,
      "learning_rate": 0.0009981013332163256,
      "loss": 0.5975,
      "num_input_tokens_seen": 3129368,
      "step": 4770
    },
    {
      "epoch": 2.502620545073375,
      "grad_norm": 0.20250149071216583,
      "learning_rate": 0.0009980813706858816,
      "loss": 0.5556,
      "num_input_tokens_seen": 3132248,
      "step": 4775
    },
    {
      "epoch": 2.5052410901467503,
      "grad_norm": 0.07634793221950531,
      "learning_rate": 0.000998061303962497,
      "loss": 0.3619,
      "num_input_tokens_seen": 3135320,
      "step": 4780
    },
    {
      "epoch": 2.507861635220126,
      "grad_norm": 0.1128593161702156,
      "learning_rate": 0.00099804113305037,
      "loss": 0.7038,
      "num_input_tokens_seen": 3139032,
      "step": 4785
    },
    {
      "epoch": 2.510482180293501,
      "grad_norm": 0.08115120232105255,
      "learning_rate": 0.0009980208579537199,
      "loss": 0.6402,
      "num_input_tokens_seen": 3141944,
      "step": 4790
    },
    {
      "epoch": 2.5131027253668763,
      "grad_norm": 0.1230396255850792,
      "learning_rate": 0.000998000478676788,
      "loss": 0.5154,
      "num_input_tokens_seen": 3145400,
      "step": 4795
    },
    {
      "epoch": 2.5157232704402515,
      "grad_norm": 0.060873422771692276,
      "learning_rate": 0.0009979799952238373,
      "loss": 0.5796,
      "num_input_tokens_seen": 3149496,
      "step": 4800
    },
    {
      "epoch": 2.518343815513627,
      "grad_norm": 0.0748089998960495,
      "learning_rate": 0.000997959407599153,
      "loss": 0.5851,
      "num_input_tokens_seen": 3152344,
      "step": 4805
    },
    {
      "epoch": 2.5209643605870022,
      "grad_norm": 0.07410266250371933,
      "learning_rate": 0.000997938715807042,
      "loss": 0.3968,
      "num_input_tokens_seen": 3155192,
      "step": 4810
    },
    {
      "epoch": 2.5235849056603774,
      "grad_norm": 0.08358640968799591,
      "learning_rate": 0.000997917919851832,
      "loss": 0.3921,
      "num_input_tokens_seen": 3157688,
      "step": 4815
    },
    {
      "epoch": 2.5262054507337526,
      "grad_norm": 0.04220883920788765,
      "learning_rate": 0.0009978970197378736,
      "loss": 0.4912,
      "num_input_tokens_seen": 3161592,
      "step": 4820
    },
    {
      "epoch": 2.5288259958071277,
      "grad_norm": 0.13612036406993866,
      "learning_rate": 0.0009978760154695392,
      "loss": 0.4695,
      "num_input_tokens_seen": 3164024,
      "step": 4825
    },
    {
      "epoch": 2.531446540880503,
      "grad_norm": 0.15096279978752136,
      "learning_rate": 0.0009978549070512226,
      "loss": 0.3985,
      "num_input_tokens_seen": 3166424,
      "step": 4830
    },
    {
      "epoch": 2.5340670859538785,
      "grad_norm": 0.11288869380950928,
      "learning_rate": 0.000997833694487339,
      "loss": 0.6603,
      "num_input_tokens_seen": 3169240,
      "step": 4835
    },
    {
      "epoch": 2.5366876310272537,
      "grad_norm": 0.10109605640172958,
      "learning_rate": 0.0009978123777823263,
      "loss": 0.4985,
      "num_input_tokens_seen": 3172088,
      "step": 4840
    },
    {
      "epoch": 2.539308176100629,
      "grad_norm": 0.10622426867485046,
      "learning_rate": 0.0009977909569406434,
      "loss": 0.494,
      "num_input_tokens_seen": 3175480,
      "step": 4845
    },
    {
      "epoch": 2.541928721174004,
      "grad_norm": 0.06956829875707626,
      "learning_rate": 0.0009977694319667713,
      "loss": 0.5097,
      "num_input_tokens_seen": 3179480,
      "step": 4850
    },
    {
      "epoch": 2.5445492662473796,
      "grad_norm": 0.08176242560148239,
      "learning_rate": 0.0009977478028652131,
      "loss": 0.454,
      "num_input_tokens_seen": 3182520,
      "step": 4855
    },
    {
      "epoch": 2.547169811320755,
      "grad_norm": 0.10305003821849823,
      "learning_rate": 0.000997726069640493,
      "loss": 0.4927,
      "num_input_tokens_seen": 3185560,
      "step": 4860
    },
    {
      "epoch": 2.54979035639413,
      "grad_norm": 0.0760950893163681,
      "learning_rate": 0.0009977042322971577,
      "loss": 0.4997,
      "num_input_tokens_seen": 3189592,
      "step": 4865
    },
    {
      "epoch": 2.552410901467505,
      "grad_norm": 0.1758536547422409,
      "learning_rate": 0.000997682290839775,
      "loss": 0.414,
      "num_input_tokens_seen": 3192760,
      "step": 4870
    },
    {
      "epoch": 2.5550314465408803,
      "grad_norm": 0.17166997492313385,
      "learning_rate": 0.0009976602452729348,
      "loss": 0.411,
      "num_input_tokens_seen": 3195992,
      "step": 4875
    },
    {
      "epoch": 2.5576519916142555,
      "grad_norm": 0.10188514739274979,
      "learning_rate": 0.000997638095601249,
      "loss": 0.5042,
      "num_input_tokens_seen": 3198200,
      "step": 4880
    },
    {
      "epoch": 2.560272536687631,
      "grad_norm": 0.070863738656044,
      "learning_rate": 0.000997615841829351,
      "loss": 0.4531,
      "num_input_tokens_seen": 3201848,
      "step": 4885
    },
    {
      "epoch": 2.5628930817610063,
      "grad_norm": 0.3069530725479126,
      "learning_rate": 0.000997593483961896,
      "loss": 0.6502,
      "num_input_tokens_seen": 3204504,
      "step": 4890
    },
    {
      "epoch": 2.5655136268343814,
      "grad_norm": 0.09834964573383331,
      "learning_rate": 0.0009975710220035607,
      "loss": 0.5907,
      "num_input_tokens_seen": 3207320,
      "step": 4895
    },
    {
      "epoch": 2.568134171907757,
      "grad_norm": 0.08487896621227264,
      "learning_rate": 0.0009975484559590444,
      "loss": 0.4438,
      "num_input_tokens_seen": 3210584,
      "step": 4900
    },
    {
      "epoch": 2.5707547169811322,
      "grad_norm": 0.07393766194581985,
      "learning_rate": 0.0009975257858330674,
      "loss": 0.3716,
      "num_input_tokens_seen": 3213496,
      "step": 4905
    },
    {
      "epoch": 2.5733752620545074,
      "grad_norm": 0.05689208582043648,
      "learning_rate": 0.0009975030116303723,
      "loss": 0.4658,
      "num_input_tokens_seen": 3217016,
      "step": 4910
    },
    {
      "epoch": 2.5759958071278826,
      "grad_norm": 0.06760841608047485,
      "learning_rate": 0.0009974801333557228,
      "loss": 0.602,
      "num_input_tokens_seen": 3219800,
      "step": 4915
    },
    {
      "epoch": 2.5786163522012577,
      "grad_norm": 0.11019366979598999,
      "learning_rate": 0.000997457151013905,
      "loss": 0.4742,
      "num_input_tokens_seen": 3222424,
      "step": 4920
    },
    {
      "epoch": 2.581236897274633,
      "grad_norm": 0.10176915675401688,
      "learning_rate": 0.0009974340646097264,
      "loss": 0.4909,
      "num_input_tokens_seen": 3225272,
      "step": 4925
    },
    {
      "epoch": 2.5838574423480085,
      "grad_norm": 0.06330674141645432,
      "learning_rate": 0.0009974108741480166,
      "loss": 0.4494,
      "num_input_tokens_seen": 3228088,
      "step": 4930
    },
    {
      "epoch": 2.5864779874213837,
      "grad_norm": 0.059219613671302795,
      "learning_rate": 0.0009973875796336267,
      "loss": 0.4741,
      "num_input_tokens_seen": 3231096,
      "step": 4935
    },
    {
      "epoch": 2.589098532494759,
      "grad_norm": 0.13736899197101593,
      "learning_rate": 0.0009973641810714295,
      "loss": 0.5625,
      "num_input_tokens_seen": 3234552,
      "step": 4940
    },
    {
      "epoch": 2.591719077568134,
      "grad_norm": 0.12970304489135742,
      "learning_rate": 0.00099734067846632,
      "loss": 0.3868,
      "num_input_tokens_seen": 3238072,
      "step": 4945
    },
    {
      "epoch": 2.5943396226415096,
      "grad_norm": 0.11430501192808151,
      "learning_rate": 0.0009973170718232144,
      "loss": 0.5444,
      "num_input_tokens_seen": 3241624,
      "step": 4950
    },
    {
      "epoch": 2.596960167714885,
      "grad_norm": 0.10378801077604294,
      "learning_rate": 0.000997293361147051,
      "loss": 0.7667,
      "num_input_tokens_seen": 3245080,
      "step": 4955
    },
    {
      "epoch": 2.59958071278826,
      "grad_norm": 0.09276331961154938,
      "learning_rate": 0.0009972695464427904,
      "loss": 0.5296,
      "num_input_tokens_seen": 3247800,
      "step": 4960
    },
    {
      "epoch": 2.602201257861635,
      "grad_norm": 0.06035226210951805,
      "learning_rate": 0.0009972456277154134,
      "loss": 0.3744,
      "num_input_tokens_seen": 3251000,
      "step": 4965
    },
    {
      "epoch": 2.6048218029350103,
      "grad_norm": 0.08294134587049484,
      "learning_rate": 0.000997221604969924,
      "loss": 0.418,
      "num_input_tokens_seen": 3254872,
      "step": 4970
    },
    {
      "epoch": 2.6074423480083855,
      "grad_norm": 0.09364761412143707,
      "learning_rate": 0.0009971974782113475,
      "loss": 0.505,
      "num_input_tokens_seen": 3258520,
      "step": 4975
    },
    {
      "epoch": 2.610062893081761,
      "grad_norm": 0.08327024430036545,
      "learning_rate": 0.0009971732474447308,
      "loss": 0.5124,
      "num_input_tokens_seen": 3261944,
      "step": 4980
    },
    {
      "epoch": 2.6126834381551363,
      "grad_norm": 0.08030007034540176,
      "learning_rate": 0.0009971489126751427,
      "loss": 0.547,
      "num_input_tokens_seen": 3265432,
      "step": 4985
    },
    {
      "epoch": 2.6153039832285114,
      "grad_norm": 0.13118548691272736,
      "learning_rate": 0.0009971244739076742,
      "loss": 0.5162,
      "num_input_tokens_seen": 3268632,
      "step": 4990
    },
    {
      "epoch": 2.617924528301887,
      "grad_norm": 0.15471909940242767,
      "learning_rate": 0.000997099931147437,
      "loss": 0.4464,
      "num_input_tokens_seen": 3271416,
      "step": 4995
    },
    {
      "epoch": 2.620545073375262,
      "grad_norm": 0.09465016424655914,
      "learning_rate": 0.0009970752843995654,
      "loss": 0.3679,
      "num_input_tokens_seen": 3274424,
      "step": 5000
    },
    {
      "epoch": 2.6231656184486374,
      "grad_norm": 0.09140902012586594,
      "learning_rate": 0.0009970505336692153,
      "loss": 0.4862,
      "num_input_tokens_seen": 3277688,
      "step": 5005
    },
    {
      "epoch": 2.6257861635220126,
      "grad_norm": 0.07486796379089355,
      "learning_rate": 0.0009970256789615642,
      "loss": 0.3737,
      "num_input_tokens_seen": 3280440,
      "step": 5010
    },
    {
      "epoch": 2.6284067085953877,
      "grad_norm": 0.11954636871814728,
      "learning_rate": 0.0009970007202818115,
      "loss": 0.6678,
      "num_input_tokens_seen": 3283704,
      "step": 5015
    },
    {
      "epoch": 2.631027253668763,
      "grad_norm": 0.08183803409337997,
      "learning_rate": 0.000996975657635178,
      "loss": 0.4334,
      "num_input_tokens_seen": 3286808,
      "step": 5020
    },
    {
      "epoch": 2.6336477987421385,
      "grad_norm": 0.06729250401258469,
      "learning_rate": 0.000996950491026907,
      "loss": 0.5834,
      "num_input_tokens_seen": 3289592,
      "step": 5025
    },
    {
      "epoch": 2.6362683438155137,
      "grad_norm": 0.0609038807451725,
      "learning_rate": 0.0009969252204622624,
      "loss": 0.4892,
      "num_input_tokens_seen": 3292696,
      "step": 5030
    },
    {
      "epoch": 2.638888888888889,
      "grad_norm": 0.08410374820232391,
      "learning_rate": 0.0009968998459465312,
      "loss": 0.3358,
      "num_input_tokens_seen": 3296632,
      "step": 5035
    },
    {
      "epoch": 2.641509433962264,
      "grad_norm": 0.10594647377729416,
      "learning_rate": 0.0009968743674850212,
      "loss": 0.4076,
      "num_input_tokens_seen": 3300536,
      "step": 5040
    },
    {
      "epoch": 2.6441299790356396,
      "grad_norm": 0.10345840454101562,
      "learning_rate": 0.0009968487850830622,
      "loss": 0.4838,
      "num_input_tokens_seen": 3304728,
      "step": 5045
    },
    {
      "epoch": 2.646750524109015,
      "grad_norm": 0.11382103711366653,
      "learning_rate": 0.0009968230987460055,
      "loss": 0.5438,
      "num_input_tokens_seen": 3307928,
      "step": 5050
    },
    {
      "epoch": 2.64937106918239,
      "grad_norm": 0.10398208349943161,
      "learning_rate": 0.0009967973084792246,
      "loss": 0.5839,
      "num_input_tokens_seen": 3310552,
      "step": 5055
    },
    {
      "epoch": 2.651991614255765,
      "grad_norm": 0.0766589343547821,
      "learning_rate": 0.0009967714142881145,
      "loss": 0.5985,
      "num_input_tokens_seen": 3314904,
      "step": 5060
    },
    {
      "epoch": 2.6546121593291403,
      "grad_norm": 0.09770471602678299,
      "learning_rate": 0.0009967454161780923,
      "loss": 0.4736,
      "num_input_tokens_seen": 3320184,
      "step": 5065
    },
    {
      "epoch": 2.6572327044025155,
      "grad_norm": 0.0846375897526741,
      "learning_rate": 0.000996719314154596,
      "loss": 0.4322,
      "num_input_tokens_seen": 3322904,
      "step": 5070
    },
    {
      "epoch": 2.659853249475891,
      "grad_norm": 0.08690625429153442,
      "learning_rate": 0.0009966931082230862,
      "loss": 0.4074,
      "num_input_tokens_seen": 3325784,
      "step": 5075
    },
    {
      "epoch": 2.6624737945492662,
      "grad_norm": 0.07618515938520432,
      "learning_rate": 0.0009966667983890445,
      "loss": 0.5267,
      "num_input_tokens_seen": 3328760,
      "step": 5080
    },
    {
      "epoch": 2.6650943396226414,
      "grad_norm": 0.1245185136795044,
      "learning_rate": 0.000996640384657975,
      "loss": 0.5121,
      "num_input_tokens_seen": 3331576,
      "step": 5085
    },
    {
      "epoch": 2.667714884696017,
      "grad_norm": 0.1719731241464615,
      "learning_rate": 0.0009966138670354028,
      "loss": 0.5234,
      "num_input_tokens_seen": 3333880,
      "step": 5090
    },
    {
      "epoch": 2.670335429769392,
      "grad_norm": 0.12577177584171295,
      "learning_rate": 0.0009965872455268755,
      "loss": 0.4964,
      "num_input_tokens_seen": 3337880,
      "step": 5095
    },
    {
      "epoch": 2.6729559748427674,
      "grad_norm": 0.0921134427189827,
      "learning_rate": 0.0009965605201379616,
      "loss": 0.4613,
      "num_input_tokens_seen": 3340920,
      "step": 5100
    },
    {
      "epoch": 2.6755765199161425,
      "grad_norm": 0.0978233739733696,
      "learning_rate": 0.000996533690874252,
      "loss": 0.4457,
      "num_input_tokens_seen": 3344312,
      "step": 5105
    },
    {
      "epoch": 2.6781970649895177,
      "grad_norm": 0.0898573100566864,
      "learning_rate": 0.0009965067577413593,
      "loss": 0.4204,
      "num_input_tokens_seen": 3347672,
      "step": 5110
    },
    {
      "epoch": 2.680817610062893,
      "grad_norm": 0.06975314766168594,
      "learning_rate": 0.0009964797207449173,
      "loss": 0.5002,
      "num_input_tokens_seen": 3351032,
      "step": 5115
    },
    {
      "epoch": 2.6834381551362685,
      "grad_norm": 0.1446421891450882,
      "learning_rate": 0.0009964525798905816,
      "loss": 0.6489,
      "num_input_tokens_seen": 3353752,
      "step": 5120
    },
    {
      "epoch": 2.6860587002096437,
      "grad_norm": 0.1110285073518753,
      "learning_rate": 0.0009964253351840303,
      "loss": 0.4346,
      "num_input_tokens_seen": 3356600,
      "step": 5125
    },
    {
      "epoch": 2.688679245283019,
      "grad_norm": 0.1449425369501114,
      "learning_rate": 0.000996397986630962,
      "loss": 0.5476,
      "num_input_tokens_seen": 3360280,
      "step": 5130
    },
    {
      "epoch": 2.691299790356394,
      "grad_norm": 0.08764396607875824,
      "learning_rate": 0.0009963705342370982,
      "loss": 0.6061,
      "num_input_tokens_seen": 3363768,
      "step": 5135
    },
    {
      "epoch": 2.6939203354297696,
      "grad_norm": 0.07336025685071945,
      "learning_rate": 0.000996342978008182,
      "loss": 0.4269,
      "num_input_tokens_seen": 3367480,
      "step": 5140
    },
    {
      "epoch": 2.6965408805031448,
      "grad_norm": 0.1530718058347702,
      "learning_rate": 0.000996315317949977,
      "loss": 0.4734,
      "num_input_tokens_seen": 3370520,
      "step": 5145
    },
    {
      "epoch": 2.69916142557652,
      "grad_norm": 0.1516508013010025,
      "learning_rate": 0.0009962875540682696,
      "loss": 0.4355,
      "num_input_tokens_seen": 3372984,
      "step": 5150
    },
    {
      "epoch": 2.701781970649895,
      "grad_norm": 0.21676026284694672,
      "learning_rate": 0.0009962596863688682,
      "loss": 0.4774,
      "num_input_tokens_seen": 3375288,
      "step": 5155
    },
    {
      "epoch": 2.7044025157232703,
      "grad_norm": 0.10475370287895203,
      "learning_rate": 0.000996231714857602,
      "loss": 0.4053,
      "num_input_tokens_seen": 3378488,
      "step": 5160
    },
    {
      "epoch": 2.7070230607966455,
      "grad_norm": 0.08084145933389664,
      "learning_rate": 0.000996203639540322,
      "loss": 0.4399,
      "num_input_tokens_seen": 3381368,
      "step": 5165
    },
    {
      "epoch": 2.709643605870021,
      "grad_norm": 0.17714223265647888,
      "learning_rate": 0.0009961754604229018,
      "loss": 0.4971,
      "num_input_tokens_seen": 3385016,
      "step": 5170
    },
    {
      "epoch": 2.7122641509433962,
      "grad_norm": 0.053345296531915665,
      "learning_rate": 0.0009961471775112361,
      "loss": 0.5166,
      "num_input_tokens_seen": 3387992,
      "step": 5175
    },
    {
      "epoch": 2.7148846960167714,
      "grad_norm": 0.08588564395904541,
      "learning_rate": 0.000996118790811241,
      "loss": 0.4973,
      "num_input_tokens_seen": 3390872,
      "step": 5180
    },
    {
      "epoch": 2.717505241090147,
      "grad_norm": 0.0827692374587059,
      "learning_rate": 0.0009960903003288551,
      "loss": 0.5373,
      "num_input_tokens_seen": 3393496,
      "step": 5185
    },
    {
      "epoch": 2.720125786163522,
      "grad_norm": 0.11549444496631622,
      "learning_rate": 0.0009960617060700378,
      "loss": 0.736,
      "num_input_tokens_seen": 3395992,
      "step": 5190
    },
    {
      "epoch": 2.7227463312368974,
      "grad_norm": 0.08988851308822632,
      "learning_rate": 0.000996033008040771,
      "loss": 0.5872,
      "num_input_tokens_seen": 3399160,
      "step": 5195
    },
    {
      "epoch": 2.7253668763102725,
      "grad_norm": 0.08203857392072678,
      "learning_rate": 0.0009960042062470583,
      "loss": 0.4685,
      "num_input_tokens_seen": 3402072,
      "step": 5200
    },
    {
      "epoch": 2.7279874213836477,
      "grad_norm": 0.11837130784988403,
      "learning_rate": 0.0009959753006949241,
      "loss": 0.4661,
      "num_input_tokens_seen": 3404344,
      "step": 5205
    },
    {
      "epoch": 2.730607966457023,
      "grad_norm": 0.08382761478424072,
      "learning_rate": 0.0009959462913904154,
      "loss": 0.4712,
      "num_input_tokens_seen": 3407640,
      "step": 5210
    },
    {
      "epoch": 2.7332285115303985,
      "grad_norm": 0.10538691282272339,
      "learning_rate": 0.0009959171783396007,
      "loss": 0.3895,
      "num_input_tokens_seen": 3410200,
      "step": 5215
    },
    {
      "epoch": 2.7358490566037736,
      "grad_norm": 0.11448866128921509,
      "learning_rate": 0.00099588796154857,
      "loss": 0.4022,
      "num_input_tokens_seen": 3412856,
      "step": 5220
    },
    {
      "epoch": 2.738469601677149,
      "grad_norm": 0.05054887756705284,
      "learning_rate": 0.000995858641023435,
      "loss": 0.4579,
      "num_input_tokens_seen": 3415864,
      "step": 5225
    },
    {
      "epoch": 2.741090146750524,
      "grad_norm": 0.0724005177617073,
      "learning_rate": 0.0009958292167703293,
      "loss": 0.501,
      "num_input_tokens_seen": 3419224,
      "step": 5230
    },
    {
      "epoch": 2.7437106918238996,
      "grad_norm": 0.1448373943567276,
      "learning_rate": 0.0009957996887954082,
      "loss": 0.4357,
      "num_input_tokens_seen": 3422520,
      "step": 5235
    },
    {
      "epoch": 2.7463312368972748,
      "grad_norm": 0.13598935306072235,
      "learning_rate": 0.0009957700571048486,
      "loss": 0.4534,
      "num_input_tokens_seen": 3425976,
      "step": 5240
    },
    {
      "epoch": 2.74895178197065,
      "grad_norm": 0.08823227882385254,
      "learning_rate": 0.0009957403217048493,
      "loss": 0.4849,
      "num_input_tokens_seen": 3429368,
      "step": 5245
    },
    {
      "epoch": 2.751572327044025,
      "grad_norm": 0.12584635615348816,
      "learning_rate": 0.0009957104826016302,
      "loss": 0.526,
      "num_input_tokens_seen": 3434680,
      "step": 5250
    },
    {
      "epoch": 2.7541928721174003,
      "grad_norm": 0.1941581517457962,
      "learning_rate": 0.0009956805398014337,
      "loss": 0.5682,
      "num_input_tokens_seen": 3437752,
      "step": 5255
    },
    {
      "epoch": 2.7568134171907754,
      "grad_norm": 0.08452112227678299,
      "learning_rate": 0.0009956504933105231,
      "loss": 0.585,
      "num_input_tokens_seen": 3440760,
      "step": 5260
    },
    {
      "epoch": 2.759433962264151,
      "grad_norm": 0.0920158103108406,
      "learning_rate": 0.000995620343135184,
      "loss": 0.509,
      "num_input_tokens_seen": 3443736,
      "step": 5265
    },
    {
      "epoch": 2.762054507337526,
      "grad_norm": 0.11542478948831558,
      "learning_rate": 0.0009955900892817235,
      "loss": 0.6024,
      "num_input_tokens_seen": 3446904,
      "step": 5270
    },
    {
      "epoch": 2.7646750524109014,
      "grad_norm": 0.09752272069454193,
      "learning_rate": 0.0009955597317564703,
      "loss": 0.4383,
      "num_input_tokens_seen": 3450104,
      "step": 5275
    },
    {
      "epoch": 2.767295597484277,
      "grad_norm": 0.08036720007658005,
      "learning_rate": 0.0009955292705657749,
      "loss": 0.6415,
      "num_input_tokens_seen": 3453592,
      "step": 5280
    },
    {
      "epoch": 2.769916142557652,
      "grad_norm": 0.1588817983865738,
      "learning_rate": 0.0009954987057160093,
      "loss": 0.4795,
      "num_input_tokens_seen": 3456824,
      "step": 5285
    },
    {
      "epoch": 2.7725366876310273,
      "grad_norm": 0.13908585906028748,
      "learning_rate": 0.0009954680372135675,
      "loss": 0.5208,
      "num_input_tokens_seen": 3460792,
      "step": 5290
    },
    {
      "epoch": 2.7751572327044025,
      "grad_norm": 0.07702884823083878,
      "learning_rate": 0.000995437265064865,
      "loss": 0.5421,
      "num_input_tokens_seen": 3464280,
      "step": 5295
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 0.17087960243225098,
      "learning_rate": 0.0009954063892763387,
      "loss": 0.6155,
      "num_input_tokens_seen": 3467320,
      "step": 5300
    },
    {
      "epoch": 2.780398322851153,
      "grad_norm": 0.10808992385864258,
      "learning_rate": 0.0009953754098544479,
      "loss": 0.4819,
      "num_input_tokens_seen": 3470520,
      "step": 5305
    },
    {
      "epoch": 2.7830188679245285,
      "grad_norm": 0.10128811001777649,
      "learning_rate": 0.0009953443268056726,
      "loss": 0.4962,
      "num_input_tokens_seen": 3474008,
      "step": 5310
    },
    {
      "epoch": 2.7856394129979036,
      "grad_norm": 0.1436089724302292,
      "learning_rate": 0.0009953131401365155,
      "loss": 0.4118,
      "num_input_tokens_seen": 3477208,
      "step": 5315
    },
    {
      "epoch": 2.788259958071279,
      "grad_norm": 0.1033928170800209,
      "learning_rate": 0.0009952818498535003,
      "loss": 0.5159,
      "num_input_tokens_seen": 3480088,
      "step": 5320
    },
    {
      "epoch": 2.790880503144654,
      "grad_norm": 0.04387575015425682,
      "learning_rate": 0.0009952504559631726,
      "loss": 0.468,
      "num_input_tokens_seen": 3484504,
      "step": 5325
    },
    {
      "epoch": 2.7935010482180296,
      "grad_norm": 0.10424059629440308,
      "learning_rate": 0.0009952189584720996,
      "loss": 0.4244,
      "num_input_tokens_seen": 3487000,
      "step": 5330
    },
    {
      "epoch": 2.7961215932914047,
      "grad_norm": 0.10297351330518723,
      "learning_rate": 0.0009951873573868701,
      "loss": 0.4485,
      "num_input_tokens_seen": 3490712,
      "step": 5335
    },
    {
      "epoch": 2.79874213836478,
      "grad_norm": 0.08856518566608429,
      "learning_rate": 0.000995155652714095,
      "loss": 0.5319,
      "num_input_tokens_seen": 3494296,
      "step": 5340
    },
    {
      "epoch": 2.801362683438155,
      "grad_norm": 0.07893869280815125,
      "learning_rate": 0.0009951238444604064,
      "loss": 0.4246,
      "num_input_tokens_seen": 3498232,
      "step": 5345
    },
    {
      "epoch": 2.8039832285115303,
      "grad_norm": 0.10923037678003311,
      "learning_rate": 0.000995091932632458,
      "loss": 0.4616,
      "num_input_tokens_seen": 3501080,
      "step": 5350
    },
    {
      "epoch": 2.8066037735849054,
      "grad_norm": 0.14790920913219452,
      "learning_rate": 0.000995059917236926,
      "loss": 0.3933,
      "num_input_tokens_seen": 3504024,
      "step": 5355
    },
    {
      "epoch": 2.809224318658281,
      "grad_norm": 0.07677838951349258,
      "learning_rate": 0.000995027798280507,
      "loss": 0.3779,
      "num_input_tokens_seen": 3507256,
      "step": 5360
    },
    {
      "epoch": 2.811844863731656,
      "grad_norm": 0.07350963354110718,
      "learning_rate": 0.00099499557576992,
      "loss": 0.5299,
      "num_input_tokens_seen": 3510392,
      "step": 5365
    },
    {
      "epoch": 2.8144654088050314,
      "grad_norm": 0.11456341296434402,
      "learning_rate": 0.000994963249711906,
      "loss": 0.5082,
      "num_input_tokens_seen": 3513272,
      "step": 5370
    },
    {
      "epoch": 2.8170859538784065,
      "grad_norm": 0.0660337507724762,
      "learning_rate": 0.000994930820113227,
      "loss": 0.515,
      "num_input_tokens_seen": 3516312,
      "step": 5375
    },
    {
      "epoch": 2.819706498951782,
      "grad_norm": 0.11342577636241913,
      "learning_rate": 0.0009948982869806668,
      "loss": 0.5197,
      "num_input_tokens_seen": 3519032,
      "step": 5380
    },
    {
      "epoch": 2.8223270440251573,
      "grad_norm": 0.11876878887414932,
      "learning_rate": 0.0009948656503210311,
      "loss": 0.3788,
      "num_input_tokens_seen": 3521720,
      "step": 5385
    },
    {
      "epoch": 2.8249475890985325,
      "grad_norm": 0.11779795587062836,
      "learning_rate": 0.000994832910141147,
      "loss": 0.4512,
      "num_input_tokens_seen": 3524888,
      "step": 5390
    },
    {
      "epoch": 2.8275681341719077,
      "grad_norm": 0.05817690119147301,
      "learning_rate": 0.0009948000664478638,
      "loss": 0.413,
      "num_input_tokens_seen": 3529688,
      "step": 5395
    },
    {
      "epoch": 2.830188679245283,
      "grad_norm": 0.0957995131611824,
      "learning_rate": 0.0009947671192480515,
      "loss": 0.5079,
      "num_input_tokens_seen": 3532440,
      "step": 5400
    },
    {
      "epoch": 2.832809224318658,
      "grad_norm": 0.10492037236690521,
      "learning_rate": 0.0009947340685486023,
      "loss": 0.4859,
      "num_input_tokens_seen": 3535288,
      "step": 5405
    },
    {
      "epoch": 2.8354297693920336,
      "grad_norm": 0.10251171886920929,
      "learning_rate": 0.0009947009143564303,
      "loss": 0.5131,
      "num_input_tokens_seen": 3538840,
      "step": 5410
    },
    {
      "epoch": 2.838050314465409,
      "grad_norm": 0.07930389791727066,
      "learning_rate": 0.0009946676566784708,
      "loss": 0.3645,
      "num_input_tokens_seen": 3541880,
      "step": 5415
    },
    {
      "epoch": 2.840670859538784,
      "grad_norm": 0.08378487080335617,
      "learning_rate": 0.000994634295521681,
      "loss": 0.5122,
      "num_input_tokens_seen": 3545208,
      "step": 5420
    },
    {
      "epoch": 2.8432914046121596,
      "grad_norm": 0.15000180900096893,
      "learning_rate": 0.0009946008308930397,
      "loss": 0.4315,
      "num_input_tokens_seen": 3548120,
      "step": 5425
    },
    {
      "epoch": 2.8459119496855347,
      "grad_norm": 0.08158731460571289,
      "learning_rate": 0.0009945672627995473,
      "loss": 0.4888,
      "num_input_tokens_seen": 3551512,
      "step": 5430
    },
    {
      "epoch": 2.84853249475891,
      "grad_norm": 0.15931227803230286,
      "learning_rate": 0.0009945335912482256,
      "loss": 0.382,
      "num_input_tokens_seen": 3554520,
      "step": 5435
    },
    {
      "epoch": 2.851153039832285,
      "grad_norm": 0.07998878508806229,
      "learning_rate": 0.000994499816246119,
      "loss": 0.5402,
      "num_input_tokens_seen": 3557208,
      "step": 5440
    },
    {
      "epoch": 2.8537735849056602,
      "grad_norm": 0.12002889066934586,
      "learning_rate": 0.000994465937800292,
      "loss": 0.6522,
      "num_input_tokens_seen": 3560600,
      "step": 5445
    },
    {
      "epoch": 2.8563941299790354,
      "grad_norm": 0.06771451979875565,
      "learning_rate": 0.0009944319559178321,
      "loss": 0.4489,
      "num_input_tokens_seen": 3565752,
      "step": 5450
    },
    {
      "epoch": 2.859014675052411,
      "grad_norm": 0.08169077336788177,
      "learning_rate": 0.0009943978706058478,
      "loss": 0.39,
      "num_input_tokens_seen": 3569400,
      "step": 5455
    },
    {
      "epoch": 2.861635220125786,
      "grad_norm": 0.16351693868637085,
      "learning_rate": 0.0009943636818714695,
      "loss": 0.43,
      "num_input_tokens_seen": 3572088,
      "step": 5460
    },
    {
      "epoch": 2.8642557651991614,
      "grad_norm": 0.06062920764088631,
      "learning_rate": 0.0009943293897218487,
      "loss": 0.5507,
      "num_input_tokens_seen": 3575032,
      "step": 5465
    },
    {
      "epoch": 2.8668763102725365,
      "grad_norm": 0.14191438257694244,
      "learning_rate": 0.0009942949941641594,
      "loss": 0.4591,
      "num_input_tokens_seen": 3578232,
      "step": 5470
    },
    {
      "epoch": 2.869496855345912,
      "grad_norm": 0.1044791117310524,
      "learning_rate": 0.0009942604952055964,
      "loss": 0.5005,
      "num_input_tokens_seen": 3581304,
      "step": 5475
    },
    {
      "epoch": 2.8721174004192873,
      "grad_norm": 0.0967848151922226,
      "learning_rate": 0.0009942258928533768,
      "loss": 0.3798,
      "num_input_tokens_seen": 3584664,
      "step": 5480
    },
    {
      "epoch": 2.8747379454926625,
      "grad_norm": 0.07898185402154922,
      "learning_rate": 0.0009941911871147386,
      "loss": 0.5577,
      "num_input_tokens_seen": 3587544,
      "step": 5485
    },
    {
      "epoch": 2.8773584905660377,
      "grad_norm": 0.17957623302936554,
      "learning_rate": 0.000994156377996942,
      "loss": 0.5176,
      "num_input_tokens_seen": 3590360,
      "step": 5490
    },
    {
      "epoch": 2.879979035639413,
      "grad_norm": 0.0931425616145134,
      "learning_rate": 0.0009941214655072692,
      "loss": 0.4069,
      "num_input_tokens_seen": 3597208,
      "step": 5495
    },
    {
      "epoch": 2.882599580712788,
      "grad_norm": 0.16664330661296844,
      "learning_rate": 0.0009940864496530226,
      "loss": 0.3878,
      "num_input_tokens_seen": 3600568,
      "step": 5500
    },
    {
      "epoch": 2.8852201257861636,
      "grad_norm": 0.2880931794643402,
      "learning_rate": 0.000994051330441528,
      "loss": 0.4872,
      "num_input_tokens_seen": 3603480,
      "step": 5505
    },
    {
      "epoch": 2.8878406708595388,
      "grad_norm": 0.0910811647772789,
      "learning_rate": 0.0009940161078801312,
      "loss": 0.5525,
      "num_input_tokens_seen": 3606360,
      "step": 5510
    },
    {
      "epoch": 2.890461215932914,
      "grad_norm": 0.5075029134750366,
      "learning_rate": 0.0009939807819762008,
      "loss": 0.4511,
      "num_input_tokens_seen": 3608856,
      "step": 5515
    },
    {
      "epoch": 2.8930817610062896,
      "grad_norm": 0.07451529055833817,
      "learning_rate": 0.0009939453527371262,
      "loss": 0.3944,
      "num_input_tokens_seen": 3611384,
      "step": 5520
    },
    {
      "epoch": 2.8957023060796647,
      "grad_norm": 0.10603475570678711,
      "learning_rate": 0.0009939098201703193,
      "loss": 0.7067,
      "num_input_tokens_seen": 3614488,
      "step": 5525
    },
    {
      "epoch": 2.89832285115304,
      "grad_norm": 0.10252942889928818,
      "learning_rate": 0.0009938741842832129,
      "loss": 0.4513,
      "num_input_tokens_seen": 3617080,
      "step": 5530
    },
    {
      "epoch": 2.900943396226415,
      "grad_norm": 0.15210512280464172,
      "learning_rate": 0.0009938384450832614,
      "loss": 0.584,
      "num_input_tokens_seen": 3620728,
      "step": 5535
    },
    {
      "epoch": 2.9035639412997902,
      "grad_norm": 0.08072879165410995,
      "learning_rate": 0.0009938026025779411,
      "loss": 0.5348,
      "num_input_tokens_seen": 3624184,
      "step": 5540
    },
    {
      "epoch": 2.9061844863731654,
      "grad_norm": 0.06756153702735901,
      "learning_rate": 0.0009937666567747501,
      "loss": 0.4016,
      "num_input_tokens_seen": 3628856,
      "step": 5545
    },
    {
      "epoch": 2.908805031446541,
      "grad_norm": 0.08804896473884583,
      "learning_rate": 0.0009937306076812076,
      "loss": 0.559,
      "num_input_tokens_seen": 3631800,
      "step": 5550
    },
    {
      "epoch": 2.911425576519916,
      "grad_norm": 0.2469884604215622,
      "learning_rate": 0.0009936944553048548,
      "loss": 0.4576,
      "num_input_tokens_seen": 3634680,
      "step": 5555
    },
    {
      "epoch": 2.9140461215932913,
      "grad_norm": 0.07598832249641418,
      "learning_rate": 0.0009936581996532543,
      "loss": 0.396,
      "num_input_tokens_seen": 3638264,
      "step": 5560
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.11755260825157166,
      "learning_rate": 0.0009936218407339905,
      "loss": 0.4246,
      "num_input_tokens_seen": 3641240,
      "step": 5565
    },
    {
      "epoch": 2.919287211740042,
      "grad_norm": 0.08833596855401993,
      "learning_rate": 0.0009935853785546691,
      "loss": 0.5505,
      "num_input_tokens_seen": 3643640,
      "step": 5570
    },
    {
      "epoch": 2.9219077568134173,
      "grad_norm": 0.044644806534051895,
      "learning_rate": 0.0009935488131229177,
      "loss": 0.4879,
      "num_input_tokens_seen": 3648088,
      "step": 5575
    },
    {
      "epoch": 2.9245283018867925,
      "grad_norm": 0.06660624593496323,
      "learning_rate": 0.000993512144446385,
      "loss": 0.4568,
      "num_input_tokens_seen": 3651352,
      "step": 5580
    },
    {
      "epoch": 2.9271488469601676,
      "grad_norm": 0.06370909512042999,
      "learning_rate": 0.000993475372532742,
      "loss": 0.5074,
      "num_input_tokens_seen": 3655288,
      "step": 5585
    },
    {
      "epoch": 2.929769392033543,
      "grad_norm": 0.095662422478199,
      "learning_rate": 0.0009934384973896812,
      "loss": 0.4414,
      "num_input_tokens_seen": 3657624,
      "step": 5590
    },
    {
      "epoch": 2.932389937106918,
      "grad_norm": 0.10935644805431366,
      "learning_rate": 0.0009934015190249162,
      "loss": 0.3778,
      "num_input_tokens_seen": 3660472,
      "step": 5595
    },
    {
      "epoch": 2.9350104821802936,
      "grad_norm": 0.0781017616391182,
      "learning_rate": 0.0009933644374461822,
      "loss": 0.55,
      "num_input_tokens_seen": 3663992,
      "step": 5600
    },
    {
      "epoch": 2.9376310272536688,
      "grad_norm": 0.12092534452676773,
      "learning_rate": 0.0009933272526612366,
      "loss": 0.5354,
      "num_input_tokens_seen": 3666424,
      "step": 5605
    },
    {
      "epoch": 2.940251572327044,
      "grad_norm": 0.10258113592863083,
      "learning_rate": 0.0009932899646778578,
      "loss": 0.5481,
      "num_input_tokens_seen": 3669400,
      "step": 5610
    },
    {
      "epoch": 2.9428721174004195,
      "grad_norm": 0.10503745079040527,
      "learning_rate": 0.0009932525735038464,
      "loss": 0.6195,
      "num_input_tokens_seen": 3672440,
      "step": 5615
    },
    {
      "epoch": 2.9454926624737947,
      "grad_norm": 0.17762623727321625,
      "learning_rate": 0.0009932150791470238,
      "loss": 0.3567,
      "num_input_tokens_seen": 3675704,
      "step": 5620
    },
    {
      "epoch": 2.94811320754717,
      "grad_norm": 0.13511797785758972,
      "learning_rate": 0.0009931774816152334,
      "loss": 0.624,
      "num_input_tokens_seen": 3679160,
      "step": 5625
    },
    {
      "epoch": 2.950733752620545,
      "grad_norm": 0.06167740374803543,
      "learning_rate": 0.0009931397809163406,
      "loss": 0.462,
      "num_input_tokens_seen": 3682328,
      "step": 5630
    },
    {
      "epoch": 2.95335429769392,
      "grad_norm": 0.1074814572930336,
      "learning_rate": 0.0009931019770582316,
      "loss": 0.4532,
      "num_input_tokens_seen": 3685240,
      "step": 5635
    },
    {
      "epoch": 2.9559748427672954,
      "grad_norm": 0.14168210327625275,
      "learning_rate": 0.0009930640700488143,
      "loss": 0.6231,
      "num_input_tokens_seen": 3687960,
      "step": 5640
    },
    {
      "epoch": 2.958595387840671,
      "grad_norm": 0.11039005219936371,
      "learning_rate": 0.000993026059896019,
      "loss": 0.3904,
      "num_input_tokens_seen": 3691704,
      "step": 5645
    },
    {
      "epoch": 2.961215932914046,
      "grad_norm": 0.10691050440073013,
      "learning_rate": 0.0009929879466077968,
      "loss": 0.5292,
      "num_input_tokens_seen": 3695416,
      "step": 5650
    },
    {
      "epoch": 2.9638364779874213,
      "grad_norm": 0.14686787128448486,
      "learning_rate": 0.0009929497301921202,
      "loss": 0.4599,
      "num_input_tokens_seen": 3698168,
      "step": 5655
    },
    {
      "epoch": 2.9664570230607965,
      "grad_norm": 0.16499929130077362,
      "learning_rate": 0.000992911410656984,
      "loss": 0.6223,
      "num_input_tokens_seen": 3700984,
      "step": 5660
    },
    {
      "epoch": 2.969077568134172,
      "grad_norm": 0.10646612197160721,
      "learning_rate": 0.000992872988010404,
      "loss": 0.6612,
      "num_input_tokens_seen": 3704472,
      "step": 5665
    },
    {
      "epoch": 2.9716981132075473,
      "grad_norm": 0.10508500039577484,
      "learning_rate": 0.0009928344622604183,
      "loss": 0.4089,
      "num_input_tokens_seen": 3707960,
      "step": 5670
    },
    {
      "epoch": 2.9743186582809225,
      "grad_norm": 0.1406102180480957,
      "learning_rate": 0.0009927958334150853,
      "loss": 0.4723,
      "num_input_tokens_seen": 3710520,
      "step": 5675
    },
    {
      "epoch": 2.9769392033542976,
      "grad_norm": 0.0993284210562706,
      "learning_rate": 0.0009927571014824862,
      "loss": 0.494,
      "num_input_tokens_seen": 3713688,
      "step": 5680
    },
    {
      "epoch": 2.979559748427673,
      "grad_norm": 0.0715160146355629,
      "learning_rate": 0.000992718266470723,
      "loss": 0.4505,
      "num_input_tokens_seen": 3717304,
      "step": 5685
    },
    {
      "epoch": 2.982180293501048,
      "grad_norm": 0.07397929579019547,
      "learning_rate": 0.00099267932838792,
      "loss": 0.5474,
      "num_input_tokens_seen": 3720888,
      "step": 5690
    },
    {
      "epoch": 2.9848008385744236,
      "grad_norm": 0.08074328303337097,
      "learning_rate": 0.000992640287242222,
      "loss": 0.526,
      "num_input_tokens_seen": 3724888,
      "step": 5695
    },
    {
      "epoch": 2.9874213836477987,
      "grad_norm": 0.12631896138191223,
      "learning_rate": 0.0009926011430417961,
      "loss": 0.4013,
      "num_input_tokens_seen": 3727288,
      "step": 5700
    },
    {
      "epoch": 2.990041928721174,
      "grad_norm": 0.15639322996139526,
      "learning_rate": 0.0009925618957948312,
      "loss": 0.5377,
      "num_input_tokens_seen": 3730328,
      "step": 5705
    },
    {
      "epoch": 2.9926624737945495,
      "grad_norm": 0.11467192322015762,
      "learning_rate": 0.0009925225455095373,
      "loss": 0.4075,
      "num_input_tokens_seen": 3733912,
      "step": 5710
    },
    {
      "epoch": 2.9952830188679247,
      "grad_norm": 0.09709823131561279,
      "learning_rate": 0.0009924830921941455,
      "loss": 0.4436,
      "num_input_tokens_seen": 3737464,
      "step": 5715
    },
    {
      "epoch": 2.9979035639413,
      "grad_norm": 0.07955124229192734,
      "learning_rate": 0.0009924435358569096,
      "loss": 0.4425,
      "num_input_tokens_seen": 3740152,
      "step": 5720
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.48759546875953674,
      "eval_runtime": 13.6168,
      "eval_samples_per_second": 62.276,
      "eval_steps_per_second": 15.569,
      "num_input_tokens_seen": 3742552,
      "step": 5724
    },
    {
      "epoch": 3.000524109014675,
      "grad_norm": 0.16794048249721527,
      "learning_rate": 0.000992403876506104,
      "loss": 0.4281,
      "num_input_tokens_seen": 3742968,
      "step": 5725
    },
    {
      "epoch": 3.00314465408805,
      "grad_norm": 0.06720970571041107,
      "learning_rate": 0.000992364114150025,
      "loss": 0.4793,
      "num_input_tokens_seen": 3745880,
      "step": 5730
    },
    {
      "epoch": 3.0057651991614254,
      "grad_norm": 0.07007833570241928,
      "learning_rate": 0.0009923242487969908,
      "loss": 0.5198,
      "num_input_tokens_seen": 3749464,
      "step": 5735
    },
    {
      "epoch": 3.008385744234801,
      "grad_norm": 0.15442664921283722,
      "learning_rate": 0.0009922842804553403,
      "loss": 0.4075,
      "num_input_tokens_seen": 3752248,
      "step": 5740
    },
    {
      "epoch": 3.011006289308176,
      "grad_norm": 0.10750998556613922,
      "learning_rate": 0.0009922442091334345,
      "loss": 0.4658,
      "num_input_tokens_seen": 3755480,
      "step": 5745
    },
    {
      "epoch": 3.0136268343815513,
      "grad_norm": 0.0932171419262886,
      "learning_rate": 0.0009922040348396561,
      "loss": 0.4433,
      "num_input_tokens_seen": 3758040,
      "step": 5750
    },
    {
      "epoch": 3.0162473794549265,
      "grad_norm": 0.1989564597606659,
      "learning_rate": 0.000992163757582409,
      "loss": 0.4632,
      "num_input_tokens_seen": 3761368,
      "step": 5755
    },
    {
      "epoch": 3.018867924528302,
      "grad_norm": 0.11582259833812714,
      "learning_rate": 0.0009921233773701188,
      "loss": 0.4587,
      "num_input_tokens_seen": 3764824,
      "step": 5760
    },
    {
      "epoch": 3.0214884696016773,
      "grad_norm": 0.067994125187397,
      "learning_rate": 0.0009920828942112322,
      "loss": 0.3935,
      "num_input_tokens_seen": 3768056,
      "step": 5765
    },
    {
      "epoch": 3.0241090146750524,
      "grad_norm": 0.12962636351585388,
      "learning_rate": 0.0009920423081142184,
      "loss": 0.4971,
      "num_input_tokens_seen": 3770168,
      "step": 5770
    },
    {
      "epoch": 3.0267295597484276,
      "grad_norm": 0.07152639329433441,
      "learning_rate": 0.0009920016190875672,
      "loss": 0.4772,
      "num_input_tokens_seen": 3773112,
      "step": 5775
    },
    {
      "epoch": 3.029350104821803,
      "grad_norm": 0.08617985248565674,
      "learning_rate": 0.00099196082713979,
      "loss": 0.522,
      "num_input_tokens_seen": 3776568,
      "step": 5780
    },
    {
      "epoch": 3.0319706498951784,
      "grad_norm": 0.07050607353448868,
      "learning_rate": 0.0009919199322794207,
      "loss": 0.6516,
      "num_input_tokens_seen": 3780920,
      "step": 5785
    },
    {
      "epoch": 3.0345911949685536,
      "grad_norm": 0.11889491230249405,
      "learning_rate": 0.0009918789345150136,
      "loss": 0.5598,
      "num_input_tokens_seen": 3783960,
      "step": 5790
    },
    {
      "epoch": 3.0372117400419287,
      "grad_norm": 0.11885493248701096,
      "learning_rate": 0.000991837833855145,
      "loss": 0.4414,
      "num_input_tokens_seen": 3786968,
      "step": 5795
    },
    {
      "epoch": 3.039832285115304,
      "grad_norm": 0.06949732452630997,
      "learning_rate": 0.000991796630308413,
      "loss": 0.5345,
      "num_input_tokens_seen": 3790808,
      "step": 5800
    },
    {
      "epoch": 3.042452830188679,
      "grad_norm": 0.06570414453744888,
      "learning_rate": 0.0009917553238834363,
      "loss": 0.4783,
      "num_input_tokens_seen": 3794264,
      "step": 5805
    },
    {
      "epoch": 3.0450733752620547,
      "grad_norm": 0.09598712623119354,
      "learning_rate": 0.0009917139145888562,
      "loss": 0.5248,
      "num_input_tokens_seen": 3797496,
      "step": 5810
    },
    {
      "epoch": 3.04769392033543,
      "grad_norm": 0.10622761398553848,
      "learning_rate": 0.000991672402433335,
      "loss": 0.6216,
      "num_input_tokens_seen": 3800888,
      "step": 5815
    },
    {
      "epoch": 3.050314465408805,
      "grad_norm": 0.0872497484087944,
      "learning_rate": 0.0009916307874255565,
      "loss": 0.4322,
      "num_input_tokens_seen": 3803512,
      "step": 5820
    },
    {
      "epoch": 3.05293501048218,
      "grad_norm": 0.19925780594348907,
      "learning_rate": 0.000991589069574226,
      "loss": 0.5738,
      "num_input_tokens_seen": 3806552,
      "step": 5825
    },
    {
      "epoch": 3.0555555555555554,
      "grad_norm": 0.05800500884652138,
      "learning_rate": 0.0009915472488880705,
      "loss": 0.5543,
      "num_input_tokens_seen": 3810648,
      "step": 5830
    },
    {
      "epoch": 3.058176100628931,
      "grad_norm": 0.08511049300432205,
      "learning_rate": 0.0009915053253758386,
      "loss": 0.3899,
      "num_input_tokens_seen": 3813976,
      "step": 5835
    },
    {
      "epoch": 3.060796645702306,
      "grad_norm": 0.14861208200454712,
      "learning_rate": 0.0009914632990462998,
      "loss": 0.537,
      "num_input_tokens_seen": 3816824,
      "step": 5840
    },
    {
      "epoch": 3.0634171907756813,
      "grad_norm": 0.0428561195731163,
      "learning_rate": 0.0009914211699082458,
      "loss": 0.5683,
      "num_input_tokens_seen": 3820376,
      "step": 5845
    },
    {
      "epoch": 3.0660377358490565,
      "grad_norm": 0.12201915681362152,
      "learning_rate": 0.0009913789379704897,
      "loss": 0.4263,
      "num_input_tokens_seen": 3823736,
      "step": 5850
    },
    {
      "epoch": 3.068658280922432,
      "grad_norm": 0.10204923152923584,
      "learning_rate": 0.0009913366032418653,
      "loss": 0.6261,
      "num_input_tokens_seen": 3826104,
      "step": 5855
    },
    {
      "epoch": 3.0712788259958073,
      "grad_norm": 0.08646285533905029,
      "learning_rate": 0.0009912941657312293,
      "loss": 0.5355,
      "num_input_tokens_seen": 3828632,
      "step": 5860
    },
    {
      "epoch": 3.0738993710691824,
      "grad_norm": 0.11788143217563629,
      "learning_rate": 0.0009912516254474586,
      "loss": 0.3129,
      "num_input_tokens_seen": 3831576,
      "step": 5865
    },
    {
      "epoch": 3.0765199161425576,
      "grad_norm": 0.0815197229385376,
      "learning_rate": 0.0009912089823994525,
      "loss": 0.3625,
      "num_input_tokens_seen": 3834392,
      "step": 5870
    },
    {
      "epoch": 3.0791404612159328,
      "grad_norm": 0.13077472150325775,
      "learning_rate": 0.0009911662365961313,
      "loss": 0.5468,
      "num_input_tokens_seen": 3837144,
      "step": 5875
    },
    {
      "epoch": 3.0817610062893084,
      "grad_norm": 0.09273114800453186,
      "learning_rate": 0.000991123388046437,
      "loss": 0.5496,
      "num_input_tokens_seen": 3840504,
      "step": 5880
    },
    {
      "epoch": 3.0843815513626835,
      "grad_norm": 0.06914640963077545,
      "learning_rate": 0.0009910804367593328,
      "loss": 0.5229,
      "num_input_tokens_seen": 3844408,
      "step": 5885
    },
    {
      "epoch": 3.0870020964360587,
      "grad_norm": 0.06641585379838943,
      "learning_rate": 0.0009910373827438038,
      "loss": 0.5333,
      "num_input_tokens_seen": 3847736,
      "step": 5890
    },
    {
      "epoch": 3.089622641509434,
      "grad_norm": 0.09022994339466095,
      "learning_rate": 0.0009909942260088562,
      "loss": 0.5178,
      "num_input_tokens_seen": 3850360,
      "step": 5895
    },
    {
      "epoch": 3.092243186582809,
      "grad_norm": 0.07912139594554901,
      "learning_rate": 0.0009909509665635184,
      "loss": 0.4593,
      "num_input_tokens_seen": 3853624,
      "step": 5900
    },
    {
      "epoch": 3.0948637316561847,
      "grad_norm": 0.10566569119691849,
      "learning_rate": 0.0009909076044168394,
      "loss": 0.3926,
      "num_input_tokens_seen": 3856664,
      "step": 5905
    },
    {
      "epoch": 3.09748427672956,
      "grad_norm": 0.09314722567796707,
      "learning_rate": 0.00099086413957789,
      "loss": 0.5332,
      "num_input_tokens_seen": 3859640,
      "step": 5910
    },
    {
      "epoch": 3.100104821802935,
      "grad_norm": 0.14034831523895264,
      "learning_rate": 0.0009908205720557627,
      "loss": 0.3913,
      "num_input_tokens_seen": 3862712,
      "step": 5915
    },
    {
      "epoch": 3.10272536687631,
      "grad_norm": 0.09690643101930618,
      "learning_rate": 0.0009907769018595713,
      "loss": 0.4716,
      "num_input_tokens_seen": 3866328,
      "step": 5920
    },
    {
      "epoch": 3.1053459119496853,
      "grad_norm": 0.09346339106559753,
      "learning_rate": 0.0009907331289984512,
      "loss": 0.4468,
      "num_input_tokens_seen": 3869592,
      "step": 5925
    },
    {
      "epoch": 3.107966457023061,
      "grad_norm": 0.13398377597332,
      "learning_rate": 0.000990689253481559,
      "loss": 0.3809,
      "num_input_tokens_seen": 3875032,
      "step": 5930
    },
    {
      "epoch": 3.110587002096436,
      "grad_norm": 0.07511157542467117,
      "learning_rate": 0.000990645275318073,
      "loss": 0.543,
      "num_input_tokens_seen": 3879288,
      "step": 5935
    },
    {
      "epoch": 3.1132075471698113,
      "grad_norm": 0.08038538694381714,
      "learning_rate": 0.000990601194517193,
      "loss": 0.368,
      "num_input_tokens_seen": 3882936,
      "step": 5940
    },
    {
      "epoch": 3.1158280922431865,
      "grad_norm": 0.0685361996293068,
      "learning_rate": 0.0009905570110881402,
      "loss": 0.5138,
      "num_input_tokens_seen": 3886296,
      "step": 5945
    },
    {
      "epoch": 3.1184486373165616,
      "grad_norm": 0.15110249817371368,
      "learning_rate": 0.0009905127250401573,
      "loss": 0.5125,
      "num_input_tokens_seen": 3889816,
      "step": 5950
    },
    {
      "epoch": 3.1210691823899372,
      "grad_norm": 0.09946714341640472,
      "learning_rate": 0.0009904683363825084,
      "loss": 0.3861,
      "num_input_tokens_seen": 3892888,
      "step": 5955
    },
    {
      "epoch": 3.1236897274633124,
      "grad_norm": 0.25116029381752014,
      "learning_rate": 0.0009904238451244791,
      "loss": 0.5451,
      "num_input_tokens_seen": 3896152,
      "step": 5960
    },
    {
      "epoch": 3.1263102725366876,
      "grad_norm": 0.09110363572835922,
      "learning_rate": 0.0009903792512753764,
      "loss": 0.3395,
      "num_input_tokens_seen": 3898776,
      "step": 5965
    },
    {
      "epoch": 3.1289308176100628,
      "grad_norm": 0.10710062086582184,
      "learning_rate": 0.0009903345548445289,
      "loss": 0.5079,
      "num_input_tokens_seen": 3901912,
      "step": 5970
    },
    {
      "epoch": 3.131551362683438,
      "grad_norm": 0.0652376040816307,
      "learning_rate": 0.0009902897558412864,
      "loss": 0.5614,
      "num_input_tokens_seen": 3905688,
      "step": 5975
    },
    {
      "epoch": 3.1341719077568135,
      "grad_norm": 0.11012162268161774,
      "learning_rate": 0.0009902448542750207,
      "loss": 0.4776,
      "num_input_tokens_seen": 3908888,
      "step": 5980
    },
    {
      "epoch": 3.1367924528301887,
      "grad_norm": 0.13271552324295044,
      "learning_rate": 0.0009901998501551245,
      "loss": 0.4251,
      "num_input_tokens_seen": 3912280,
      "step": 5985
    },
    {
      "epoch": 3.139412997903564,
      "grad_norm": 0.13486288487911224,
      "learning_rate": 0.000990154743491012,
      "loss": 0.4485,
      "num_input_tokens_seen": 3915256,
      "step": 5990
    },
    {
      "epoch": 3.142033542976939,
      "grad_norm": 0.06460310518741608,
      "learning_rate": 0.0009901095342921193,
      "loss": 0.4352,
      "num_input_tokens_seen": 3917912,
      "step": 5995
    },
    {
      "epoch": 3.1446540880503147,
      "grad_norm": 0.08367309719324112,
      "learning_rate": 0.0009900642225679035,
      "loss": 0.5264,
      "num_input_tokens_seen": 3920824,
      "step": 6000
    },
    {
      "epoch": 3.14727463312369,
      "grad_norm": 0.13424254953861237,
      "learning_rate": 0.000990018808327843,
      "loss": 0.4083,
      "num_input_tokens_seen": 3923736,
      "step": 6005
    },
    {
      "epoch": 3.149895178197065,
      "grad_norm": 0.08050744980573654,
      "learning_rate": 0.0009899732915814386,
      "loss": 0.5197,
      "num_input_tokens_seen": 3926584,
      "step": 6010
    },
    {
      "epoch": 3.15251572327044,
      "grad_norm": 0.10960306227207184,
      "learning_rate": 0.0009899276723382112,
      "loss": 0.6118,
      "num_input_tokens_seen": 3929432,
      "step": 6015
    },
    {
      "epoch": 3.1551362683438153,
      "grad_norm": 0.09110785275697708,
      "learning_rate": 0.0009898819506077043,
      "loss": 0.5094,
      "num_input_tokens_seen": 3932088,
      "step": 6020
    },
    {
      "epoch": 3.157756813417191,
      "grad_norm": 0.1377793550491333,
      "learning_rate": 0.0009898361263994823,
      "loss": 0.4304,
      "num_input_tokens_seen": 3935384,
      "step": 6025
    },
    {
      "epoch": 3.160377358490566,
      "grad_norm": 0.10609132796525955,
      "learning_rate": 0.0009897901997231308,
      "loss": 0.4542,
      "num_input_tokens_seen": 3938424,
      "step": 6030
    },
    {
      "epoch": 3.1629979035639413,
      "grad_norm": 0.14200817048549652,
      "learning_rate": 0.0009897441705882576,
      "loss": 0.4975,
      "num_input_tokens_seen": 3940984,
      "step": 6035
    },
    {
      "epoch": 3.1656184486373165,
      "grad_norm": 0.10845398157835007,
      "learning_rate": 0.0009896980390044908,
      "loss": 0.4672,
      "num_input_tokens_seen": 3945144,
      "step": 6040
    },
    {
      "epoch": 3.1682389937106916,
      "grad_norm": 0.07657475769519806,
      "learning_rate": 0.0009896518049814812,
      "loss": 0.4794,
      "num_input_tokens_seen": 3948344,
      "step": 6045
    },
    {
      "epoch": 3.1708595387840672,
      "grad_norm": 0.07903419435024261,
      "learning_rate": 0.0009896054685289005,
      "loss": 0.5407,
      "num_input_tokens_seen": 3951000,
      "step": 6050
    },
    {
      "epoch": 3.1734800838574424,
      "grad_norm": 0.1178431361913681,
      "learning_rate": 0.0009895590296564412,
      "loss": 0.475,
      "num_input_tokens_seen": 3954584,
      "step": 6055
    },
    {
      "epoch": 3.1761006289308176,
      "grad_norm": 0.0888514593243599,
      "learning_rate": 0.000989512488373818,
      "loss": 0.3489,
      "num_input_tokens_seen": 3957944,
      "step": 6060
    },
    {
      "epoch": 3.1787211740041927,
      "grad_norm": 0.0749688446521759,
      "learning_rate": 0.0009894658446907671,
      "loss": 0.4296,
      "num_input_tokens_seen": 3961816,
      "step": 6065
    },
    {
      "epoch": 3.181341719077568,
      "grad_norm": 0.103309266269207,
      "learning_rate": 0.0009894190986170458,
      "loss": 0.4998,
      "num_input_tokens_seen": 3964824,
      "step": 6070
    },
    {
      "epoch": 3.1839622641509435,
      "grad_norm": 0.09977351129055023,
      "learning_rate": 0.0009893722501624323,
      "loss": 0.3738,
      "num_input_tokens_seen": 3968056,
      "step": 6075
    },
    {
      "epoch": 3.1865828092243187,
      "grad_norm": 0.12497243285179138,
      "learning_rate": 0.0009893252993367272,
      "loss": 0.4359,
      "num_input_tokens_seen": 3970424,
      "step": 6080
    },
    {
      "epoch": 3.189203354297694,
      "grad_norm": 0.252842515707016,
      "learning_rate": 0.000989278246149752,
      "loss": 0.442,
      "num_input_tokens_seen": 3973208,
      "step": 6085
    },
    {
      "epoch": 3.191823899371069,
      "grad_norm": 0.1276535540819168,
      "learning_rate": 0.0009892310906113497,
      "loss": 0.5181,
      "num_input_tokens_seen": 3976216,
      "step": 6090
    },
    {
      "epoch": 3.1944444444444446,
      "grad_norm": 0.1439090371131897,
      "learning_rate": 0.0009891838327313847,
      "loss": 0.5434,
      "num_input_tokens_seen": 3980824,
      "step": 6095
    },
    {
      "epoch": 3.19706498951782,
      "grad_norm": 0.08154230564832687,
      "learning_rate": 0.000989136472519743,
      "loss": 0.5541,
      "num_input_tokens_seen": 3987480,
      "step": 6100
    },
    {
      "epoch": 3.199685534591195,
      "grad_norm": 0.09399183839559555,
      "learning_rate": 0.0009890890099863313,
      "loss": 0.4549,
      "num_input_tokens_seen": 3991288,
      "step": 6105
    },
    {
      "epoch": 3.20230607966457,
      "grad_norm": 0.08463992178440094,
      "learning_rate": 0.0009890414451410787,
      "loss": 0.5558,
      "num_input_tokens_seen": 3993848,
      "step": 6110
    },
    {
      "epoch": 3.2049266247379453,
      "grad_norm": 0.07200099527835846,
      "learning_rate": 0.0009889937779939348,
      "loss": 0.4876,
      "num_input_tokens_seen": 3997848,
      "step": 6115
    },
    {
      "epoch": 3.207547169811321,
      "grad_norm": 0.11018106341362,
      "learning_rate": 0.0009889460085548715,
      "loss": 0.4113,
      "num_input_tokens_seen": 4001784,
      "step": 6120
    },
    {
      "epoch": 3.210167714884696,
      "grad_norm": 0.05676970258355141,
      "learning_rate": 0.0009888981368338815,
      "loss": 0.5079,
      "num_input_tokens_seen": 4005048,
      "step": 6125
    },
    {
      "epoch": 3.2127882599580713,
      "grad_norm": 0.15578949451446533,
      "learning_rate": 0.0009888501628409789,
      "loss": 0.5009,
      "num_input_tokens_seen": 4007864,
      "step": 6130
    },
    {
      "epoch": 3.2154088050314464,
      "grad_norm": 0.09921108931303024,
      "learning_rate": 0.0009888020865861991,
      "loss": 0.5174,
      "num_input_tokens_seen": 4011832,
      "step": 6135
    },
    {
      "epoch": 3.2180293501048216,
      "grad_norm": 0.0768197625875473,
      "learning_rate": 0.0009887539080795996,
      "loss": 0.4718,
      "num_input_tokens_seen": 4015032,
      "step": 6140
    },
    {
      "epoch": 3.220649895178197,
      "grad_norm": 0.10494128614664078,
      "learning_rate": 0.0009887056273312584,
      "loss": 0.6008,
      "num_input_tokens_seen": 4017432,
      "step": 6145
    },
    {
      "epoch": 3.2232704402515724,
      "grad_norm": 0.15275678038597107,
      "learning_rate": 0.0009886572443512753,
      "loss": 0.415,
      "num_input_tokens_seen": 4020216,
      "step": 6150
    },
    {
      "epoch": 3.2258909853249476,
      "grad_norm": 0.099667027592659,
      "learning_rate": 0.0009886087591497717,
      "loss": 0.5271,
      "num_input_tokens_seen": 4023096,
      "step": 6155
    },
    {
      "epoch": 3.2285115303983227,
      "grad_norm": 0.16540759801864624,
      "learning_rate": 0.00098856017173689,
      "loss": 0.3707,
      "num_input_tokens_seen": 4026712,
      "step": 6160
    },
    {
      "epoch": 3.231132075471698,
      "grad_norm": 0.13428252935409546,
      "learning_rate": 0.0009885114821227942,
      "loss": 0.5259,
      "num_input_tokens_seen": 4030872,
      "step": 6165
    },
    {
      "epoch": 3.2337526205450735,
      "grad_norm": 0.10920275747776031,
      "learning_rate": 0.0009884626903176696,
      "loss": 0.4463,
      "num_input_tokens_seen": 4034744,
      "step": 6170
    },
    {
      "epoch": 3.2363731656184487,
      "grad_norm": 0.11699352413415909,
      "learning_rate": 0.0009884137963317228,
      "loss": 0.4614,
      "num_input_tokens_seen": 4037752,
      "step": 6175
    },
    {
      "epoch": 3.238993710691824,
      "grad_norm": 0.16305473446846008,
      "learning_rate": 0.000988364800175182,
      "loss": 0.4061,
      "num_input_tokens_seen": 4041048,
      "step": 6180
    },
    {
      "epoch": 3.241614255765199,
      "grad_norm": 0.13480769097805023,
      "learning_rate": 0.0009883157018582966,
      "loss": 0.5638,
      "num_input_tokens_seen": 4043832,
      "step": 6185
    },
    {
      "epoch": 3.2442348008385746,
      "grad_norm": 0.10081151127815247,
      "learning_rate": 0.0009882665013913373,
      "loss": 0.4306,
      "num_input_tokens_seen": 4047512,
      "step": 6190
    },
    {
      "epoch": 3.24685534591195,
      "grad_norm": 0.10180889815092087,
      "learning_rate": 0.0009882171987845962,
      "loss": 0.4709,
      "num_input_tokens_seen": 4050584,
      "step": 6195
    },
    {
      "epoch": 3.249475890985325,
      "grad_norm": 0.08780601620674133,
      "learning_rate": 0.000988167794048387,
      "loss": 0.3869,
      "num_input_tokens_seen": 4053752,
      "step": 6200
    },
    {
      "epoch": 3.2520964360587,
      "grad_norm": 0.19560396671295166,
      "learning_rate": 0.0009881182871930448,
      "loss": 0.5133,
      "num_input_tokens_seen": 4056824,
      "step": 6205
    },
    {
      "epoch": 3.2547169811320753,
      "grad_norm": 0.2648216485977173,
      "learning_rate": 0.0009880686782289256,
      "loss": 0.625,
      "num_input_tokens_seen": 4059864,
      "step": 6210
    },
    {
      "epoch": 3.257337526205451,
      "grad_norm": 0.12101302295923233,
      "learning_rate": 0.000988018967166407,
      "loss": 0.4639,
      "num_input_tokens_seen": 4063416,
      "step": 6215
    },
    {
      "epoch": 3.259958071278826,
      "grad_norm": 0.06991884857416153,
      "learning_rate": 0.0009879691540158884,
      "loss": 0.4036,
      "num_input_tokens_seen": 4066264,
      "step": 6220
    },
    {
      "epoch": 3.2625786163522013,
      "grad_norm": 0.0951431393623352,
      "learning_rate": 0.0009879192387877895,
      "loss": 0.5056,
      "num_input_tokens_seen": 4068664,
      "step": 6225
    },
    {
      "epoch": 3.2651991614255764,
      "grad_norm": 0.10587257146835327,
      "learning_rate": 0.0009878692214925523,
      "loss": 0.7,
      "num_input_tokens_seen": 4072088,
      "step": 6230
    },
    {
      "epoch": 3.2678197064989516,
      "grad_norm": 0.22355148196220398,
      "learning_rate": 0.00098781910214064,
      "loss": 0.6609,
      "num_input_tokens_seen": 4075064,
      "step": 6235
    },
    {
      "epoch": 3.270440251572327,
      "grad_norm": 0.10952074825763702,
      "learning_rate": 0.0009877688807425368,
      "loss": 0.5039,
      "num_input_tokens_seen": 4077752,
      "step": 6240
    },
    {
      "epoch": 3.2730607966457024,
      "grad_norm": 0.11043129861354828,
      "learning_rate": 0.0009877185573087487,
      "loss": 0.5177,
      "num_input_tokens_seen": 4080472,
      "step": 6245
    },
    {
      "epoch": 3.2756813417190775,
      "grad_norm": 0.11820992082357407,
      "learning_rate": 0.0009876681318498025,
      "loss": 0.384,
      "num_input_tokens_seen": 4083384,
      "step": 6250
    },
    {
      "epoch": 3.2783018867924527,
      "grad_norm": 0.07095759361982346,
      "learning_rate": 0.0009876176043762466,
      "loss": 0.5212,
      "num_input_tokens_seen": 4086488,
      "step": 6255
    },
    {
      "epoch": 3.280922431865828,
      "grad_norm": 0.0921531692147255,
      "learning_rate": 0.000987566974898651,
      "loss": 0.337,
      "num_input_tokens_seen": 4089464,
      "step": 6260
    },
    {
      "epoch": 3.2835429769392035,
      "grad_norm": 0.10471884161233902,
      "learning_rate": 0.0009875162434276065,
      "loss": 0.5292,
      "num_input_tokens_seen": 4092088,
      "step": 6265
    },
    {
      "epoch": 3.2861635220125787,
      "grad_norm": 0.1072504073381424,
      "learning_rate": 0.000987465409973726,
      "loss": 0.4592,
      "num_input_tokens_seen": 4095544,
      "step": 6270
    },
    {
      "epoch": 3.288784067085954,
      "grad_norm": 0.07513079047203064,
      "learning_rate": 0.0009874144745476432,
      "loss": 0.4722,
      "num_input_tokens_seen": 4098264,
      "step": 6275
    },
    {
      "epoch": 3.291404612159329,
      "grad_norm": 0.0958581492304802,
      "learning_rate": 0.0009873634371600126,
      "loss": 0.4409,
      "num_input_tokens_seen": 4100792,
      "step": 6280
    },
    {
      "epoch": 3.2940251572327046,
      "grad_norm": 0.0691506564617157,
      "learning_rate": 0.0009873122978215115,
      "loss": 0.4557,
      "num_input_tokens_seen": 4103896,
      "step": 6285
    },
    {
      "epoch": 3.29664570230608,
      "grad_norm": 0.07437168061733246,
      "learning_rate": 0.000987261056542837,
      "loss": 0.3681,
      "num_input_tokens_seen": 4106968,
      "step": 6290
    },
    {
      "epoch": 3.299266247379455,
      "grad_norm": 0.06787986308336258,
      "learning_rate": 0.0009872097133347085,
      "loss": 0.5346,
      "num_input_tokens_seen": 4110040,
      "step": 6295
    },
    {
      "epoch": 3.30188679245283,
      "grad_norm": 0.06269872188568115,
      "learning_rate": 0.0009871582682078664,
      "loss": 0.4299,
      "num_input_tokens_seen": 4112664,
      "step": 6300
    },
    {
      "epoch": 3.3045073375262053,
      "grad_norm": 0.1453750878572464,
      "learning_rate": 0.0009871067211730722,
      "loss": 0.4668,
      "num_input_tokens_seen": 4115832,
      "step": 6305
    },
    {
      "epoch": 3.307127882599581,
      "grad_norm": 0.1174357682466507,
      "learning_rate": 0.0009870550722411093,
      "loss": 0.4529,
      "num_input_tokens_seen": 4119160,
      "step": 6310
    },
    {
      "epoch": 3.309748427672956,
      "grad_norm": 0.12065459042787552,
      "learning_rate": 0.000987003321422782,
      "loss": 0.818,
      "num_input_tokens_seen": 4122520,
      "step": 6315
    },
    {
      "epoch": 3.3123689727463312,
      "grad_norm": 0.1231410801410675,
      "learning_rate": 0.0009869514687289155,
      "loss": 0.4624,
      "num_input_tokens_seen": 4124888,
      "step": 6320
    },
    {
      "epoch": 3.3149895178197064,
      "grad_norm": 0.12285210192203522,
      "learning_rate": 0.0009868995141703576,
      "loss": 0.5074,
      "num_input_tokens_seen": 4127832,
      "step": 6325
    },
    {
      "epoch": 3.3176100628930816,
      "grad_norm": 0.09117942303419113,
      "learning_rate": 0.000986847457757976,
      "loss": 0.5905,
      "num_input_tokens_seen": 4130232,
      "step": 6330
    },
    {
      "epoch": 3.320230607966457,
      "grad_norm": 0.08413580805063248,
      "learning_rate": 0.0009867952995026605,
      "loss": 0.4073,
      "num_input_tokens_seen": 4133080,
      "step": 6335
    },
    {
      "epoch": 3.3228511530398324,
      "grad_norm": 0.056853003799915314,
      "learning_rate": 0.0009867430394153221,
      "loss": 0.4154,
      "num_input_tokens_seen": 4136536,
      "step": 6340
    },
    {
      "epoch": 3.3254716981132075,
      "grad_norm": 0.11958464980125427,
      "learning_rate": 0.0009866906775068927,
      "loss": 0.4241,
      "num_input_tokens_seen": 4139608,
      "step": 6345
    },
    {
      "epoch": 3.3280922431865827,
      "grad_norm": 0.23744291067123413,
      "learning_rate": 0.0009866382137883262,
      "loss": 0.586,
      "num_input_tokens_seen": 4142200,
      "step": 6350
    },
    {
      "epoch": 3.330712788259958,
      "grad_norm": 0.16947829723358154,
      "learning_rate": 0.0009865856482705973,
      "loss": 0.806,
      "num_input_tokens_seen": 4146200,
      "step": 6355
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.09705457836389542,
      "learning_rate": 0.0009865329809647019,
      "loss": 0.4006,
      "num_input_tokens_seen": 4149464,
      "step": 6360
    },
    {
      "epoch": 3.3359538784067087,
      "grad_norm": 0.07922012358903885,
      "learning_rate": 0.0009864802118816575,
      "loss": 0.5669,
      "num_input_tokens_seen": 4151992,
      "step": 6365
    },
    {
      "epoch": 3.338574423480084,
      "grad_norm": 0.06229310855269432,
      "learning_rate": 0.0009864273410325028,
      "loss": 0.4874,
      "num_input_tokens_seen": 4155576,
      "step": 6370
    },
    {
      "epoch": 3.341194968553459,
      "grad_norm": 0.10094394534826279,
      "learning_rate": 0.000986374368428298,
      "loss": 0.5939,
      "num_input_tokens_seen": 4159672,
      "step": 6375
    },
    {
      "epoch": 3.3438155136268346,
      "grad_norm": 0.08598220348358154,
      "learning_rate": 0.000986321294080124,
      "loss": 0.4153,
      "num_input_tokens_seen": 4162360,
      "step": 6380
    },
    {
      "epoch": 3.3464360587002098,
      "grad_norm": 0.1076856181025505,
      "learning_rate": 0.0009862681179990838,
      "loss": 0.4605,
      "num_input_tokens_seen": 4165304,
      "step": 6385
    },
    {
      "epoch": 3.349056603773585,
      "grad_norm": 0.11451078951358795,
      "learning_rate": 0.0009862148401963008,
      "loss": 0.4367,
      "num_input_tokens_seen": 4168728,
      "step": 6390
    },
    {
      "epoch": 3.35167714884696,
      "grad_norm": 0.12133534252643585,
      "learning_rate": 0.0009861614606829201,
      "loss": 0.3839,
      "num_input_tokens_seen": 4171960,
      "step": 6395
    },
    {
      "epoch": 3.3542976939203353,
      "grad_norm": 0.071465402841568,
      "learning_rate": 0.0009861079794701085,
      "loss": 0.4716,
      "num_input_tokens_seen": 4175544,
      "step": 6400
    },
    {
      "epoch": 3.3569182389937104,
      "grad_norm": 0.08274531364440918,
      "learning_rate": 0.000986054396569053,
      "loss": 0.378,
      "num_input_tokens_seen": 4178264,
      "step": 6405
    },
    {
      "epoch": 3.359538784067086,
      "grad_norm": 0.12613174319267273,
      "learning_rate": 0.0009860007119909635,
      "loss": 0.4669,
      "num_input_tokens_seen": 4180984,
      "step": 6410
    },
    {
      "epoch": 3.3621593291404612,
      "grad_norm": 0.08980493992567062,
      "learning_rate": 0.0009859469257470692,
      "loss": 0.5675,
      "num_input_tokens_seen": 4183768,
      "step": 6415
    },
    {
      "epoch": 3.3647798742138364,
      "grad_norm": 0.11810807138681412,
      "learning_rate": 0.0009858930378486223,
      "loss": 0.4347,
      "num_input_tokens_seen": 4187000,
      "step": 6420
    },
    {
      "epoch": 3.3674004192872116,
      "grad_norm": 0.20560869574546814,
      "learning_rate": 0.000985839048306895,
      "loss": 0.4883,
      "num_input_tokens_seen": 4189304,
      "step": 6425
    },
    {
      "epoch": 3.370020964360587,
      "grad_norm": 0.07154303789138794,
      "learning_rate": 0.000985784957133182,
      "loss": 0.4814,
      "num_input_tokens_seen": 4193080,
      "step": 6430
    },
    {
      "epoch": 3.3726415094339623,
      "grad_norm": 0.12052478641271591,
      "learning_rate": 0.0009857307643387975,
      "loss": 0.4783,
      "num_input_tokens_seen": 4195608,
      "step": 6435
    },
    {
      "epoch": 3.3752620545073375,
      "grad_norm": 0.13139484822750092,
      "learning_rate": 0.000985676469935079,
      "loss": 0.3842,
      "num_input_tokens_seen": 4198744,
      "step": 6440
    },
    {
      "epoch": 3.3778825995807127,
      "grad_norm": 0.12453952431678772,
      "learning_rate": 0.0009856220739333837,
      "loss": 0.7257,
      "num_input_tokens_seen": 4202680,
      "step": 6445
    },
    {
      "epoch": 3.380503144654088,
      "grad_norm": 0.13023832440376282,
      "learning_rate": 0.000985567576345091,
      "loss": 0.4626,
      "num_input_tokens_seen": 4205144,
      "step": 6450
    },
    {
      "epoch": 3.3831236897274635,
      "grad_norm": 0.10717390477657318,
      "learning_rate": 0.0009855129771816006,
      "loss": 0.4698,
      "num_input_tokens_seen": 4209112,
      "step": 6455
    },
    {
      "epoch": 3.3857442348008386,
      "grad_norm": 0.10181979089975357,
      "learning_rate": 0.0009854582764543347,
      "loss": 0.4561,
      "num_input_tokens_seen": 4213048,
      "step": 6460
    },
    {
      "epoch": 3.388364779874214,
      "grad_norm": 0.05549567937850952,
      "learning_rate": 0.0009854034741747356,
      "loss": 0.4404,
      "num_input_tokens_seen": 4216472,
      "step": 6465
    },
    {
      "epoch": 3.390985324947589,
      "grad_norm": 0.09314782917499542,
      "learning_rate": 0.0009853485703542675,
      "loss": 0.4087,
      "num_input_tokens_seen": 4219672,
      "step": 6470
    },
    {
      "epoch": 3.3936058700209646,
      "grad_norm": 0.12661737203598022,
      "learning_rate": 0.0009852935650044158,
      "loss": 0.5095,
      "num_input_tokens_seen": 4222872,
      "step": 6475
    },
    {
      "epoch": 3.3962264150943398,
      "grad_norm": 0.07486791908740997,
      "learning_rate": 0.0009852384581366866,
      "loss": 0.5316,
      "num_input_tokens_seen": 4225528,
      "step": 6480
    },
    {
      "epoch": 3.398846960167715,
      "grad_norm": 0.09593548625707626,
      "learning_rate": 0.000985183249762608,
      "loss": 0.4283,
      "num_input_tokens_seen": 4229144,
      "step": 6485
    },
    {
      "epoch": 3.40146750524109,
      "grad_norm": 0.08779722452163696,
      "learning_rate": 0.000985127939893729,
      "loss": 0.4988,
      "num_input_tokens_seen": 4232792,
      "step": 6490
    },
    {
      "epoch": 3.4040880503144653,
      "grad_norm": 0.06568209826946259,
      "learning_rate": 0.0009850725285416194,
      "loss": 0.4293,
      "num_input_tokens_seen": 4236600,
      "step": 6495
    },
    {
      "epoch": 3.4067085953878404,
      "grad_norm": 0.09881287068128586,
      "learning_rate": 0.0009850170157178707,
      "loss": 0.628,
      "num_input_tokens_seen": 4239896,
      "step": 6500
    },
    {
      "epoch": 3.409329140461216,
      "grad_norm": 0.05152039974927902,
      "learning_rate": 0.000984961401434096,
      "loss": 0.4876,
      "num_input_tokens_seen": 4243640,
      "step": 6505
    },
    {
      "epoch": 3.411949685534591,
      "grad_norm": 0.07857432216405869,
      "learning_rate": 0.0009849056857019285,
      "loss": 0.5497,
      "num_input_tokens_seen": 4247160,
      "step": 6510
    },
    {
      "epoch": 3.4145702306079664,
      "grad_norm": 0.0635995864868164,
      "learning_rate": 0.0009848498685330238,
      "loss": 0.5677,
      "num_input_tokens_seen": 4251032,
      "step": 6515
    },
    {
      "epoch": 3.4171907756813416,
      "grad_norm": 0.12183121591806412,
      "learning_rate": 0.000984793949939058,
      "loss": 0.5467,
      "num_input_tokens_seen": 4254680,
      "step": 6520
    },
    {
      "epoch": 3.419811320754717,
      "grad_norm": 0.07026427984237671,
      "learning_rate": 0.0009847379299317287,
      "loss": 0.4191,
      "num_input_tokens_seen": 4257720,
      "step": 6525
    },
    {
      "epoch": 3.4224318658280923,
      "grad_norm": 0.06740702688694,
      "learning_rate": 0.0009846818085227549,
      "loss": 0.4956,
      "num_input_tokens_seen": 4260696,
      "step": 6530
    },
    {
      "epoch": 3.4250524109014675,
      "grad_norm": 0.0945868194103241,
      "learning_rate": 0.000984625585723876,
      "loss": 0.426,
      "num_input_tokens_seen": 4263416,
      "step": 6535
    },
    {
      "epoch": 3.4276729559748427,
      "grad_norm": 0.09215811640024185,
      "learning_rate": 0.0009845692615468536,
      "loss": 0.6072,
      "num_input_tokens_seen": 4266232,
      "step": 6540
    },
    {
      "epoch": 3.430293501048218,
      "grad_norm": 0.16527004539966583,
      "learning_rate": 0.00098451283600347,
      "loss": 0.4183,
      "num_input_tokens_seen": 4269400,
      "step": 6545
    },
    {
      "epoch": 3.4329140461215935,
      "grad_norm": 0.09637689590454102,
      "learning_rate": 0.0009844563091055286,
      "loss": 0.4594,
      "num_input_tokens_seen": 4271896,
      "step": 6550
    },
    {
      "epoch": 3.4355345911949686,
      "grad_norm": 0.09391317516565323,
      "learning_rate": 0.0009843996808648542,
      "loss": 0.6598,
      "num_input_tokens_seen": 4275416,
      "step": 6555
    },
    {
      "epoch": 3.438155136268344,
      "grad_norm": 0.0784095823764801,
      "learning_rate": 0.000984342951293293,
      "loss": 0.4314,
      "num_input_tokens_seen": 4278936,
      "step": 6560
    },
    {
      "epoch": 3.440775681341719,
      "grad_norm": 0.1008228287100792,
      "learning_rate": 0.0009842861204027121,
      "loss": 0.4664,
      "num_input_tokens_seen": 4282808,
      "step": 6565
    },
    {
      "epoch": 3.4433962264150946,
      "grad_norm": 0.11706327646970749,
      "learning_rate": 0.0009842291882049999,
      "loss": 0.5156,
      "num_input_tokens_seen": 4285400,
      "step": 6570
    },
    {
      "epoch": 3.4460167714884697,
      "grad_norm": 0.1232713907957077,
      "learning_rate": 0.0009841721547120658,
      "loss": 0.4013,
      "num_input_tokens_seen": 4288280,
      "step": 6575
    },
    {
      "epoch": 3.448637316561845,
      "grad_norm": 0.07276323437690735,
      "learning_rate": 0.0009841150199358408,
      "loss": 0.4948,
      "num_input_tokens_seen": 4291576,
      "step": 6580
    },
    {
      "epoch": 3.45125786163522,
      "grad_norm": 0.09367652982473373,
      "learning_rate": 0.0009840577838882765,
      "loss": 0.4777,
      "num_input_tokens_seen": 4295288,
      "step": 6585
    },
    {
      "epoch": 3.4538784067085953,
      "grad_norm": 0.09383776038885117,
      "learning_rate": 0.0009840004465813464,
      "loss": 0.5437,
      "num_input_tokens_seen": 4298808,
      "step": 6590
    },
    {
      "epoch": 3.4564989517819704,
      "grad_norm": 0.07809765636920929,
      "learning_rate": 0.0009839430080270445,
      "loss": 0.3754,
      "num_input_tokens_seen": 4304280,
      "step": 6595
    },
    {
      "epoch": 3.459119496855346,
      "grad_norm": 0.1313590705394745,
      "learning_rate": 0.0009838854682373865,
      "loss": 0.6741,
      "num_input_tokens_seen": 4306616,
      "step": 6600
    },
    {
      "epoch": 3.461740041928721,
      "grad_norm": 0.13197115063667297,
      "learning_rate": 0.000983827827224409,
      "loss": 0.4825,
      "num_input_tokens_seen": 4309112,
      "step": 6605
    },
    {
      "epoch": 3.4643605870020964,
      "grad_norm": 0.1924889236688614,
      "learning_rate": 0.0009837700850001698,
      "loss": 0.5498,
      "num_input_tokens_seen": 4311832,
      "step": 6610
    },
    {
      "epoch": 3.4669811320754715,
      "grad_norm": 0.01977315917611122,
      "learning_rate": 0.000983712241576748,
      "loss": 0.4703,
      "num_input_tokens_seen": 4318328,
      "step": 6615
    },
    {
      "epoch": 3.469601677148847,
      "grad_norm": 0.12691856920719147,
      "learning_rate": 0.000983654296966244,
      "loss": 0.4585,
      "num_input_tokens_seen": 4321848,
      "step": 6620
    },
    {
      "epoch": 3.4722222222222223,
      "grad_norm": 0.045177750289440155,
      "learning_rate": 0.0009835962511807786,
      "loss": 0.3435,
      "num_input_tokens_seen": 4324984,
      "step": 6625
    },
    {
      "epoch": 3.4748427672955975,
      "grad_norm": 0.12220702320337296,
      "learning_rate": 0.0009835381042324948,
      "loss": 0.4565,
      "num_input_tokens_seen": 4327704,
      "step": 6630
    },
    {
      "epoch": 3.4774633123689727,
      "grad_norm": 0.08074638247489929,
      "learning_rate": 0.0009834798561335558,
      "loss": 0.4181,
      "num_input_tokens_seen": 4330904,
      "step": 6635
    },
    {
      "epoch": 3.480083857442348,
      "grad_norm": 0.13522516191005707,
      "learning_rate": 0.000983421506896147,
      "loss": 0.5231,
      "num_input_tokens_seen": 4333592,
      "step": 6640
    },
    {
      "epoch": 3.4827044025157234,
      "grad_norm": 0.16131721436977386,
      "learning_rate": 0.000983363056532474,
      "loss": 0.4425,
      "num_input_tokens_seen": 4336696,
      "step": 6645
    },
    {
      "epoch": 3.4853249475890986,
      "grad_norm": 0.31172502040863037,
      "learning_rate": 0.000983304505054764,
      "loss": 0.7116,
      "num_input_tokens_seen": 4340088,
      "step": 6650
    },
    {
      "epoch": 3.487945492662474,
      "grad_norm": 0.120906762778759,
      "learning_rate": 0.0009832458524752655,
      "loss": 0.5587,
      "num_input_tokens_seen": 4343640,
      "step": 6655
    },
    {
      "epoch": 3.490566037735849,
      "grad_norm": 0.0765095129609108,
      "learning_rate": 0.0009831870988062476,
      "loss": 0.4483,
      "num_input_tokens_seen": 4348568,
      "step": 6660
    },
    {
      "epoch": 3.4931865828092246,
      "grad_norm": 0.09050753712654114,
      "learning_rate": 0.0009831282440600014,
      "loss": 0.4108,
      "num_input_tokens_seen": 4352376,
      "step": 6665
    },
    {
      "epoch": 3.4958071278825997,
      "grad_norm": 0.09093930572271347,
      "learning_rate": 0.0009830692882488383,
      "loss": 0.5168,
      "num_input_tokens_seen": 4356120,
      "step": 6670
    },
    {
      "epoch": 3.498427672955975,
      "grad_norm": 0.075343556702137,
      "learning_rate": 0.000983010231385091,
      "loss": 0.4717,
      "num_input_tokens_seen": 4359448,
      "step": 6675
    },
    {
      "epoch": 3.50104821802935,
      "grad_norm": 0.0930987000465393,
      "learning_rate": 0.000982951073481114,
      "loss": 0.3568,
      "num_input_tokens_seen": 4362936,
      "step": 6680
    },
    {
      "epoch": 3.5036687631027252,
      "grad_norm": 0.10939996689558029,
      "learning_rate": 0.0009828918145492823,
      "loss": 0.414,
      "num_input_tokens_seen": 4366968,
      "step": 6685
    },
    {
      "epoch": 3.5062893081761004,
      "grad_norm": 0.08913369476795197,
      "learning_rate": 0.000982832454601992,
      "loss": 0.3528,
      "num_input_tokens_seen": 4370264,
      "step": 6690
    },
    {
      "epoch": 3.508909853249476,
      "grad_norm": 0.09079497307538986,
      "learning_rate": 0.0009827729936516605,
      "loss": 0.3272,
      "num_input_tokens_seen": 4373432,
      "step": 6695
    },
    {
      "epoch": 3.511530398322851,
      "grad_norm": 0.09101492166519165,
      "learning_rate": 0.0009827134317107267,
      "loss": 0.6197,
      "num_input_tokens_seen": 4376824,
      "step": 6700
    },
    {
      "epoch": 3.5141509433962264,
      "grad_norm": 0.09220190346240997,
      "learning_rate": 0.0009826537687916501,
      "loss": 0.5404,
      "num_input_tokens_seen": 4380504,
      "step": 6705
    },
    {
      "epoch": 3.5167714884696015,
      "grad_norm": 0.09894464164972305,
      "learning_rate": 0.0009825940049069113,
      "loss": 0.4538,
      "num_input_tokens_seen": 4383704,
      "step": 6710
    },
    {
      "epoch": 3.519392033542977,
      "grad_norm": 0.13950365781784058,
      "learning_rate": 0.0009825341400690126,
      "loss": 0.6011,
      "num_input_tokens_seen": 4387128,
      "step": 6715
    },
    {
      "epoch": 3.5220125786163523,
      "grad_norm": 0.09137959778308868,
      "learning_rate": 0.0009824741742904767,
      "loss": 0.4768,
      "num_input_tokens_seen": 4390296,
      "step": 6720
    },
    {
      "epoch": 3.5246331236897275,
      "grad_norm": 0.1080230101943016,
      "learning_rate": 0.000982414107583848,
      "loss": 0.5363,
      "num_input_tokens_seen": 4393624,
      "step": 6725
    },
    {
      "epoch": 3.5272536687631026,
      "grad_norm": 0.12080089002847672,
      "learning_rate": 0.0009823539399616914,
      "loss": 0.4182,
      "num_input_tokens_seen": 4397944,
      "step": 6730
    },
    {
      "epoch": 3.529874213836478,
      "grad_norm": 0.10436157882213593,
      "learning_rate": 0.0009822936714365938,
      "loss": 0.4398,
      "num_input_tokens_seen": 4400696,
      "step": 6735
    },
    {
      "epoch": 3.532494758909853,
      "grad_norm": 0.1613200306892395,
      "learning_rate": 0.0009822333020211623,
      "loss": 0.473,
      "num_input_tokens_seen": 4403416,
      "step": 6740
    },
    {
      "epoch": 3.5351153039832286,
      "grad_norm": 0.05425802245736122,
      "learning_rate": 0.0009821728317280256,
      "loss": 0.4139,
      "num_input_tokens_seen": 4407320,
      "step": 6745
    },
    {
      "epoch": 3.5377358490566038,
      "grad_norm": 0.10091862082481384,
      "learning_rate": 0.0009821122605698336,
      "loss": 0.4384,
      "num_input_tokens_seen": 4409848,
      "step": 6750
    },
    {
      "epoch": 3.540356394129979,
      "grad_norm": 0.09478678554296494,
      "learning_rate": 0.0009820515885592567,
      "loss": 0.5023,
      "num_input_tokens_seen": 4412920,
      "step": 6755
    },
    {
      "epoch": 3.5429769392033545,
      "grad_norm": 0.1385841965675354,
      "learning_rate": 0.0009819908157089872,
      "loss": 0.4076,
      "num_input_tokens_seen": 4415384,
      "step": 6760
    },
    {
      "epoch": 3.5455974842767297,
      "grad_norm": 0.11928367614746094,
      "learning_rate": 0.0009819299420317379,
      "loss": 0.3845,
      "num_input_tokens_seen": 4418040,
      "step": 6765
    },
    {
      "epoch": 3.548218029350105,
      "grad_norm": 0.07686206698417664,
      "learning_rate": 0.0009818689675402427,
      "loss": 0.4728,
      "num_input_tokens_seen": 4421464,
      "step": 6770
    },
    {
      "epoch": 3.55083857442348,
      "grad_norm": 0.10731224715709686,
      "learning_rate": 0.000981807892247257,
      "loss": 0.5001,
      "num_input_tokens_seen": 4423672,
      "step": 6775
    },
    {
      "epoch": 3.5534591194968552,
      "grad_norm": 0.1207965537905693,
      "learning_rate": 0.0009817467161655571,
      "loss": 0.4453,
      "num_input_tokens_seen": 4426648,
      "step": 6780
    },
    {
      "epoch": 3.5560796645702304,
      "grad_norm": 0.16488465666770935,
      "learning_rate": 0.0009816854393079402,
      "loss": 0.5188,
      "num_input_tokens_seen": 4429752,
      "step": 6785
    },
    {
      "epoch": 3.558700209643606,
      "grad_norm": 0.0981602668762207,
      "learning_rate": 0.0009816240616872247,
      "loss": 0.5983,
      "num_input_tokens_seen": 4433784,
      "step": 6790
    },
    {
      "epoch": 3.561320754716981,
      "grad_norm": 0.1023639515042305,
      "learning_rate": 0.0009815625833162502,
      "loss": 0.4783,
      "num_input_tokens_seen": 4436376,
      "step": 6795
    },
    {
      "epoch": 3.5639412997903563,
      "grad_norm": 0.13203741610050201,
      "learning_rate": 0.0009815010042078772,
      "loss": 0.4143,
      "num_input_tokens_seen": 4439384,
      "step": 6800
    },
    {
      "epoch": 3.5665618448637315,
      "grad_norm": 0.22455435991287231,
      "learning_rate": 0.0009814393243749873,
      "loss": 0.4962,
      "num_input_tokens_seen": 4442712,
      "step": 6805
    },
    {
      "epoch": 3.569182389937107,
      "grad_norm": 0.10287238657474518,
      "learning_rate": 0.0009813775438304835,
      "loss": 0.5137,
      "num_input_tokens_seen": 4446936,
      "step": 6810
    },
    {
      "epoch": 3.5718029350104823,
      "grad_norm": 0.10660403221845627,
      "learning_rate": 0.0009813156625872893,
      "loss": 0.5395,
      "num_input_tokens_seen": 4450328,
      "step": 6815
    },
    {
      "epoch": 3.5744234800838575,
      "grad_norm": 0.07752779126167297,
      "learning_rate": 0.0009812536806583494,
      "loss": 0.4284,
      "num_input_tokens_seen": 4453816,
      "step": 6820
    },
    {
      "epoch": 3.5770440251572326,
      "grad_norm": 0.06772565096616745,
      "learning_rate": 0.0009811915980566302,
      "loss": 0.3968,
      "num_input_tokens_seen": 4458072,
      "step": 6825
    },
    {
      "epoch": 3.579664570230608,
      "grad_norm": 0.08323706686496735,
      "learning_rate": 0.0009811294147951182,
      "loss": 0.4214,
      "num_input_tokens_seen": 4461144,
      "step": 6830
    },
    {
      "epoch": 3.582285115303983,
      "grad_norm": 0.06819288432598114,
      "learning_rate": 0.000981067130886822,
      "loss": 0.3665,
      "num_input_tokens_seen": 4463928,
      "step": 6835
    },
    {
      "epoch": 3.5849056603773586,
      "grad_norm": 0.1562976837158203,
      "learning_rate": 0.00098100474634477,
      "loss": 0.4709,
      "num_input_tokens_seen": 4466488,
      "step": 6840
    },
    {
      "epoch": 3.5875262054507338,
      "grad_norm": 0.07527956366539001,
      "learning_rate": 0.0009809422611820127,
      "loss": 0.3991,
      "num_input_tokens_seen": 4470104,
      "step": 6845
    },
    {
      "epoch": 3.590146750524109,
      "grad_norm": 0.09521850943565369,
      "learning_rate": 0.0009808796754116212,
      "loss": 0.5363,
      "num_input_tokens_seen": 4472184,
      "step": 6850
    },
    {
      "epoch": 3.5927672955974845,
      "grad_norm": 0.10013727843761444,
      "learning_rate": 0.0009808169890466879,
      "loss": 0.4843,
      "num_input_tokens_seen": 4474840,
      "step": 6855
    },
    {
      "epoch": 3.5953878406708597,
      "grad_norm": 0.15201151371002197,
      "learning_rate": 0.000980754202100326,
      "loss": 0.5403,
      "num_input_tokens_seen": 4477816,
      "step": 6860
    },
    {
      "epoch": 3.598008385744235,
      "grad_norm": 0.0770588219165802,
      "learning_rate": 0.0009806913145856695,
      "loss": 0.5656,
      "num_input_tokens_seen": 4481816,
      "step": 6865
    },
    {
      "epoch": 3.60062893081761,
      "grad_norm": 0.07170785963535309,
      "learning_rate": 0.0009806283265158741,
      "loss": 0.3902,
      "num_input_tokens_seen": 4485464,
      "step": 6870
    },
    {
      "epoch": 3.603249475890985,
      "grad_norm": 0.08066636323928833,
      "learning_rate": 0.0009805652379041162,
      "loss": 0.3918,
      "num_input_tokens_seen": 4490392,
      "step": 6875
    },
    {
      "epoch": 3.6058700209643604,
      "grad_norm": 0.1299305260181427,
      "learning_rate": 0.000980502048763593,
      "loss": 0.4843,
      "num_input_tokens_seen": 4494712,
      "step": 6880
    },
    {
      "epoch": 3.608490566037736,
      "grad_norm": 0.07664328813552856,
      "learning_rate": 0.0009804387591075233,
      "loss": 0.5179,
      "num_input_tokens_seen": 4497528,
      "step": 6885
    },
    {
      "epoch": 3.611111111111111,
      "grad_norm": 0.060038913041353226,
      "learning_rate": 0.000980375368949146,
      "loss": 0.3978,
      "num_input_tokens_seen": 4500536,
      "step": 6890
    },
    {
      "epoch": 3.6137316561844863,
      "grad_norm": 0.09418567270040512,
      "learning_rate": 0.0009803118783017221,
      "loss": 0.5053,
      "num_input_tokens_seen": 4504056,
      "step": 6895
    },
    {
      "epoch": 3.6163522012578615,
      "grad_norm": 0.11189666390419006,
      "learning_rate": 0.0009802482871785329,
      "loss": 0.4565,
      "num_input_tokens_seen": 4506936,
      "step": 6900
    },
    {
      "epoch": 3.618972746331237,
      "grad_norm": 0.08417951315641403,
      "learning_rate": 0.000980184595592881,
      "loss": 0.3749,
      "num_input_tokens_seen": 4509560,
      "step": 6905
    },
    {
      "epoch": 3.6215932914046123,
      "grad_norm": 0.09377112239599228,
      "learning_rate": 0.00098012080355809,
      "loss": 0.4659,
      "num_input_tokens_seen": 4513240,
      "step": 6910
    },
    {
      "epoch": 3.6242138364779874,
      "grad_norm": 0.10353435575962067,
      "learning_rate": 0.0009800569110875043,
      "loss": 0.4702,
      "num_input_tokens_seen": 4515640,
      "step": 6915
    },
    {
      "epoch": 3.6268343815513626,
      "grad_norm": 0.05599899962544441,
      "learning_rate": 0.0009799929181944895,
      "loss": 0.4115,
      "num_input_tokens_seen": 4520824,
      "step": 6920
    },
    {
      "epoch": 3.629454926624738,
      "grad_norm": 0.09133829176425934,
      "learning_rate": 0.0009799288248924325,
      "loss": 0.503,
      "num_input_tokens_seen": 4523896,
      "step": 6925
    },
    {
      "epoch": 3.632075471698113,
      "grad_norm": 0.10093928873538971,
      "learning_rate": 0.0009798646311947404,
      "loss": 0.6005,
      "num_input_tokens_seen": 4527000,
      "step": 6930
    },
    {
      "epoch": 3.6346960167714886,
      "grad_norm": 0.15022322535514832,
      "learning_rate": 0.0009798003371148422,
      "loss": 0.5754,
      "num_input_tokens_seen": 4529912,
      "step": 6935
    },
    {
      "epoch": 3.6373165618448637,
      "grad_norm": 0.1435926854610443,
      "learning_rate": 0.0009797359426661873,
      "loss": 0.4266,
      "num_input_tokens_seen": 4533336,
      "step": 6940
    },
    {
      "epoch": 3.639937106918239,
      "grad_norm": 0.08628696203231812,
      "learning_rate": 0.0009796714478622463,
      "loss": 0.4636,
      "num_input_tokens_seen": 4536344,
      "step": 6945
    },
    {
      "epoch": 3.6425576519916145,
      "grad_norm": 0.0647539272904396,
      "learning_rate": 0.0009796068527165107,
      "loss": 0.4109,
      "num_input_tokens_seen": 4540152,
      "step": 6950
    },
    {
      "epoch": 3.6451781970649897,
      "grad_norm": 0.10183432698249817,
      "learning_rate": 0.0009795421572424935,
      "loss": 0.3495,
      "num_input_tokens_seen": 4543032,
      "step": 6955
    },
    {
      "epoch": 3.647798742138365,
      "grad_norm": 0.09065243601799011,
      "learning_rate": 0.0009794773614537275,
      "loss": 0.4894,
      "num_input_tokens_seen": 4547064,
      "step": 6960
    },
    {
      "epoch": 3.65041928721174,
      "grad_norm": 0.06281226128339767,
      "learning_rate": 0.0009794124653637677,
      "loss": 0.5129,
      "num_input_tokens_seen": 4551000,
      "step": 6965
    },
    {
      "epoch": 3.653039832285115,
      "grad_norm": 0.055863406509160995,
      "learning_rate": 0.00097934746898619,
      "loss": 0.5412,
      "num_input_tokens_seen": 4555000,
      "step": 6970
    },
    {
      "epoch": 3.6556603773584904,
      "grad_norm": 0.06736766546964645,
      "learning_rate": 0.00097928237233459,
      "loss": 0.4077,
      "num_input_tokens_seen": 4558680,
      "step": 6975
    },
    {
      "epoch": 3.658280922431866,
      "grad_norm": 0.09254124760627747,
      "learning_rate": 0.0009792171754225859,
      "loss": 0.4452,
      "num_input_tokens_seen": 4561336,
      "step": 6980
    },
    {
      "epoch": 3.660901467505241,
      "grad_norm": 0.09136437624692917,
      "learning_rate": 0.0009791518782638158,
      "loss": 0.4763,
      "num_input_tokens_seen": 4564568,
      "step": 6985
    },
    {
      "epoch": 3.6635220125786163,
      "grad_norm": 0.12235404551029205,
      "learning_rate": 0.0009790864808719392,
      "loss": 0.4575,
      "num_input_tokens_seen": 4567448,
      "step": 6990
    },
    {
      "epoch": 3.6661425576519915,
      "grad_norm": 0.07678338140249252,
      "learning_rate": 0.0009790209832606365,
      "loss": 0.5702,
      "num_input_tokens_seen": 4570136,
      "step": 6995
    },
    {
      "epoch": 3.668763102725367,
      "grad_norm": 0.06277824193239212,
      "learning_rate": 0.000978955385443609,
      "loss": 0.4948,
      "num_input_tokens_seen": 4573624,
      "step": 7000
    },
    {
      "epoch": 3.6713836477987423,
      "grad_norm": 0.23730388283729553,
      "learning_rate": 0.0009788896874345792,
      "loss": 0.4037,
      "num_input_tokens_seen": 4577048,
      "step": 7005
    },
    {
      "epoch": 3.6740041928721174,
      "grad_norm": 0.10901817679405212,
      "learning_rate": 0.0009788238892472904,
      "loss": 0.5187,
      "num_input_tokens_seen": 4580088,
      "step": 7010
    },
    {
      "epoch": 3.6766247379454926,
      "grad_norm": 0.09430256485939026,
      "learning_rate": 0.0009787579908955063,
      "loss": 0.3954,
      "num_input_tokens_seen": 4583480,
      "step": 7015
    },
    {
      "epoch": 3.6792452830188678,
      "grad_norm": 0.133833646774292,
      "learning_rate": 0.0009786919923930127,
      "loss": 0.6105,
      "num_input_tokens_seen": 4586168,
      "step": 7020
    },
    {
      "epoch": 3.681865828092243,
      "grad_norm": 0.11315762251615524,
      "learning_rate": 0.0009786258937536155,
      "loss": 0.3969,
      "num_input_tokens_seen": 4589592,
      "step": 7025
    },
    {
      "epoch": 3.6844863731656186,
      "grad_norm": 0.12036513537168503,
      "learning_rate": 0.0009785596949911418,
      "loss": 0.5174,
      "num_input_tokens_seen": 4592440,
      "step": 7030
    },
    {
      "epoch": 3.6871069182389937,
      "grad_norm": 0.1167919859290123,
      "learning_rate": 0.0009784933961194395,
      "loss": 0.3662,
      "num_input_tokens_seen": 4594904,
      "step": 7035
    },
    {
      "epoch": 3.689727463312369,
      "grad_norm": 0.10648225247859955,
      "learning_rate": 0.0009784269971523777,
      "loss": 0.5325,
      "num_input_tokens_seen": 4597624,
      "step": 7040
    },
    {
      "epoch": 3.6923480083857445,
      "grad_norm": 0.20628106594085693,
      "learning_rate": 0.0009783604981038463,
      "loss": 0.5767,
      "num_input_tokens_seen": 4599928,
      "step": 7045
    },
    {
      "epoch": 3.6949685534591197,
      "grad_norm": 0.24636246263980865,
      "learning_rate": 0.000978293898987756,
      "loss": 0.4857,
      "num_input_tokens_seen": 4602328,
      "step": 7050
    },
    {
      "epoch": 3.697589098532495,
      "grad_norm": 0.08200231939554214,
      "learning_rate": 0.000978227199818039,
      "loss": 0.4919,
      "num_input_tokens_seen": 4606328,
      "step": 7055
    },
    {
      "epoch": 3.70020964360587,
      "grad_norm": 0.08331254124641418,
      "learning_rate": 0.0009781604006086474,
      "loss": 0.397,
      "num_input_tokens_seen": 4609176,
      "step": 7060
    },
    {
      "epoch": 3.702830188679245,
      "grad_norm": 0.055936720222234726,
      "learning_rate": 0.0009780935013735553,
      "loss": 0.5519,
      "num_input_tokens_seen": 4612056,
      "step": 7065
    },
    {
      "epoch": 3.7054507337526204,
      "grad_norm": 0.10484891384840012,
      "learning_rate": 0.0009780265021267572,
      "loss": 0.5829,
      "num_input_tokens_seen": 4615320,
      "step": 7070
    },
    {
      "epoch": 3.708071278825996,
      "grad_norm": 0.07961831241846085,
      "learning_rate": 0.0009779594028822682,
      "loss": 0.5514,
      "num_input_tokens_seen": 4618200,
      "step": 7075
    },
    {
      "epoch": 3.710691823899371,
      "grad_norm": 0.09780283272266388,
      "learning_rate": 0.0009778922036541252,
      "loss": 0.3392,
      "num_input_tokens_seen": 4621368,
      "step": 7080
    },
    {
      "epoch": 3.7133123689727463,
      "grad_norm": 0.07754994183778763,
      "learning_rate": 0.0009778249044563852,
      "loss": 0.4932,
      "num_input_tokens_seen": 4624088,
      "step": 7085
    },
    {
      "epoch": 3.7159329140461215,
      "grad_norm": 0.09568644315004349,
      "learning_rate": 0.0009777575053031263,
      "loss": 0.6081,
      "num_input_tokens_seen": 4628568,
      "step": 7090
    },
    {
      "epoch": 3.718553459119497,
      "grad_norm": 0.06922518461942673,
      "learning_rate": 0.000977690006208448,
      "loss": 0.4973,
      "num_input_tokens_seen": 4631288,
      "step": 7095
    },
    {
      "epoch": 3.7211740041928723,
      "grad_norm": 0.07435102760791779,
      "learning_rate": 0.0009776224071864703,
      "loss": 0.3934,
      "num_input_tokens_seen": 4635224,
      "step": 7100
    },
    {
      "epoch": 3.7237945492662474,
      "grad_norm": 0.06758373230695724,
      "learning_rate": 0.000977554708251334,
      "loss": 0.6709,
      "num_input_tokens_seen": 4638648,
      "step": 7105
    },
    {
      "epoch": 3.7264150943396226,
      "grad_norm": 0.17440515756607056,
      "learning_rate": 0.0009774869094172007,
      "loss": 0.3942,
      "num_input_tokens_seen": 4641848,
      "step": 7110
    },
    {
      "epoch": 3.7290356394129978,
      "grad_norm": 0.0974908322095871,
      "learning_rate": 0.0009774190106982537,
      "loss": 0.494,
      "num_input_tokens_seen": 4644408,
      "step": 7115
    },
    {
      "epoch": 3.731656184486373,
      "grad_norm": 0.08562791347503662,
      "learning_rate": 0.0009773510121086962,
      "loss": 0.6274,
      "num_input_tokens_seen": 4647096,
      "step": 7120
    },
    {
      "epoch": 3.7342767295597485,
      "grad_norm": 0.09060825407505035,
      "learning_rate": 0.0009772829136627528,
      "loss": 0.4846,
      "num_input_tokens_seen": 4649176,
      "step": 7125
    },
    {
      "epoch": 3.7368972746331237,
      "grad_norm": 0.1163199245929718,
      "learning_rate": 0.0009772147153746691,
      "loss": 0.5106,
      "num_input_tokens_seen": 4653144,
      "step": 7130
    },
    {
      "epoch": 3.739517819706499,
      "grad_norm": 0.10123442858457565,
      "learning_rate": 0.0009771464172587112,
      "loss": 0.3587,
      "num_input_tokens_seen": 4655864,
      "step": 7135
    },
    {
      "epoch": 3.742138364779874,
      "grad_norm": 0.11271108686923981,
      "learning_rate": 0.0009770780193291667,
      "loss": 0.4908,
      "num_input_tokens_seen": 4659000,
      "step": 7140
    },
    {
      "epoch": 3.7447589098532497,
      "grad_norm": 0.05080926790833473,
      "learning_rate": 0.000977009521600343,
      "loss": 0.5321,
      "num_input_tokens_seen": 4661720,
      "step": 7145
    },
    {
      "epoch": 3.747379454926625,
      "grad_norm": 0.170693501830101,
      "learning_rate": 0.0009769409240865696,
      "loss": 0.472,
      "num_input_tokens_seen": 4666584,
      "step": 7150
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.11024975776672363,
      "learning_rate": 0.0009768722268021959,
      "loss": 0.453,
      "num_input_tokens_seen": 4669272,
      "step": 7155
    },
    {
      "epoch": 3.752620545073375,
      "grad_norm": 0.1129804253578186,
      "learning_rate": 0.000976803429761593,
      "loss": 0.4914,
      "num_input_tokens_seen": 4672280,
      "step": 7160
    },
    {
      "epoch": 3.7552410901467503,
      "grad_norm": 0.08696214854717255,
      "learning_rate": 0.000976734532979152,
      "loss": 0.3564,
      "num_input_tokens_seen": 4675032,
      "step": 7165
    },
    {
      "epoch": 3.757861635220126,
      "grad_norm": 0.11061141639947891,
      "learning_rate": 0.000976665536469286,
      "loss": 0.4491,
      "num_input_tokens_seen": 4678360,
      "step": 7170
    },
    {
      "epoch": 3.760482180293501,
      "grad_norm": 0.229433074593544,
      "learning_rate": 0.0009765964402464276,
      "loss": 0.5228,
      "num_input_tokens_seen": 4681208,
      "step": 7175
    },
    {
      "epoch": 3.7631027253668763,
      "grad_norm": 0.07580973207950592,
      "learning_rate": 0.0009765272443250312,
      "loss": 0.4727,
      "num_input_tokens_seen": 4683768,
      "step": 7180
    },
    {
      "epoch": 3.7657232704402515,
      "grad_norm": 0.14384540915489197,
      "learning_rate": 0.0009764579487195717,
      "loss": 0.4756,
      "num_input_tokens_seen": 4686872,
      "step": 7185
    },
    {
      "epoch": 3.768343815513627,
      "grad_norm": 0.07181776314973831,
      "learning_rate": 0.0009763885534445452,
      "loss": 0.4765,
      "num_input_tokens_seen": 4690424,
      "step": 7190
    },
    {
      "epoch": 3.7709643605870022,
      "grad_norm": 0.10949431359767914,
      "learning_rate": 0.0009763190585144682,
      "loss": 0.5449,
      "num_input_tokens_seen": 4692824,
      "step": 7195
    },
    {
      "epoch": 3.7735849056603774,
      "grad_norm": 0.10070981085300446,
      "learning_rate": 0.0009762494639438783,
      "loss": 0.519,
      "num_input_tokens_seen": 4696440,
      "step": 7200
    },
    {
      "epoch": 3.7762054507337526,
      "grad_norm": 0.11272530257701874,
      "learning_rate": 0.0009761797697473339,
      "loss": 0.4392,
      "num_input_tokens_seen": 4700440,
      "step": 7205
    },
    {
      "epoch": 3.7788259958071277,
      "grad_norm": 0.10028896480798721,
      "learning_rate": 0.0009761099759394142,
      "loss": 0.4598,
      "num_input_tokens_seen": 4703320,
      "step": 7210
    },
    {
      "epoch": 3.781446540880503,
      "grad_norm": 0.07906383275985718,
      "learning_rate": 0.0009760400825347194,
      "loss": 0.5583,
      "num_input_tokens_seen": 4706552,
      "step": 7215
    },
    {
      "epoch": 3.7840670859538785,
      "grad_norm": 0.051942456513643265,
      "learning_rate": 0.00097597008954787,
      "loss": 0.3984,
      "num_input_tokens_seen": 4709592,
      "step": 7220
    },
    {
      "epoch": 3.7866876310272537,
      "grad_norm": 0.09554073214530945,
      "learning_rate": 0.0009758999969935083,
      "loss": 0.5612,
      "num_input_tokens_seen": 4712344,
      "step": 7225
    },
    {
      "epoch": 3.789308176100629,
      "grad_norm": 0.1455552577972412,
      "learning_rate": 0.0009758298048862965,
      "loss": 0.5257,
      "num_input_tokens_seen": 4715000,
      "step": 7230
    },
    {
      "epoch": 3.791928721174004,
      "grad_norm": 0.07193611562252045,
      "learning_rate": 0.0009757595132409181,
      "loss": 0.4253,
      "num_input_tokens_seen": 4718904,
      "step": 7235
    },
    {
      "epoch": 3.7945492662473796,
      "grad_norm": 0.1324266940355301,
      "learning_rate": 0.0009756891220720771,
      "loss": 0.5663,
      "num_input_tokens_seen": 4721656,
      "step": 7240
    },
    {
      "epoch": 3.797169811320755,
      "grad_norm": 0.25431761145591736,
      "learning_rate": 0.0009756186313944988,
      "loss": 0.5596,
      "num_input_tokens_seen": 4726264,
      "step": 7245
    },
    {
      "epoch": 3.79979035639413,
      "grad_norm": 0.16629308462142944,
      "learning_rate": 0.0009755480412229291,
      "loss": 0.4372,
      "num_input_tokens_seen": 4729112,
      "step": 7250
    },
    {
      "epoch": 3.802410901467505,
      "grad_norm": 0.08732087910175323,
      "learning_rate": 0.0009754773515721343,
      "loss": 0.6035,
      "num_input_tokens_seen": 4731832,
      "step": 7255
    },
    {
      "epoch": 3.8050314465408803,
      "grad_norm": 0.12387813627719879,
      "learning_rate": 0.0009754065624569022,
      "loss": 0.5903,
      "num_input_tokens_seen": 4738136,
      "step": 7260
    },
    {
      "epoch": 3.8076519916142555,
      "grad_norm": 0.13019463419914246,
      "learning_rate": 0.000975335673892041,
      "loss": 0.4216,
      "num_input_tokens_seen": 4741080,
      "step": 7265
    },
    {
      "epoch": 3.810272536687631,
      "grad_norm": 0.09771344810724258,
      "learning_rate": 0.0009752646858923797,
      "loss": 0.3821,
      "num_input_tokens_seen": 4744472,
      "step": 7270
    },
    {
      "epoch": 3.8128930817610063,
      "grad_norm": 0.07577638328075409,
      "learning_rate": 0.0009751935984727683,
      "loss": 0.4001,
      "num_input_tokens_seen": 4748664,
      "step": 7275
    },
    {
      "epoch": 3.8155136268343814,
      "grad_norm": 0.13702133297920227,
      "learning_rate": 0.0009751224116480772,
      "loss": 0.5075,
      "num_input_tokens_seen": 4751704,
      "step": 7280
    },
    {
      "epoch": 3.818134171907757,
      "grad_norm": 0.3335268199443817,
      "learning_rate": 0.0009750511254331982,
      "loss": 0.5471,
      "num_input_tokens_seen": 4754104,
      "step": 7285
    },
    {
      "epoch": 3.8207547169811322,
      "grad_norm": 0.08368724584579468,
      "learning_rate": 0.0009749797398430433,
      "loss": 0.4506,
      "num_input_tokens_seen": 4757528,
      "step": 7290
    },
    {
      "epoch": 3.8233752620545074,
      "grad_norm": 0.05464824661612511,
      "learning_rate": 0.0009749082548925459,
      "loss": 0.6434,
      "num_input_tokens_seen": 4761208,
      "step": 7295
    },
    {
      "epoch": 3.8259958071278826,
      "grad_norm": 0.09480559825897217,
      "learning_rate": 0.0009748366705966593,
      "loss": 0.4598,
      "num_input_tokens_seen": 4764088,
      "step": 7300
    },
    {
      "epoch": 3.8286163522012577,
      "grad_norm": 0.05194484815001488,
      "learning_rate": 0.0009747649869703588,
      "loss": 0.5035,
      "num_input_tokens_seen": 4767352,
      "step": 7305
    },
    {
      "epoch": 3.831236897274633,
      "grad_norm": 0.09570910781621933,
      "learning_rate": 0.0009746932040286391,
      "loss": 0.5024,
      "num_input_tokens_seen": 4770648,
      "step": 7310
    },
    {
      "epoch": 3.8338574423480085,
      "grad_norm": 0.04074287787079811,
      "learning_rate": 0.000974621321786517,
      "loss": 0.475,
      "num_input_tokens_seen": 4777624,
      "step": 7315
    },
    {
      "epoch": 3.8364779874213837,
      "grad_norm": 0.10316918790340424,
      "learning_rate": 0.000974549340259029,
      "loss": 0.5367,
      "num_input_tokens_seen": 4780376,
      "step": 7320
    },
    {
      "epoch": 3.839098532494759,
      "grad_norm": 0.07762287557125092,
      "learning_rate": 0.000974477259461233,
      "loss": 0.4697,
      "num_input_tokens_seen": 4783096,
      "step": 7325
    },
    {
      "epoch": 3.841719077568134,
      "grad_norm": 0.07197801768779755,
      "learning_rate": 0.0009744050794082074,
      "loss": 0.3417,
      "num_input_tokens_seen": 4787000,
      "step": 7330
    },
    {
      "epoch": 3.8443396226415096,
      "grad_norm": 0.22379247844219208,
      "learning_rate": 0.0009743328001150515,
      "loss": 0.4821,
      "num_input_tokens_seen": 4790168,
      "step": 7335
    },
    {
      "epoch": 3.846960167714885,
      "grad_norm": 0.08095325529575348,
      "learning_rate": 0.0009742604215968853,
      "loss": 0.543,
      "num_input_tokens_seen": 4793944,
      "step": 7340
    },
    {
      "epoch": 3.84958071278826,
      "grad_norm": 0.0974302887916565,
      "learning_rate": 0.0009741879438688495,
      "loss": 0.4237,
      "num_input_tokens_seen": 4797016,
      "step": 7345
    },
    {
      "epoch": 3.852201257861635,
      "grad_norm": 0.06563969701528549,
      "learning_rate": 0.0009741153669461058,
      "loss": 0.4751,
      "num_input_tokens_seen": 4800216,
      "step": 7350
    },
    {
      "epoch": 3.8548218029350103,
      "grad_norm": 0.08503108471632004,
      "learning_rate": 0.0009740426908438362,
      "loss": 0.3895,
      "num_input_tokens_seen": 4803992,
      "step": 7355
    },
    {
      "epoch": 3.8574423480083855,
      "grad_norm": 0.11362946033477783,
      "learning_rate": 0.0009739699155772439,
      "loss": 0.4548,
      "num_input_tokens_seen": 4806872,
      "step": 7360
    },
    {
      "epoch": 3.860062893081761,
      "grad_norm": 0.09970662742853165,
      "learning_rate": 0.0009738970411615525,
      "loss": 0.3061,
      "num_input_tokens_seen": 4809912,
      "step": 7365
    },
    {
      "epoch": 3.8626834381551363,
      "grad_norm": 0.05209726840257645,
      "learning_rate": 0.0009738240676120067,
      "loss": 0.3302,
      "num_input_tokens_seen": 4816984,
      "step": 7370
    },
    {
      "epoch": 3.8653039832285114,
      "grad_norm": 0.08060168474912643,
      "learning_rate": 0.0009737509949438717,
      "loss": 0.5303,
      "num_input_tokens_seen": 4819608,
      "step": 7375
    },
    {
      "epoch": 3.867924528301887,
      "grad_norm": 0.04625888913869858,
      "learning_rate": 0.0009736778231724333,
      "loss": 0.3883,
      "num_input_tokens_seen": 4823448,
      "step": 7380
    },
    {
      "epoch": 3.870545073375262,
      "grad_norm": 0.11315400898456573,
      "learning_rate": 0.0009736045523129982,
      "loss": 0.4848,
      "num_input_tokens_seen": 4826328,
      "step": 7385
    },
    {
      "epoch": 3.8731656184486374,
      "grad_norm": 0.13255877792835236,
      "learning_rate": 0.0009735311823808938,
      "loss": 0.4945,
      "num_input_tokens_seen": 4829048,
      "step": 7390
    },
    {
      "epoch": 3.8757861635220126,
      "grad_norm": 0.09826565533876419,
      "learning_rate": 0.0009734577133914687,
      "loss": 0.4159,
      "num_input_tokens_seen": 4833048,
      "step": 7395
    },
    {
      "epoch": 3.8784067085953877,
      "grad_norm": 0.0736943855881691,
      "learning_rate": 0.0009733841453600914,
      "loss": 0.4022,
      "num_input_tokens_seen": 4836184,
      "step": 7400
    },
    {
      "epoch": 3.881027253668763,
      "grad_norm": 0.15539756417274475,
      "learning_rate": 0.0009733104783021515,
      "loss": 0.4765,
      "num_input_tokens_seen": 4839896,
      "step": 7405
    },
    {
      "epoch": 3.8836477987421385,
      "grad_norm": 0.16804887354373932,
      "learning_rate": 0.0009732367122330593,
      "loss": 0.4374,
      "num_input_tokens_seen": 4842936,
      "step": 7410
    },
    {
      "epoch": 3.8862683438155137,
      "grad_norm": 0.1103765144944191,
      "learning_rate": 0.0009731628471682459,
      "loss": 0.6043,
      "num_input_tokens_seen": 4846200,
      "step": 7415
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 0.11937635391950607,
      "learning_rate": 0.000973088883123163,
      "loss": 0.48,
      "num_input_tokens_seen": 4849336,
      "step": 7420
    },
    {
      "epoch": 3.891509433962264,
      "grad_norm": 0.13085204362869263,
      "learning_rate": 0.0009730148201132829,
      "loss": 0.4726,
      "num_input_tokens_seen": 4852632,
      "step": 7425
    },
    {
      "epoch": 3.8941299790356396,
      "grad_norm": 0.10526340454816818,
      "learning_rate": 0.0009729406581540991,
      "loss": 0.4985,
      "num_input_tokens_seen": 4855384,
      "step": 7430
    },
    {
      "epoch": 3.896750524109015,
      "grad_norm": 0.07065650075674057,
      "learning_rate": 0.0009728663972611251,
      "loss": 0.5294,
      "num_input_tokens_seen": 4858936,
      "step": 7435
    },
    {
      "epoch": 3.89937106918239,
      "grad_norm": 0.11595560610294342,
      "learning_rate": 0.0009727920374498955,
      "loss": 0.5046,
      "num_input_tokens_seen": 4862488,
      "step": 7440
    },
    {
      "epoch": 3.901991614255765,
      "grad_norm": 0.07493608444929123,
      "learning_rate": 0.0009727175787359656,
      "loss": 0.4361,
      "num_input_tokens_seen": 4865240,
      "step": 7445
    },
    {
      "epoch": 3.9046121593291403,
      "grad_norm": 0.07404633611440659,
      "learning_rate": 0.0009726430211349113,
      "loss": 0.4444,
      "num_input_tokens_seen": 4868152,
      "step": 7450
    },
    {
      "epoch": 3.9072327044025155,
      "grad_norm": 0.13199704885482788,
      "learning_rate": 0.0009725683646623291,
      "loss": 0.3553,
      "num_input_tokens_seen": 4870808,
      "step": 7455
    },
    {
      "epoch": 3.909853249475891,
      "grad_norm": 0.0803787037730217,
      "learning_rate": 0.0009724936093338365,
      "loss": 0.4501,
      "num_input_tokens_seen": 4873944,
      "step": 7460
    },
    {
      "epoch": 3.9124737945492662,
      "grad_norm": 0.1567005217075348,
      "learning_rate": 0.0009724187551650712,
      "loss": 0.544,
      "num_input_tokens_seen": 4877528,
      "step": 7465
    },
    {
      "epoch": 3.9150943396226414,
      "grad_norm": 0.07737697660923004,
      "learning_rate": 0.0009723438021716919,
      "loss": 0.4181,
      "num_input_tokens_seen": 4880504,
      "step": 7470
    },
    {
      "epoch": 3.917714884696017,
      "grad_norm": 0.09451690316200256,
      "learning_rate": 0.0009722687503693782,
      "loss": 0.4586,
      "num_input_tokens_seen": 4884312,
      "step": 7475
    },
    {
      "epoch": 3.920335429769392,
      "grad_norm": 0.11878181248903275,
      "learning_rate": 0.0009721935997738296,
      "loss": 0.3857,
      "num_input_tokens_seen": 4887032,
      "step": 7480
    },
    {
      "epoch": 3.9229559748427674,
      "grad_norm": 0.08270584046840668,
      "learning_rate": 0.0009721183504007671,
      "loss": 0.5231,
      "num_input_tokens_seen": 4889976,
      "step": 7485
    },
    {
      "epoch": 3.9255765199161425,
      "grad_norm": 0.09676562249660492,
      "learning_rate": 0.0009720430022659319,
      "loss": 0.5445,
      "num_input_tokens_seen": 4892600,
      "step": 7490
    },
    {
      "epoch": 3.9281970649895177,
      "grad_norm": 0.14585234224796295,
      "learning_rate": 0.000971967555385086,
      "loss": 0.4536,
      "num_input_tokens_seen": 4895640,
      "step": 7495
    },
    {
      "epoch": 3.930817610062893,
      "grad_norm": 0.08688303083181381,
      "learning_rate": 0.000971892009774012,
      "loss": 0.3938,
      "num_input_tokens_seen": 4898200,
      "step": 7500
    },
    {
      "epoch": 3.9334381551362685,
      "grad_norm": 0.2007087618112564,
      "learning_rate": 0.0009718163654485133,
      "loss": 0.4271,
      "num_input_tokens_seen": 4901080,
      "step": 7505
    },
    {
      "epoch": 3.9360587002096437,
      "grad_norm": 0.08530092984437943,
      "learning_rate": 0.0009717406224244136,
      "loss": 0.5024,
      "num_input_tokens_seen": 4904280,
      "step": 7510
    },
    {
      "epoch": 3.938679245283019,
      "grad_norm": 0.09147192537784576,
      "learning_rate": 0.0009716647807175575,
      "loss": 0.6836,
      "num_input_tokens_seen": 4907832,
      "step": 7515
    },
    {
      "epoch": 3.941299790356394,
      "grad_norm": 0.10966815054416656,
      "learning_rate": 0.0009715888403438105,
      "loss": 0.6194,
      "num_input_tokens_seen": 4911320,
      "step": 7520
    },
    {
      "epoch": 3.9439203354297696,
      "grad_norm": 0.07008402794599533,
      "learning_rate": 0.0009715128013190581,
      "loss": 0.4598,
      "num_input_tokens_seen": 4914072,
      "step": 7525
    },
    {
      "epoch": 3.9465408805031448,
      "grad_norm": 0.10469583421945572,
      "learning_rate": 0.0009714366636592069,
      "loss": 0.5122,
      "num_input_tokens_seen": 4918584,
      "step": 7530
    },
    {
      "epoch": 3.94916142557652,
      "grad_norm": 0.10261691361665726,
      "learning_rate": 0.0009713604273801844,
      "loss": 0.4756,
      "num_input_tokens_seen": 4921496,
      "step": 7535
    },
    {
      "epoch": 3.951781970649895,
      "grad_norm": 0.08321532607078552,
      "learning_rate": 0.0009712840924979378,
      "loss": 0.521,
      "num_input_tokens_seen": 4924600,
      "step": 7540
    },
    {
      "epoch": 3.9544025157232703,
      "grad_norm": 0.06223123520612717,
      "learning_rate": 0.0009712076590284357,
      "loss": 0.4698,
      "num_input_tokens_seen": 4927512,
      "step": 7545
    },
    {
      "epoch": 3.9570230607966455,
      "grad_norm": 0.1350662261247635,
      "learning_rate": 0.0009711311269876674,
      "loss": 0.4325,
      "num_input_tokens_seen": 4930360,
      "step": 7550
    },
    {
      "epoch": 3.959643605870021,
      "grad_norm": 0.06693386286497116,
      "learning_rate": 0.0009710544963916421,
      "loss": 0.3678,
      "num_input_tokens_seen": 4933496,
      "step": 7555
    },
    {
      "epoch": 3.9622641509433962,
      "grad_norm": 0.10683094710111618,
      "learning_rate": 0.0009709777672563903,
      "loss": 0.3932,
      "num_input_tokens_seen": 4936152,
      "step": 7560
    },
    {
      "epoch": 3.9648846960167714,
      "grad_norm": 0.11658825725317001,
      "learning_rate": 0.0009709009395979628,
      "loss": 0.697,
      "num_input_tokens_seen": 4939832,
      "step": 7565
    },
    {
      "epoch": 3.967505241090147,
      "grad_norm": 0.07318348437547684,
      "learning_rate": 0.0009708240134324311,
      "loss": 0.5104,
      "num_input_tokens_seen": 4943192,
      "step": 7570
    },
    {
      "epoch": 3.970125786163522,
      "grad_norm": 0.1880446821451187,
      "learning_rate": 0.0009707469887758871,
      "loss": 0.4544,
      "num_input_tokens_seen": 4946392,
      "step": 7575
    },
    {
      "epoch": 3.9727463312368974,
      "grad_norm": 0.08094010502099991,
      "learning_rate": 0.0009706698656444437,
      "loss": 0.3898,
      "num_input_tokens_seen": 4949464,
      "step": 7580
    },
    {
      "epoch": 3.9753668763102725,
      "grad_norm": 0.06778749823570251,
      "learning_rate": 0.000970592644054234,
      "loss": 0.3972,
      "num_input_tokens_seen": 4955288,
      "step": 7585
    },
    {
      "epoch": 3.9779874213836477,
      "grad_norm": 0.08816838264465332,
      "learning_rate": 0.000970515324021412,
      "loss": 0.3782,
      "num_input_tokens_seen": 4958008,
      "step": 7590
    },
    {
      "epoch": 3.980607966457023,
      "grad_norm": 0.06345438212156296,
      "learning_rate": 0.0009704379055621523,
      "loss": 0.3627,
      "num_input_tokens_seen": 4961400,
      "step": 7595
    },
    {
      "epoch": 3.9832285115303985,
      "grad_norm": 0.1565544456243515,
      "learning_rate": 0.0009703603886926497,
      "loss": 0.5761,
      "num_input_tokens_seen": 4964536,
      "step": 7600
    },
    {
      "epoch": 3.9858490566037736,
      "grad_norm": 0.08044030517339706,
      "learning_rate": 0.0009702827734291198,
      "loss": 0.5702,
      "num_input_tokens_seen": 4968280,
      "step": 7605
    },
    {
      "epoch": 3.988469601677149,
      "grad_norm": 0.059033509343862534,
      "learning_rate": 0.0009702050597877992,
      "loss": 0.5694,
      "num_input_tokens_seen": 4971640,
      "step": 7610
    },
    {
      "epoch": 3.991090146750524,
      "grad_norm": 0.07979757338762283,
      "learning_rate": 0.0009701272477849444,
      "loss": 0.492,
      "num_input_tokens_seen": 4975512,
      "step": 7615
    },
    {
      "epoch": 3.9937106918238996,
      "grad_norm": 0.11170606315135956,
      "learning_rate": 0.0009700493374368327,
      "loss": 0.556,
      "num_input_tokens_seen": 4978520,
      "step": 7620
    },
    {
      "epoch": 3.9963312368972748,
      "grad_norm": 0.08112799376249313,
      "learning_rate": 0.0009699713287597624,
      "loss": 0.4002,
      "num_input_tokens_seen": 4981944,
      "step": 7625
    },
    {
      "epoch": 3.99895178197065,
      "grad_norm": 0.1492733508348465,
      "learning_rate": 0.0009698932217700518,
      "loss": 0.4323,
      "num_input_tokens_seen": 4984632,
      "step": 7630
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.4797692894935608,
      "eval_runtime": 13.6861,
      "eval_samples_per_second": 61.96,
      "eval_steps_per_second": 15.49,
      "num_input_tokens_seen": 4985200,
      "step": 7632
    },
    {
      "epoch": 4.001572327044025,
      "grad_norm": 0.07964476943016052,
      "learning_rate": 0.0009698150164840399,
      "loss": 0.4465,
      "num_input_tokens_seen": 4987024,
      "step": 7635
    },
    {
      "epoch": 4.0041928721174,
      "grad_norm": 0.09778085350990295,
      "learning_rate": 0.0009697367129180866,
      "loss": 0.3999,
      "num_input_tokens_seen": 4989552,
      "step": 7640
    },
    {
      "epoch": 4.006813417190775,
      "grad_norm": 0.14122486114501953,
      "learning_rate": 0.000969658311088572,
      "loss": 0.6748,
      "num_input_tokens_seen": 4992080,
      "step": 7645
    },
    {
      "epoch": 4.009433962264151,
      "grad_norm": 0.23166020214557648,
      "learning_rate": 0.0009695798110118969,
      "loss": 0.6596,
      "num_input_tokens_seen": 4994512,
      "step": 7650
    },
    {
      "epoch": 4.012054507337526,
      "grad_norm": 0.07905751466751099,
      "learning_rate": 0.0009695012127044824,
      "loss": 0.3175,
      "num_input_tokens_seen": 4998000,
      "step": 7655
    },
    {
      "epoch": 4.014675052410902,
      "grad_norm": 0.11856184154748917,
      "learning_rate": 0.0009694225161827707,
      "loss": 0.4443,
      "num_input_tokens_seen": 5002000,
      "step": 7660
    },
    {
      "epoch": 4.017295597484277,
      "grad_norm": 0.07298684865236282,
      "learning_rate": 0.0009693437214632241,
      "loss": 0.4557,
      "num_input_tokens_seen": 5005648,
      "step": 7665
    },
    {
      "epoch": 4.019916142557652,
      "grad_norm": 0.15315552055835724,
      "learning_rate": 0.0009692648285623256,
      "loss": 0.6025,
      "num_input_tokens_seen": 5009104,
      "step": 7670
    },
    {
      "epoch": 4.022536687631027,
      "grad_norm": 0.06940573453903198,
      "learning_rate": 0.0009691858374965784,
      "loss": 0.3714,
      "num_input_tokens_seen": 5012304,
      "step": 7675
    },
    {
      "epoch": 4.0251572327044025,
      "grad_norm": 0.3605731725692749,
      "learning_rate": 0.0009691067482825069,
      "loss": 0.5174,
      "num_input_tokens_seen": 5014608,
      "step": 7680
    },
    {
      "epoch": 4.027777777777778,
      "grad_norm": 0.12316165864467621,
      "learning_rate": 0.0009690275609366554,
      "loss": 0.506,
      "num_input_tokens_seen": 5017776,
      "step": 7685
    },
    {
      "epoch": 4.030398322851153,
      "grad_norm": 0.08272010087966919,
      "learning_rate": 0.0009689482754755891,
      "loss": 0.5811,
      "num_input_tokens_seen": 5020432,
      "step": 7690
    },
    {
      "epoch": 4.033018867924528,
      "grad_norm": 0.18769501149654388,
      "learning_rate": 0.0009688688919158938,
      "loss": 0.3334,
      "num_input_tokens_seen": 5023824,
      "step": 7695
    },
    {
      "epoch": 4.035639412997903,
      "grad_norm": 0.06618794798851013,
      "learning_rate": 0.0009687894102741754,
      "loss": 0.4996,
      "num_input_tokens_seen": 5027344,
      "step": 7700
    },
    {
      "epoch": 4.038259958071279,
      "grad_norm": 0.14239242672920227,
      "learning_rate": 0.0009687098305670605,
      "loss": 0.4945,
      "num_input_tokens_seen": 5030928,
      "step": 7705
    },
    {
      "epoch": 4.040880503144654,
      "grad_norm": 0.0901632085442543,
      "learning_rate": 0.0009686301528111964,
      "loss": 0.3794,
      "num_input_tokens_seen": 5034320,
      "step": 7710
    },
    {
      "epoch": 4.04350104821803,
      "grad_norm": 0.0625806525349617,
      "learning_rate": 0.0009685503770232507,
      "loss": 0.4316,
      "num_input_tokens_seen": 5037456,
      "step": 7715
    },
    {
      "epoch": 4.046121593291405,
      "grad_norm": 0.09199481457471848,
      "learning_rate": 0.0009684705032199117,
      "loss": 0.4131,
      "num_input_tokens_seen": 5040784,
      "step": 7720
    },
    {
      "epoch": 4.04874213836478,
      "grad_norm": 0.10276485979557037,
      "learning_rate": 0.0009683905314178881,
      "loss": 0.5749,
      "num_input_tokens_seen": 5044176,
      "step": 7725
    },
    {
      "epoch": 4.051362683438155,
      "grad_norm": 0.12233424931764603,
      "learning_rate": 0.000968310461633909,
      "loss": 0.5438,
      "num_input_tokens_seen": 5047376,
      "step": 7730
    },
    {
      "epoch": 4.05398322851153,
      "grad_norm": 0.10427360981702805,
      "learning_rate": 0.0009682302938847238,
      "loss": 0.4709,
      "num_input_tokens_seen": 5053712,
      "step": 7735
    },
    {
      "epoch": 4.056603773584905,
      "grad_norm": 0.065096415579319,
      "learning_rate": 0.0009681500281871031,
      "loss": 0.4678,
      "num_input_tokens_seen": 5057968,
      "step": 7740
    },
    {
      "epoch": 4.059224318658281,
      "grad_norm": 0.2045527696609497,
      "learning_rate": 0.0009680696645578377,
      "loss": 0.6488,
      "num_input_tokens_seen": 5061328,
      "step": 7745
    },
    {
      "epoch": 4.061844863731656,
      "grad_norm": 0.0860048308968544,
      "learning_rate": 0.0009679892030137382,
      "loss": 0.5116,
      "num_input_tokens_seen": 5064464,
      "step": 7750
    },
    {
      "epoch": 4.064465408805032,
      "grad_norm": 0.14086288213729858,
      "learning_rate": 0.0009679086435716368,
      "loss": 0.4083,
      "num_input_tokens_seen": 5067344,
      "step": 7755
    },
    {
      "epoch": 4.067085953878407,
      "grad_norm": 0.09213489294052124,
      "learning_rate": 0.0009678279862483852,
      "loss": 0.4396,
      "num_input_tokens_seen": 5070512,
      "step": 7760
    },
    {
      "epoch": 4.069706498951782,
      "grad_norm": 0.2079775184392929,
      "learning_rate": 0.0009677472310608561,
      "loss": 0.3984,
      "num_input_tokens_seen": 5073488,
      "step": 7765
    },
    {
      "epoch": 4.072327044025157,
      "grad_norm": 0.12966670095920563,
      "learning_rate": 0.0009676663780259427,
      "loss": 0.4584,
      "num_input_tokens_seen": 5079984,
      "step": 7770
    },
    {
      "epoch": 4.0749475890985325,
      "grad_norm": 0.06986893713474274,
      "learning_rate": 0.0009675854271605583,
      "loss": 0.4726,
      "num_input_tokens_seen": 5083056,
      "step": 7775
    },
    {
      "epoch": 4.077568134171908,
      "grad_norm": 0.16648630797863007,
      "learning_rate": 0.0009675043784816371,
      "loss": 0.5341,
      "num_input_tokens_seen": 5085904,
      "step": 7780
    },
    {
      "epoch": 4.080188679245283,
      "grad_norm": 0.11856615543365479,
      "learning_rate": 0.0009674232320061336,
      "loss": 0.444,
      "num_input_tokens_seen": 5088368,
      "step": 7785
    },
    {
      "epoch": 4.082809224318658,
      "grad_norm": 0.08124846965074539,
      "learning_rate": 0.0009673419877510226,
      "loss": 0.4306,
      "num_input_tokens_seen": 5091088,
      "step": 7790
    },
    {
      "epoch": 4.085429769392033,
      "grad_norm": 0.06395187973976135,
      "learning_rate": 0.0009672606457332994,
      "loss": 0.4946,
      "num_input_tokens_seen": 5094960,
      "step": 7795
    },
    {
      "epoch": 4.088050314465409,
      "grad_norm": 0.08968719840049744,
      "learning_rate": 0.0009671792059699798,
      "loss": 0.4763,
      "num_input_tokens_seen": 5098352,
      "step": 7800
    },
    {
      "epoch": 4.090670859538784,
      "grad_norm": 0.16510601341724396,
      "learning_rate": 0.0009670976684781003,
      "loss": 0.471,
      "num_input_tokens_seen": 5102416,
      "step": 7805
    },
    {
      "epoch": 4.09329140461216,
      "grad_norm": 0.06935352087020874,
      "learning_rate": 0.0009670160332747174,
      "loss": 0.5913,
      "num_input_tokens_seen": 5105072,
      "step": 7810
    },
    {
      "epoch": 4.095911949685535,
      "grad_norm": 0.13492201268672943,
      "learning_rate": 0.0009669343003769085,
      "loss": 0.4977,
      "num_input_tokens_seen": 5108528,
      "step": 7815
    },
    {
      "epoch": 4.09853249475891,
      "grad_norm": 0.0841386690735817,
      "learning_rate": 0.0009668524698017709,
      "loss": 0.5971,
      "num_input_tokens_seen": 5112176,
      "step": 7820
    },
    {
      "epoch": 4.101153039832285,
      "grad_norm": 0.061815425753593445,
      "learning_rate": 0.0009667705415664227,
      "loss": 0.4622,
      "num_input_tokens_seen": 5116848,
      "step": 7825
    },
    {
      "epoch": 4.10377358490566,
      "grad_norm": 0.07992462068796158,
      "learning_rate": 0.0009666885156880026,
      "loss": 0.449,
      "num_input_tokens_seen": 5120464,
      "step": 7830
    },
    {
      "epoch": 4.106394129979035,
      "grad_norm": 0.07867313176393509,
      "learning_rate": 0.0009666063921836692,
      "loss": 0.4067,
      "num_input_tokens_seen": 5123312,
      "step": 7835
    },
    {
      "epoch": 4.109014675052411,
      "grad_norm": 0.05637291073799133,
      "learning_rate": 0.0009665241710706019,
      "loss": 0.4615,
      "num_input_tokens_seen": 5127088,
      "step": 7840
    },
    {
      "epoch": 4.111635220125786,
      "grad_norm": 0.06931894272565842,
      "learning_rate": 0.0009664418523660003,
      "loss": 0.4513,
      "num_input_tokens_seen": 5130384,
      "step": 7845
    },
    {
      "epoch": 4.114255765199162,
      "grad_norm": 0.06731456518173218,
      "learning_rate": 0.0009663594360870847,
      "loss": 0.4413,
      "num_input_tokens_seen": 5134288,
      "step": 7850
    },
    {
      "epoch": 4.116876310272537,
      "grad_norm": 0.2126108556985855,
      "learning_rate": 0.0009662769222510955,
      "loss": 0.5809,
      "num_input_tokens_seen": 5137392,
      "step": 7855
    },
    {
      "epoch": 4.119496855345912,
      "grad_norm": 0.14088048040866852,
      "learning_rate": 0.0009661943108752939,
      "loss": 0.4586,
      "num_input_tokens_seen": 5139824,
      "step": 7860
    },
    {
      "epoch": 4.122117400419287,
      "grad_norm": 0.05927993357181549,
      "learning_rate": 0.0009661116019769609,
      "loss": 0.5498,
      "num_input_tokens_seen": 5143280,
      "step": 7865
    },
    {
      "epoch": 4.1247379454926625,
      "grad_norm": 0.07464393228292465,
      "learning_rate": 0.0009660287955733986,
      "loss": 0.5389,
      "num_input_tokens_seen": 5145584,
      "step": 7870
    },
    {
      "epoch": 4.127358490566038,
      "grad_norm": 0.10851231962442398,
      "learning_rate": 0.0009659458916819289,
      "loss": 0.429,
      "num_input_tokens_seen": 5148240,
      "step": 7875
    },
    {
      "epoch": 4.129979035639413,
      "grad_norm": 0.14939101040363312,
      "learning_rate": 0.0009658628903198945,
      "loss": 0.5623,
      "num_input_tokens_seen": 5151632,
      "step": 7880
    },
    {
      "epoch": 4.132599580712788,
      "grad_norm": 0.21465229988098145,
      "learning_rate": 0.0009657797915046583,
      "loss": 0.5356,
      "num_input_tokens_seen": 5154576,
      "step": 7885
    },
    {
      "epoch": 4.135220125786163,
      "grad_norm": 0.11163569241762161,
      "learning_rate": 0.0009656965952536036,
      "loss": 0.4224,
      "num_input_tokens_seen": 5158224,
      "step": 7890
    },
    {
      "epoch": 4.137840670859539,
      "grad_norm": 0.08368494361639023,
      "learning_rate": 0.0009656133015841342,
      "loss": 0.368,
      "num_input_tokens_seen": 5161360,
      "step": 7895
    },
    {
      "epoch": 4.140461215932914,
      "grad_norm": 0.1384882926940918,
      "learning_rate": 0.000965529910513674,
      "loss": 0.3947,
      "num_input_tokens_seen": 5164656,
      "step": 7900
    },
    {
      "epoch": 4.1430817610062896,
      "grad_norm": 0.11090920865535736,
      "learning_rate": 0.0009654464220596676,
      "loss": 0.4635,
      "num_input_tokens_seen": 5168336,
      "step": 7905
    },
    {
      "epoch": 4.145702306079665,
      "grad_norm": 0.10082776099443436,
      "learning_rate": 0.0009653628362395799,
      "loss": 0.4814,
      "num_input_tokens_seen": 5170736,
      "step": 7910
    },
    {
      "epoch": 4.14832285115304,
      "grad_norm": 0.1161259114742279,
      "learning_rate": 0.0009652791530708958,
      "loss": 0.2876,
      "num_input_tokens_seen": 5173424,
      "step": 7915
    },
    {
      "epoch": 4.150943396226415,
      "grad_norm": 0.07676077634096146,
      "learning_rate": 0.0009651953725711212,
      "loss": 0.3598,
      "num_input_tokens_seen": 5175856,
      "step": 7920
    },
    {
      "epoch": 4.15356394129979,
      "grad_norm": 0.08278396725654602,
      "learning_rate": 0.0009651114947577818,
      "loss": 0.4137,
      "num_input_tokens_seen": 5178672,
      "step": 7925
    },
    {
      "epoch": 4.156184486373165,
      "grad_norm": 0.10073595494031906,
      "learning_rate": 0.0009650275196484239,
      "loss": 0.4549,
      "num_input_tokens_seen": 5184496,
      "step": 7930
    },
    {
      "epoch": 4.158805031446541,
      "grad_norm": 0.06294999271631241,
      "learning_rate": 0.0009649434472606144,
      "loss": 0.5175,
      "num_input_tokens_seen": 5188144,
      "step": 7935
    },
    {
      "epoch": 4.161425576519916,
      "grad_norm": 0.12827886641025543,
      "learning_rate": 0.00096485927761194,
      "loss": 0.4594,
      "num_input_tokens_seen": 5192112,
      "step": 7940
    },
    {
      "epoch": 4.164046121593292,
      "grad_norm": 0.15896986424922943,
      "learning_rate": 0.0009647750107200082,
      "loss": 0.484,
      "num_input_tokens_seen": 5194320,
      "step": 7945
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.2909785211086273,
      "learning_rate": 0.0009646906466024465,
      "loss": 0.4858,
      "num_input_tokens_seen": 5197456,
      "step": 7950
    },
    {
      "epoch": 4.169287211740042,
      "grad_norm": 0.08020207285881042,
      "learning_rate": 0.000964606185276903,
      "loss": 0.5059,
      "num_input_tokens_seen": 5199792,
      "step": 7955
    },
    {
      "epoch": 4.171907756813417,
      "grad_norm": 0.11036188155412674,
      "learning_rate": 0.0009645216267610461,
      "loss": 0.6,
      "num_input_tokens_seen": 5202672,
      "step": 7960
    },
    {
      "epoch": 4.1745283018867925,
      "grad_norm": 0.11972352117300034,
      "learning_rate": 0.0009644369710725644,
      "loss": 0.5747,
      "num_input_tokens_seen": 5205808,
      "step": 7965
    },
    {
      "epoch": 4.177148846960168,
      "grad_norm": 0.12750545144081116,
      "learning_rate": 0.0009643522182291669,
      "loss": 0.3452,
      "num_input_tokens_seen": 5208176,
      "step": 7970
    },
    {
      "epoch": 4.179769392033543,
      "grad_norm": 0.04708731919527054,
      "learning_rate": 0.000964267368248583,
      "loss": 0.4709,
      "num_input_tokens_seen": 5215376,
      "step": 7975
    },
    {
      "epoch": 4.182389937106918,
      "grad_norm": 0.10261832177639008,
      "learning_rate": 0.0009641824211485623,
      "loss": 0.4978,
      "num_input_tokens_seen": 5218064,
      "step": 7980
    },
    {
      "epoch": 4.185010482180293,
      "grad_norm": 0.13295993208885193,
      "learning_rate": 0.0009640973769468747,
      "loss": 0.4953,
      "num_input_tokens_seen": 5221328,
      "step": 7985
    },
    {
      "epoch": 4.187631027253669,
      "grad_norm": 0.1059071272611618,
      "learning_rate": 0.0009640122356613105,
      "loss": 0.49,
      "num_input_tokens_seen": 5224432,
      "step": 7990
    },
    {
      "epoch": 4.190251572327044,
      "grad_norm": 0.13330841064453125,
      "learning_rate": 0.0009639269973096805,
      "loss": 0.4724,
      "num_input_tokens_seen": 5226896,
      "step": 7995
    },
    {
      "epoch": 4.1928721174004195,
      "grad_norm": 0.12338998168706894,
      "learning_rate": 0.0009638416619098154,
      "loss": 0.4485,
      "num_input_tokens_seen": 5231056,
      "step": 8000
    },
    {
      "epoch": 4.195492662473795,
      "grad_norm": 0.0970509946346283,
      "learning_rate": 0.0009637562294795663,
      "loss": 0.3961,
      "num_input_tokens_seen": 5234480,
      "step": 8005
    },
    {
      "epoch": 4.19811320754717,
      "grad_norm": 0.2838141620159149,
      "learning_rate": 0.0009636707000368049,
      "loss": 0.6482,
      "num_input_tokens_seen": 5236816,
      "step": 8010
    },
    {
      "epoch": 4.200733752620545,
      "grad_norm": 0.3027431070804596,
      "learning_rate": 0.000963585073599423,
      "loss": 0.4585,
      "num_input_tokens_seen": 5239600,
      "step": 8015
    },
    {
      "epoch": 4.20335429769392,
      "grad_norm": 0.1194266751408577,
      "learning_rate": 0.0009634993501853323,
      "loss": 0.5055,
      "num_input_tokens_seen": 5242896,
      "step": 8020
    },
    {
      "epoch": 4.205974842767295,
      "grad_norm": 0.1303977221250534,
      "learning_rate": 0.0009634135298124656,
      "loss": 0.5474,
      "num_input_tokens_seen": 5245904,
      "step": 8025
    },
    {
      "epoch": 4.2085953878406706,
      "grad_norm": 0.12392144650220871,
      "learning_rate": 0.0009633276124987752,
      "loss": 0.5577,
      "num_input_tokens_seen": 5249968,
      "step": 8030
    },
    {
      "epoch": 4.211215932914046,
      "grad_norm": 0.07724833488464355,
      "learning_rate": 0.0009632415982622342,
      "loss": 0.4305,
      "num_input_tokens_seen": 5253680,
      "step": 8035
    },
    {
      "epoch": 4.213836477987422,
      "grad_norm": 0.15662778913974762,
      "learning_rate": 0.0009631554871208359,
      "loss": 0.6347,
      "num_input_tokens_seen": 5256144,
      "step": 8040
    },
    {
      "epoch": 4.216457023060797,
      "grad_norm": 0.08995838463306427,
      "learning_rate": 0.0009630692790925936,
      "loss": 0.3821,
      "num_input_tokens_seen": 5261456,
      "step": 8045
    },
    {
      "epoch": 4.219077568134172,
      "grad_norm": 0.11743755638599396,
      "learning_rate": 0.0009629829741955411,
      "loss": 0.5388,
      "num_input_tokens_seen": 5264688,
      "step": 8050
    },
    {
      "epoch": 4.221698113207547,
      "grad_norm": 0.08341965824365616,
      "learning_rate": 0.0009628965724477325,
      "loss": 0.6363,
      "num_input_tokens_seen": 5267184,
      "step": 8055
    },
    {
      "epoch": 4.2243186582809225,
      "grad_norm": 0.16930624842643738,
      "learning_rate": 0.0009628100738672419,
      "loss": 0.5034,
      "num_input_tokens_seen": 5269776,
      "step": 8060
    },
    {
      "epoch": 4.226939203354298,
      "grad_norm": 0.08707768470048904,
      "learning_rate": 0.0009627234784721637,
      "loss": 0.4655,
      "num_input_tokens_seen": 5273296,
      "step": 8065
    },
    {
      "epoch": 4.229559748427673,
      "grad_norm": 0.09183362871408463,
      "learning_rate": 0.0009626367862806129,
      "loss": 0.4831,
      "num_input_tokens_seen": 5276432,
      "step": 8070
    },
    {
      "epoch": 4.232180293501048,
      "grad_norm": 0.12739959359169006,
      "learning_rate": 0.0009625499973107246,
      "loss": 0.406,
      "num_input_tokens_seen": 5279696,
      "step": 8075
    },
    {
      "epoch": 4.234800838574423,
      "grad_norm": 0.09948696196079254,
      "learning_rate": 0.0009624631115806537,
      "loss": 0.4338,
      "num_input_tokens_seen": 5283312,
      "step": 8080
    },
    {
      "epoch": 4.237421383647799,
      "grad_norm": 0.12744633853435516,
      "learning_rate": 0.0009623761291085761,
      "loss": 0.386,
      "num_input_tokens_seen": 5285712,
      "step": 8085
    },
    {
      "epoch": 4.240041928721174,
      "grad_norm": 0.08301970362663269,
      "learning_rate": 0.0009622890499126873,
      "loss": 0.509,
      "num_input_tokens_seen": 5289136,
      "step": 8090
    },
    {
      "epoch": 4.2426624737945495,
      "grad_norm": 0.0715666189789772,
      "learning_rate": 0.0009622018740112032,
      "loss": 0.3049,
      "num_input_tokens_seen": 5292528,
      "step": 8095
    },
    {
      "epoch": 4.245283018867925,
      "grad_norm": 0.08436505496501923,
      "learning_rate": 0.0009621146014223603,
      "loss": 0.5092,
      "num_input_tokens_seen": 5295984,
      "step": 8100
    },
    {
      "epoch": 4.2479035639413,
      "grad_norm": 0.10539247840642929,
      "learning_rate": 0.0009620272321644148,
      "loss": 0.4442,
      "num_input_tokens_seen": 5299120,
      "step": 8105
    },
    {
      "epoch": 4.250524109014675,
      "grad_norm": 0.09472481161355972,
      "learning_rate": 0.0009619397662556434,
      "loss": 0.4181,
      "num_input_tokens_seen": 5302192,
      "step": 8110
    },
    {
      "epoch": 4.25314465408805,
      "grad_norm": 0.16033777594566345,
      "learning_rate": 0.000961852203714343,
      "loss": 0.7901,
      "num_input_tokens_seen": 5304880,
      "step": 8115
    },
    {
      "epoch": 4.255765199161425,
      "grad_norm": 0.09425577521324158,
      "learning_rate": 0.0009617645445588307,
      "loss": 0.524,
      "num_input_tokens_seen": 5308304,
      "step": 8120
    },
    {
      "epoch": 4.2583857442348005,
      "grad_norm": 0.11578842997550964,
      "learning_rate": 0.0009616767888074438,
      "loss": 0.5465,
      "num_input_tokens_seen": 5310960,
      "step": 8125
    },
    {
      "epoch": 4.261006289308176,
      "grad_norm": 0.08597195893526077,
      "learning_rate": 0.0009615889364785397,
      "loss": 0.4358,
      "num_input_tokens_seen": 5313264,
      "step": 8130
    },
    {
      "epoch": 4.263626834381552,
      "grad_norm": 0.18163634836673737,
      "learning_rate": 0.000961500987590496,
      "loss": 0.5354,
      "num_input_tokens_seen": 5315600,
      "step": 8135
    },
    {
      "epoch": 4.266247379454927,
      "grad_norm": 0.0718594565987587,
      "learning_rate": 0.0009614129421617111,
      "loss": 0.3826,
      "num_input_tokens_seen": 5319024,
      "step": 8140
    },
    {
      "epoch": 4.268867924528302,
      "grad_norm": 0.1274440437555313,
      "learning_rate": 0.0009613248002106027,
      "loss": 0.4589,
      "num_input_tokens_seen": 5322160,
      "step": 8145
    },
    {
      "epoch": 4.271488469601677,
      "grad_norm": 0.06260167062282562,
      "learning_rate": 0.000961236561755609,
      "loss": 0.4257,
      "num_input_tokens_seen": 5327152,
      "step": 8150
    },
    {
      "epoch": 4.274109014675052,
      "grad_norm": 0.10586777329444885,
      "learning_rate": 0.0009611482268151888,
      "loss": 0.3624,
      "num_input_tokens_seen": 5330256,
      "step": 8155
    },
    {
      "epoch": 4.276729559748428,
      "grad_norm": 0.17627862095832825,
      "learning_rate": 0.0009610597954078206,
      "loss": 0.4844,
      "num_input_tokens_seen": 5333392,
      "step": 8160
    },
    {
      "epoch": 4.279350104821803,
      "grad_norm": 0.10369375348091125,
      "learning_rate": 0.0009609712675520031,
      "loss": 0.454,
      "num_input_tokens_seen": 5336720,
      "step": 8165
    },
    {
      "epoch": 4.281970649895178,
      "grad_norm": 0.07533203810453415,
      "learning_rate": 0.0009608826432662556,
      "loss": 0.3136,
      "num_input_tokens_seen": 5339696,
      "step": 8170
    },
    {
      "epoch": 4.284591194968553,
      "grad_norm": 0.11824993044137955,
      "learning_rate": 0.0009607939225691172,
      "loss": 0.5533,
      "num_input_tokens_seen": 5342896,
      "step": 8175
    },
    {
      "epoch": 4.287211740041929,
      "grad_norm": 0.13056950271129608,
      "learning_rate": 0.0009607051054791472,
      "loss": 0.4924,
      "num_input_tokens_seen": 5345392,
      "step": 8180
    },
    {
      "epoch": 4.289832285115304,
      "grad_norm": 0.08055945485830307,
      "learning_rate": 0.000960616192014925,
      "loss": 0.4399,
      "num_input_tokens_seen": 5349392,
      "step": 8185
    },
    {
      "epoch": 4.2924528301886795,
      "grad_norm": 0.07160024344921112,
      "learning_rate": 0.0009605271821950506,
      "loss": 0.4507,
      "num_input_tokens_seen": 5353008,
      "step": 8190
    },
    {
      "epoch": 4.295073375262055,
      "grad_norm": 0.1497599482536316,
      "learning_rate": 0.0009604380760381434,
      "loss": 0.7126,
      "num_input_tokens_seen": 5356464,
      "step": 8195
    },
    {
      "epoch": 4.29769392033543,
      "grad_norm": 0.08639838546514511,
      "learning_rate": 0.0009603488735628439,
      "loss": 0.4021,
      "num_input_tokens_seen": 5359440,
      "step": 8200
    },
    {
      "epoch": 4.300314465408805,
      "grad_norm": 0.18257102370262146,
      "learning_rate": 0.0009602595747878118,
      "loss": 0.5868,
      "num_input_tokens_seen": 5361968,
      "step": 8205
    },
    {
      "epoch": 4.30293501048218,
      "grad_norm": 0.10591571033000946,
      "learning_rate": 0.0009601701797317278,
      "loss": 0.6501,
      "num_input_tokens_seen": 5365744,
      "step": 8210
    },
    {
      "epoch": 4.305555555555555,
      "grad_norm": 0.1329447627067566,
      "learning_rate": 0.0009600806884132917,
      "loss": 0.3751,
      "num_input_tokens_seen": 5368720,
      "step": 8215
    },
    {
      "epoch": 4.3081761006289305,
      "grad_norm": 0.25942325592041016,
      "learning_rate": 0.0009599911008512248,
      "loss": 0.507,
      "num_input_tokens_seen": 5371408,
      "step": 8220
    },
    {
      "epoch": 4.310796645702306,
      "grad_norm": 0.1543189138174057,
      "learning_rate": 0.0009599014170642674,
      "loss": 0.5692,
      "num_input_tokens_seen": 5374256,
      "step": 8225
    },
    {
      "epoch": 4.313417190775682,
      "grad_norm": 0.1885397583246231,
      "learning_rate": 0.0009598116370711805,
      "loss": 0.5384,
      "num_input_tokens_seen": 5376624,
      "step": 8230
    },
    {
      "epoch": 4.316037735849057,
      "grad_norm": 0.1720697283744812,
      "learning_rate": 0.0009597217608907447,
      "loss": 0.4597,
      "num_input_tokens_seen": 5380048,
      "step": 8235
    },
    {
      "epoch": 4.318658280922432,
      "grad_norm": 0.10012724995613098,
      "learning_rate": 0.0009596317885417614,
      "loss": 0.3781,
      "num_input_tokens_seen": 5382416,
      "step": 8240
    },
    {
      "epoch": 4.321278825995807,
      "grad_norm": 0.14586926996707916,
      "learning_rate": 0.0009595417200430516,
      "loss": 0.6315,
      "num_input_tokens_seen": 5385520,
      "step": 8245
    },
    {
      "epoch": 4.323899371069182,
      "grad_norm": 0.1007312685251236,
      "learning_rate": 0.0009594515554134568,
      "loss": 0.6734,
      "num_input_tokens_seen": 5388368,
      "step": 8250
    },
    {
      "epoch": 4.326519916142558,
      "grad_norm": 0.11363601684570312,
      "learning_rate": 0.0009593612946718384,
      "loss": 0.4188,
      "num_input_tokens_seen": 5391920,
      "step": 8255
    },
    {
      "epoch": 4.329140461215933,
      "grad_norm": 0.09705966711044312,
      "learning_rate": 0.0009592709378370778,
      "loss": 0.361,
      "num_input_tokens_seen": 5394864,
      "step": 8260
    },
    {
      "epoch": 4.331761006289308,
      "grad_norm": 0.0828712210059166,
      "learning_rate": 0.0009591804849280766,
      "loss": 0.4562,
      "num_input_tokens_seen": 5398448,
      "step": 8265
    },
    {
      "epoch": 4.334381551362683,
      "grad_norm": 0.07896488159894943,
      "learning_rate": 0.0009590899359637564,
      "loss": 0.42,
      "num_input_tokens_seen": 5401904,
      "step": 8270
    },
    {
      "epoch": 4.337002096436059,
      "grad_norm": 0.09681467711925507,
      "learning_rate": 0.0009589992909630594,
      "loss": 0.3958,
      "num_input_tokens_seen": 5404432,
      "step": 8275
    },
    {
      "epoch": 4.339622641509434,
      "grad_norm": 0.16687671840190887,
      "learning_rate": 0.0009589085499449471,
      "loss": 0.4793,
      "num_input_tokens_seen": 5407376,
      "step": 8280
    },
    {
      "epoch": 4.3422431865828095,
      "grad_norm": 0.19239147007465363,
      "learning_rate": 0.0009588177129284017,
      "loss": 0.4946,
      "num_input_tokens_seen": 5410768,
      "step": 8285
    },
    {
      "epoch": 4.344863731656185,
      "grad_norm": 0.06974419951438904,
      "learning_rate": 0.0009587267799324253,
      "loss": 0.5098,
      "num_input_tokens_seen": 5414256,
      "step": 8290
    },
    {
      "epoch": 4.34748427672956,
      "grad_norm": 0.11453956365585327,
      "learning_rate": 0.0009586357509760399,
      "loss": 0.4255,
      "num_input_tokens_seen": 5417296,
      "step": 8295
    },
    {
      "epoch": 4.350104821802935,
      "grad_norm": 0.1153254434466362,
      "learning_rate": 0.0009585446260782878,
      "loss": 0.4745,
      "num_input_tokens_seen": 5420560,
      "step": 8300
    },
    {
      "epoch": 4.35272536687631,
      "grad_norm": 0.16042152047157288,
      "learning_rate": 0.0009584534052582313,
      "loss": 0.4215,
      "num_input_tokens_seen": 5424496,
      "step": 8305
    },
    {
      "epoch": 4.355345911949685,
      "grad_norm": 0.05807972326874733,
      "learning_rate": 0.0009583620885349527,
      "loss": 0.4677,
      "num_input_tokens_seen": 5428944,
      "step": 8310
    },
    {
      "epoch": 4.3579664570230605,
      "grad_norm": 0.08011189848184586,
      "learning_rate": 0.0009582706759275546,
      "loss": 0.5202,
      "num_input_tokens_seen": 5432624,
      "step": 8315
    },
    {
      "epoch": 4.360587002096436,
      "grad_norm": 0.2063547670841217,
      "learning_rate": 0.0009581791674551592,
      "loss": 0.4763,
      "num_input_tokens_seen": 5435152,
      "step": 8320
    },
    {
      "epoch": 4.363207547169811,
      "grad_norm": 0.13570845127105713,
      "learning_rate": 0.000958087563136909,
      "loss": 0.4999,
      "num_input_tokens_seen": 5438640,
      "step": 8325
    },
    {
      "epoch": 4.365828092243187,
      "grad_norm": 0.09938780963420868,
      "learning_rate": 0.000957995862991967,
      "loss": 0.4338,
      "num_input_tokens_seen": 5441264,
      "step": 8330
    },
    {
      "epoch": 4.368448637316562,
      "grad_norm": 0.07657942920923233,
      "learning_rate": 0.0009579040670395154,
      "loss": 0.4493,
      "num_input_tokens_seen": 5444752,
      "step": 8335
    },
    {
      "epoch": 4.371069182389937,
      "grad_norm": 0.13706299662590027,
      "learning_rate": 0.000957812175298757,
      "loss": 0.4726,
      "num_input_tokens_seen": 5447632,
      "step": 8340
    },
    {
      "epoch": 4.373689727463312,
      "grad_norm": 0.10895027220249176,
      "learning_rate": 0.0009577201877889145,
      "loss": 0.5883,
      "num_input_tokens_seen": 5451344,
      "step": 8345
    },
    {
      "epoch": 4.376310272536688,
      "grad_norm": 0.1169167011976242,
      "learning_rate": 0.0009576281045292308,
      "loss": 0.5598,
      "num_input_tokens_seen": 5454736,
      "step": 8350
    },
    {
      "epoch": 4.378930817610063,
      "grad_norm": 0.05859605595469475,
      "learning_rate": 0.0009575359255389686,
      "loss": 0.5041,
      "num_input_tokens_seen": 5458096,
      "step": 8355
    },
    {
      "epoch": 4.381551362683438,
      "grad_norm": 0.10237803310155869,
      "learning_rate": 0.0009574436508374104,
      "loss": 0.4799,
      "num_input_tokens_seen": 5460560,
      "step": 8360
    },
    {
      "epoch": 4.384171907756813,
      "grad_norm": 0.16983963549137115,
      "learning_rate": 0.0009573512804438594,
      "loss": 0.4445,
      "num_input_tokens_seen": 5463792,
      "step": 8365
    },
    {
      "epoch": 4.386792452830189,
      "grad_norm": 0.06958478689193726,
      "learning_rate": 0.0009572588143776381,
      "loss": 0.4429,
      "num_input_tokens_seen": 5467216,
      "step": 8370
    },
    {
      "epoch": 4.389412997903564,
      "grad_norm": 0.054680999368429184,
      "learning_rate": 0.0009571662526580897,
      "loss": 0.4565,
      "num_input_tokens_seen": 5470320,
      "step": 8375
    },
    {
      "epoch": 4.3920335429769395,
      "grad_norm": 0.06210314854979515,
      "learning_rate": 0.0009570735953045768,
      "loss": 0.408,
      "num_input_tokens_seen": 5473232,
      "step": 8380
    },
    {
      "epoch": 4.394654088050315,
      "grad_norm": 0.10904252529144287,
      "learning_rate": 0.0009569808423364823,
      "loss": 0.59,
      "num_input_tokens_seen": 5476432,
      "step": 8385
    },
    {
      "epoch": 4.39727463312369,
      "grad_norm": 0.16046050190925598,
      "learning_rate": 0.0009568879937732091,
      "loss": 0.5472,
      "num_input_tokens_seen": 5478928,
      "step": 8390
    },
    {
      "epoch": 4.399895178197065,
      "grad_norm": 0.10642708837985992,
      "learning_rate": 0.0009567950496341802,
      "loss": 0.39,
      "num_input_tokens_seen": 5481776,
      "step": 8395
    },
    {
      "epoch": 4.40251572327044,
      "grad_norm": 0.0896296575665474,
      "learning_rate": 0.0009567020099388382,
      "loss": 0.4796,
      "num_input_tokens_seen": 5485008,
      "step": 8400
    },
    {
      "epoch": 4.405136268343815,
      "grad_norm": 0.049458764493465424,
      "learning_rate": 0.0009566088747066459,
      "loss": 0.4952,
      "num_input_tokens_seen": 5492496,
      "step": 8405
    },
    {
      "epoch": 4.4077568134171905,
      "grad_norm": 0.13117732107639313,
      "learning_rate": 0.0009565156439570866,
      "loss": 0.4642,
      "num_input_tokens_seen": 5495664,
      "step": 8410
    },
    {
      "epoch": 4.410377358490566,
      "grad_norm": 0.1517791599035263,
      "learning_rate": 0.0009564223177096625,
      "loss": 0.436,
      "num_input_tokens_seen": 5499792,
      "step": 8415
    },
    {
      "epoch": 4.412997903563941,
      "grad_norm": 0.09760767966508865,
      "learning_rate": 0.0009563288959838969,
      "loss": 0.4307,
      "num_input_tokens_seen": 5502736,
      "step": 8420
    },
    {
      "epoch": 4.415618448637317,
      "grad_norm": 0.11438927054405212,
      "learning_rate": 0.0009562353787993321,
      "loss": 0.425,
      "num_input_tokens_seen": 5505328,
      "step": 8425
    },
    {
      "epoch": 4.418238993710692,
      "grad_norm": 0.11547746509313583,
      "learning_rate": 0.0009561417661755312,
      "loss": 0.4867,
      "num_input_tokens_seen": 5507952,
      "step": 8430
    },
    {
      "epoch": 4.420859538784067,
      "grad_norm": 0.28100672364234924,
      "learning_rate": 0.0009560480581320768,
      "loss": 0.3813,
      "num_input_tokens_seen": 5510544,
      "step": 8435
    },
    {
      "epoch": 4.423480083857442,
      "grad_norm": 0.10964035987854004,
      "learning_rate": 0.0009559542546885714,
      "loss": 0.5415,
      "num_input_tokens_seen": 5512976,
      "step": 8440
    },
    {
      "epoch": 4.426100628930818,
      "grad_norm": 0.07442290335893631,
      "learning_rate": 0.0009558603558646378,
      "loss": 0.5455,
      "num_input_tokens_seen": 5516496,
      "step": 8445
    },
    {
      "epoch": 4.428721174004193,
      "grad_norm": 0.09594357758760452,
      "learning_rate": 0.0009557663616799185,
      "loss": 0.358,
      "num_input_tokens_seen": 5520720,
      "step": 8450
    },
    {
      "epoch": 4.431341719077568,
      "grad_norm": 0.0663561224937439,
      "learning_rate": 0.0009556722721540759,
      "loss": 0.4597,
      "num_input_tokens_seen": 5524336,
      "step": 8455
    },
    {
      "epoch": 4.433962264150943,
      "grad_norm": 0.05924602597951889,
      "learning_rate": 0.0009555780873067927,
      "loss": 0.4476,
      "num_input_tokens_seen": 5528112,
      "step": 8460
    },
    {
      "epoch": 4.436582809224318,
      "grad_norm": 0.06478485465049744,
      "learning_rate": 0.000955483807157771,
      "loss": 0.5201,
      "num_input_tokens_seen": 5531664,
      "step": 8465
    },
    {
      "epoch": 4.439203354297694,
      "grad_norm": 0.17651815712451935,
      "learning_rate": 0.0009553894317267333,
      "loss": 0.3902,
      "num_input_tokens_seen": 5536368,
      "step": 8470
    },
    {
      "epoch": 4.4418238993710695,
      "grad_norm": 0.117833212018013,
      "learning_rate": 0.0009552949610334219,
      "loss": 0.4591,
      "num_input_tokens_seen": 5539600,
      "step": 8475
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 0.08407509326934814,
      "learning_rate": 0.000955200395097599,
      "loss": 0.4079,
      "num_input_tokens_seen": 5542544,
      "step": 8480
    },
    {
      "epoch": 4.44706498951782,
      "grad_norm": 0.09087341278791428,
      "learning_rate": 0.0009551057339390464,
      "loss": 0.4412,
      "num_input_tokens_seen": 5546704,
      "step": 8485
    },
    {
      "epoch": 4.449685534591195,
      "grad_norm": 0.10717416554689407,
      "learning_rate": 0.0009550109775775666,
      "loss": 0.4106,
      "num_input_tokens_seen": 5549520,
      "step": 8490
    },
    {
      "epoch": 4.45230607966457,
      "grad_norm": 0.1377096325159073,
      "learning_rate": 0.0009549161260329811,
      "loss": 0.4632,
      "num_input_tokens_seen": 5553040,
      "step": 8495
    },
    {
      "epoch": 4.454926624737945,
      "grad_norm": 0.078116774559021,
      "learning_rate": 0.0009548211793251322,
      "loss": 0.4779,
      "num_input_tokens_seen": 5556880,
      "step": 8500
    },
    {
      "epoch": 4.4575471698113205,
      "grad_norm": 0.12832491099834442,
      "learning_rate": 0.0009547261374738814,
      "loss": 0.383,
      "num_input_tokens_seen": 5559760,
      "step": 8505
    },
    {
      "epoch": 4.460167714884696,
      "grad_norm": 0.09476742148399353,
      "learning_rate": 0.0009546310004991105,
      "loss": 0.4473,
      "num_input_tokens_seen": 5564688,
      "step": 8510
    },
    {
      "epoch": 4.462788259958071,
      "grad_norm": 0.14947707951068878,
      "learning_rate": 0.000954535768420721,
      "loss": 0.52,
      "num_input_tokens_seen": 5568112,
      "step": 8515
    },
    {
      "epoch": 4.465408805031447,
      "grad_norm": 0.07957116514444351,
      "learning_rate": 0.0009544404412586343,
      "loss": 0.581,
      "num_input_tokens_seen": 5570928,
      "step": 8520
    },
    {
      "epoch": 4.468029350104822,
      "grad_norm": 0.11326441913843155,
      "learning_rate": 0.0009543450190327917,
      "loss": 0.469,
      "num_input_tokens_seen": 5574480,
      "step": 8525
    },
    {
      "epoch": 4.470649895178197,
      "grad_norm": 0.18355077505111694,
      "learning_rate": 0.0009542495017631547,
      "loss": 0.4793,
      "num_input_tokens_seen": 5577296,
      "step": 8530
    },
    {
      "epoch": 4.473270440251572,
      "grad_norm": 0.06207588315010071,
      "learning_rate": 0.0009541538894697043,
      "loss": 0.3597,
      "num_input_tokens_seen": 5580784,
      "step": 8535
    },
    {
      "epoch": 4.475890985324948,
      "grad_norm": 0.08627904206514359,
      "learning_rate": 0.0009540581821724414,
      "loss": 0.4369,
      "num_input_tokens_seen": 5583856,
      "step": 8540
    },
    {
      "epoch": 4.478511530398323,
      "grad_norm": 0.10752672702074051,
      "learning_rate": 0.000953962379891387,
      "loss": 0.4411,
      "num_input_tokens_seen": 5586256,
      "step": 8545
    },
    {
      "epoch": 4.481132075471698,
      "grad_norm": 0.08763459324836731,
      "learning_rate": 0.0009538664826465818,
      "loss": 0.4455,
      "num_input_tokens_seen": 5589200,
      "step": 8550
    },
    {
      "epoch": 4.483752620545073,
      "grad_norm": 0.0853552296757698,
      "learning_rate": 0.0009537704904580864,
      "loss": 0.5492,
      "num_input_tokens_seen": 5592976,
      "step": 8555
    },
    {
      "epoch": 4.486373165618448,
      "grad_norm": 0.12039154767990112,
      "learning_rate": 0.0009536744033459815,
      "loss": 0.4973,
      "num_input_tokens_seen": 5595696,
      "step": 8560
    },
    {
      "epoch": 4.488993710691824,
      "grad_norm": 0.1105690523982048,
      "learning_rate": 0.0009535782213303669,
      "loss": 0.4697,
      "num_input_tokens_seen": 5598288,
      "step": 8565
    },
    {
      "epoch": 4.4916142557651995,
      "grad_norm": 0.08287407457828522,
      "learning_rate": 0.0009534819444313631,
      "loss": 0.528,
      "num_input_tokens_seen": 5601296,
      "step": 8570
    },
    {
      "epoch": 4.494234800838575,
      "grad_norm": 0.14068585634231567,
      "learning_rate": 0.0009533855726691103,
      "loss": 0.3688,
      "num_input_tokens_seen": 5604752,
      "step": 8575
    },
    {
      "epoch": 4.49685534591195,
      "grad_norm": 0.09976600855588913,
      "learning_rate": 0.0009532891060637681,
      "loss": 0.5145,
      "num_input_tokens_seen": 5607824,
      "step": 8580
    },
    {
      "epoch": 4.499475890985325,
      "grad_norm": 0.15436792373657227,
      "learning_rate": 0.0009531925446355163,
      "loss": 0.5159,
      "num_input_tokens_seen": 5611248,
      "step": 8585
    },
    {
      "epoch": 4.5020964360587,
      "grad_norm": 0.08683508634567261,
      "learning_rate": 0.0009530958884045545,
      "loss": 0.4283,
      "num_input_tokens_seen": 5614192,
      "step": 8590
    },
    {
      "epoch": 4.504716981132075,
      "grad_norm": 0.10180609673261642,
      "learning_rate": 0.000952999137391102,
      "loss": 0.523,
      "num_input_tokens_seen": 5616944,
      "step": 8595
    },
    {
      "epoch": 4.5073375262054505,
      "grad_norm": 0.12346525490283966,
      "learning_rate": 0.0009529022916153982,
      "loss": 0.4895,
      "num_input_tokens_seen": 5619344,
      "step": 8600
    },
    {
      "epoch": 4.509958071278826,
      "grad_norm": 0.0719992071390152,
      "learning_rate": 0.0009528053510977017,
      "loss": 0.4017,
      "num_input_tokens_seen": 5622608,
      "step": 8605
    },
    {
      "epoch": 4.512578616352201,
      "grad_norm": 0.17313635349273682,
      "learning_rate": 0.0009527083158582919,
      "loss": 0.4873,
      "num_input_tokens_seen": 5625296,
      "step": 8610
    },
    {
      "epoch": 4.515199161425577,
      "grad_norm": 0.10720287263393402,
      "learning_rate": 0.0009526111859174671,
      "loss": 0.3759,
      "num_input_tokens_seen": 5628272,
      "step": 8615
    },
    {
      "epoch": 4.517819706498952,
      "grad_norm": 0.07181563973426819,
      "learning_rate": 0.0009525139612955458,
      "loss": 0.4245,
      "num_input_tokens_seen": 5632944,
      "step": 8620
    },
    {
      "epoch": 4.520440251572327,
      "grad_norm": 0.14174553751945496,
      "learning_rate": 0.0009524166420128664,
      "loss": 0.4402,
      "num_input_tokens_seen": 5636016,
      "step": 8625
    },
    {
      "epoch": 4.523060796645702,
      "grad_norm": 0.16483256220817566,
      "learning_rate": 0.0009523192280897867,
      "loss": 0.416,
      "num_input_tokens_seen": 5642064,
      "step": 8630
    },
    {
      "epoch": 4.5256813417190775,
      "grad_norm": 0.11131830513477325,
      "learning_rate": 0.0009522217195466851,
      "loss": 0.5356,
      "num_input_tokens_seen": 5645072,
      "step": 8635
    },
    {
      "epoch": 4.528301886792453,
      "grad_norm": 0.06396458297967911,
      "learning_rate": 0.0009521241164039589,
      "loss": 0.5365,
      "num_input_tokens_seen": 5648304,
      "step": 8640
    },
    {
      "epoch": 4.530922431865828,
      "grad_norm": 0.10509023815393448,
      "learning_rate": 0.0009520264186820258,
      "loss": 0.5751,
      "num_input_tokens_seen": 5651120,
      "step": 8645
    },
    {
      "epoch": 4.533542976939203,
      "grad_norm": 0.14721368253231049,
      "learning_rate": 0.0009519286264013227,
      "loss": 0.3792,
      "num_input_tokens_seen": 5653712,
      "step": 8650
    },
    {
      "epoch": 4.536163522012579,
      "grad_norm": 0.1063121110200882,
      "learning_rate": 0.0009518307395823069,
      "loss": 0.4747,
      "num_input_tokens_seen": 5656624,
      "step": 8655
    },
    {
      "epoch": 4.538784067085954,
      "grad_norm": 0.09580251574516296,
      "learning_rate": 0.0009517327582454551,
      "loss": 0.416,
      "num_input_tokens_seen": 5658960,
      "step": 8660
    },
    {
      "epoch": 4.5414046121593294,
      "grad_norm": 0.1114146038889885,
      "learning_rate": 0.000951634682411264,
      "loss": 0.4674,
      "num_input_tokens_seen": 5661872,
      "step": 8665
    },
    {
      "epoch": 4.544025157232705,
      "grad_norm": 0.07936134934425354,
      "learning_rate": 0.0009515365121002498,
      "loss": 0.5581,
      "num_input_tokens_seen": 5664560,
      "step": 8670
    },
    {
      "epoch": 4.54664570230608,
      "grad_norm": 0.09507939219474792,
      "learning_rate": 0.0009514382473329487,
      "loss": 0.4136,
      "num_input_tokens_seen": 5667664,
      "step": 8675
    },
    {
      "epoch": 4.549266247379455,
      "grad_norm": 0.1252020001411438,
      "learning_rate": 0.0009513398881299164,
      "loss": 0.4071,
      "num_input_tokens_seen": 5670128,
      "step": 8680
    },
    {
      "epoch": 4.55188679245283,
      "grad_norm": 0.10035928338766098,
      "learning_rate": 0.0009512414345117289,
      "loss": 0.5372,
      "num_input_tokens_seen": 5673296,
      "step": 8685
    },
    {
      "epoch": 4.554507337526205,
      "grad_norm": 0.14471326768398285,
      "learning_rate": 0.0009511428864989813,
      "loss": 0.5292,
      "num_input_tokens_seen": 5675920,
      "step": 8690
    },
    {
      "epoch": 4.5571278825995805,
      "grad_norm": 0.16849087178707123,
      "learning_rate": 0.0009510442441122886,
      "loss": 0.4389,
      "num_input_tokens_seen": 5678896,
      "step": 8695
    },
    {
      "epoch": 4.559748427672956,
      "grad_norm": 0.1562405675649643,
      "learning_rate": 0.0009509455073722859,
      "loss": 0.5171,
      "num_input_tokens_seen": 5681488,
      "step": 8700
    },
    {
      "epoch": 4.562368972746331,
      "grad_norm": 0.22505620121955872,
      "learning_rate": 0.0009508466762996277,
      "loss": 0.508,
      "num_input_tokens_seen": 5684432,
      "step": 8705
    },
    {
      "epoch": 4.564989517819707,
      "grad_norm": 0.11987463384866714,
      "learning_rate": 0.0009507477509149883,
      "loss": 0.4766,
      "num_input_tokens_seen": 5688112,
      "step": 8710
    },
    {
      "epoch": 4.567610062893082,
      "grad_norm": 0.07919709384441376,
      "learning_rate": 0.0009506487312390619,
      "loss": 0.5314,
      "num_input_tokens_seen": 5690416,
      "step": 8715
    },
    {
      "epoch": 4.570230607966457,
      "grad_norm": 0.09062791615724564,
      "learning_rate": 0.0009505496172925622,
      "loss": 0.5299,
      "num_input_tokens_seen": 5693744,
      "step": 8720
    },
    {
      "epoch": 4.572851153039832,
      "grad_norm": 0.07783548533916473,
      "learning_rate": 0.0009504504090962226,
      "loss": 0.4901,
      "num_input_tokens_seen": 5697776,
      "step": 8725
    },
    {
      "epoch": 4.5754716981132075,
      "grad_norm": 0.1491512954235077,
      "learning_rate": 0.0009503511066707966,
      "loss": 0.7574,
      "num_input_tokens_seen": 5700240,
      "step": 8730
    },
    {
      "epoch": 4.578092243186583,
      "grad_norm": 0.0840686708688736,
      "learning_rate": 0.0009502517100370568,
      "loss": 0.4104,
      "num_input_tokens_seen": 5702992,
      "step": 8735
    },
    {
      "epoch": 4.580712788259958,
      "grad_norm": 0.22092993557453156,
      "learning_rate": 0.0009501522192157961,
      "loss": 0.4379,
      "num_input_tokens_seen": 5706544,
      "step": 8740
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.11525962501764297,
      "learning_rate": 0.0009500526342278266,
      "loss": 0.4691,
      "num_input_tokens_seen": 5709328,
      "step": 8745
    },
    {
      "epoch": 4.585953878406709,
      "grad_norm": 0.06981433928012848,
      "learning_rate": 0.0009499529550939807,
      "loss": 0.401,
      "num_input_tokens_seen": 5712720,
      "step": 8750
    },
    {
      "epoch": 4.588574423480084,
      "grad_norm": 0.07146989554166794,
      "learning_rate": 0.0009498531818351098,
      "loss": 0.5701,
      "num_input_tokens_seen": 5715536,
      "step": 8755
    },
    {
      "epoch": 4.591194968553459,
      "grad_norm": 0.1272658407688141,
      "learning_rate": 0.0009497533144720854,
      "loss": 0.5097,
      "num_input_tokens_seen": 5718352,
      "step": 8760
    },
    {
      "epoch": 4.593815513626835,
      "grad_norm": 0.1326209008693695,
      "learning_rate": 0.0009496533530257988,
      "loss": 0.4662,
      "num_input_tokens_seen": 5722096,
      "step": 8765
    },
    {
      "epoch": 4.59643605870021,
      "grad_norm": 0.13802853226661682,
      "learning_rate": 0.0009495532975171605,
      "loss": 0.4464,
      "num_input_tokens_seen": 5724816,
      "step": 8770
    },
    {
      "epoch": 4.599056603773585,
      "grad_norm": 0.06735733896493912,
      "learning_rate": 0.0009494531479671014,
      "loss": 0.4585,
      "num_input_tokens_seen": 5729040,
      "step": 8775
    },
    {
      "epoch": 4.60167714884696,
      "grad_norm": 0.07009541988372803,
      "learning_rate": 0.0009493529043965712,
      "loss": 0.4474,
      "num_input_tokens_seen": 5732464,
      "step": 8780
    },
    {
      "epoch": 4.604297693920335,
      "grad_norm": 0.09608842432498932,
      "learning_rate": 0.00094925256682654,
      "loss": 0.3318,
      "num_input_tokens_seen": 5735472,
      "step": 8785
    },
    {
      "epoch": 4.6069182389937104,
      "grad_norm": 0.09576063603162766,
      "learning_rate": 0.000949152135277997,
      "loss": 0.4755,
      "num_input_tokens_seen": 5738896,
      "step": 8790
    },
    {
      "epoch": 4.609538784067086,
      "grad_norm": 0.14329954981803894,
      "learning_rate": 0.0009490516097719515,
      "loss": 0.3931,
      "num_input_tokens_seen": 5742032,
      "step": 8795
    },
    {
      "epoch": 4.612159329140461,
      "grad_norm": 0.09678497910499573,
      "learning_rate": 0.0009489509903294324,
      "loss": 0.5007,
      "num_input_tokens_seen": 5745168,
      "step": 8800
    },
    {
      "epoch": 4.614779874213837,
      "grad_norm": 0.10996822267770767,
      "learning_rate": 0.000948850276971488,
      "loss": 0.5373,
      "num_input_tokens_seen": 5747920,
      "step": 8805
    },
    {
      "epoch": 4.617400419287212,
      "grad_norm": 0.10545191168785095,
      "learning_rate": 0.0009487494697191864,
      "loss": 0.5073,
      "num_input_tokens_seen": 5751120,
      "step": 8810
    },
    {
      "epoch": 4.620020964360587,
      "grad_norm": 0.09457511454820633,
      "learning_rate": 0.0009486485685936154,
      "loss": 0.4399,
      "num_input_tokens_seen": 5754352,
      "step": 8815
    },
    {
      "epoch": 4.622641509433962,
      "grad_norm": 0.32131847739219666,
      "learning_rate": 0.0009485475736158822,
      "loss": 0.4327,
      "num_input_tokens_seen": 5757200,
      "step": 8820
    },
    {
      "epoch": 4.6252620545073375,
      "grad_norm": 0.11098647862672806,
      "learning_rate": 0.000948446484807114,
      "loss": 0.3431,
      "num_input_tokens_seen": 5760944,
      "step": 8825
    },
    {
      "epoch": 4.627882599580713,
      "grad_norm": 0.11323171108961105,
      "learning_rate": 0.0009483453021884572,
      "loss": 0.5162,
      "num_input_tokens_seen": 5764848,
      "step": 8830
    },
    {
      "epoch": 4.630503144654088,
      "grad_norm": 0.11600389331579208,
      "learning_rate": 0.0009482440257810782,
      "loss": 0.3858,
      "num_input_tokens_seen": 5767984,
      "step": 8835
    },
    {
      "epoch": 4.633123689727463,
      "grad_norm": 0.08715389668941498,
      "learning_rate": 0.000948142655606163,
      "loss": 0.4263,
      "num_input_tokens_seen": 5771472,
      "step": 8840
    },
    {
      "epoch": 4.635744234800838,
      "grad_norm": 0.1417243629693985,
      "learning_rate": 0.0009480411916849168,
      "loss": 0.519,
      "num_input_tokens_seen": 5775536,
      "step": 8845
    },
    {
      "epoch": 4.638364779874214,
      "grad_norm": 0.06760310381650925,
      "learning_rate": 0.0009479396340385649,
      "loss": 0.4335,
      "num_input_tokens_seen": 5778704,
      "step": 8850
    },
    {
      "epoch": 4.640985324947589,
      "grad_norm": 0.16843003034591675,
      "learning_rate": 0.0009478379826883519,
      "loss": 0.4872,
      "num_input_tokens_seen": 5781104,
      "step": 8855
    },
    {
      "epoch": 4.643605870020965,
      "grad_norm": 0.0695919319987297,
      "learning_rate": 0.0009477362376555421,
      "loss": 0.5015,
      "num_input_tokens_seen": 5784528,
      "step": 8860
    },
    {
      "epoch": 4.64622641509434,
      "grad_norm": 0.07607845216989517,
      "learning_rate": 0.0009476343989614194,
      "loss": 0.7083,
      "num_input_tokens_seen": 5787184,
      "step": 8865
    },
    {
      "epoch": 4.648846960167715,
      "grad_norm": 0.20547430217266083,
      "learning_rate": 0.0009475324666272873,
      "loss": 0.5177,
      "num_input_tokens_seen": 5790032,
      "step": 8870
    },
    {
      "epoch": 4.65146750524109,
      "grad_norm": 0.11080321669578552,
      "learning_rate": 0.0009474304406744689,
      "loss": 0.4779,
      "num_input_tokens_seen": 5793104,
      "step": 8875
    },
    {
      "epoch": 4.654088050314465,
      "grad_norm": 0.16093041002750397,
      "learning_rate": 0.0009473283211243069,
      "loss": 0.5593,
      "num_input_tokens_seen": 5796368,
      "step": 8880
    },
    {
      "epoch": 4.65670859538784,
      "grad_norm": 0.1273888796567917,
      "learning_rate": 0.0009472261079981637,
      "loss": 0.6302,
      "num_input_tokens_seen": 5799248,
      "step": 8885
    },
    {
      "epoch": 4.659329140461216,
      "grad_norm": 0.0639844611287117,
      "learning_rate": 0.0009471238013174206,
      "loss": 0.5439,
      "num_input_tokens_seen": 5802448,
      "step": 8890
    },
    {
      "epoch": 4.661949685534591,
      "grad_norm": 0.15209227800369263,
      "learning_rate": 0.0009470214011034795,
      "loss": 0.5098,
      "num_input_tokens_seen": 5805936,
      "step": 8895
    },
    {
      "epoch": 4.664570230607967,
      "grad_norm": 0.1390158236026764,
      "learning_rate": 0.0009469189073777612,
      "loss": 0.4291,
      "num_input_tokens_seen": 5809744,
      "step": 8900
    },
    {
      "epoch": 4.667190775681342,
      "grad_norm": 0.10124077647924423,
      "learning_rate": 0.0009468163201617061,
      "loss": 0.5803,
      "num_input_tokens_seen": 5812656,
      "step": 8905
    },
    {
      "epoch": 4.669811320754717,
      "grad_norm": 0.17579935491085052,
      "learning_rate": 0.0009467136394767744,
      "loss": 0.6008,
      "num_input_tokens_seen": 5816048,
      "step": 8910
    },
    {
      "epoch": 4.672431865828092,
      "grad_norm": 0.06699769198894501,
      "learning_rate": 0.0009466108653444458,
      "loss": 0.5768,
      "num_input_tokens_seen": 5820080,
      "step": 8915
    },
    {
      "epoch": 4.6750524109014675,
      "grad_norm": 0.065873883664608,
      "learning_rate": 0.0009465079977862193,
      "loss": 0.51,
      "num_input_tokens_seen": 5823344,
      "step": 8920
    },
    {
      "epoch": 4.677672955974843,
      "grad_norm": 0.0908723846077919,
      "learning_rate": 0.0009464050368236137,
      "loss": 0.4666,
      "num_input_tokens_seen": 5826448,
      "step": 8925
    },
    {
      "epoch": 4.680293501048218,
      "grad_norm": 0.17673148214817047,
      "learning_rate": 0.0009463019824781674,
      "loss": 0.4322,
      "num_input_tokens_seen": 5830000,
      "step": 8930
    },
    {
      "epoch": 4.682914046121593,
      "grad_norm": 0.11286215484142303,
      "learning_rate": 0.0009461988347714377,
      "loss": 0.3477,
      "num_input_tokens_seen": 5832464,
      "step": 8935
    },
    {
      "epoch": 4.685534591194968,
      "grad_norm": 0.09919754415750504,
      "learning_rate": 0.0009460955937250025,
      "loss": 0.4471,
      "num_input_tokens_seen": 5835568,
      "step": 8940
    },
    {
      "epoch": 4.688155136268344,
      "grad_norm": 0.06606433540582657,
      "learning_rate": 0.0009459922593604584,
      "loss": 0.4635,
      "num_input_tokens_seen": 5841360,
      "step": 8945
    },
    {
      "epoch": 4.690775681341719,
      "grad_norm": 0.129140242934227,
      "learning_rate": 0.0009458888316994219,
      "loss": 0.3713,
      "num_input_tokens_seen": 5844240,
      "step": 8950
    },
    {
      "epoch": 4.693396226415095,
      "grad_norm": 0.11475446075201035,
      "learning_rate": 0.0009457853107635286,
      "loss": 0.418,
      "num_input_tokens_seen": 5848144,
      "step": 8955
    },
    {
      "epoch": 4.69601677148847,
      "grad_norm": 0.14402836561203003,
      "learning_rate": 0.0009456816965744342,
      "loss": 0.5228,
      "num_input_tokens_seen": 5850800,
      "step": 8960
    },
    {
      "epoch": 4.698637316561845,
      "grad_norm": 0.09369197487831116,
      "learning_rate": 0.0009455779891538134,
      "loss": 0.4471,
      "num_input_tokens_seen": 5853712,
      "step": 8965
    },
    {
      "epoch": 4.70125786163522,
      "grad_norm": 0.12082882970571518,
      "learning_rate": 0.0009454741885233606,
      "loss": 0.4095,
      "num_input_tokens_seen": 5856400,
      "step": 8970
    },
    {
      "epoch": 4.703878406708595,
      "grad_norm": 0.09458106011152267,
      "learning_rate": 0.0009453702947047899,
      "loss": 0.5176,
      "num_input_tokens_seen": 5859760,
      "step": 8975
    },
    {
      "epoch": 4.70649895178197,
      "grad_norm": 0.06307995319366455,
      "learning_rate": 0.0009452663077198347,
      "loss": 0.3912,
      "num_input_tokens_seen": 5862672,
      "step": 8980
    },
    {
      "epoch": 4.709119496855346,
      "grad_norm": 0.06987668573856354,
      "learning_rate": 0.0009451622275902477,
      "loss": 0.4848,
      "num_input_tokens_seen": 5866288,
      "step": 8985
    },
    {
      "epoch": 4.711740041928721,
      "grad_norm": 0.07828588783740997,
      "learning_rate": 0.0009450580543378013,
      "loss": 0.5395,
      "num_input_tokens_seen": 5869424,
      "step": 8990
    },
    {
      "epoch": 4.714360587002097,
      "grad_norm": 0.07285789400339127,
      "learning_rate": 0.0009449537879842875,
      "loss": 0.3578,
      "num_input_tokens_seen": 5872240,
      "step": 8995
    },
    {
      "epoch": 4.716981132075472,
      "grad_norm": 0.10084519535303116,
      "learning_rate": 0.0009448494285515177,
      "loss": 0.3926,
      "num_input_tokens_seen": 5874672,
      "step": 9000
    },
    {
      "epoch": 4.719601677148847,
      "grad_norm": 0.08007863163948059,
      "learning_rate": 0.0009447449760613222,
      "loss": 0.4072,
      "num_input_tokens_seen": 5878544,
      "step": 9005
    },
    {
      "epoch": 4.722222222222222,
      "grad_norm": 0.08932183682918549,
      "learning_rate": 0.0009446404305355519,
      "loss": 0.5201,
      "num_input_tokens_seen": 5882096,
      "step": 9010
    },
    {
      "epoch": 4.7248427672955975,
      "grad_norm": 0.11810705810785294,
      "learning_rate": 0.0009445357919960762,
      "loss": 0.4965,
      "num_input_tokens_seen": 5886512,
      "step": 9015
    },
    {
      "epoch": 4.727463312368973,
      "grad_norm": 0.11715887486934662,
      "learning_rate": 0.0009444310604647844,
      "loss": 0.4053,
      "num_input_tokens_seen": 5889648,
      "step": 9020
    },
    {
      "epoch": 4.730083857442348,
      "grad_norm": 0.10228967666625977,
      "learning_rate": 0.000944326235963585,
      "loss": 0.4534,
      "num_input_tokens_seen": 5892752,
      "step": 9025
    },
    {
      "epoch": 4.732704402515723,
      "grad_norm": 0.07301643490791321,
      "learning_rate": 0.0009442213185144062,
      "loss": 0.5852,
      "num_input_tokens_seen": 5896112,
      "step": 9030
    },
    {
      "epoch": 4.735324947589098,
      "grad_norm": 0.11501367390155792,
      "learning_rate": 0.0009441163081391954,
      "loss": 0.4552,
      "num_input_tokens_seen": 5899440,
      "step": 9035
    },
    {
      "epoch": 4.737945492662474,
      "grad_norm": 0.10501006990671158,
      "learning_rate": 0.00094401120485992,
      "loss": 0.5595,
      "num_input_tokens_seen": 5902096,
      "step": 9040
    },
    {
      "epoch": 4.740566037735849,
      "grad_norm": 0.10394797474145889,
      "learning_rate": 0.0009439060086985658,
      "loss": 0.4023,
      "num_input_tokens_seen": 5904880,
      "step": 9045
    },
    {
      "epoch": 4.743186582809225,
      "grad_norm": 0.09725998342037201,
      "learning_rate": 0.000943800719677139,
      "loss": 0.4941,
      "num_input_tokens_seen": 5907632,
      "step": 9050
    },
    {
      "epoch": 4.7458071278826,
      "grad_norm": 0.1720322072505951,
      "learning_rate": 0.0009436953378176649,
      "loss": 0.4559,
      "num_input_tokens_seen": 5911120,
      "step": 9055
    },
    {
      "epoch": 4.748427672955975,
      "grad_norm": 0.07006879895925522,
      "learning_rate": 0.0009435898631421879,
      "loss": 0.4215,
      "num_input_tokens_seen": 5914928,
      "step": 9060
    },
    {
      "epoch": 4.75104821802935,
      "grad_norm": 0.07829907536506653,
      "learning_rate": 0.0009434842956727724,
      "loss": 0.396,
      "num_input_tokens_seen": 5918192,
      "step": 9065
    },
    {
      "epoch": 4.753668763102725,
      "grad_norm": 0.10267603397369385,
      "learning_rate": 0.0009433786354315017,
      "loss": 0.3672,
      "num_input_tokens_seen": 5921232,
      "step": 9070
    },
    {
      "epoch": 4.7562893081761,
      "grad_norm": 0.04996287450194359,
      "learning_rate": 0.0009432728824404789,
      "loss": 0.4325,
      "num_input_tokens_seen": 5925040,
      "step": 9075
    },
    {
      "epoch": 4.758909853249476,
      "grad_norm": 0.13417048752307892,
      "learning_rate": 0.0009431670367218262,
      "loss": 0.4887,
      "num_input_tokens_seen": 5927376,
      "step": 9080
    },
    {
      "epoch": 4.761530398322851,
      "grad_norm": 0.07023142278194427,
      "learning_rate": 0.0009430610982976852,
      "loss": 0.4073,
      "num_input_tokens_seen": 5930576,
      "step": 9085
    },
    {
      "epoch": 4.764150943396227,
      "grad_norm": 0.23721103370189667,
      "learning_rate": 0.0009429550671902171,
      "loss": 0.3767,
      "num_input_tokens_seen": 5933328,
      "step": 9090
    },
    {
      "epoch": 4.766771488469602,
      "grad_norm": 0.06483621895313263,
      "learning_rate": 0.0009428489434216028,
      "loss": 0.4524,
      "num_input_tokens_seen": 5936208,
      "step": 9095
    },
    {
      "epoch": 4.769392033542977,
      "grad_norm": 0.09548451751470566,
      "learning_rate": 0.0009427427270140415,
      "loss": 0.5724,
      "num_input_tokens_seen": 5938832,
      "step": 9100
    },
    {
      "epoch": 4.772012578616352,
      "grad_norm": 0.08582699298858643,
      "learning_rate": 0.0009426364179897529,
      "loss": 0.3721,
      "num_input_tokens_seen": 5942128,
      "step": 9105
    },
    {
      "epoch": 4.7746331236897275,
      "grad_norm": 0.08070264011621475,
      "learning_rate": 0.0009425300163709756,
      "loss": 0.2948,
      "num_input_tokens_seen": 5945648,
      "step": 9110
    },
    {
      "epoch": 4.777253668763103,
      "grad_norm": 0.06669911742210388,
      "learning_rate": 0.0009424235221799673,
      "loss": 0.3868,
      "num_input_tokens_seen": 5950352,
      "step": 9115
    },
    {
      "epoch": 4.779874213836478,
      "grad_norm": 0.16267476975917816,
      "learning_rate": 0.0009423169354390058,
      "loss": 0.6201,
      "num_input_tokens_seen": 5953488,
      "step": 9120
    },
    {
      "epoch": 4.782494758909853,
      "grad_norm": 0.08526528626680374,
      "learning_rate": 0.0009422102561703875,
      "loss": 0.4407,
      "num_input_tokens_seen": 5956784,
      "step": 9125
    },
    {
      "epoch": 4.785115303983228,
      "grad_norm": 0.1254679560661316,
      "learning_rate": 0.0009421034843964287,
      "loss": 0.4975,
      "num_input_tokens_seen": 5960080,
      "step": 9130
    },
    {
      "epoch": 4.787735849056604,
      "grad_norm": 0.09780588746070862,
      "learning_rate": 0.0009419966201394646,
      "loss": 0.3852,
      "num_input_tokens_seen": 5962864,
      "step": 9135
    },
    {
      "epoch": 4.790356394129979,
      "grad_norm": 0.0829775482416153,
      "learning_rate": 0.0009418896634218503,
      "loss": 0.4275,
      "num_input_tokens_seen": 5966000,
      "step": 9140
    },
    {
      "epoch": 4.7929769392033545,
      "grad_norm": 0.11050282418727875,
      "learning_rate": 0.0009417826142659596,
      "loss": 0.4971,
      "num_input_tokens_seen": 5969168,
      "step": 9145
    },
    {
      "epoch": 4.79559748427673,
      "grad_norm": 0.07648838311433792,
      "learning_rate": 0.0009416754726941863,
      "loss": 0.5064,
      "num_input_tokens_seen": 5972720,
      "step": 9150
    },
    {
      "epoch": 4.798218029350105,
      "grad_norm": 0.06589441746473312,
      "learning_rate": 0.0009415682387289428,
      "loss": 0.3443,
      "num_input_tokens_seen": 5975760,
      "step": 9155
    },
    {
      "epoch": 4.80083857442348,
      "grad_norm": 0.12007858604192734,
      "learning_rate": 0.0009414609123926616,
      "loss": 0.3449,
      "num_input_tokens_seen": 5979120,
      "step": 9160
    },
    {
      "epoch": 4.803459119496855,
      "grad_norm": 0.09210614860057831,
      "learning_rate": 0.000941353493707794,
      "loss": 0.4982,
      "num_input_tokens_seen": 5983376,
      "step": 9165
    },
    {
      "epoch": 4.80607966457023,
      "grad_norm": 0.08550124615430832,
      "learning_rate": 0.0009412459826968107,
      "loss": 0.5392,
      "num_input_tokens_seen": 5986416,
      "step": 9170
    },
    {
      "epoch": 4.808700209643606,
      "grad_norm": 0.116923987865448,
      "learning_rate": 0.0009411383793822017,
      "loss": 0.3825,
      "num_input_tokens_seen": 5989136,
      "step": 9175
    },
    {
      "epoch": 4.811320754716981,
      "grad_norm": 0.14563745260238647,
      "learning_rate": 0.0009410306837864766,
      "loss": 0.6422,
      "num_input_tokens_seen": 5992112,
      "step": 9180
    },
    {
      "epoch": 4.813941299790356,
      "grad_norm": 0.09041795879602432,
      "learning_rate": 0.000940922895932164,
      "loss": 0.4004,
      "num_input_tokens_seen": 5995472,
      "step": 9185
    },
    {
      "epoch": 4.816561844863732,
      "grad_norm": 0.1121697723865509,
      "learning_rate": 0.0009408150158418119,
      "loss": 0.4313,
      "num_input_tokens_seen": 5998736,
      "step": 9190
    },
    {
      "epoch": 4.819182389937107,
      "grad_norm": 0.10004328936338425,
      "learning_rate": 0.0009407070435379876,
      "loss": 0.6322,
      "num_input_tokens_seen": 6001552,
      "step": 9195
    },
    {
      "epoch": 4.821802935010482,
      "grad_norm": 0.17224998772144318,
      "learning_rate": 0.0009405989790432776,
      "loss": 0.5171,
      "num_input_tokens_seen": 6005520,
      "step": 9200
    },
    {
      "epoch": 4.8244234800838575,
      "grad_norm": 0.07634427398443222,
      "learning_rate": 0.0009404908223802877,
      "loss": 0.4292,
      "num_input_tokens_seen": 6009200,
      "step": 9205
    },
    {
      "epoch": 4.827044025157233,
      "grad_norm": 0.07349782437086105,
      "learning_rate": 0.0009403825735716433,
      "loss": 0.3961,
      "num_input_tokens_seen": 6012912,
      "step": 9210
    },
    {
      "epoch": 4.829664570230608,
      "grad_norm": 0.07154881954193115,
      "learning_rate": 0.0009402742326399887,
      "loss": 0.5522,
      "num_input_tokens_seen": 6017744,
      "step": 9215
    },
    {
      "epoch": 4.832285115303983,
      "grad_norm": 0.15196296572685242,
      "learning_rate": 0.0009401657996079873,
      "loss": 0.4284,
      "num_input_tokens_seen": 6020624,
      "step": 9220
    },
    {
      "epoch": 4.834905660377358,
      "grad_norm": 0.09025219827890396,
      "learning_rate": 0.0009400572744983224,
      "loss": 0.452,
      "num_input_tokens_seen": 6023312,
      "step": 9225
    },
    {
      "epoch": 4.837526205450734,
      "grad_norm": 0.14809812605381012,
      "learning_rate": 0.0009399486573336963,
      "loss": 0.4668,
      "num_input_tokens_seen": 6026032,
      "step": 9230
    },
    {
      "epoch": 4.840146750524109,
      "grad_norm": 0.1179184764623642,
      "learning_rate": 0.00093983994813683,
      "loss": 0.3939,
      "num_input_tokens_seen": 6029872,
      "step": 9235
    },
    {
      "epoch": 4.8427672955974845,
      "grad_norm": 0.06086292117834091,
      "learning_rate": 0.0009397311469304648,
      "loss": 0.465,
      "num_input_tokens_seen": 6033232,
      "step": 9240
    },
    {
      "epoch": 4.84538784067086,
      "grad_norm": 0.2170521467924118,
      "learning_rate": 0.0009396222537373602,
      "loss": 0.6414,
      "num_input_tokens_seen": 6035888,
      "step": 9245
    },
    {
      "epoch": 4.848008385744235,
      "grad_norm": 0.060045309364795685,
      "learning_rate": 0.0009395132685802956,
      "loss": 0.456,
      "num_input_tokens_seen": 6039408,
      "step": 9250
    },
    {
      "epoch": 4.85062893081761,
      "grad_norm": 0.08576393127441406,
      "learning_rate": 0.0009394041914820695,
      "loss": 0.5525,
      "num_input_tokens_seen": 6042736,
      "step": 9255
    },
    {
      "epoch": 4.853249475890985,
      "grad_norm": 0.11312636733055115,
      "learning_rate": 0.0009392950224654994,
      "loss": 0.4658,
      "num_input_tokens_seen": 6045296,
      "step": 9260
    },
    {
      "epoch": 4.85587002096436,
      "grad_norm": 0.13072991371154785,
      "learning_rate": 0.0009391857615534225,
      "loss": 0.4542,
      "num_input_tokens_seen": 6047920,
      "step": 9265
    },
    {
      "epoch": 4.8584905660377355,
      "grad_norm": 0.0688621997833252,
      "learning_rate": 0.0009390764087686948,
      "loss": 0.3636,
      "num_input_tokens_seen": 6052432,
      "step": 9270
    },
    {
      "epoch": 4.861111111111111,
      "grad_norm": 0.13104823231697083,
      "learning_rate": 0.0009389669641341916,
      "loss": 0.4337,
      "num_input_tokens_seen": 6055472,
      "step": 9275
    },
    {
      "epoch": 4.863731656184486,
      "grad_norm": 0.11003399640321732,
      "learning_rate": 0.0009388574276728075,
      "loss": 0.5826,
      "num_input_tokens_seen": 6059184,
      "step": 9280
    },
    {
      "epoch": 4.866352201257862,
      "grad_norm": 0.11410538107156754,
      "learning_rate": 0.0009387477994074562,
      "loss": 0.5892,
      "num_input_tokens_seen": 6062192,
      "step": 9285
    },
    {
      "epoch": 4.868972746331237,
      "grad_norm": 0.12447813153266907,
      "learning_rate": 0.0009386380793610707,
      "loss": 0.4757,
      "num_input_tokens_seen": 6065264,
      "step": 9290
    },
    {
      "epoch": 4.871593291404612,
      "grad_norm": 0.09841565787792206,
      "learning_rate": 0.0009385282675566034,
      "loss": 0.5304,
      "num_input_tokens_seen": 6069008,
      "step": 9295
    },
    {
      "epoch": 4.8742138364779874,
      "grad_norm": 0.07868984341621399,
      "learning_rate": 0.0009384183640170255,
      "loss": 0.4071,
      "num_input_tokens_seen": 6072624,
      "step": 9300
    },
    {
      "epoch": 4.876834381551363,
      "grad_norm": 0.0860019251704216,
      "learning_rate": 0.0009383083687653275,
      "loss": 0.5526,
      "num_input_tokens_seen": 6075280,
      "step": 9305
    },
    {
      "epoch": 4.879454926624738,
      "grad_norm": 0.18004336953163147,
      "learning_rate": 0.0009381982818245193,
      "loss": 0.4768,
      "num_input_tokens_seen": 6078448,
      "step": 9310
    },
    {
      "epoch": 4.882075471698113,
      "grad_norm": 0.10990609228610992,
      "learning_rate": 0.0009380881032176299,
      "loss": 0.3042,
      "num_input_tokens_seen": 6081008,
      "step": 9315
    },
    {
      "epoch": 4.884696016771488,
      "grad_norm": 0.09022540599107742,
      "learning_rate": 0.0009379778329677071,
      "loss": 0.4944,
      "num_input_tokens_seen": 6085296,
      "step": 9320
    },
    {
      "epoch": 4.887316561844864,
      "grad_norm": 0.09333392232656479,
      "learning_rate": 0.0009378674710978184,
      "loss": 0.4716,
      "num_input_tokens_seen": 6087664,
      "step": 9325
    },
    {
      "epoch": 4.889937106918239,
      "grad_norm": 0.11363088339567184,
      "learning_rate": 0.0009377570176310503,
      "loss": 0.464,
      "num_input_tokens_seen": 6090832,
      "step": 9330
    },
    {
      "epoch": 4.8925576519916145,
      "grad_norm": 0.10716688632965088,
      "learning_rate": 0.0009376464725905082,
      "loss": 0.5254,
      "num_input_tokens_seen": 6093616,
      "step": 9335
    },
    {
      "epoch": 4.89517819706499,
      "grad_norm": 0.09168457984924316,
      "learning_rate": 0.000937535835999317,
      "loss": 0.3618,
      "num_input_tokens_seen": 6096592,
      "step": 9340
    },
    {
      "epoch": 4.897798742138365,
      "grad_norm": 0.05173400789499283,
      "learning_rate": 0.0009374251078806206,
      "loss": 0.3227,
      "num_input_tokens_seen": 6100144,
      "step": 9345
    },
    {
      "epoch": 4.90041928721174,
      "grad_norm": 0.08089915663003922,
      "learning_rate": 0.000937314288257582,
      "loss": 0.5512,
      "num_input_tokens_seen": 6103536,
      "step": 9350
    },
    {
      "epoch": 4.903039832285115,
      "grad_norm": 0.08181780576705933,
      "learning_rate": 0.0009372033771533835,
      "loss": 0.4734,
      "num_input_tokens_seen": 6107408,
      "step": 9355
    },
    {
      "epoch": 4.90566037735849,
      "grad_norm": 0.10329785197973251,
      "learning_rate": 0.0009370923745912264,
      "loss": 0.4872,
      "num_input_tokens_seen": 6110480,
      "step": 9360
    },
    {
      "epoch": 4.9082809224318655,
      "grad_norm": 0.1299038678407669,
      "learning_rate": 0.000936981280594331,
      "loss": 0.3981,
      "num_input_tokens_seen": 6113488,
      "step": 9365
    },
    {
      "epoch": 4.910901467505241,
      "grad_norm": 0.07289228588342667,
      "learning_rate": 0.0009368700951859371,
      "loss": 0.466,
      "num_input_tokens_seen": 6117648,
      "step": 9370
    },
    {
      "epoch": 4.913522012578616,
      "grad_norm": 0.16497543454170227,
      "learning_rate": 0.0009367588183893035,
      "loss": 0.4578,
      "num_input_tokens_seen": 6120592,
      "step": 9375
    },
    {
      "epoch": 4.916142557651992,
      "grad_norm": 0.11644237488508224,
      "learning_rate": 0.0009366474502277076,
      "loss": 0.526,
      "num_input_tokens_seen": 6124400,
      "step": 9380
    },
    {
      "epoch": 4.918763102725367,
      "grad_norm": 0.08498802781105042,
      "learning_rate": 0.0009365359907244469,
      "loss": 0.5144,
      "num_input_tokens_seen": 6128400,
      "step": 9385
    },
    {
      "epoch": 4.921383647798742,
      "grad_norm": 0.06149933859705925,
      "learning_rate": 0.0009364244399028372,
      "loss": 0.4484,
      "num_input_tokens_seen": 6131536,
      "step": 9390
    },
    {
      "epoch": 4.924004192872117,
      "grad_norm": 0.08644255995750427,
      "learning_rate": 0.0009363127977862136,
      "loss": 0.3299,
      "num_input_tokens_seen": 6135280,
      "step": 9395
    },
    {
      "epoch": 4.926624737945493,
      "grad_norm": 0.13795815408229828,
      "learning_rate": 0.0009362010643979304,
      "loss": 0.4968,
      "num_input_tokens_seen": 6137680,
      "step": 9400
    },
    {
      "epoch": 4.929245283018868,
      "grad_norm": 0.0941949412226677,
      "learning_rate": 0.000936089239761361,
      "loss": 0.6794,
      "num_input_tokens_seen": 6141264,
      "step": 9405
    },
    {
      "epoch": 4.931865828092243,
      "grad_norm": 0.12737815082073212,
      "learning_rate": 0.0009359773238998978,
      "loss": 0.418,
      "num_input_tokens_seen": 6145104,
      "step": 9410
    },
    {
      "epoch": 4.934486373165618,
      "grad_norm": 0.0789584144949913,
      "learning_rate": 0.0009358653168369524,
      "loss": 0.4547,
      "num_input_tokens_seen": 6148976,
      "step": 9415
    },
    {
      "epoch": 4.937106918238994,
      "grad_norm": 0.14326252043247223,
      "learning_rate": 0.0009357532185959554,
      "loss": 0.6002,
      "num_input_tokens_seen": 6152560,
      "step": 9420
    },
    {
      "epoch": 4.939727463312369,
      "grad_norm": 0.1366094946861267,
      "learning_rate": 0.0009356410292003562,
      "loss": 0.5643,
      "num_input_tokens_seen": 6155024,
      "step": 9425
    },
    {
      "epoch": 4.9423480083857445,
      "grad_norm": 0.07752691954374313,
      "learning_rate": 0.0009355287486736239,
      "loss": 0.4901,
      "num_input_tokens_seen": 6157584,
      "step": 9430
    },
    {
      "epoch": 4.94496855345912,
      "grad_norm": 0.1336563378572464,
      "learning_rate": 0.0009354163770392461,
      "loss": 0.4911,
      "num_input_tokens_seen": 6160240,
      "step": 9435
    },
    {
      "epoch": 4.947589098532495,
      "grad_norm": 0.07283184677362442,
      "learning_rate": 0.0009353039143207295,
      "loss": 0.5079,
      "num_input_tokens_seen": 6163696,
      "step": 9440
    },
    {
      "epoch": 4.95020964360587,
      "grad_norm": 0.0792207345366478,
      "learning_rate": 0.0009351913605416007,
      "loss": 0.3484,
      "num_input_tokens_seen": 6168880,
      "step": 9445
    },
    {
      "epoch": 4.952830188679245,
      "grad_norm": 0.1231507658958435,
      "learning_rate": 0.000935078715725404,
      "loss": 0.4927,
      "num_input_tokens_seen": 6172208,
      "step": 9450
    },
    {
      "epoch": 4.95545073375262,
      "grad_norm": 0.07366294413805008,
      "learning_rate": 0.0009349659798957034,
      "loss": 0.3545,
      "num_input_tokens_seen": 6174928,
      "step": 9455
    },
    {
      "epoch": 4.9580712788259955,
      "grad_norm": 0.06779517233371735,
      "learning_rate": 0.0009348531530760823,
      "loss": 0.4626,
      "num_input_tokens_seen": 6178992,
      "step": 9460
    },
    {
      "epoch": 4.960691823899371,
      "grad_norm": 0.12204552441835403,
      "learning_rate": 0.0009347402352901426,
      "loss": 0.4531,
      "num_input_tokens_seen": 6182128,
      "step": 9465
    },
    {
      "epoch": 4.963312368972746,
      "grad_norm": 0.1409517377614975,
      "learning_rate": 0.0009346272265615057,
      "loss": 0.4109,
      "num_input_tokens_seen": 6185328,
      "step": 9470
    },
    {
      "epoch": 4.965932914046122,
      "grad_norm": 0.08016621321439743,
      "learning_rate": 0.0009345141269138112,
      "loss": 0.4475,
      "num_input_tokens_seen": 6188560,
      "step": 9475
    },
    {
      "epoch": 4.968553459119497,
      "grad_norm": 0.08664729446172714,
      "learning_rate": 0.0009344009363707186,
      "loss": 0.5604,
      "num_input_tokens_seen": 6193136,
      "step": 9480
    },
    {
      "epoch": 4.971174004192872,
      "grad_norm": 0.11505484580993652,
      "learning_rate": 0.000934287654955906,
      "loss": 0.6693,
      "num_input_tokens_seen": 6196816,
      "step": 9485
    },
    {
      "epoch": 4.973794549266247,
      "grad_norm": 0.07912951707839966,
      "learning_rate": 0.0009341742826930708,
      "loss": 0.4447,
      "num_input_tokens_seen": 6200272,
      "step": 9490
    },
    {
      "epoch": 4.976415094339623,
      "grad_norm": 0.20699097216129303,
      "learning_rate": 0.0009340608196059289,
      "loss": 0.4121,
      "num_input_tokens_seen": 6203216,
      "step": 9495
    },
    {
      "epoch": 4.979035639412998,
      "grad_norm": 0.057525720447301865,
      "learning_rate": 0.0009339472657182155,
      "loss": 0.4164,
      "num_input_tokens_seen": 6206736,
      "step": 9500
    },
    {
      "epoch": 4.981656184486373,
      "grad_norm": 0.0897630974650383,
      "learning_rate": 0.0009338336210536848,
      "loss": 0.4014,
      "num_input_tokens_seen": 6209936,
      "step": 9505
    },
    {
      "epoch": 4.984276729559748,
      "grad_norm": 0.059788744896650314,
      "learning_rate": 0.0009337198856361102,
      "loss": 0.4646,
      "num_input_tokens_seen": 6213424,
      "step": 9510
    },
    {
      "epoch": 4.986897274633124,
      "grad_norm": 0.1604834944009781,
      "learning_rate": 0.0009336060594892834,
      "loss": 0.3885,
      "num_input_tokens_seen": 6217360,
      "step": 9515
    },
    {
      "epoch": 4.989517819706499,
      "grad_norm": 0.14321641623973846,
      "learning_rate": 0.000933492142637016,
      "loss": 0.5125,
      "num_input_tokens_seen": 6219984,
      "step": 9520
    },
    {
      "epoch": 4.9921383647798745,
      "grad_norm": 0.08578873425722122,
      "learning_rate": 0.0009333781351031379,
      "loss": 0.381,
      "num_input_tokens_seen": 6223664,
      "step": 9525
    },
    {
      "epoch": 4.99475890985325,
      "grad_norm": 0.07958898693323135,
      "learning_rate": 0.0009332640369114981,
      "loss": 0.4866,
      "num_input_tokens_seen": 6227440,
      "step": 9530
    },
    {
      "epoch": 4.997379454926625,
      "grad_norm": 0.10104063898324966,
      "learning_rate": 0.0009331498480859647,
      "loss": 0.4005,
      "num_input_tokens_seen": 6230608,
      "step": 9535
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.2365904599428177,
      "learning_rate": 0.0009330355686504247,
      "loss": 0.4724,
      "num_input_tokens_seen": 6233920,
      "step": 9540
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.47781023383140564,
      "eval_runtime": 13.689,
      "eval_samples_per_second": 61.948,
      "eval_steps_per_second": 15.487,
      "num_input_tokens_seen": 6233920,
      "step": 9540
    },
    {
      "epoch": 5.002620545073375,
      "grad_norm": 0.09123384207487106,
      "learning_rate": 0.0009329211986287842,
      "loss": 0.4162,
      "num_input_tokens_seen": 6237312,
      "step": 9545
    },
    {
      "epoch": 5.00524109014675,
      "grad_norm": 0.10169187188148499,
      "learning_rate": 0.0009328067380449678,
      "loss": 0.3991,
      "num_input_tokens_seen": 6241344,
      "step": 9550
    },
    {
      "epoch": 5.0078616352201255,
      "grad_norm": 0.09229321777820587,
      "learning_rate": 0.0009326921869229197,
      "loss": 0.5383,
      "num_input_tokens_seen": 6244064,
      "step": 9555
    },
    {
      "epoch": 5.010482180293501,
      "grad_norm": 0.09887745976448059,
      "learning_rate": 0.0009325775452866023,
      "loss": 0.6339,
      "num_input_tokens_seen": 6247008,
      "step": 9560
    },
    {
      "epoch": 5.013102725366877,
      "grad_norm": 0.09517562389373779,
      "learning_rate": 0.0009324628131599977,
      "loss": 0.5439,
      "num_input_tokens_seen": 6250016,
      "step": 9565
    },
    {
      "epoch": 5.015723270440252,
      "grad_norm": 0.05990320444107056,
      "learning_rate": 0.0009323479905671064,
      "loss": 0.5716,
      "num_input_tokens_seen": 6253504,
      "step": 9570
    },
    {
      "epoch": 5.018343815513627,
      "grad_norm": 0.0794808566570282,
      "learning_rate": 0.0009322330775319479,
      "loss": 0.4822,
      "num_input_tokens_seen": 6256256,
      "step": 9575
    },
    {
      "epoch": 5.020964360587002,
      "grad_norm": 0.08228440582752228,
      "learning_rate": 0.0009321180740785607,
      "loss": 0.6187,
      "num_input_tokens_seen": 6260160,
      "step": 9580
    },
    {
      "epoch": 5.023584905660377,
      "grad_norm": 0.06823316961526871,
      "learning_rate": 0.0009320029802310023,
      "loss": 0.4406,
      "num_input_tokens_seen": 6264032,
      "step": 9585
    },
    {
      "epoch": 5.026205450733753,
      "grad_norm": 0.0793735533952713,
      "learning_rate": 0.0009318877960133489,
      "loss": 0.4898,
      "num_input_tokens_seen": 6267552,
      "step": 9590
    },
    {
      "epoch": 5.028825995807128,
      "grad_norm": 0.07480248808860779,
      "learning_rate": 0.0009317725214496959,
      "loss": 0.4752,
      "num_input_tokens_seen": 6270272,
      "step": 9595
    },
    {
      "epoch": 5.031446540880503,
      "grad_norm": 0.07513054460287094,
      "learning_rate": 0.0009316571565641574,
      "loss": 0.2854,
      "num_input_tokens_seen": 6274624,
      "step": 9600
    },
    {
      "epoch": 5.034067085953878,
      "grad_norm": 0.09844005107879639,
      "learning_rate": 0.0009315417013808663,
      "loss": 0.4516,
      "num_input_tokens_seen": 6277728,
      "step": 9605
    },
    {
      "epoch": 5.036687631027253,
      "grad_norm": 0.1661468893289566,
      "learning_rate": 0.0009314261559239745,
      "loss": 0.4263,
      "num_input_tokens_seen": 6281024,
      "step": 9610
    },
    {
      "epoch": 5.039308176100629,
      "grad_norm": 0.13717986643314362,
      "learning_rate": 0.000931310520217653,
      "loss": 0.5828,
      "num_input_tokens_seen": 6284576,
      "step": 9615
    },
    {
      "epoch": 5.0419287211740045,
      "grad_norm": 0.104522705078125,
      "learning_rate": 0.0009311947942860912,
      "loss": 0.5356,
      "num_input_tokens_seen": 6288096,
      "step": 9620
    },
    {
      "epoch": 5.04454926624738,
      "grad_norm": 0.10503226518630981,
      "learning_rate": 0.0009310789781534979,
      "loss": 0.5154,
      "num_input_tokens_seen": 6292128,
      "step": 9625
    },
    {
      "epoch": 5.047169811320755,
      "grad_norm": 0.15065571665763855,
      "learning_rate": 0.0009309630718441003,
      "loss": 0.503,
      "num_input_tokens_seen": 6298912,
      "step": 9630
    },
    {
      "epoch": 5.04979035639413,
      "grad_norm": 0.10779669880867004,
      "learning_rate": 0.0009308470753821445,
      "loss": 0.4688,
      "num_input_tokens_seen": 6301536,
      "step": 9635
    },
    {
      "epoch": 5.052410901467505,
      "grad_norm": 0.11490444093942642,
      "learning_rate": 0.0009307309887918962,
      "loss": 0.3767,
      "num_input_tokens_seen": 6303936,
      "step": 9640
    },
    {
      "epoch": 5.05503144654088,
      "grad_norm": 0.1418953835964203,
      "learning_rate": 0.000930614812097639,
      "loss": 0.459,
      "num_input_tokens_seen": 6306880,
      "step": 9645
    },
    {
      "epoch": 5.0576519916142555,
      "grad_norm": 0.08697509765625,
      "learning_rate": 0.0009304985453236758,
      "loss": 0.4563,
      "num_input_tokens_seen": 6309920,
      "step": 9650
    },
    {
      "epoch": 5.060272536687631,
      "grad_norm": 0.11652408540248871,
      "learning_rate": 0.0009303821884943284,
      "loss": 0.3924,
      "num_input_tokens_seen": 6312480,
      "step": 9655
    },
    {
      "epoch": 5.062893081761007,
      "grad_norm": 0.06887739151716232,
      "learning_rate": 0.0009302657416339371,
      "loss": 0.4169,
      "num_input_tokens_seen": 6316256,
      "step": 9660
    },
    {
      "epoch": 5.065513626834382,
      "grad_norm": 0.08461439609527588,
      "learning_rate": 0.0009301492047668615,
      "loss": 0.5238,
      "num_input_tokens_seen": 6319520,
      "step": 9665
    },
    {
      "epoch": 5.068134171907757,
      "grad_norm": 0.07416605204343796,
      "learning_rate": 0.0009300325779174796,
      "loss": 0.5678,
      "num_input_tokens_seen": 6323328,
      "step": 9670
    },
    {
      "epoch": 5.070754716981132,
      "grad_norm": 0.07912404835224152,
      "learning_rate": 0.0009299158611101885,
      "loss": 0.29,
      "num_input_tokens_seen": 6326720,
      "step": 9675
    },
    {
      "epoch": 5.073375262054507,
      "grad_norm": 0.12797877192497253,
      "learning_rate": 0.000929799054369404,
      "loss": 0.4682,
      "num_input_tokens_seen": 6329280,
      "step": 9680
    },
    {
      "epoch": 5.075995807127883,
      "grad_norm": 0.06673148274421692,
      "learning_rate": 0.0009296821577195606,
      "loss": 0.3989,
      "num_input_tokens_seen": 6332384,
      "step": 9685
    },
    {
      "epoch": 5.078616352201258,
      "grad_norm": 0.13825303316116333,
      "learning_rate": 0.000929565171185112,
      "loss": 0.3705,
      "num_input_tokens_seen": 6336096,
      "step": 9690
    },
    {
      "epoch": 5.081236897274633,
      "grad_norm": 0.1341831535100937,
      "learning_rate": 0.0009294480947905304,
      "loss": 0.5043,
      "num_input_tokens_seen": 6338432,
      "step": 9695
    },
    {
      "epoch": 5.083857442348008,
      "grad_norm": 0.13778258860111237,
      "learning_rate": 0.0009293309285603067,
      "loss": 0.4669,
      "num_input_tokens_seen": 6342016,
      "step": 9700
    },
    {
      "epoch": 5.086477987421383,
      "grad_norm": 0.2268168181180954,
      "learning_rate": 0.0009292136725189506,
      "loss": 0.5543,
      "num_input_tokens_seen": 6344896,
      "step": 9705
    },
    {
      "epoch": 5.089098532494759,
      "grad_norm": 0.11929000169038773,
      "learning_rate": 0.0009290963266909912,
      "loss": 0.4892,
      "num_input_tokens_seen": 6348096,
      "step": 9710
    },
    {
      "epoch": 5.0917190775681345,
      "grad_norm": 0.1261773556470871,
      "learning_rate": 0.0009289788911009756,
      "loss": 0.5659,
      "num_input_tokens_seen": 6351488,
      "step": 9715
    },
    {
      "epoch": 5.09433962264151,
      "grad_norm": 0.12275379151105881,
      "learning_rate": 0.0009288613657734699,
      "loss": 0.5206,
      "num_input_tokens_seen": 6354464,
      "step": 9720
    },
    {
      "epoch": 5.096960167714885,
      "grad_norm": 0.07699351757764816,
      "learning_rate": 0.0009287437507330594,
      "loss": 0.4382,
      "num_input_tokens_seen": 6358912,
      "step": 9725
    },
    {
      "epoch": 5.09958071278826,
      "grad_norm": 0.2290610820055008,
      "learning_rate": 0.0009286260460043475,
      "loss": 0.391,
      "num_input_tokens_seen": 6362112,
      "step": 9730
    },
    {
      "epoch": 5.102201257861635,
      "grad_norm": 0.11639536917209625,
      "learning_rate": 0.0009285082516119567,
      "loss": 0.4436,
      "num_input_tokens_seen": 6364896,
      "step": 9735
    },
    {
      "epoch": 5.10482180293501,
      "grad_norm": 0.1293601393699646,
      "learning_rate": 0.0009283903675805285,
      "loss": 0.6411,
      "num_input_tokens_seen": 6368160,
      "step": 9740
    },
    {
      "epoch": 5.1074423480083855,
      "grad_norm": 0.10951710492372513,
      "learning_rate": 0.0009282723939347227,
      "loss": 0.3904,
      "num_input_tokens_seen": 6371264,
      "step": 9745
    },
    {
      "epoch": 5.110062893081761,
      "grad_norm": 0.11446204781532288,
      "learning_rate": 0.0009281543306992181,
      "loss": 0.5243,
      "num_input_tokens_seen": 6374144,
      "step": 9750
    },
    {
      "epoch": 5.112683438155136,
      "grad_norm": 0.10758768767118454,
      "learning_rate": 0.0009280361778987121,
      "loss": 0.4435,
      "num_input_tokens_seen": 6377600,
      "step": 9755
    },
    {
      "epoch": 5.115303983228512,
      "grad_norm": 0.13533027470111847,
      "learning_rate": 0.0009279179355579211,
      "loss": 0.4397,
      "num_input_tokens_seen": 6380608,
      "step": 9760
    },
    {
      "epoch": 5.117924528301887,
      "grad_norm": 0.09036416560411453,
      "learning_rate": 0.0009277996037015798,
      "loss": 0.589,
      "num_input_tokens_seen": 6384640,
      "step": 9765
    },
    {
      "epoch": 5.120545073375262,
      "grad_norm": 0.123837411403656,
      "learning_rate": 0.000927681182354442,
      "loss": 0.4121,
      "num_input_tokens_seen": 6387456,
      "step": 9770
    },
    {
      "epoch": 5.123165618448637,
      "grad_norm": 0.11986628919839859,
      "learning_rate": 0.0009275626715412802,
      "loss": 0.4437,
      "num_input_tokens_seen": 6390880,
      "step": 9775
    },
    {
      "epoch": 5.1257861635220126,
      "grad_norm": 0.08930090814828873,
      "learning_rate": 0.0009274440712868853,
      "loss": 0.374,
      "num_input_tokens_seen": 6393696,
      "step": 9780
    },
    {
      "epoch": 5.128406708595388,
      "grad_norm": 0.05512385815382004,
      "learning_rate": 0.0009273253816160673,
      "loss": 0.4881,
      "num_input_tokens_seen": 6397472,
      "step": 9785
    },
    {
      "epoch": 5.131027253668763,
      "grad_norm": 0.059188589453697205,
      "learning_rate": 0.0009272066025536545,
      "loss": 0.4355,
      "num_input_tokens_seen": 6400576,
      "step": 9790
    },
    {
      "epoch": 5.133647798742138,
      "grad_norm": 0.08438700437545776,
      "learning_rate": 0.0009270877341244945,
      "loss": 0.5606,
      "num_input_tokens_seen": 6403168,
      "step": 9795
    },
    {
      "epoch": 5.136268343815513,
      "grad_norm": 0.08349727839231491,
      "learning_rate": 0.0009269687763534529,
      "loss": 0.4805,
      "num_input_tokens_seen": 6406144,
      "step": 9800
    },
    {
      "epoch": 5.138888888888889,
      "grad_norm": 0.1263444870710373,
      "learning_rate": 0.0009268497292654143,
      "loss": 0.5465,
      "num_input_tokens_seen": 6409344,
      "step": 9805
    },
    {
      "epoch": 5.1415094339622645,
      "grad_norm": 0.14846672117710114,
      "learning_rate": 0.0009267305928852823,
      "loss": 0.4534,
      "num_input_tokens_seen": 6411776,
      "step": 9810
    },
    {
      "epoch": 5.14412997903564,
      "grad_norm": 0.06737856566905975,
      "learning_rate": 0.0009266113672379786,
      "loss": 0.3556,
      "num_input_tokens_seen": 6414784,
      "step": 9815
    },
    {
      "epoch": 5.146750524109015,
      "grad_norm": 0.19569191336631775,
      "learning_rate": 0.0009264920523484437,
      "loss": 0.4171,
      "num_input_tokens_seen": 6417248,
      "step": 9820
    },
    {
      "epoch": 5.14937106918239,
      "grad_norm": 0.14918948709964752,
      "learning_rate": 0.0009263726482416374,
      "loss": 0.5735,
      "num_input_tokens_seen": 6420416,
      "step": 9825
    },
    {
      "epoch": 5.151991614255765,
      "grad_norm": 0.11004170030355453,
      "learning_rate": 0.0009262531549425372,
      "loss": 0.3883,
      "num_input_tokens_seen": 6424288,
      "step": 9830
    },
    {
      "epoch": 5.15461215932914,
      "grad_norm": 0.10946344584226608,
      "learning_rate": 0.0009261335724761402,
      "loss": 0.5618,
      "num_input_tokens_seen": 6426784,
      "step": 9835
    },
    {
      "epoch": 5.1572327044025155,
      "grad_norm": 0.07816065847873688,
      "learning_rate": 0.0009260139008674612,
      "loss": 0.497,
      "num_input_tokens_seen": 6429760,
      "step": 9840
    },
    {
      "epoch": 5.159853249475891,
      "grad_norm": 0.08974336832761765,
      "learning_rate": 0.0009258941401415344,
      "loss": 0.4111,
      "num_input_tokens_seen": 6432480,
      "step": 9845
    },
    {
      "epoch": 5.162473794549266,
      "grad_norm": 0.0853496864438057,
      "learning_rate": 0.0009257742903234123,
      "loss": 0.4332,
      "num_input_tokens_seen": 6437312,
      "step": 9850
    },
    {
      "epoch": 5.165094339622642,
      "grad_norm": 0.09448502957820892,
      "learning_rate": 0.0009256543514381664,
      "loss": 0.5745,
      "num_input_tokens_seen": 6441664,
      "step": 9855
    },
    {
      "epoch": 5.167714884696017,
      "grad_norm": 0.06141923367977142,
      "learning_rate": 0.0009255343235108859,
      "loss": 0.3702,
      "num_input_tokens_seen": 6445120,
      "step": 9860
    },
    {
      "epoch": 5.170335429769392,
      "grad_norm": 0.11810891330242157,
      "learning_rate": 0.00092541420656668,
      "loss": 0.4548,
      "num_input_tokens_seen": 6447968,
      "step": 9865
    },
    {
      "epoch": 5.172955974842767,
      "grad_norm": 0.11063144356012344,
      "learning_rate": 0.0009252940006306753,
      "loss": 0.4371,
      "num_input_tokens_seen": 6450592,
      "step": 9870
    },
    {
      "epoch": 5.1755765199161425,
      "grad_norm": 0.16737554967403412,
      "learning_rate": 0.0009251737057280179,
      "loss": 0.4439,
      "num_input_tokens_seen": 6454496,
      "step": 9875
    },
    {
      "epoch": 5.178197064989518,
      "grad_norm": 0.13345469534397125,
      "learning_rate": 0.0009250533218838717,
      "loss": 0.3816,
      "num_input_tokens_seen": 6457088,
      "step": 9880
    },
    {
      "epoch": 5.180817610062893,
      "grad_norm": 0.11892051994800568,
      "learning_rate": 0.0009249328491234199,
      "loss": 0.5336,
      "num_input_tokens_seen": 6461088,
      "step": 9885
    },
    {
      "epoch": 5.183438155136268,
      "grad_norm": 0.07330062985420227,
      "learning_rate": 0.0009248122874718638,
      "loss": 0.499,
      "num_input_tokens_seen": 6463872,
      "step": 9890
    },
    {
      "epoch": 5.186058700209643,
      "grad_norm": 0.09329493343830109,
      "learning_rate": 0.0009246916369544238,
      "loss": 0.4895,
      "num_input_tokens_seen": 6467424,
      "step": 9895
    },
    {
      "epoch": 5.188679245283019,
      "grad_norm": 0.10191217809915543,
      "learning_rate": 0.0009245708975963386,
      "loss": 0.4367,
      "num_input_tokens_seen": 6470688,
      "step": 9900
    },
    {
      "epoch": 5.191299790356394,
      "grad_norm": 0.06512937694787979,
      "learning_rate": 0.0009244500694228653,
      "loss": 0.4373,
      "num_input_tokens_seen": 6473440,
      "step": 9905
    },
    {
      "epoch": 5.19392033542977,
      "grad_norm": 0.18083511292934418,
      "learning_rate": 0.0009243291524592799,
      "loss": 0.5585,
      "num_input_tokens_seen": 6476352,
      "step": 9910
    },
    {
      "epoch": 5.196540880503145,
      "grad_norm": 0.06641018390655518,
      "learning_rate": 0.0009242081467308766,
      "loss": 0.4051,
      "num_input_tokens_seen": 6480064,
      "step": 9915
    },
    {
      "epoch": 5.19916142557652,
      "grad_norm": 0.0996970534324646,
      "learning_rate": 0.0009240870522629688,
      "loss": 0.4283,
      "num_input_tokens_seen": 6483840,
      "step": 9920
    },
    {
      "epoch": 5.201781970649895,
      "grad_norm": 0.12177609652280807,
      "learning_rate": 0.0009239658690808879,
      "loss": 0.6469,
      "num_input_tokens_seen": 6486368,
      "step": 9925
    },
    {
      "epoch": 5.20440251572327,
      "grad_norm": 0.0636797845363617,
      "learning_rate": 0.000923844597209984,
      "loss": 0.4111,
      "num_input_tokens_seen": 6489152,
      "step": 9930
    },
    {
      "epoch": 5.2070230607966455,
      "grad_norm": 0.08405128121376038,
      "learning_rate": 0.0009237232366756258,
      "loss": 0.4456,
      "num_input_tokens_seen": 6493088,
      "step": 9935
    },
    {
      "epoch": 5.209643605870021,
      "grad_norm": 0.1304766982793808,
      "learning_rate": 0.0009236017875032007,
      "loss": 0.428,
      "num_input_tokens_seen": 6496256,
      "step": 9940
    },
    {
      "epoch": 5.212264150943396,
      "grad_norm": 0.11356888711452484,
      "learning_rate": 0.0009234802497181143,
      "loss": 0.4455,
      "num_input_tokens_seen": 6499296,
      "step": 9945
    },
    {
      "epoch": 5.214884696016772,
      "grad_norm": 0.12291789799928665,
      "learning_rate": 0.0009233586233457909,
      "loss": 0.4471,
      "num_input_tokens_seen": 6502624,
      "step": 9950
    },
    {
      "epoch": 5.217505241090147,
      "grad_norm": 0.06905166804790497,
      "learning_rate": 0.0009232369084116736,
      "loss": 0.6487,
      "num_input_tokens_seen": 6506272,
      "step": 9955
    },
    {
      "epoch": 5.220125786163522,
      "grad_norm": 0.12430091202259064,
      "learning_rate": 0.0009231151049412234,
      "loss": 0.404,
      "num_input_tokens_seen": 6509504,
      "step": 9960
    },
    {
      "epoch": 5.222746331236897,
      "grad_norm": 0.1519191861152649,
      "learning_rate": 0.0009229932129599205,
      "loss": 0.5414,
      "num_input_tokens_seen": 6512512,
      "step": 9965
    },
    {
      "epoch": 5.2253668763102725,
      "grad_norm": 0.06868378818035126,
      "learning_rate": 0.0009228712324932634,
      "loss": 0.4811,
      "num_input_tokens_seen": 6515456,
      "step": 9970
    },
    {
      "epoch": 5.227987421383648,
      "grad_norm": 0.11727369576692581,
      "learning_rate": 0.0009227491635667685,
      "loss": 0.4225,
      "num_input_tokens_seen": 6518880,
      "step": 9975
    },
    {
      "epoch": 5.230607966457023,
      "grad_norm": 0.14777235686779022,
      "learning_rate": 0.0009226270062059717,
      "loss": 0.3992,
      "num_input_tokens_seen": 6521664,
      "step": 9980
    },
    {
      "epoch": 5.233228511530398,
      "grad_norm": 0.1263219714164734,
      "learning_rate": 0.0009225047604364267,
      "loss": 0.4644,
      "num_input_tokens_seen": 6524160,
      "step": 9985
    },
    {
      "epoch": 5.235849056603773,
      "grad_norm": 0.0902804508805275,
      "learning_rate": 0.0009223824262837062,
      "loss": 0.3605,
      "num_input_tokens_seen": 6527904,
      "step": 9990
    },
    {
      "epoch": 5.238469601677149,
      "grad_norm": 0.20327706634998322,
      "learning_rate": 0.0009222600037734008,
      "loss": 0.6797,
      "num_input_tokens_seen": 6530560,
      "step": 9995
    },
    {
      "epoch": 5.241090146750524,
      "grad_norm": 0.11087675392627716,
      "learning_rate": 0.00092213749293112,
      "loss": 0.4954,
      "num_input_tokens_seen": 6534048,
      "step": 10000
    },
    {
      "epoch": 5.2437106918239,
      "grad_norm": 0.10518893599510193,
      "learning_rate": 0.0009220148937824917,
      "loss": 0.4255,
      "num_input_tokens_seen": 6536864,
      "step": 10005
    },
    {
      "epoch": 5.246331236897275,
      "grad_norm": 0.18926073610782623,
      "learning_rate": 0.0009218922063531623,
      "loss": 0.5346,
      "num_input_tokens_seen": 6540608,
      "step": 10010
    },
    {
      "epoch": 5.24895178197065,
      "grad_norm": 0.12163157016038895,
      "learning_rate": 0.0009217694306687963,
      "loss": 0.5038,
      "num_input_tokens_seen": 6543744,
      "step": 10015
    },
    {
      "epoch": 5.251572327044025,
      "grad_norm": 0.14586101472377777,
      "learning_rate": 0.0009216465667550774,
      "loss": 0.4276,
      "num_input_tokens_seen": 6546656,
      "step": 10020
    },
    {
      "epoch": 5.2541928721174,
      "grad_norm": 0.14581917226314545,
      "learning_rate": 0.0009215236146377071,
      "loss": 0.532,
      "num_input_tokens_seen": 6549152,
      "step": 10025
    },
    {
      "epoch": 5.256813417190775,
      "grad_norm": 0.11554771661758423,
      "learning_rate": 0.0009214005743424056,
      "loss": 0.5391,
      "num_input_tokens_seen": 6552096,
      "step": 10030
    },
    {
      "epoch": 5.259433962264151,
      "grad_norm": 0.0843786671757698,
      "learning_rate": 0.0009212774458949116,
      "loss": 0.4931,
      "num_input_tokens_seen": 6555232,
      "step": 10035
    },
    {
      "epoch": 5.262054507337526,
      "grad_norm": 0.14497607946395874,
      "learning_rate": 0.000921154229320982,
      "loss": 0.4017,
      "num_input_tokens_seen": 6557920,
      "step": 10040
    },
    {
      "epoch": 5.264675052410902,
      "grad_norm": 0.0984722450375557,
      "learning_rate": 0.0009210309246463924,
      "loss": 0.4568,
      "num_input_tokens_seen": 6560928,
      "step": 10045
    },
    {
      "epoch": 5.267295597484277,
      "grad_norm": 0.09149401634931564,
      "learning_rate": 0.0009209075318969369,
      "loss": 0.4189,
      "num_input_tokens_seen": 6563488,
      "step": 10050
    },
    {
      "epoch": 5.269916142557652,
      "grad_norm": 0.11145860701799393,
      "learning_rate": 0.0009207840510984276,
      "loss": 0.4351,
      "num_input_tokens_seen": 6567520,
      "step": 10055
    },
    {
      "epoch": 5.272536687631027,
      "grad_norm": 0.07725533097982407,
      "learning_rate": 0.0009206604822766953,
      "loss": 0.5037,
      "num_input_tokens_seen": 6570528,
      "step": 10060
    },
    {
      "epoch": 5.2751572327044025,
      "grad_norm": 0.10708050429821014,
      "learning_rate": 0.0009205368254575892,
      "loss": 0.3931,
      "num_input_tokens_seen": 6573824,
      "step": 10065
    },
    {
      "epoch": 5.277777777777778,
      "grad_norm": 0.07102671265602112,
      "learning_rate": 0.000920413080666977,
      "loss": 0.506,
      "num_input_tokens_seen": 6576896,
      "step": 10070
    },
    {
      "epoch": 5.280398322851153,
      "grad_norm": 0.25184112787246704,
      "learning_rate": 0.0009202892479307448,
      "loss": 0.4789,
      "num_input_tokens_seen": 6579136,
      "step": 10075
    },
    {
      "epoch": 5.283018867924528,
      "grad_norm": 0.10039740800857544,
      "learning_rate": 0.0009201653272747967,
      "loss": 0.4125,
      "num_input_tokens_seen": 6582080,
      "step": 10080
    },
    {
      "epoch": 5.285639412997903,
      "grad_norm": 0.13375753164291382,
      "learning_rate": 0.0009200413187250558,
      "loss": 0.4513,
      "num_input_tokens_seen": 6584896,
      "step": 10085
    },
    {
      "epoch": 5.288259958071279,
      "grad_norm": 0.11247934401035309,
      "learning_rate": 0.000919917222307463,
      "loss": 0.4809,
      "num_input_tokens_seen": 6588448,
      "step": 10090
    },
    {
      "epoch": 5.290880503144654,
      "grad_norm": 0.15416933596134186,
      "learning_rate": 0.000919793038047978,
      "loss": 0.3995,
      "num_input_tokens_seen": 6592704,
      "step": 10095
    },
    {
      "epoch": 5.29350104821803,
      "grad_norm": 0.104285828769207,
      "learning_rate": 0.0009196687659725787,
      "loss": 0.4498,
      "num_input_tokens_seen": 6596256,
      "step": 10100
    },
    {
      "epoch": 5.296121593291405,
      "grad_norm": 0.09790684282779694,
      "learning_rate": 0.0009195444061072612,
      "loss": 0.491,
      "num_input_tokens_seen": 6598656,
      "step": 10105
    },
    {
      "epoch": 5.29874213836478,
      "grad_norm": 0.10465273261070251,
      "learning_rate": 0.0009194199584780405,
      "loss": 0.4708,
      "num_input_tokens_seen": 6601504,
      "step": 10110
    },
    {
      "epoch": 5.301362683438155,
      "grad_norm": 0.1741819679737091,
      "learning_rate": 0.0009192954231109496,
      "loss": 0.4729,
      "num_input_tokens_seen": 6604640,
      "step": 10115
    },
    {
      "epoch": 5.30398322851153,
      "grad_norm": 0.09569399803876877,
      "learning_rate": 0.0009191708000320396,
      "loss": 0.5035,
      "num_input_tokens_seen": 6607520,
      "step": 10120
    },
    {
      "epoch": 5.306603773584905,
      "grad_norm": 0.07498753070831299,
      "learning_rate": 0.0009190460892673805,
      "loss": 0.3894,
      "num_input_tokens_seen": 6611360,
      "step": 10125
    },
    {
      "epoch": 5.309224318658281,
      "grad_norm": 0.05772385001182556,
      "learning_rate": 0.0009189212908430601,
      "loss": 0.3734,
      "num_input_tokens_seen": 6616672,
      "step": 10130
    },
    {
      "epoch": 5.311844863731656,
      "grad_norm": 0.10229027271270752,
      "learning_rate": 0.0009187964047851851,
      "loss": 0.5908,
      "num_input_tokens_seen": 6619424,
      "step": 10135
    },
    {
      "epoch": 5.314465408805032,
      "grad_norm": 0.11866675317287445,
      "learning_rate": 0.0009186714311198801,
      "loss": 0.3467,
      "num_input_tokens_seen": 6622656,
      "step": 10140
    },
    {
      "epoch": 5.317085953878407,
      "grad_norm": 0.1524793803691864,
      "learning_rate": 0.000918546369873288,
      "loss": 0.4039,
      "num_input_tokens_seen": 6625568,
      "step": 10145
    },
    {
      "epoch": 5.319706498951782,
      "grad_norm": 0.2090635597705841,
      "learning_rate": 0.0009184212210715704,
      "loss": 0.6406,
      "num_input_tokens_seen": 6628896,
      "step": 10150
    },
    {
      "epoch": 5.322327044025157,
      "grad_norm": 0.11584654450416565,
      "learning_rate": 0.0009182959847409072,
      "loss": 0.4205,
      "num_input_tokens_seen": 6632672,
      "step": 10155
    },
    {
      "epoch": 5.3249475890985325,
      "grad_norm": 0.09633351862430573,
      "learning_rate": 0.0009181706609074959,
      "loss": 0.4264,
      "num_input_tokens_seen": 6637344,
      "step": 10160
    },
    {
      "epoch": 5.327568134171908,
      "grad_norm": 0.13692478835582733,
      "learning_rate": 0.0009180452495975531,
      "loss": 0.5748,
      "num_input_tokens_seen": 6640416,
      "step": 10165
    },
    {
      "epoch": 5.330188679245283,
      "grad_norm": 0.09143482893705368,
      "learning_rate": 0.0009179197508373134,
      "loss": 0.3151,
      "num_input_tokens_seen": 6642688,
      "step": 10170
    },
    {
      "epoch": 5.332809224318658,
      "grad_norm": 0.1346076875925064,
      "learning_rate": 0.0009177941646530299,
      "loss": 0.4773,
      "num_input_tokens_seen": 6645952,
      "step": 10175
    },
    {
      "epoch": 5.335429769392033,
      "grad_norm": 0.12123025953769684,
      "learning_rate": 0.0009176684910709733,
      "loss": 0.4669,
      "num_input_tokens_seen": 6648576,
      "step": 10180
    },
    {
      "epoch": 5.338050314465409,
      "grad_norm": 0.13921807706356049,
      "learning_rate": 0.0009175427301174338,
      "loss": 0.5484,
      "num_input_tokens_seen": 6651840,
      "step": 10185
    },
    {
      "epoch": 5.340670859538784,
      "grad_norm": 0.14772476255893707,
      "learning_rate": 0.0009174168818187183,
      "loss": 0.618,
      "num_input_tokens_seen": 6654336,
      "step": 10190
    },
    {
      "epoch": 5.34329140461216,
      "grad_norm": 0.13124266266822815,
      "learning_rate": 0.0009172909462011536,
      "loss": 0.478,
      "num_input_tokens_seen": 6657600,
      "step": 10195
    },
    {
      "epoch": 5.345911949685535,
      "grad_norm": 0.0868908166885376,
      "learning_rate": 0.0009171649232910835,
      "loss": 0.4041,
      "num_input_tokens_seen": 6660768,
      "step": 10200
    },
    {
      "epoch": 5.34853249475891,
      "grad_norm": 0.18416540324687958,
      "learning_rate": 0.0009170388131148707,
      "loss": 0.5374,
      "num_input_tokens_seen": 6663808,
      "step": 10205
    },
    {
      "epoch": 5.351153039832285,
      "grad_norm": 0.05985646694898605,
      "learning_rate": 0.000916912615698896,
      "loss": 0.4828,
      "num_input_tokens_seen": 6666048,
      "step": 10210
    },
    {
      "epoch": 5.35377358490566,
      "grad_norm": 0.07939111441373825,
      "learning_rate": 0.0009167863310695585,
      "loss": 0.4106,
      "num_input_tokens_seen": 6668672,
      "step": 10215
    },
    {
      "epoch": 5.356394129979035,
      "grad_norm": 0.16732870042324066,
      "learning_rate": 0.0009166599592532756,
      "loss": 0.6115,
      "num_input_tokens_seen": 6671680,
      "step": 10220
    },
    {
      "epoch": 5.359014675052411,
      "grad_norm": 0.11430457979440689,
      "learning_rate": 0.0009165335002764828,
      "loss": 0.3975,
      "num_input_tokens_seen": 6674592,
      "step": 10225
    },
    {
      "epoch": 5.361635220125786,
      "grad_norm": 0.1135290265083313,
      "learning_rate": 0.0009164069541656337,
      "loss": 0.3903,
      "num_input_tokens_seen": 6677632,
      "step": 10230
    },
    {
      "epoch": 5.364255765199162,
      "grad_norm": 0.12010122090578079,
      "learning_rate": 0.0009162803209472004,
      "loss": 0.4025,
      "num_input_tokens_seen": 6680768,
      "step": 10235
    },
    {
      "epoch": 5.366876310272537,
      "grad_norm": 0.12595023214817047,
      "learning_rate": 0.000916153600647673,
      "loss": 0.4866,
      "num_input_tokens_seen": 6683712,
      "step": 10240
    },
    {
      "epoch": 5.369496855345912,
      "grad_norm": 0.09118647128343582,
      "learning_rate": 0.0009160267932935602,
      "loss": 0.5332,
      "num_input_tokens_seen": 6688512,
      "step": 10245
    },
    {
      "epoch": 5.372117400419287,
      "grad_norm": 0.07581338286399841,
      "learning_rate": 0.0009158998989113885,
      "loss": 0.4295,
      "num_input_tokens_seen": 6691520,
      "step": 10250
    },
    {
      "epoch": 5.3747379454926625,
      "grad_norm": 0.053347863256931305,
      "learning_rate": 0.0009157729175277028,
      "loss": 0.5367,
      "num_input_tokens_seen": 6695360,
      "step": 10255
    },
    {
      "epoch": 5.377358490566038,
      "grad_norm": 0.055130600929260254,
      "learning_rate": 0.0009156458491690662,
      "loss": 0.4698,
      "num_input_tokens_seen": 6698688,
      "step": 10260
    },
    {
      "epoch": 5.379979035639413,
      "grad_norm": 0.1303238570690155,
      "learning_rate": 0.0009155186938620599,
      "loss": 0.5153,
      "num_input_tokens_seen": 6701312,
      "step": 10265
    },
    {
      "epoch": 5.382599580712788,
      "grad_norm": 0.09361530840396881,
      "learning_rate": 0.0009153914516332833,
      "loss": 0.4643,
      "num_input_tokens_seen": 6703840,
      "step": 10270
    },
    {
      "epoch": 5.385220125786163,
      "grad_norm": 0.07041983306407928,
      "learning_rate": 0.000915264122509354,
      "loss": 0.4186,
      "num_input_tokens_seen": 6706720,
      "step": 10275
    },
    {
      "epoch": 5.387840670859539,
      "grad_norm": 0.1215745285153389,
      "learning_rate": 0.0009151367065169078,
      "loss": 0.4235,
      "num_input_tokens_seen": 6710240,
      "step": 10280
    },
    {
      "epoch": 5.390461215932914,
      "grad_norm": 0.09627220779657364,
      "learning_rate": 0.0009150092036825989,
      "loss": 0.5897,
      "num_input_tokens_seen": 6713632,
      "step": 10285
    },
    {
      "epoch": 5.3930817610062896,
      "grad_norm": 0.07547338306903839,
      "learning_rate": 0.0009148816140330991,
      "loss": 0.4231,
      "num_input_tokens_seen": 6716032,
      "step": 10290
    },
    {
      "epoch": 5.395702306079665,
      "grad_norm": 0.11383859813213348,
      "learning_rate": 0.000914753937595099,
      "loss": 0.4155,
      "num_input_tokens_seen": 6719136,
      "step": 10295
    },
    {
      "epoch": 5.39832285115304,
      "grad_norm": 0.17705655097961426,
      "learning_rate": 0.0009146261743953068,
      "loss": 0.4505,
      "num_input_tokens_seen": 6721824,
      "step": 10300
    },
    {
      "epoch": 5.400943396226415,
      "grad_norm": 0.06555208563804626,
      "learning_rate": 0.0009144983244604493,
      "loss": 0.4451,
      "num_input_tokens_seen": 6724864,
      "step": 10305
    },
    {
      "epoch": 5.40356394129979,
      "grad_norm": 0.10801144689321518,
      "learning_rate": 0.0009143703878172712,
      "loss": 0.3759,
      "num_input_tokens_seen": 6728064,
      "step": 10310
    },
    {
      "epoch": 5.406184486373165,
      "grad_norm": 0.10004109889268875,
      "learning_rate": 0.0009142423644925353,
      "loss": 0.5324,
      "num_input_tokens_seen": 6730784,
      "step": 10315
    },
    {
      "epoch": 5.408805031446541,
      "grad_norm": 0.07964690029621124,
      "learning_rate": 0.0009141142545130228,
      "loss": 0.5383,
      "num_input_tokens_seen": 6733408,
      "step": 10320
    },
    {
      "epoch": 5.411425576519916,
      "grad_norm": 0.013547185808420181,
      "learning_rate": 0.0009139860579055326,
      "loss": 0.4586,
      "num_input_tokens_seen": 6738912,
      "step": 10325
    },
    {
      "epoch": 5.414046121593292,
      "grad_norm": 0.12576456367969513,
      "learning_rate": 0.0009138577746968821,
      "loss": 0.4351,
      "num_input_tokens_seen": 6742784,
      "step": 10330
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.08386807143688202,
      "learning_rate": 0.0009137294049139066,
      "loss": 0.3874,
      "num_input_tokens_seen": 6746080,
      "step": 10335
    },
    {
      "epoch": 5.419287211740042,
      "grad_norm": 0.08572816848754883,
      "learning_rate": 0.0009136009485834598,
      "loss": 0.5692,
      "num_input_tokens_seen": 6750368,
      "step": 10340
    },
    {
      "epoch": 5.421907756813417,
      "grad_norm": 0.10901398956775665,
      "learning_rate": 0.0009134724057324131,
      "loss": 0.4409,
      "num_input_tokens_seen": 6753984,
      "step": 10345
    },
    {
      "epoch": 5.4245283018867925,
      "grad_norm": 0.11326919496059418,
      "learning_rate": 0.0009133437763876562,
      "loss": 0.5482,
      "num_input_tokens_seen": 6756576,
      "step": 10350
    },
    {
      "epoch": 5.427148846960168,
      "grad_norm": 0.1626516431570053,
      "learning_rate": 0.000913215060576097,
      "loss": 0.4404,
      "num_input_tokens_seen": 6759904,
      "step": 10355
    },
    {
      "epoch": 5.429769392033543,
      "grad_norm": 0.09370008856058121,
      "learning_rate": 0.0009130862583246613,
      "loss": 0.4404,
      "num_input_tokens_seen": 6762880,
      "step": 10360
    },
    {
      "epoch": 5.432389937106918,
      "grad_norm": 0.13740307092666626,
      "learning_rate": 0.0009129573696602932,
      "loss": 0.6495,
      "num_input_tokens_seen": 6765728,
      "step": 10365
    },
    {
      "epoch": 5.435010482180293,
      "grad_norm": 0.19619151949882507,
      "learning_rate": 0.0009128283946099546,
      "loss": 0.4213,
      "num_input_tokens_seen": 6768704,
      "step": 10370
    },
    {
      "epoch": 5.437631027253669,
      "grad_norm": 0.10019902139902115,
      "learning_rate": 0.0009126993332006256,
      "loss": 0.3622,
      "num_input_tokens_seen": 6772256,
      "step": 10375
    },
    {
      "epoch": 5.440251572327044,
      "grad_norm": 0.08439941704273224,
      "learning_rate": 0.0009125701854593045,
      "loss": 0.4847,
      "num_input_tokens_seen": 6775552,
      "step": 10380
    },
    {
      "epoch": 5.4428721174004195,
      "grad_norm": 0.13006587326526642,
      "learning_rate": 0.0009124409514130073,
      "loss": 0.3652,
      "num_input_tokens_seen": 6778176,
      "step": 10385
    },
    {
      "epoch": 5.445492662473795,
      "grad_norm": 0.1203901618719101,
      "learning_rate": 0.0009123116310887686,
      "loss": 0.4519,
      "num_input_tokens_seen": 6781888,
      "step": 10390
    },
    {
      "epoch": 5.44811320754717,
      "grad_norm": 0.13058044016361237,
      "learning_rate": 0.0009121822245136404,
      "loss": 0.4685,
      "num_input_tokens_seen": 6785056,
      "step": 10395
    },
    {
      "epoch": 5.450733752620545,
      "grad_norm": 0.21007226407527924,
      "learning_rate": 0.0009120527317146934,
      "loss": 0.4729,
      "num_input_tokens_seen": 6788832,
      "step": 10400
    },
    {
      "epoch": 5.45335429769392,
      "grad_norm": 0.08771006762981415,
      "learning_rate": 0.0009119231527190158,
      "loss": 0.4563,
      "num_input_tokens_seen": 6792320,
      "step": 10405
    },
    {
      "epoch": 5.455974842767295,
      "grad_norm": 0.07475049793720245,
      "learning_rate": 0.0009117934875537141,
      "loss": 0.5739,
      "num_input_tokens_seen": 6796000,
      "step": 10410
    },
    {
      "epoch": 5.4585953878406706,
      "grad_norm": 0.1390269696712494,
      "learning_rate": 0.0009116637362459129,
      "loss": 0.4433,
      "num_input_tokens_seen": 6798400,
      "step": 10415
    },
    {
      "epoch": 5.461215932914046,
      "grad_norm": 0.16726365685462952,
      "learning_rate": 0.0009115338988227546,
      "loss": 0.5173,
      "num_input_tokens_seen": 6801440,
      "step": 10420
    },
    {
      "epoch": 5.463836477987422,
      "grad_norm": 0.10991565883159637,
      "learning_rate": 0.0009114039753113997,
      "loss": 0.4266,
      "num_input_tokens_seen": 6807072,
      "step": 10425
    },
    {
      "epoch": 5.466457023060797,
      "grad_norm": 0.12424586713314056,
      "learning_rate": 0.0009112739657390265,
      "loss": 0.461,
      "num_input_tokens_seen": 6810272,
      "step": 10430
    },
    {
      "epoch": 5.469077568134172,
      "grad_norm": 0.09296268224716187,
      "learning_rate": 0.0009111438701328319,
      "loss": 0.4249,
      "num_input_tokens_seen": 6813184,
      "step": 10435
    },
    {
      "epoch": 5.471698113207547,
      "grad_norm": 0.11947722733020782,
      "learning_rate": 0.0009110136885200302,
      "loss": 0.4642,
      "num_input_tokens_seen": 6817824,
      "step": 10440
    },
    {
      "epoch": 5.4743186582809225,
      "grad_norm": 0.14009039103984833,
      "learning_rate": 0.000910883420927854,
      "loss": 0.4338,
      "num_input_tokens_seen": 6820480,
      "step": 10445
    },
    {
      "epoch": 5.476939203354298,
      "grad_norm": 0.17156603932380676,
      "learning_rate": 0.0009107530673835536,
      "loss": 0.4989,
      "num_input_tokens_seen": 6823360,
      "step": 10450
    },
    {
      "epoch": 5.479559748427673,
      "grad_norm": 0.09928881376981735,
      "learning_rate": 0.0009106226279143979,
      "loss": 0.5083,
      "num_input_tokens_seen": 6825856,
      "step": 10455
    },
    {
      "epoch": 5.482180293501048,
      "grad_norm": 0.14112606644630432,
      "learning_rate": 0.0009104921025476728,
      "loss": 0.5245,
      "num_input_tokens_seen": 6828896,
      "step": 10460
    },
    {
      "epoch": 5.484800838574423,
      "grad_norm": 0.10964105278253555,
      "learning_rate": 0.0009103614913106832,
      "loss": 0.5065,
      "num_input_tokens_seen": 6832032,
      "step": 10465
    },
    {
      "epoch": 5.487421383647799,
      "grad_norm": 0.18597596883773804,
      "learning_rate": 0.0009102307942307511,
      "loss": 0.5229,
      "num_input_tokens_seen": 6834624,
      "step": 10470
    },
    {
      "epoch": 5.490041928721174,
      "grad_norm": 0.1058741882443428,
      "learning_rate": 0.000910100011335217,
      "loss": 0.614,
      "num_input_tokens_seen": 6837504,
      "step": 10475
    },
    {
      "epoch": 5.4926624737945495,
      "grad_norm": 0.10077724605798721,
      "learning_rate": 0.0009099691426514392,
      "loss": 0.4635,
      "num_input_tokens_seen": 6840224,
      "step": 10480
    },
    {
      "epoch": 5.495283018867925,
      "grad_norm": 0.059810929000377655,
      "learning_rate": 0.0009098381882067941,
      "loss": 0.3664,
      "num_input_tokens_seen": 6843520,
      "step": 10485
    },
    {
      "epoch": 5.4979035639413,
      "grad_norm": 0.07267936319112778,
      "learning_rate": 0.0009097071480286756,
      "loss": 0.4391,
      "num_input_tokens_seen": 6846464,
      "step": 10490
    },
    {
      "epoch": 5.500524109014675,
      "grad_norm": 0.1515149474143982,
      "learning_rate": 0.0009095760221444959,
      "loss": 0.4881,
      "num_input_tokens_seen": 6849696,
      "step": 10495
    },
    {
      "epoch": 5.50314465408805,
      "grad_norm": 0.10070689022541046,
      "learning_rate": 0.000909444810581685,
      "loss": 0.6125,
      "num_input_tokens_seen": 6853216,
      "step": 10500
    },
    {
      "epoch": 5.505765199161425,
      "grad_norm": 0.12816189229488373,
      "learning_rate": 0.000909313513367691,
      "loss": 0.4456,
      "num_input_tokens_seen": 6855872,
      "step": 10505
    },
    {
      "epoch": 5.5083857442348005,
      "grad_norm": 0.11172185838222504,
      "learning_rate": 0.0009091821305299798,
      "loss": 0.3927,
      "num_input_tokens_seen": 6858688,
      "step": 10510
    },
    {
      "epoch": 5.511006289308176,
      "grad_norm": 0.1275612711906433,
      "learning_rate": 0.000909050662096035,
      "loss": 0.4137,
      "num_input_tokens_seen": 6861632,
      "step": 10515
    },
    {
      "epoch": 5.513626834381551,
      "grad_norm": 0.0909428745508194,
      "learning_rate": 0.0009089191080933583,
      "loss": 0.6454,
      "num_input_tokens_seen": 6865696,
      "step": 10520
    },
    {
      "epoch": 5.516247379454927,
      "grad_norm": 0.10361260920763016,
      "learning_rate": 0.0009087874685494695,
      "loss": 0.4949,
      "num_input_tokens_seen": 6869056,
      "step": 10525
    },
    {
      "epoch": 5.518867924528302,
      "grad_norm": 0.2621844708919525,
      "learning_rate": 0.0009086557434919059,
      "loss": 0.4293,
      "num_input_tokens_seen": 6871488,
      "step": 10530
    },
    {
      "epoch": 5.521488469601677,
      "grad_norm": 0.054679613560438156,
      "learning_rate": 0.0009085239329482231,
      "loss": 0.4879,
      "num_input_tokens_seen": 6875008,
      "step": 10535
    },
    {
      "epoch": 5.524109014675052,
      "grad_norm": 0.18581487238407135,
      "learning_rate": 0.0009083920369459941,
      "loss": 0.6517,
      "num_input_tokens_seen": 6878336,
      "step": 10540
    },
    {
      "epoch": 5.526729559748428,
      "grad_norm": 0.06756455451250076,
      "learning_rate": 0.00090826005551281,
      "loss": 0.4488,
      "num_input_tokens_seen": 6882080,
      "step": 10545
    },
    {
      "epoch": 5.529350104821803,
      "grad_norm": 0.08635595440864563,
      "learning_rate": 0.0009081279886762802,
      "loss": 0.3825,
      "num_input_tokens_seen": 6885504,
      "step": 10550
    },
    {
      "epoch": 5.531970649895178,
      "grad_norm": 0.09274119138717651,
      "learning_rate": 0.0009079958364640313,
      "loss": 0.5087,
      "num_input_tokens_seen": 6888704,
      "step": 10555
    },
    {
      "epoch": 5.534591194968553,
      "grad_norm": 0.1043761596083641,
      "learning_rate": 0.0009078635989037081,
      "loss": 0.5448,
      "num_input_tokens_seen": 6891936,
      "step": 10560
    },
    {
      "epoch": 5.537211740041929,
      "grad_norm": 0.12515245378017426,
      "learning_rate": 0.000907731276022973,
      "loss": 0.529,
      "num_input_tokens_seen": 6894848,
      "step": 10565
    },
    {
      "epoch": 5.539832285115304,
      "grad_norm": 0.12305636703968048,
      "learning_rate": 0.0009075988678495066,
      "loss": 0.4592,
      "num_input_tokens_seen": 6897728,
      "step": 10570
    },
    {
      "epoch": 5.5424528301886795,
      "grad_norm": 0.13727454841136932,
      "learning_rate": 0.0009074663744110073,
      "loss": 0.4077,
      "num_input_tokens_seen": 6900672,
      "step": 10575
    },
    {
      "epoch": 5.545073375262055,
      "grad_norm": 0.09414418041706085,
      "learning_rate": 0.0009073337957351911,
      "loss": 0.4076,
      "num_input_tokens_seen": 6905920,
      "step": 10580
    },
    {
      "epoch": 5.54769392033543,
      "grad_norm": 0.06957137584686279,
      "learning_rate": 0.0009072011318497919,
      "loss": 0.4731,
      "num_input_tokens_seen": 6909408,
      "step": 10585
    },
    {
      "epoch": 5.550314465408805,
      "grad_norm": 0.14543773233890533,
      "learning_rate": 0.0009070683827825615,
      "loss": 0.4577,
      "num_input_tokens_seen": 6912128,
      "step": 10590
    },
    {
      "epoch": 5.55293501048218,
      "grad_norm": 0.12580904364585876,
      "learning_rate": 0.0009069355485612695,
      "loss": 0.4954,
      "num_input_tokens_seen": 6915136,
      "step": 10595
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 0.09444931894540787,
      "learning_rate": 0.0009068026292137034,
      "loss": 0.4661,
      "num_input_tokens_seen": 6917856,
      "step": 10600
    },
    {
      "epoch": 5.5581761006289305,
      "grad_norm": 0.14007717370986938,
      "learning_rate": 0.0009066696247676682,
      "loss": 0.4217,
      "num_input_tokens_seen": 6920864,
      "step": 10605
    },
    {
      "epoch": 5.560796645702306,
      "grad_norm": 0.09537353366613388,
      "learning_rate": 0.0009065365352509871,
      "loss": 0.6586,
      "num_input_tokens_seen": 6924384,
      "step": 10610
    },
    {
      "epoch": 5.563417190775681,
      "grad_norm": 0.12329937517642975,
      "learning_rate": 0.0009064033606915008,
      "loss": 0.4737,
      "num_input_tokens_seen": 6926848,
      "step": 10615
    },
    {
      "epoch": 5.566037735849057,
      "grad_norm": 0.09696212410926819,
      "learning_rate": 0.000906270101117068,
      "loss": 0.3864,
      "num_input_tokens_seen": 6929536,
      "step": 10620
    },
    {
      "epoch": 5.568658280922432,
      "grad_norm": 0.15988606214523315,
      "learning_rate": 0.0009061367565555649,
      "loss": 0.5224,
      "num_input_tokens_seen": 6932064,
      "step": 10625
    },
    {
      "epoch": 5.571278825995807,
      "grad_norm": 0.08784257620573044,
      "learning_rate": 0.000906003327034886,
      "loss": 0.4309,
      "num_input_tokens_seen": 6935296,
      "step": 10630
    },
    {
      "epoch": 5.573899371069182,
      "grad_norm": 0.12312051653862,
      "learning_rate": 0.0009058698125829428,
      "loss": 0.4027,
      "num_input_tokens_seen": 6937824,
      "step": 10635
    },
    {
      "epoch": 5.576519916142558,
      "grad_norm": 0.0949360802769661,
      "learning_rate": 0.0009057362132276653,
      "loss": 0.4649,
      "num_input_tokens_seen": 6941600,
      "step": 10640
    },
    {
      "epoch": 5.579140461215933,
      "grad_norm": 0.08162105828523636,
      "learning_rate": 0.0009056025289970009,
      "loss": 0.4537,
      "num_input_tokens_seen": 6944608,
      "step": 10645
    },
    {
      "epoch": 5.581761006289308,
      "grad_norm": 0.1322765201330185,
      "learning_rate": 0.0009054687599189148,
      "loss": 0.5439,
      "num_input_tokens_seen": 6948000,
      "step": 10650
    },
    {
      "epoch": 5.584381551362683,
      "grad_norm": 0.08404649049043655,
      "learning_rate": 0.0009053349060213899,
      "loss": 0.3712,
      "num_input_tokens_seen": 6951424,
      "step": 10655
    },
    {
      "epoch": 5.587002096436059,
      "grad_norm": 0.08131346851587296,
      "learning_rate": 0.0009052009673324269,
      "loss": 0.4181,
      "num_input_tokens_seen": 6956000,
      "step": 10660
    },
    {
      "epoch": 5.589622641509434,
      "grad_norm": 0.12549304962158203,
      "learning_rate": 0.0009050669438800445,
      "loss": 0.4632,
      "num_input_tokens_seen": 6958944,
      "step": 10665
    },
    {
      "epoch": 5.5922431865828095,
      "grad_norm": 0.056520625948905945,
      "learning_rate": 0.0009049328356922786,
      "loss": 0.4186,
      "num_input_tokens_seen": 6962304,
      "step": 10670
    },
    {
      "epoch": 5.594863731656185,
      "grad_norm": 0.1034652590751648,
      "learning_rate": 0.0009047986427971831,
      "loss": 0.5783,
      "num_input_tokens_seen": 6965632,
      "step": 10675
    },
    {
      "epoch": 5.59748427672956,
      "grad_norm": 0.050739653408527374,
      "learning_rate": 0.0009046643652228297,
      "loss": 0.5713,
      "num_input_tokens_seen": 6969312,
      "step": 10680
    },
    {
      "epoch": 5.600104821802935,
      "grad_norm": 0.07987681031227112,
      "learning_rate": 0.0009045300029973079,
      "loss": 0.4104,
      "num_input_tokens_seen": 6972576,
      "step": 10685
    },
    {
      "epoch": 5.60272536687631,
      "grad_norm": 0.09284758567810059,
      "learning_rate": 0.0009043955561487245,
      "loss": 0.3383,
      "num_input_tokens_seen": 6975872,
      "step": 10690
    },
    {
      "epoch": 5.605345911949685,
      "grad_norm": 0.06014738231897354,
      "learning_rate": 0.0009042610247052044,
      "loss": 0.3635,
      "num_input_tokens_seen": 6978784,
      "step": 10695
    },
    {
      "epoch": 5.6079664570230605,
      "grad_norm": 0.12417593598365784,
      "learning_rate": 0.0009041264086948899,
      "loss": 0.669,
      "num_input_tokens_seen": 6981408,
      "step": 10700
    },
    {
      "epoch": 5.610587002096436,
      "grad_norm": 0.11714500933885574,
      "learning_rate": 0.0009039917081459414,
      "loss": 0.4121,
      "num_input_tokens_seen": 6984800,
      "step": 10705
    },
    {
      "epoch": 5.613207547169811,
      "grad_norm": 0.06945149600505829,
      "learning_rate": 0.0009038569230865363,
      "loss": 0.4674,
      "num_input_tokens_seen": 6988192,
      "step": 10710
    },
    {
      "epoch": 5.615828092243187,
      "grad_norm": 0.0675388053059578,
      "learning_rate": 0.0009037220535448705,
      "loss": 0.3709,
      "num_input_tokens_seen": 6992416,
      "step": 10715
    },
    {
      "epoch": 5.618448637316562,
      "grad_norm": 0.14625732600688934,
      "learning_rate": 0.0009035870995491571,
      "loss": 0.411,
      "num_input_tokens_seen": 6995520,
      "step": 10720
    },
    {
      "epoch": 5.621069182389937,
      "grad_norm": 0.10753398388624191,
      "learning_rate": 0.0009034520611276265,
      "loss": 0.4089,
      "num_input_tokens_seen": 6998464,
      "step": 10725
    },
    {
      "epoch": 5.623689727463312,
      "grad_norm": 0.09652385860681534,
      "learning_rate": 0.0009033169383085278,
      "loss": 0.4074,
      "num_input_tokens_seen": 7001600,
      "step": 10730
    },
    {
      "epoch": 5.626310272536688,
      "grad_norm": 0.09044705331325531,
      "learning_rate": 0.0009031817311201268,
      "loss": 0.48,
      "num_input_tokens_seen": 7004704,
      "step": 10735
    },
    {
      "epoch": 5.628930817610063,
      "grad_norm": 0.11311200261116028,
      "learning_rate": 0.0009030464395907074,
      "loss": 0.5523,
      "num_input_tokens_seen": 7007424,
      "step": 10740
    },
    {
      "epoch": 5.631551362683438,
      "grad_norm": 0.07691561430692673,
      "learning_rate": 0.0009029110637485711,
      "loss": 0.4118,
      "num_input_tokens_seen": 7010688,
      "step": 10745
    },
    {
      "epoch": 5.634171907756813,
      "grad_norm": 0.058427873998880386,
      "learning_rate": 0.0009027756036220368,
      "loss": 0.3517,
      "num_input_tokens_seen": 7014048,
      "step": 10750
    },
    {
      "epoch": 5.636792452830189,
      "grad_norm": 0.10412730276584625,
      "learning_rate": 0.0009026400592394415,
      "loss": 0.4187,
      "num_input_tokens_seen": 7017856,
      "step": 10755
    },
    {
      "epoch": 5.639412997903564,
      "grad_norm": 0.0796830952167511,
      "learning_rate": 0.0009025044306291393,
      "loss": 0.3663,
      "num_input_tokens_seen": 7021248,
      "step": 10760
    },
    {
      "epoch": 5.6420335429769395,
      "grad_norm": 0.1312416046857834,
      "learning_rate": 0.0009023687178195022,
      "loss": 0.4542,
      "num_input_tokens_seen": 7024320,
      "step": 10765
    },
    {
      "epoch": 5.644654088050315,
      "grad_norm": 0.20560988783836365,
      "learning_rate": 0.0009022329208389196,
      "loss": 0.5029,
      "num_input_tokens_seen": 7027296,
      "step": 10770
    },
    {
      "epoch": 5.64727463312369,
      "grad_norm": 0.056460220366716385,
      "learning_rate": 0.000902097039715799,
      "loss": 0.4673,
      "num_input_tokens_seen": 7030784,
      "step": 10775
    },
    {
      "epoch": 5.649895178197065,
      "grad_norm": 0.07734222710132599,
      "learning_rate": 0.0009019610744785651,
      "loss": 0.6767,
      "num_input_tokens_seen": 7034112,
      "step": 10780
    },
    {
      "epoch": 5.65251572327044,
      "grad_norm": 0.09868554770946503,
      "learning_rate": 0.0009018250251556603,
      "loss": 0.3975,
      "num_input_tokens_seen": 7039072,
      "step": 10785
    },
    {
      "epoch": 5.655136268343815,
      "grad_norm": 0.09752856940031052,
      "learning_rate": 0.0009016888917755445,
      "loss": 0.4229,
      "num_input_tokens_seen": 7042304,
      "step": 10790
    },
    {
      "epoch": 5.6577568134171905,
      "grad_norm": 0.0662263035774231,
      "learning_rate": 0.0009015526743666951,
      "loss": 0.5196,
      "num_input_tokens_seen": 7046400,
      "step": 10795
    },
    {
      "epoch": 5.660377358490566,
      "grad_norm": 0.06602203100919724,
      "learning_rate": 0.0009014163729576074,
      "loss": 0.4523,
      "num_input_tokens_seen": 7050656,
      "step": 10800
    },
    {
      "epoch": 5.662997903563941,
      "grad_norm": 0.11718717217445374,
      "learning_rate": 0.0009012799875767943,
      "loss": 0.483,
      "num_input_tokens_seen": 7053824,
      "step": 10805
    },
    {
      "epoch": 5.665618448637317,
      "grad_norm": 0.1314188539981842,
      "learning_rate": 0.0009011435182527856,
      "loss": 0.5174,
      "num_input_tokens_seen": 7057760,
      "step": 10810
    },
    {
      "epoch": 5.668238993710692,
      "grad_norm": 0.08132008463144302,
      "learning_rate": 0.0009010069650141295,
      "loss": 0.4008,
      "num_input_tokens_seen": 7061888,
      "step": 10815
    },
    {
      "epoch": 5.670859538784067,
      "grad_norm": 0.09989894926548004,
      "learning_rate": 0.0009008703278893913,
      "loss": 0.36,
      "num_input_tokens_seen": 7064960,
      "step": 10820
    },
    {
      "epoch": 5.673480083857442,
      "grad_norm": 0.09108167141675949,
      "learning_rate": 0.0009007336069071537,
      "loss": 0.4408,
      "num_input_tokens_seen": 7067968,
      "step": 10825
    },
    {
      "epoch": 5.676100628930818,
      "grad_norm": 0.05452617630362511,
      "learning_rate": 0.0009005968020960175,
      "loss": 0.521,
      "num_input_tokens_seen": 7071424,
      "step": 10830
    },
    {
      "epoch": 5.678721174004193,
      "grad_norm": 0.20232394337654114,
      "learning_rate": 0.0009004599134846004,
      "loss": 0.5336,
      "num_input_tokens_seen": 7074656,
      "step": 10835
    },
    {
      "epoch": 5.681341719077568,
      "grad_norm": 0.11753827333450317,
      "learning_rate": 0.0009003229411015382,
      "loss": 0.4948,
      "num_input_tokens_seen": 7077952,
      "step": 10840
    },
    {
      "epoch": 5.683962264150943,
      "grad_norm": 0.1364433914422989,
      "learning_rate": 0.0009001858849754838,
      "loss": 0.3415,
      "num_input_tokens_seen": 7080512,
      "step": 10845
    },
    {
      "epoch": 5.686582809224319,
      "grad_norm": 0.18478341400623322,
      "learning_rate": 0.0009000487451351078,
      "loss": 0.4197,
      "num_input_tokens_seen": 7083904,
      "step": 10850
    },
    {
      "epoch": 5.689203354297694,
      "grad_norm": 0.11173272877931595,
      "learning_rate": 0.0008999115216090985,
      "loss": 0.4382,
      "num_input_tokens_seen": 7086144,
      "step": 10855
    },
    {
      "epoch": 5.6918238993710695,
      "grad_norm": 0.11070583760738373,
      "learning_rate": 0.0008997742144261612,
      "loss": 0.4567,
      "num_input_tokens_seen": 7088608,
      "step": 10860
    },
    {
      "epoch": 5.694444444444445,
      "grad_norm": 0.06454302370548248,
      "learning_rate": 0.000899636823615019,
      "loss": 0.3999,
      "num_input_tokens_seen": 7091296,
      "step": 10865
    },
    {
      "epoch": 5.69706498951782,
      "grad_norm": 0.12255362421274185,
      "learning_rate": 0.0008994993492044127,
      "loss": 0.4374,
      "num_input_tokens_seen": 7095008,
      "step": 10870
    },
    {
      "epoch": 5.699685534591195,
      "grad_norm": 0.1478079855442047,
      "learning_rate": 0.0008993617912231003,
      "loss": 0.4477,
      "num_input_tokens_seen": 7098016,
      "step": 10875
    },
    {
      "epoch": 5.70230607966457,
      "grad_norm": 0.05465316027402878,
      "learning_rate": 0.0008992241496998572,
      "loss": 0.3734,
      "num_input_tokens_seen": 7101056,
      "step": 10880
    },
    {
      "epoch": 5.704926624737945,
      "grad_norm": 0.12603464722633362,
      "learning_rate": 0.0008990864246634767,
      "loss": 0.3819,
      "num_input_tokens_seen": 7103488,
      "step": 10885
    },
    {
      "epoch": 5.7075471698113205,
      "grad_norm": 0.08255303651094437,
      "learning_rate": 0.0008989486161427691,
      "loss": 0.4068,
      "num_input_tokens_seen": 7107072,
      "step": 10890
    },
    {
      "epoch": 5.710167714884696,
      "grad_norm": 0.1341298520565033,
      "learning_rate": 0.0008988107241665624,
      "loss": 0.4466,
      "num_input_tokens_seen": 7110336,
      "step": 10895
    },
    {
      "epoch": 5.712788259958071,
      "grad_norm": 0.10796116292476654,
      "learning_rate": 0.0008986727487637022,
      "loss": 0.5507,
      "num_input_tokens_seen": 7114240,
      "step": 10900
    },
    {
      "epoch": 5.715408805031447,
      "grad_norm": 0.08243422210216522,
      "learning_rate": 0.0008985346899630513,
      "loss": 0.5486,
      "num_input_tokens_seen": 7121216,
      "step": 10905
    },
    {
      "epoch": 5.718029350104822,
      "grad_norm": 0.16832540929317474,
      "learning_rate": 0.0008983965477934899,
      "loss": 0.4217,
      "num_input_tokens_seen": 7124800,
      "step": 10910
    },
    {
      "epoch": 5.720649895178197,
      "grad_norm": 0.11790652573108673,
      "learning_rate": 0.0008982583222839158,
      "loss": 0.5215,
      "num_input_tokens_seen": 7128224,
      "step": 10915
    },
    {
      "epoch": 5.723270440251572,
      "grad_norm": 0.16315260529518127,
      "learning_rate": 0.0008981200134632444,
      "loss": 0.3878,
      "num_input_tokens_seen": 7131456,
      "step": 10920
    },
    {
      "epoch": 5.725890985324948,
      "grad_norm": 0.115279421210289,
      "learning_rate": 0.000897981621360408,
      "loss": 0.4333,
      "num_input_tokens_seen": 7134944,
      "step": 10925
    },
    {
      "epoch": 5.728511530398323,
      "grad_norm": 0.05361286550760269,
      "learning_rate": 0.0008978431460043569,
      "loss": 0.5844,
      "num_input_tokens_seen": 7139200,
      "step": 10930
    },
    {
      "epoch": 5.731132075471698,
      "grad_norm": 0.12549713253974915,
      "learning_rate": 0.0008977045874240585,
      "loss": 0.4261,
      "num_input_tokens_seen": 7141792,
      "step": 10935
    },
    {
      "epoch": 5.733752620545073,
      "grad_norm": 0.06673112511634827,
      "learning_rate": 0.0008975659456484977,
      "loss": 0.4086,
      "num_input_tokens_seen": 7145152,
      "step": 10940
    },
    {
      "epoch": 5.736373165618449,
      "grad_norm": 0.08143706619739532,
      "learning_rate": 0.0008974272207066767,
      "loss": 0.5798,
      "num_input_tokens_seen": 7148192,
      "step": 10945
    },
    {
      "epoch": 5.738993710691824,
      "grad_norm": 0.07269641011953354,
      "learning_rate": 0.0008972884126276152,
      "loss": 0.3833,
      "num_input_tokens_seen": 7151520,
      "step": 10950
    },
    {
      "epoch": 5.7416142557651995,
      "grad_norm": 0.1261795163154602,
      "learning_rate": 0.0008971495214403502,
      "loss": 0.3814,
      "num_input_tokens_seen": 7154496,
      "step": 10955
    },
    {
      "epoch": 5.744234800838575,
      "grad_norm": 0.08202707022428513,
      "learning_rate": 0.0008970105471739364,
      "loss": 0.4879,
      "num_input_tokens_seen": 7157600,
      "step": 10960
    },
    {
      "epoch": 5.74685534591195,
      "grad_norm": 0.11228729784488678,
      "learning_rate": 0.0008968714898574454,
      "loss": 0.5177,
      "num_input_tokens_seen": 7160224,
      "step": 10965
    },
    {
      "epoch": 5.749475890985325,
      "grad_norm": 0.08331071585416794,
      "learning_rate": 0.0008967323495199665,
      "loss": 0.3625,
      "num_input_tokens_seen": 7162720,
      "step": 10970
    },
    {
      "epoch": 5.7520964360587,
      "grad_norm": 0.1722443848848343,
      "learning_rate": 0.0008965931261906061,
      "loss": 0.5763,
      "num_input_tokens_seen": 7166240,
      "step": 10975
    },
    {
      "epoch": 5.754716981132075,
      "grad_norm": 0.10762262344360352,
      "learning_rate": 0.0008964538198984885,
      "loss": 0.5308,
      "num_input_tokens_seen": 7172480,
      "step": 10980
    },
    {
      "epoch": 5.7573375262054505,
      "grad_norm": 0.0792696624994278,
      "learning_rate": 0.0008963144306727547,
      "loss": 0.523,
      "num_input_tokens_seen": 7176416,
      "step": 10985
    },
    {
      "epoch": 5.759958071278826,
      "grad_norm": 0.060246698558330536,
      "learning_rate": 0.0008961749585425634,
      "loss": 0.5903,
      "num_input_tokens_seen": 7180832,
      "step": 10990
    },
    {
      "epoch": 5.762578616352201,
      "grad_norm": 0.10480058193206787,
      "learning_rate": 0.0008960354035370905,
      "loss": 0.4838,
      "num_input_tokens_seen": 7184416,
      "step": 10995
    },
    {
      "epoch": 5.765199161425577,
      "grad_norm": 0.1279243528842926,
      "learning_rate": 0.0008958957656855294,
      "loss": 0.4117,
      "num_input_tokens_seen": 7186816,
      "step": 11000
    },
    {
      "epoch": 5.767819706498952,
      "grad_norm": 0.0953652486205101,
      "learning_rate": 0.0008957560450170907,
      "loss": 0.5747,
      "num_input_tokens_seen": 7189824,
      "step": 11005
    },
    {
      "epoch": 5.770440251572327,
      "grad_norm": 0.1443897783756256,
      "learning_rate": 0.0008956162415610025,
      "loss": 0.5096,
      "num_input_tokens_seen": 7192640,
      "step": 11010
    },
    {
      "epoch": 5.773060796645702,
      "grad_norm": 0.09975481033325195,
      "learning_rate": 0.00089547635534651,
      "loss": 0.4481,
      "num_input_tokens_seen": 7195328,
      "step": 11015
    },
    {
      "epoch": 5.7756813417190775,
      "grad_norm": 0.22161436080932617,
      "learning_rate": 0.0008953363864028758,
      "loss": 0.6724,
      "num_input_tokens_seen": 7198464,
      "step": 11020
    },
    {
      "epoch": 5.778301886792453,
      "grad_norm": 0.07537118345499039,
      "learning_rate": 0.0008951963347593796,
      "loss": 0.4514,
      "num_input_tokens_seen": 7202080,
      "step": 11025
    },
    {
      "epoch": 5.780922431865828,
      "grad_norm": 0.11557456105947495,
      "learning_rate": 0.0008950562004453191,
      "loss": 0.4679,
      "num_input_tokens_seen": 7204832,
      "step": 11030
    },
    {
      "epoch": 5.783542976939203,
      "grad_norm": 0.134708970785141,
      "learning_rate": 0.0008949159834900082,
      "loss": 0.4057,
      "num_input_tokens_seen": 7208128,
      "step": 11035
    },
    {
      "epoch": 5.786163522012579,
      "grad_norm": 0.08023925870656967,
      "learning_rate": 0.0008947756839227792,
      "loss": 0.4312,
      "num_input_tokens_seen": 7211232,
      "step": 11040
    },
    {
      "epoch": 5.788784067085954,
      "grad_norm": 0.06603994220495224,
      "learning_rate": 0.0008946353017729809,
      "loss": 0.3906,
      "num_input_tokens_seen": 7214720,
      "step": 11045
    },
    {
      "epoch": 5.7914046121593294,
      "grad_norm": 0.13461719453334808,
      "learning_rate": 0.0008944948370699798,
      "loss": 0.5621,
      "num_input_tokens_seen": 7219200,
      "step": 11050
    },
    {
      "epoch": 5.794025157232705,
      "grad_norm": 0.08038510382175446,
      "learning_rate": 0.0008943542898431593,
      "loss": 0.4625,
      "num_input_tokens_seen": 7223808,
      "step": 11055
    },
    {
      "epoch": 5.79664570230608,
      "grad_norm": 0.1820795238018036,
      "learning_rate": 0.0008942136601219205,
      "loss": 0.4915,
      "num_input_tokens_seen": 7227264,
      "step": 11060
    },
    {
      "epoch": 5.799266247379455,
      "grad_norm": 0.11633672565221786,
      "learning_rate": 0.0008940729479356813,
      "loss": 0.5444,
      "num_input_tokens_seen": 7232672,
      "step": 11065
    },
    {
      "epoch": 5.80188679245283,
      "grad_norm": 0.1655077040195465,
      "learning_rate": 0.0008939321533138774,
      "loss": 0.4308,
      "num_input_tokens_seen": 7235584,
      "step": 11070
    },
    {
      "epoch": 5.804507337526205,
      "grad_norm": 0.11742720007896423,
      "learning_rate": 0.0008937912762859611,
      "loss": 0.5288,
      "num_input_tokens_seen": 7238592,
      "step": 11075
    },
    {
      "epoch": 5.8071278825995805,
      "grad_norm": 0.13646243512630463,
      "learning_rate": 0.0008936503168814024,
      "loss": 0.5042,
      "num_input_tokens_seen": 7241952,
      "step": 11080
    },
    {
      "epoch": 5.809748427672956,
      "grad_norm": 0.09844440221786499,
      "learning_rate": 0.0008935092751296885,
      "loss": 0.4315,
      "num_input_tokens_seen": 7245056,
      "step": 11085
    },
    {
      "epoch": 5.812368972746331,
      "grad_norm": 0.06752286851406097,
      "learning_rate": 0.0008933681510603235,
      "loss": 0.4664,
      "num_input_tokens_seen": 7248896,
      "step": 11090
    },
    {
      "epoch": 5.814989517819707,
      "grad_norm": 0.09470473974943161,
      "learning_rate": 0.0008932269447028292,
      "loss": 0.5215,
      "num_input_tokens_seen": 7251680,
      "step": 11095
    },
    {
      "epoch": 5.817610062893082,
      "grad_norm": 0.09054356813430786,
      "learning_rate": 0.0008930856560867442,
      "loss": 0.5626,
      "num_input_tokens_seen": 7254432,
      "step": 11100
    },
    {
      "epoch": 5.820230607966457,
      "grad_norm": 0.3002152740955353,
      "learning_rate": 0.0008929442852416245,
      "loss": 0.4935,
      "num_input_tokens_seen": 7257280,
      "step": 11105
    },
    {
      "epoch": 5.822851153039832,
      "grad_norm": 0.07248061895370483,
      "learning_rate": 0.0008928028321970433,
      "loss": 0.4312,
      "num_input_tokens_seen": 7259840,
      "step": 11110
    },
    {
      "epoch": 5.8254716981132075,
      "grad_norm": 0.10385286808013916,
      "learning_rate": 0.0008926612969825909,
      "loss": 0.4414,
      "num_input_tokens_seen": 7262624,
      "step": 11115
    },
    {
      "epoch": 5.828092243186583,
      "grad_norm": 0.06456436961889267,
      "learning_rate": 0.000892519679627875,
      "loss": 0.4063,
      "num_input_tokens_seen": 7265568,
      "step": 11120
    },
    {
      "epoch": 5.830712788259958,
      "grad_norm": 0.12193680554628372,
      "learning_rate": 0.00089237798016252,
      "loss": 0.3634,
      "num_input_tokens_seen": 7268896,
      "step": 11125
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.16165326535701752,
      "learning_rate": 0.0008922361986161682,
      "loss": 0.3722,
      "num_input_tokens_seen": 7271328,
      "step": 11130
    },
    {
      "epoch": 5.835953878406709,
      "grad_norm": 0.1653490960597992,
      "learning_rate": 0.0008920943350184785,
      "loss": 0.5585,
      "num_input_tokens_seen": 7274752,
      "step": 11135
    },
    {
      "epoch": 5.838574423480084,
      "grad_norm": 0.07623497396707535,
      "learning_rate": 0.0008919523893991271,
      "loss": 0.5588,
      "num_input_tokens_seen": 7279168,
      "step": 11140
    },
    {
      "epoch": 5.841194968553459,
      "grad_norm": 0.11266371607780457,
      "learning_rate": 0.0008918103617878075,
      "loss": 0.483,
      "num_input_tokens_seen": 7282944,
      "step": 11145
    },
    {
      "epoch": 5.843815513626835,
      "grad_norm": 0.10487204790115356,
      "learning_rate": 0.0008916682522142302,
      "loss": 0.5132,
      "num_input_tokens_seen": 7285824,
      "step": 11150
    },
    {
      "epoch": 5.84643605870021,
      "grad_norm": 0.12450651824474335,
      "learning_rate": 0.000891526060708123,
      "loss": 0.4844,
      "num_input_tokens_seen": 7288384,
      "step": 11155
    },
    {
      "epoch": 5.849056603773585,
      "grad_norm": 0.11881852895021439,
      "learning_rate": 0.0008913837872992306,
      "loss": 0.5249,
      "num_input_tokens_seen": 7291840,
      "step": 11160
    },
    {
      "epoch": 5.85167714884696,
      "grad_norm": 0.07763384282588959,
      "learning_rate": 0.000891241432017315,
      "loss": 0.4196,
      "num_input_tokens_seen": 7296032,
      "step": 11165
    },
    {
      "epoch": 5.854297693920335,
      "grad_norm": 0.13511709868907928,
      "learning_rate": 0.0008910989948921555,
      "loss": 0.6068,
      "num_input_tokens_seen": 7298560,
      "step": 11170
    },
    {
      "epoch": 5.8569182389937104,
      "grad_norm": 0.08799038827419281,
      "learning_rate": 0.000890956475953548,
      "loss": 0.3786,
      "num_input_tokens_seen": 7301376,
      "step": 11175
    },
    {
      "epoch": 5.859538784067086,
      "grad_norm": 0.1251833438873291,
      "learning_rate": 0.0008908138752313061,
      "loss": 0.4969,
      "num_input_tokens_seen": 7304896,
      "step": 11180
    },
    {
      "epoch": 5.862159329140461,
      "grad_norm": 0.06915155053138733,
      "learning_rate": 0.0008906711927552601,
      "loss": 0.4603,
      "num_input_tokens_seen": 7307968,
      "step": 11185
    },
    {
      "epoch": 5.864779874213837,
      "grad_norm": 0.13701504468917847,
      "learning_rate": 0.0008905284285552575,
      "loss": 0.4601,
      "num_input_tokens_seen": 7311040,
      "step": 11190
    },
    {
      "epoch": 5.867400419287212,
      "grad_norm": 0.10760417580604553,
      "learning_rate": 0.0008903855826611631,
      "loss": 0.4094,
      "num_input_tokens_seen": 7314848,
      "step": 11195
    },
    {
      "epoch": 5.870020964360587,
      "grad_norm": 0.10179567337036133,
      "learning_rate": 0.0008902426551028586,
      "loss": 0.5203,
      "num_input_tokens_seen": 7317440,
      "step": 11200
    },
    {
      "epoch": 5.872641509433962,
      "grad_norm": 0.11746267229318619,
      "learning_rate": 0.0008900996459102428,
      "loss": 0.4609,
      "num_input_tokens_seen": 7320288,
      "step": 11205
    },
    {
      "epoch": 5.8752620545073375,
      "grad_norm": 0.10291508585214615,
      "learning_rate": 0.0008899565551132315,
      "loss": 0.5201,
      "num_input_tokens_seen": 7323168,
      "step": 11210
    },
    {
      "epoch": 5.877882599580713,
      "grad_norm": 0.10967890918254852,
      "learning_rate": 0.0008898133827417578,
      "loss": 0.4508,
      "num_input_tokens_seen": 7326048,
      "step": 11215
    },
    {
      "epoch": 5.880503144654088,
      "grad_norm": 0.12078243494033813,
      "learning_rate": 0.0008896701288257716,
      "loss": 0.5172,
      "num_input_tokens_seen": 7328288,
      "step": 11220
    },
    {
      "epoch": 5.883123689727463,
      "grad_norm": 0.17637063562870026,
      "learning_rate": 0.00088952679339524,
      "loss": 0.5274,
      "num_input_tokens_seen": 7331328,
      "step": 11225
    },
    {
      "epoch": 5.885744234800838,
      "grad_norm": 0.09945466369390488,
      "learning_rate": 0.0008893833764801473,
      "loss": 0.4392,
      "num_input_tokens_seen": 7334720,
      "step": 11230
    },
    {
      "epoch": 5.888364779874214,
      "grad_norm": 0.08245498687028885,
      "learning_rate": 0.0008892398781104945,
      "loss": 0.3953,
      "num_input_tokens_seen": 7337312,
      "step": 11235
    },
    {
      "epoch": 5.890985324947589,
      "grad_norm": 0.10113875567913055,
      "learning_rate": 0.0008890962983162997,
      "loss": 0.4981,
      "num_input_tokens_seen": 7340384,
      "step": 11240
    },
    {
      "epoch": 5.893605870020965,
      "grad_norm": 0.07041523605585098,
      "learning_rate": 0.0008889526371275987,
      "loss": 0.4863,
      "num_input_tokens_seen": 7343936,
      "step": 11245
    },
    {
      "epoch": 5.89622641509434,
      "grad_norm": 0.09877574443817139,
      "learning_rate": 0.0008888088945744432,
      "loss": 0.4652,
      "num_input_tokens_seen": 7346848,
      "step": 11250
    },
    {
      "epoch": 5.898846960167715,
      "grad_norm": 0.11808733642101288,
      "learning_rate": 0.0008886650706869027,
      "loss": 0.5123,
      "num_input_tokens_seen": 7350112,
      "step": 11255
    },
    {
      "epoch": 5.90146750524109,
      "grad_norm": 0.06544506549835205,
      "learning_rate": 0.0008885211654950636,
      "loss": 0.4358,
      "num_input_tokens_seen": 7353952,
      "step": 11260
    },
    {
      "epoch": 5.904088050314465,
      "grad_norm": 0.18916839361190796,
      "learning_rate": 0.0008883771790290291,
      "loss": 0.5854,
      "num_input_tokens_seen": 7357440,
      "step": 11265
    },
    {
      "epoch": 5.90670859538784,
      "grad_norm": 0.09881585836410522,
      "learning_rate": 0.0008882331113189197,
      "loss": 0.5776,
      "num_input_tokens_seen": 7360800,
      "step": 11270
    },
    {
      "epoch": 5.909329140461216,
      "grad_norm": 0.13875822722911835,
      "learning_rate": 0.0008880889623948724,
      "loss": 0.5166,
      "num_input_tokens_seen": 7364032,
      "step": 11275
    },
    {
      "epoch": 5.911949685534591,
      "grad_norm": 0.1567176878452301,
      "learning_rate": 0.000887944732287042,
      "loss": 0.5377,
      "num_input_tokens_seen": 7366880,
      "step": 11280
    },
    {
      "epoch": 5.914570230607967,
      "grad_norm": 0.07542734593153,
      "learning_rate": 0.0008878004210255995,
      "loss": 0.4182,
      "num_input_tokens_seen": 7369664,
      "step": 11285
    },
    {
      "epoch": 5.917190775681342,
      "grad_norm": 0.1305912435054779,
      "learning_rate": 0.0008876560286407329,
      "loss": 0.5739,
      "num_input_tokens_seen": 7372192,
      "step": 11290
    },
    {
      "epoch": 5.919811320754717,
      "grad_norm": 0.2295728176832199,
      "learning_rate": 0.000887511555162648,
      "loss": 0.4623,
      "num_input_tokens_seen": 7374720,
      "step": 11295
    },
    {
      "epoch": 5.922431865828092,
      "grad_norm": 0.13504858314990997,
      "learning_rate": 0.0008873670006215666,
      "loss": 0.4539,
      "num_input_tokens_seen": 7378112,
      "step": 11300
    },
    {
      "epoch": 5.9250524109014675,
      "grad_norm": 0.13768355548381805,
      "learning_rate": 0.0008872223650477281,
      "loss": 0.4426,
      "num_input_tokens_seen": 7381728,
      "step": 11305
    },
    {
      "epoch": 5.927672955974843,
      "grad_norm": 0.137611985206604,
      "learning_rate": 0.0008870776484713882,
      "loss": 0.4976,
      "num_input_tokens_seen": 7385504,
      "step": 11310
    },
    {
      "epoch": 5.930293501048218,
      "grad_norm": 0.08572294563055038,
      "learning_rate": 0.0008869328509228205,
      "loss": 0.4048,
      "num_input_tokens_seen": 7389600,
      "step": 11315
    },
    {
      "epoch": 5.932914046121593,
      "grad_norm": 0.12175039201974869,
      "learning_rate": 0.0008867879724323147,
      "loss": 0.4686,
      "num_input_tokens_seen": 7394240,
      "step": 11320
    },
    {
      "epoch": 5.935534591194968,
      "grad_norm": 0.08043959736824036,
      "learning_rate": 0.0008866430130301777,
      "loss": 0.477,
      "num_input_tokens_seen": 7396704,
      "step": 11325
    },
    {
      "epoch": 5.938155136268344,
      "grad_norm": 0.07976836711168289,
      "learning_rate": 0.0008864979727467335,
      "loss": 0.4282,
      "num_input_tokens_seen": 7400352,
      "step": 11330
    },
    {
      "epoch": 5.940775681341719,
      "grad_norm": 0.06896988302469254,
      "learning_rate": 0.000886352851612323,
      "loss": 0.372,
      "num_input_tokens_seen": 7402816,
      "step": 11335
    },
    {
      "epoch": 5.943396226415095,
      "grad_norm": 0.10886107385158539,
      "learning_rate": 0.0008862076496573034,
      "loss": 0.4358,
      "num_input_tokens_seen": 7405568,
      "step": 11340
    },
    {
      "epoch": 5.94601677148847,
      "grad_norm": 0.08618582040071487,
      "learning_rate": 0.0008860623669120496,
      "loss": 0.4836,
      "num_input_tokens_seen": 7408608,
      "step": 11345
    },
    {
      "epoch": 5.948637316561845,
      "grad_norm": 0.1765684187412262,
      "learning_rate": 0.0008859170034069533,
      "loss": 0.5242,
      "num_input_tokens_seen": 7412448,
      "step": 11350
    },
    {
      "epoch": 5.95125786163522,
      "grad_norm": 0.16216984391212463,
      "learning_rate": 0.0008857715591724225,
      "loss": 0.4222,
      "num_input_tokens_seen": 7415104,
      "step": 11355
    },
    {
      "epoch": 5.953878406708595,
      "grad_norm": 0.08839499950408936,
      "learning_rate": 0.0008856260342388827,
      "loss": 0.428,
      "num_input_tokens_seen": 7418944,
      "step": 11360
    },
    {
      "epoch": 5.95649895178197,
      "grad_norm": 0.06421252340078354,
      "learning_rate": 0.0008854804286367758,
      "loss": 0.3855,
      "num_input_tokens_seen": 7422816,
      "step": 11365
    },
    {
      "epoch": 5.959119496855346,
      "grad_norm": 0.1366712898015976,
      "learning_rate": 0.0008853347423965612,
      "loss": 0.3898,
      "num_input_tokens_seen": 7425824,
      "step": 11370
    },
    {
      "epoch": 5.961740041928721,
      "grad_norm": 0.07192564755678177,
      "learning_rate": 0.0008851889755487146,
      "loss": 0.5259,
      "num_input_tokens_seen": 7429088,
      "step": 11375
    },
    {
      "epoch": 5.964360587002097,
      "grad_norm": 0.08820941299200058,
      "learning_rate": 0.0008850431281237288,
      "loss": 0.5511,
      "num_input_tokens_seen": 7432736,
      "step": 11380
    },
    {
      "epoch": 5.966981132075472,
      "grad_norm": 0.11579504609107971,
      "learning_rate": 0.0008848972001521134,
      "loss": 0.5425,
      "num_input_tokens_seen": 7435840,
      "step": 11385
    },
    {
      "epoch": 5.969601677148847,
      "grad_norm": 0.14150328934192657,
      "learning_rate": 0.0008847511916643948,
      "loss": 0.3822,
      "num_input_tokens_seen": 7441056,
      "step": 11390
    },
    {
      "epoch": 5.972222222222222,
      "grad_norm": 0.060559120029211044,
      "learning_rate": 0.0008846051026911164,
      "loss": 0.4655,
      "num_input_tokens_seen": 7444640,
      "step": 11395
    },
    {
      "epoch": 5.9748427672955975,
      "grad_norm": 0.13247732818126678,
      "learning_rate": 0.0008844589332628383,
      "loss": 0.5078,
      "num_input_tokens_seen": 7448096,
      "step": 11400
    },
    {
      "epoch": 5.977463312368973,
      "grad_norm": 0.08955635130405426,
      "learning_rate": 0.0008843126834101376,
      "loss": 0.4332,
      "num_input_tokens_seen": 7451520,
      "step": 11405
    },
    {
      "epoch": 5.980083857442348,
      "grad_norm": 0.16418950259685516,
      "learning_rate": 0.000884166353163608,
      "loss": 0.4131,
      "num_input_tokens_seen": 7454048,
      "step": 11410
    },
    {
      "epoch": 5.982704402515723,
      "grad_norm": 0.19463802874088287,
      "learning_rate": 0.0008840199425538599,
      "loss": 0.4182,
      "num_input_tokens_seen": 7457216,
      "step": 11415
    },
    {
      "epoch": 5.985324947589098,
      "grad_norm": 0.07634186744689941,
      "learning_rate": 0.0008838734516115213,
      "loss": 0.48,
      "num_input_tokens_seen": 7460992,
      "step": 11420
    },
    {
      "epoch": 5.987945492662474,
      "grad_norm": 0.15557152032852173,
      "learning_rate": 0.0008837268803672359,
      "loss": 0.4434,
      "num_input_tokens_seen": 7463488,
      "step": 11425
    },
    {
      "epoch": 5.990566037735849,
      "grad_norm": 0.08500221371650696,
      "learning_rate": 0.0008835802288516647,
      "loss": 0.456,
      "num_input_tokens_seen": 7466304,
      "step": 11430
    },
    {
      "epoch": 5.993186582809225,
      "grad_norm": 0.08845528215169907,
      "learning_rate": 0.0008834334970954861,
      "loss": 0.5029,
      "num_input_tokens_seen": 7470176,
      "step": 11435
    },
    {
      "epoch": 5.9958071278826,
      "grad_norm": 0.14642202854156494,
      "learning_rate": 0.0008832866851293941,
      "loss": 0.3732,
      "num_input_tokens_seen": 7473376,
      "step": 11440
    },
    {
      "epoch": 5.998427672955975,
      "grad_norm": 0.13932064175605774,
      "learning_rate": 0.0008831397929841005,
      "loss": 0.4912,
      "num_input_tokens_seen": 7476864,
      "step": 11445
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.47658780217170715,
      "eval_runtime": 13.6836,
      "eval_samples_per_second": 61.972,
      "eval_steps_per_second": 15.493,
      "num_input_tokens_seen": 7478504,
      "step": 11448
    },
    {
      "epoch": 6.00104821802935,
      "grad_norm": 0.09126579016447067,
      "learning_rate": 0.0008829928206903333,
      "loss": 0.4226,
      "num_input_tokens_seen": 7479688,
      "step": 11450
    },
    {
      "epoch": 6.003668763102725,
      "grad_norm": 0.0729198083281517,
      "learning_rate": 0.0008828457682788373,
      "loss": 0.3927,
      "num_input_tokens_seen": 7483176,
      "step": 11455
    },
    {
      "epoch": 6.0062893081761,
      "grad_norm": 0.07223303616046906,
      "learning_rate": 0.0008826986357803743,
      "loss": 0.4753,
      "num_input_tokens_seen": 7486120,
      "step": 11460
    },
    {
      "epoch": 6.008909853249476,
      "grad_norm": 0.13478192687034607,
      "learning_rate": 0.0008825514232257228,
      "loss": 0.4667,
      "num_input_tokens_seen": 7488872,
      "step": 11465
    },
    {
      "epoch": 6.011530398322851,
      "grad_norm": 0.1881585419178009,
      "learning_rate": 0.000882404130645678,
      "loss": 0.4716,
      "num_input_tokens_seen": 7491880,
      "step": 11470
    },
    {
      "epoch": 6.014150943396227,
      "grad_norm": 0.13242396712303162,
      "learning_rate": 0.0008822567580710518,
      "loss": 0.3829,
      "num_input_tokens_seen": 7494952,
      "step": 11475
    },
    {
      "epoch": 6.016771488469602,
      "grad_norm": 0.07099137455224991,
      "learning_rate": 0.0008821093055326728,
      "loss": 0.5116,
      "num_input_tokens_seen": 7498600,
      "step": 11480
    },
    {
      "epoch": 6.019392033542977,
      "grad_norm": 0.08413399010896683,
      "learning_rate": 0.0008819617730613863,
      "loss": 0.4821,
      "num_input_tokens_seen": 7502696,
      "step": 11485
    },
    {
      "epoch": 6.022012578616352,
      "grad_norm": 0.09524056315422058,
      "learning_rate": 0.0008818141606880545,
      "loss": 0.4593,
      "num_input_tokens_seen": 7505800,
      "step": 11490
    },
    {
      "epoch": 6.0246331236897275,
      "grad_norm": 0.190598726272583,
      "learning_rate": 0.0008816664684435564,
      "loss": 0.447,
      "num_input_tokens_seen": 7508712,
      "step": 11495
    },
    {
      "epoch": 6.027253668763103,
      "grad_norm": 0.08632704615592957,
      "learning_rate": 0.0008815186963587873,
      "loss": 0.3807,
      "num_input_tokens_seen": 7511400,
      "step": 11500
    },
    {
      "epoch": 6.029874213836478,
      "grad_norm": 0.08546008914709091,
      "learning_rate": 0.0008813708444646596,
      "loss": 0.4618,
      "num_input_tokens_seen": 7515208,
      "step": 11505
    },
    {
      "epoch": 6.032494758909853,
      "grad_norm": 0.13516171276569366,
      "learning_rate": 0.0008812229127921021,
      "loss": 0.2767,
      "num_input_tokens_seen": 7520712,
      "step": 11510
    },
    {
      "epoch": 6.035115303983228,
      "grad_norm": 0.0686359629034996,
      "learning_rate": 0.0008810749013720605,
      "loss": 0.3769,
      "num_input_tokens_seen": 7522984,
      "step": 11515
    },
    {
      "epoch": 6.037735849056604,
      "grad_norm": 0.08287366479635239,
      "learning_rate": 0.0008809268102354969,
      "loss": 0.4594,
      "num_input_tokens_seen": 7526024,
      "step": 11520
    },
    {
      "epoch": 6.040356394129979,
      "grad_norm": 0.2995687425136566,
      "learning_rate": 0.0008807786394133905,
      "loss": 0.484,
      "num_input_tokens_seen": 7529288,
      "step": 11525
    },
    {
      "epoch": 6.0429769392033545,
      "grad_norm": 0.11520157009363174,
      "learning_rate": 0.0008806303889367371,
      "loss": 0.4245,
      "num_input_tokens_seen": 7531752,
      "step": 11530
    },
    {
      "epoch": 6.04559748427673,
      "grad_norm": 0.160005584359169,
      "learning_rate": 0.0008804820588365485,
      "loss": 0.4648,
      "num_input_tokens_seen": 7535112,
      "step": 11535
    },
    {
      "epoch": 6.048218029350105,
      "grad_norm": 0.16520172357559204,
      "learning_rate": 0.0008803336491438543,
      "loss": 0.4218,
      "num_input_tokens_seen": 7538344,
      "step": 11540
    },
    {
      "epoch": 6.05083857442348,
      "grad_norm": 0.17490477859973907,
      "learning_rate": 0.0008801851598896995,
      "loss": 0.4286,
      "num_input_tokens_seen": 7541064,
      "step": 11545
    },
    {
      "epoch": 6.053459119496855,
      "grad_norm": 0.2026975452899933,
      "learning_rate": 0.0008800365911051467,
      "loss": 0.4019,
      "num_input_tokens_seen": 7544808,
      "step": 11550
    },
    {
      "epoch": 6.05607966457023,
      "grad_norm": 0.12408404797315598,
      "learning_rate": 0.0008798879428212747,
      "loss": 0.3539,
      "num_input_tokens_seen": 7548872,
      "step": 11555
    },
    {
      "epoch": 6.058700209643606,
      "grad_norm": 0.09205590933561325,
      "learning_rate": 0.0008797392150691792,
      "loss": 0.5194,
      "num_input_tokens_seen": 7551912,
      "step": 11560
    },
    {
      "epoch": 6.061320754716981,
      "grad_norm": 0.07794030010700226,
      "learning_rate": 0.000879590407879972,
      "loss": 0.3805,
      "num_input_tokens_seen": 7554856,
      "step": 11565
    },
    {
      "epoch": 6.063941299790357,
      "grad_norm": 0.321010947227478,
      "learning_rate": 0.0008794415212847822,
      "loss": 0.5348,
      "num_input_tokens_seen": 7558344,
      "step": 11570
    },
    {
      "epoch": 6.066561844863732,
      "grad_norm": 0.096315398812294,
      "learning_rate": 0.000879292555314755,
      "loss": 0.4758,
      "num_input_tokens_seen": 7561704,
      "step": 11575
    },
    {
      "epoch": 6.069182389937107,
      "grad_norm": 0.11444811522960663,
      "learning_rate": 0.0008791435100010524,
      "loss": 0.4778,
      "num_input_tokens_seen": 7563816,
      "step": 11580
    },
    {
      "epoch": 6.071802935010482,
      "grad_norm": 0.11399061977863312,
      "learning_rate": 0.000878994385374853,
      "loss": 0.4078,
      "num_input_tokens_seen": 7566408,
      "step": 11585
    },
    {
      "epoch": 6.0744234800838575,
      "grad_norm": 0.10532583296298981,
      "learning_rate": 0.0008788451814673521,
      "loss": 0.4394,
      "num_input_tokens_seen": 7569960,
      "step": 11590
    },
    {
      "epoch": 6.077044025157233,
      "grad_norm": 0.20667371153831482,
      "learning_rate": 0.0008786958983097613,
      "loss": 0.4035,
      "num_input_tokens_seen": 7572872,
      "step": 11595
    },
    {
      "epoch": 6.079664570230608,
      "grad_norm": 0.14574791491031647,
      "learning_rate": 0.0008785465359333088,
      "loss": 0.5963,
      "num_input_tokens_seen": 7576104,
      "step": 11600
    },
    {
      "epoch": 6.082285115303983,
      "grad_norm": 0.08804325014352798,
      "learning_rate": 0.0008783970943692398,
      "loss": 0.3991,
      "num_input_tokens_seen": 7578856,
      "step": 11605
    },
    {
      "epoch": 6.084905660377358,
      "grad_norm": 0.09880081564188004,
      "learning_rate": 0.0008782475736488156,
      "loss": 0.438,
      "num_input_tokens_seen": 7582408,
      "step": 11610
    },
    {
      "epoch": 6.087526205450734,
      "grad_norm": 0.08994799852371216,
      "learning_rate": 0.0008780979738033142,
      "loss": 0.3837,
      "num_input_tokens_seen": 7585224,
      "step": 11615
    },
    {
      "epoch": 6.090146750524109,
      "grad_norm": 0.17714691162109375,
      "learning_rate": 0.0008779482948640305,
      "loss": 0.4293,
      "num_input_tokens_seen": 7587880,
      "step": 11620
    },
    {
      "epoch": 6.0927672955974845,
      "grad_norm": 0.09619191288948059,
      "learning_rate": 0.0008777985368622752,
      "loss": 0.5014,
      "num_input_tokens_seen": 7591784,
      "step": 11625
    },
    {
      "epoch": 6.09538784067086,
      "grad_norm": 0.14098510146141052,
      "learning_rate": 0.0008776486998293762,
      "loss": 0.4787,
      "num_input_tokens_seen": 7594920,
      "step": 11630
    },
    {
      "epoch": 6.098008385744235,
      "grad_norm": 0.18144376575946808,
      "learning_rate": 0.0008774987837966775,
      "loss": 0.5776,
      "num_input_tokens_seen": 7598504,
      "step": 11635
    },
    {
      "epoch": 6.10062893081761,
      "grad_norm": 0.0827246829867363,
      "learning_rate": 0.0008773487887955401,
      "loss": 0.5192,
      "num_input_tokens_seen": 7601640,
      "step": 11640
    },
    {
      "epoch": 6.103249475890985,
      "grad_norm": 0.1336611807346344,
      "learning_rate": 0.000877198714857341,
      "loss": 0.4831,
      "num_input_tokens_seen": 7604520,
      "step": 11645
    },
    {
      "epoch": 6.10587002096436,
      "grad_norm": 0.07616657763719559,
      "learning_rate": 0.000877048562013474,
      "loss": 0.3367,
      "num_input_tokens_seen": 7608136,
      "step": 11650
    },
    {
      "epoch": 6.1084905660377355,
      "grad_norm": 0.14958716928958893,
      "learning_rate": 0.0008768983302953498,
      "loss": 0.5206,
      "num_input_tokens_seen": 7611592,
      "step": 11655
    },
    {
      "epoch": 6.111111111111111,
      "grad_norm": 0.18326407670974731,
      "learning_rate": 0.0008767480197343945,
      "loss": 0.467,
      "num_input_tokens_seen": 7614184,
      "step": 11660
    },
    {
      "epoch": 6.113731656184487,
      "grad_norm": 0.13597649335861206,
      "learning_rate": 0.0008765976303620515,
      "loss": 0.3844,
      "num_input_tokens_seen": 7617064,
      "step": 11665
    },
    {
      "epoch": 6.116352201257862,
      "grad_norm": 0.08641445636749268,
      "learning_rate": 0.0008764471622097809,
      "loss": 0.4088,
      "num_input_tokens_seen": 7620680,
      "step": 11670
    },
    {
      "epoch": 6.118972746331237,
      "grad_norm": 0.10301613062620163,
      "learning_rate": 0.0008762966153090588,
      "loss": 0.4124,
      "num_input_tokens_seen": 7623944,
      "step": 11675
    },
    {
      "epoch": 6.121593291404612,
      "grad_norm": 0.18254448473453522,
      "learning_rate": 0.0008761459896913776,
      "loss": 0.4015,
      "num_input_tokens_seen": 7627144,
      "step": 11680
    },
    {
      "epoch": 6.1242138364779874,
      "grad_norm": 0.1023506224155426,
      "learning_rate": 0.0008759952853882466,
      "loss": 0.4349,
      "num_input_tokens_seen": 7630216,
      "step": 11685
    },
    {
      "epoch": 6.126834381551363,
      "grad_norm": 0.1329946368932724,
      "learning_rate": 0.0008758445024311917,
      "loss": 0.4528,
      "num_input_tokens_seen": 7633000,
      "step": 11690
    },
    {
      "epoch": 6.129454926624738,
      "grad_norm": 0.1997685730457306,
      "learning_rate": 0.0008756936408517547,
      "loss": 0.3864,
      "num_input_tokens_seen": 7636104,
      "step": 11695
    },
    {
      "epoch": 6.132075471698113,
      "grad_norm": 0.13691739737987518,
      "learning_rate": 0.000875542700681494,
      "loss": 0.5888,
      "num_input_tokens_seen": 7639208,
      "step": 11700
    },
    {
      "epoch": 6.134696016771488,
      "grad_norm": 0.06180591136217117,
      "learning_rate": 0.0008753916819519849,
      "loss": 0.454,
      "num_input_tokens_seen": 7642184,
      "step": 11705
    },
    {
      "epoch": 6.137316561844864,
      "grad_norm": 0.19636011123657227,
      "learning_rate": 0.0008752405846948186,
      "loss": 0.4743,
      "num_input_tokens_seen": 7645480,
      "step": 11710
    },
    {
      "epoch": 6.139937106918239,
      "grad_norm": 0.08995439112186432,
      "learning_rate": 0.0008750894089416029,
      "loss": 0.4757,
      "num_input_tokens_seen": 7648936,
      "step": 11715
    },
    {
      "epoch": 6.1425576519916145,
      "grad_norm": 0.11053739488124847,
      "learning_rate": 0.0008749381547239621,
      "loss": 0.3649,
      "num_input_tokens_seen": 7651816,
      "step": 11720
    },
    {
      "epoch": 6.14517819706499,
      "grad_norm": 0.07286690175533295,
      "learning_rate": 0.000874786822073537,
      "loss": 0.4871,
      "num_input_tokens_seen": 7654568,
      "step": 11725
    },
    {
      "epoch": 6.147798742138365,
      "grad_norm": 0.09190461784601212,
      "learning_rate": 0.0008746354110219843,
      "loss": 0.267,
      "num_input_tokens_seen": 7657544,
      "step": 11730
    },
    {
      "epoch": 6.15041928721174,
      "grad_norm": 0.14134690165519714,
      "learning_rate": 0.0008744839216009779,
      "loss": 0.5066,
      "num_input_tokens_seen": 7660936,
      "step": 11735
    },
    {
      "epoch": 6.153039832285115,
      "grad_norm": 0.13121545314788818,
      "learning_rate": 0.0008743323538422072,
      "loss": 0.4853,
      "num_input_tokens_seen": 7663336,
      "step": 11740
    },
    {
      "epoch": 6.15566037735849,
      "grad_norm": 0.07933470606803894,
      "learning_rate": 0.0008741807077773789,
      "loss": 0.4606,
      "num_input_tokens_seen": 7666312,
      "step": 11745
    },
    {
      "epoch": 6.1582809224318655,
      "grad_norm": 0.13330432772636414,
      "learning_rate": 0.0008740289834382153,
      "loss": 0.5257,
      "num_input_tokens_seen": 7669224,
      "step": 11750
    },
    {
      "epoch": 6.160901467505241,
      "grad_norm": 0.09209888428449631,
      "learning_rate": 0.0008738771808564555,
      "loss": 0.4585,
      "num_input_tokens_seen": 7672264,
      "step": 11755
    },
    {
      "epoch": 6.163522012578617,
      "grad_norm": 0.14128261804580688,
      "learning_rate": 0.000873725300063855,
      "loss": 0.523,
      "num_input_tokens_seen": 7674824,
      "step": 11760
    },
    {
      "epoch": 6.166142557651992,
      "grad_norm": 0.13213342428207397,
      "learning_rate": 0.0008735733410921853,
      "loss": 0.3416,
      "num_input_tokens_seen": 7677608,
      "step": 11765
    },
    {
      "epoch": 6.168763102725367,
      "grad_norm": 0.12555724382400513,
      "learning_rate": 0.0008734213039732346,
      "loss": 0.4622,
      "num_input_tokens_seen": 7680680,
      "step": 11770
    },
    {
      "epoch": 6.171383647798742,
      "grad_norm": 0.09263326227664948,
      "learning_rate": 0.0008732691887388073,
      "loss": 0.482,
      "num_input_tokens_seen": 7684072,
      "step": 11775
    },
    {
      "epoch": 6.174004192872117,
      "grad_norm": 0.0564592219889164,
      "learning_rate": 0.0008731169954207243,
      "loss": 0.4733,
      "num_input_tokens_seen": 7687624,
      "step": 11780
    },
    {
      "epoch": 6.176624737945493,
      "grad_norm": 0.07369069010019302,
      "learning_rate": 0.0008729647240508225,
      "loss": 0.535,
      "num_input_tokens_seen": 7691656,
      "step": 11785
    },
    {
      "epoch": 6.179245283018868,
      "grad_norm": 0.08961612731218338,
      "learning_rate": 0.0008728123746609555,
      "loss": 0.5038,
      "num_input_tokens_seen": 7694568,
      "step": 11790
    },
    {
      "epoch": 6.181865828092243,
      "grad_norm": 0.062317997217178345,
      "learning_rate": 0.000872659947282993,
      "loss": 0.3744,
      "num_input_tokens_seen": 7697544,
      "step": 11795
    },
    {
      "epoch": 6.184486373165618,
      "grad_norm": 0.09092419594526291,
      "learning_rate": 0.000872507441948821,
      "loss": 0.7343,
      "num_input_tokens_seen": 7700456,
      "step": 11800
    },
    {
      "epoch": 6.187106918238993,
      "grad_norm": 0.1065952330827713,
      "learning_rate": 0.0008723548586903418,
      "loss": 0.4304,
      "num_input_tokens_seen": 7703112,
      "step": 11805
    },
    {
      "epoch": 6.189727463312369,
      "grad_norm": 0.09962926805019379,
      "learning_rate": 0.0008722021975394745,
      "loss": 0.4169,
      "num_input_tokens_seen": 7705992,
      "step": 11810
    },
    {
      "epoch": 6.1923480083857445,
      "grad_norm": 0.14316773414611816,
      "learning_rate": 0.0008720494585281536,
      "loss": 0.438,
      "num_input_tokens_seen": 7709576,
      "step": 11815
    },
    {
      "epoch": 6.19496855345912,
      "grad_norm": 0.12795017659664154,
      "learning_rate": 0.0008718966416883306,
      "loss": 0.4369,
      "num_input_tokens_seen": 7712712,
      "step": 11820
    },
    {
      "epoch": 6.197589098532495,
      "grad_norm": 0.16315717995166779,
      "learning_rate": 0.0008717437470519729,
      "loss": 0.4174,
      "num_input_tokens_seen": 7715432,
      "step": 11825
    },
    {
      "epoch": 6.20020964360587,
      "grad_norm": 0.0919753834605217,
      "learning_rate": 0.0008715907746510645,
      "loss": 0.3976,
      "num_input_tokens_seen": 7718216,
      "step": 11830
    },
    {
      "epoch": 6.202830188679245,
      "grad_norm": 0.11636818200349808,
      "learning_rate": 0.0008714377245176054,
      "loss": 0.4214,
      "num_input_tokens_seen": 7721096,
      "step": 11835
    },
    {
      "epoch": 6.20545073375262,
      "grad_norm": 0.3010755777359009,
      "learning_rate": 0.0008712845966836119,
      "loss": 0.5594,
      "num_input_tokens_seen": 7724264,
      "step": 11840
    },
    {
      "epoch": 6.2080712788259955,
      "grad_norm": 0.12303571403026581,
      "learning_rate": 0.0008711313911811165,
      "loss": 0.4107,
      "num_input_tokens_seen": 7727176,
      "step": 11845
    },
    {
      "epoch": 6.210691823899371,
      "grad_norm": 0.11755155026912689,
      "learning_rate": 0.0008709781080421681,
      "loss": 0.455,
      "num_input_tokens_seen": 7729544,
      "step": 11850
    },
    {
      "epoch": 6.213312368972747,
      "grad_norm": 0.09357009828090668,
      "learning_rate": 0.0008708247472988319,
      "loss": 0.5364,
      "num_input_tokens_seen": 7733288,
      "step": 11855
    },
    {
      "epoch": 6.215932914046122,
      "grad_norm": 0.157743901014328,
      "learning_rate": 0.0008706713089831893,
      "loss": 0.4049,
      "num_input_tokens_seen": 7737096,
      "step": 11860
    },
    {
      "epoch": 6.218553459119497,
      "grad_norm": 0.13353557884693146,
      "learning_rate": 0.0008705177931273377,
      "loss": 0.4469,
      "num_input_tokens_seen": 7741512,
      "step": 11865
    },
    {
      "epoch": 6.221174004192872,
      "grad_norm": 0.10325872898101807,
      "learning_rate": 0.0008703641997633907,
      "loss": 0.447,
      "num_input_tokens_seen": 7744648,
      "step": 11870
    },
    {
      "epoch": 6.223794549266247,
      "grad_norm": 0.21496087312698364,
      "learning_rate": 0.0008702105289234786,
      "loss": 0.361,
      "num_input_tokens_seen": 7748392,
      "step": 11875
    },
    {
      "epoch": 6.226415094339623,
      "grad_norm": 0.11165779829025269,
      "learning_rate": 0.0008700567806397473,
      "loss": 0.4147,
      "num_input_tokens_seen": 7752360,
      "step": 11880
    },
    {
      "epoch": 6.229035639412998,
      "grad_norm": 0.11458209156990051,
      "learning_rate": 0.0008699029549443595,
      "loss": 0.3372,
      "num_input_tokens_seen": 7755016,
      "step": 11885
    },
    {
      "epoch": 6.231656184486373,
      "grad_norm": 0.12014147639274597,
      "learning_rate": 0.0008697490518694935,
      "loss": 0.4986,
      "num_input_tokens_seen": 7758120,
      "step": 11890
    },
    {
      "epoch": 6.234276729559748,
      "grad_norm": 0.19062167406082153,
      "learning_rate": 0.0008695950714473442,
      "loss": 0.6046,
      "num_input_tokens_seen": 7761032,
      "step": 11895
    },
    {
      "epoch": 6.236897274633123,
      "grad_norm": 0.12772825360298157,
      "learning_rate": 0.0008694410137101224,
      "loss": 0.4128,
      "num_input_tokens_seen": 7763240,
      "step": 11900
    },
    {
      "epoch": 6.239517819706499,
      "grad_norm": 0.08444003760814667,
      "learning_rate": 0.0008692868786900554,
      "loss": 0.4546,
      "num_input_tokens_seen": 7766664,
      "step": 11905
    },
    {
      "epoch": 6.2421383647798745,
      "grad_norm": 0.14035113155841827,
      "learning_rate": 0.0008691326664193865,
      "loss": 0.5557,
      "num_input_tokens_seen": 7769448,
      "step": 11910
    },
    {
      "epoch": 6.24475890985325,
      "grad_norm": 0.15087507665157318,
      "learning_rate": 0.000868978376930375,
      "loss": 0.5459,
      "num_input_tokens_seen": 7772296,
      "step": 11915
    },
    {
      "epoch": 6.247379454926625,
      "grad_norm": 0.099776990711689,
      "learning_rate": 0.0008688240102552965,
      "loss": 0.3879,
      "num_input_tokens_seen": 7775912,
      "step": 11920
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.06500179320573807,
      "learning_rate": 0.000868669566426443,
      "loss": 0.5187,
      "num_input_tokens_seen": 7779784,
      "step": 11925
    },
    {
      "epoch": 6.252620545073375,
      "grad_norm": 0.0867445096373558,
      "learning_rate": 0.0008685150454761222,
      "loss": 0.3386,
      "num_input_tokens_seen": 7782504,
      "step": 11930
    },
    {
      "epoch": 6.25524109014675,
      "grad_norm": 0.18861736357212067,
      "learning_rate": 0.000868360447436658,
      "loss": 0.3194,
      "num_input_tokens_seen": 7785864,
      "step": 11935
    },
    {
      "epoch": 6.2578616352201255,
      "grad_norm": 0.17271554470062256,
      "learning_rate": 0.0008682057723403907,
      "loss": 0.4046,
      "num_input_tokens_seen": 7788808,
      "step": 11940
    },
    {
      "epoch": 6.260482180293501,
      "grad_norm": 0.12248031795024872,
      "learning_rate": 0.0008680510202196765,
      "loss": 0.4369,
      "num_input_tokens_seen": 7792232,
      "step": 11945
    },
    {
      "epoch": 6.263102725366876,
      "grad_norm": 0.06510922312736511,
      "learning_rate": 0.0008678961911068879,
      "loss": 0.4147,
      "num_input_tokens_seen": 7794856,
      "step": 11950
    },
    {
      "epoch": 6.265723270440252,
      "grad_norm": 0.10921495407819748,
      "learning_rate": 0.0008677412850344133,
      "loss": 0.5656,
      "num_input_tokens_seen": 7797800,
      "step": 11955
    },
    {
      "epoch": 6.268343815513627,
      "grad_norm": 0.07848462462425232,
      "learning_rate": 0.0008675863020346573,
      "loss": 0.4068,
      "num_input_tokens_seen": 7801256,
      "step": 11960
    },
    {
      "epoch": 6.270964360587002,
      "grad_norm": 0.10278008878231049,
      "learning_rate": 0.0008674312421400405,
      "loss": 0.3917,
      "num_input_tokens_seen": 7804296,
      "step": 11965
    },
    {
      "epoch": 6.273584905660377,
      "grad_norm": 0.09680407494306564,
      "learning_rate": 0.0008672761053829997,
      "loss": 0.4592,
      "num_input_tokens_seen": 7807464,
      "step": 11970
    },
    {
      "epoch": 6.276205450733753,
      "grad_norm": 0.047737959772348404,
      "learning_rate": 0.0008671208917959878,
      "loss": 0.4034,
      "num_input_tokens_seen": 7812008,
      "step": 11975
    },
    {
      "epoch": 6.278825995807128,
      "grad_norm": 0.19555509090423584,
      "learning_rate": 0.0008669656014114737,
      "loss": 0.4566,
      "num_input_tokens_seen": 7815336,
      "step": 11980
    },
    {
      "epoch": 6.281446540880503,
      "grad_norm": 0.05452007055282593,
      "learning_rate": 0.0008668102342619424,
      "loss": 0.3762,
      "num_input_tokens_seen": 7818856,
      "step": 11985
    },
    {
      "epoch": 6.284067085953878,
      "grad_norm": 0.11894193291664124,
      "learning_rate": 0.0008666547903798947,
      "loss": 0.5703,
      "num_input_tokens_seen": 7822024,
      "step": 11990
    },
    {
      "epoch": 6.286687631027253,
      "grad_norm": 0.1028866320848465,
      "learning_rate": 0.000866499269797848,
      "loss": 0.6023,
      "num_input_tokens_seen": 7825640,
      "step": 11995
    },
    {
      "epoch": 6.289308176100629,
      "grad_norm": 0.07456650584936142,
      "learning_rate": 0.0008663436725483354,
      "loss": 0.4194,
      "num_input_tokens_seen": 7827944,
      "step": 12000
    },
    {
      "epoch": 6.2919287211740045,
      "grad_norm": 0.09377217292785645,
      "learning_rate": 0.0008661879986639058,
      "loss": 0.4597,
      "num_input_tokens_seen": 7830600,
      "step": 12005
    },
    {
      "epoch": 6.29454926624738,
      "grad_norm": 0.05699276179075241,
      "learning_rate": 0.0008660322481771246,
      "loss": 0.3349,
      "num_input_tokens_seen": 7834056,
      "step": 12010
    },
    {
      "epoch": 6.297169811320755,
      "grad_norm": 0.15263640880584717,
      "learning_rate": 0.0008658764211205731,
      "loss": 0.4414,
      "num_input_tokens_seen": 7836904,
      "step": 12015
    },
    {
      "epoch": 6.29979035639413,
      "grad_norm": 0.1875937283039093,
      "learning_rate": 0.0008657205175268484,
      "loss": 0.46,
      "num_input_tokens_seen": 7839880,
      "step": 12020
    },
    {
      "epoch": 6.302410901467505,
      "grad_norm": 0.08262525498867035,
      "learning_rate": 0.0008655645374285637,
      "loss": 0.4031,
      "num_input_tokens_seen": 7843432,
      "step": 12025
    },
    {
      "epoch": 6.30503144654088,
      "grad_norm": 0.11792649328708649,
      "learning_rate": 0.0008654084808583485,
      "loss": 0.4075,
      "num_input_tokens_seen": 7846216,
      "step": 12030
    },
    {
      "epoch": 6.3076519916142555,
      "grad_norm": 0.22042247653007507,
      "learning_rate": 0.0008652523478488478,
      "loss": 0.4687,
      "num_input_tokens_seen": 7849544,
      "step": 12035
    },
    {
      "epoch": 6.310272536687631,
      "grad_norm": 0.10115265101194382,
      "learning_rate": 0.000865096138432723,
      "loss": 0.4738,
      "num_input_tokens_seen": 7852552,
      "step": 12040
    },
    {
      "epoch": 6.312893081761006,
      "grad_norm": 0.15313951671123505,
      "learning_rate": 0.0008649398526426512,
      "loss": 0.5382,
      "num_input_tokens_seen": 7855336,
      "step": 12045
    },
    {
      "epoch": 6.315513626834382,
      "grad_norm": 0.10779953002929688,
      "learning_rate": 0.0008647834905113256,
      "loss": 0.4873,
      "num_input_tokens_seen": 7858184,
      "step": 12050
    },
    {
      "epoch": 6.318134171907757,
      "grad_norm": 0.18982431292533875,
      "learning_rate": 0.0008646270520714556,
      "loss": 0.3861,
      "num_input_tokens_seen": 7861192,
      "step": 12055
    },
    {
      "epoch": 6.320754716981132,
      "grad_norm": 0.1257815957069397,
      "learning_rate": 0.0008644705373557663,
      "loss": 0.4406,
      "num_input_tokens_seen": 7864520,
      "step": 12060
    },
    {
      "epoch": 6.323375262054507,
      "grad_norm": 0.1586150825023651,
      "learning_rate": 0.0008643139463969985,
      "loss": 0.5395,
      "num_input_tokens_seen": 7867240,
      "step": 12065
    },
    {
      "epoch": 6.325995807127883,
      "grad_norm": 0.14999175071716309,
      "learning_rate": 0.0008641572792279095,
      "loss": 0.5177,
      "num_input_tokens_seen": 7870120,
      "step": 12070
    },
    {
      "epoch": 6.328616352201258,
      "grad_norm": 0.12866026163101196,
      "learning_rate": 0.0008640005358812723,
      "loss": 0.3714,
      "num_input_tokens_seen": 7873736,
      "step": 12075
    },
    {
      "epoch": 6.331236897274633,
      "grad_norm": 0.09900552034378052,
      "learning_rate": 0.0008638437163898756,
      "loss": 0.4174,
      "num_input_tokens_seen": 7877000,
      "step": 12080
    },
    {
      "epoch": 6.333857442348008,
      "grad_norm": 0.17818185687065125,
      "learning_rate": 0.0008636868207865244,
      "loss": 0.3477,
      "num_input_tokens_seen": 7879784,
      "step": 12085
    },
    {
      "epoch": 6.336477987421383,
      "grad_norm": 0.09916643798351288,
      "learning_rate": 0.0008635298491040394,
      "loss": 0.5216,
      "num_input_tokens_seen": 7882792,
      "step": 12090
    },
    {
      "epoch": 6.339098532494759,
      "grad_norm": 0.12538796663284302,
      "learning_rate": 0.0008633728013752574,
      "loss": 0.4965,
      "num_input_tokens_seen": 7885416,
      "step": 12095
    },
    {
      "epoch": 6.3417190775681345,
      "grad_norm": 0.10592842847108841,
      "learning_rate": 0.000863215677633031,
      "loss": 0.4965,
      "num_input_tokens_seen": 7888936,
      "step": 12100
    },
    {
      "epoch": 6.34433962264151,
      "grad_norm": 0.06493794918060303,
      "learning_rate": 0.0008630584779102285,
      "loss": 0.5077,
      "num_input_tokens_seen": 7891976,
      "step": 12105
    },
    {
      "epoch": 6.346960167714885,
      "grad_norm": 0.18838272988796234,
      "learning_rate": 0.0008629012022397344,
      "loss": 0.5557,
      "num_input_tokens_seen": 7895848,
      "step": 12110
    },
    {
      "epoch": 6.34958071278826,
      "grad_norm": 0.12436455488204956,
      "learning_rate": 0.0008627438506544491,
      "loss": 0.6758,
      "num_input_tokens_seen": 7898760,
      "step": 12115
    },
    {
      "epoch": 6.352201257861635,
      "grad_norm": 0.14571718871593475,
      "learning_rate": 0.0008625864231872886,
      "loss": 0.4426,
      "num_input_tokens_seen": 7902120,
      "step": 12120
    },
    {
      "epoch": 6.35482180293501,
      "grad_norm": 0.15569905936717987,
      "learning_rate": 0.000862428919871185,
      "loss": 0.6478,
      "num_input_tokens_seen": 7905224,
      "step": 12125
    },
    {
      "epoch": 6.3574423480083855,
      "grad_norm": 0.1154644787311554,
      "learning_rate": 0.0008622713407390861,
      "loss": 0.5447,
      "num_input_tokens_seen": 7908424,
      "step": 12130
    },
    {
      "epoch": 6.360062893081761,
      "grad_norm": 0.10882443934679031,
      "learning_rate": 0.0008621136858239557,
      "loss": 0.459,
      "num_input_tokens_seen": 7911336,
      "step": 12135
    },
    {
      "epoch": 6.362683438155136,
      "grad_norm": 0.10925766825675964,
      "learning_rate": 0.0008619559551587736,
      "loss": 0.3563,
      "num_input_tokens_seen": 7913704,
      "step": 12140
    },
    {
      "epoch": 6.365303983228512,
      "grad_norm": 0.18161572515964508,
      "learning_rate": 0.0008617981487765349,
      "loss": 0.526,
      "num_input_tokens_seen": 7916584,
      "step": 12145
    },
    {
      "epoch": 6.367924528301887,
      "grad_norm": 0.09038487821817398,
      "learning_rate": 0.0008616402667102512,
      "loss": 0.5547,
      "num_input_tokens_seen": 7919880,
      "step": 12150
    },
    {
      "epoch": 6.370545073375262,
      "grad_norm": 0.1416003555059433,
      "learning_rate": 0.0008614823089929495,
      "loss": 0.5272,
      "num_input_tokens_seen": 7923752,
      "step": 12155
    },
    {
      "epoch": 6.373165618448637,
      "grad_norm": 0.08623429387807846,
      "learning_rate": 0.0008613242756576728,
      "loss": 0.5454,
      "num_input_tokens_seen": 7927464,
      "step": 12160
    },
    {
      "epoch": 6.3757861635220126,
      "grad_norm": 0.09795980155467987,
      "learning_rate": 0.0008611661667374798,
      "loss": 0.3632,
      "num_input_tokens_seen": 7930792,
      "step": 12165
    },
    {
      "epoch": 6.378406708595388,
      "grad_norm": 0.059922803193330765,
      "learning_rate": 0.0008610079822654451,
      "loss": 0.4882,
      "num_input_tokens_seen": 7935112,
      "step": 12170
    },
    {
      "epoch": 6.381027253668763,
      "grad_norm": 0.07161987572908401,
      "learning_rate": 0.0008608497222746591,
      "loss": 0.418,
      "num_input_tokens_seen": 7938152,
      "step": 12175
    },
    {
      "epoch": 6.383647798742138,
      "grad_norm": 0.08903831988573074,
      "learning_rate": 0.000860691386798228,
      "loss": 0.4663,
      "num_input_tokens_seen": 7942536,
      "step": 12180
    },
    {
      "epoch": 6.386268343815513,
      "grad_norm": 0.09718208760023117,
      "learning_rate": 0.000860532975869274,
      "loss": 0.3858,
      "num_input_tokens_seen": 7945224,
      "step": 12185
    },
    {
      "epoch": 6.388888888888889,
      "grad_norm": 0.09540808945894241,
      "learning_rate": 0.0008603744895209342,
      "loss": 0.4555,
      "num_input_tokens_seen": 7948520,
      "step": 12190
    },
    {
      "epoch": 6.3915094339622645,
      "grad_norm": 0.12860773503780365,
      "learning_rate": 0.0008602159277863628,
      "loss": 0.5242,
      "num_input_tokens_seen": 7951368,
      "step": 12195
    },
    {
      "epoch": 6.39412997903564,
      "grad_norm": 0.10511837899684906,
      "learning_rate": 0.0008600572906987289,
      "loss": 0.6007,
      "num_input_tokens_seen": 7954472,
      "step": 12200
    },
    {
      "epoch": 6.396750524109015,
      "grad_norm": 0.12603646516799927,
      "learning_rate": 0.0008598985782912174,
      "loss": 0.5074,
      "num_input_tokens_seen": 7957000,
      "step": 12205
    },
    {
      "epoch": 6.39937106918239,
      "grad_norm": 0.09858313947916031,
      "learning_rate": 0.0008597397905970293,
      "loss": 0.4587,
      "num_input_tokens_seen": 7959400,
      "step": 12210
    },
    {
      "epoch": 6.401991614255765,
      "grad_norm": 0.2350578010082245,
      "learning_rate": 0.0008595809276493812,
      "loss": 0.4603,
      "num_input_tokens_seen": 7962312,
      "step": 12215
    },
    {
      "epoch": 6.40461215932914,
      "grad_norm": 0.13544760644435883,
      "learning_rate": 0.0008594219894815054,
      "loss": 0.5509,
      "num_input_tokens_seen": 7965768,
      "step": 12220
    },
    {
      "epoch": 6.4072327044025155,
      "grad_norm": 0.09185481816530228,
      "learning_rate": 0.0008592629761266497,
      "loss": 0.3761,
      "num_input_tokens_seen": 7972840,
      "step": 12225
    },
    {
      "epoch": 6.409853249475891,
      "grad_norm": 0.1716160923242569,
      "learning_rate": 0.0008591038876180784,
      "loss": 0.5026,
      "num_input_tokens_seen": 7975304,
      "step": 12230
    },
    {
      "epoch": 6.412473794549266,
      "grad_norm": 0.11745968461036682,
      "learning_rate": 0.0008589447239890705,
      "loss": 0.3689,
      "num_input_tokens_seen": 7977928,
      "step": 12235
    },
    {
      "epoch": 6.415094339622642,
      "grad_norm": 0.09377826750278473,
      "learning_rate": 0.0008587854852729213,
      "loss": 0.4517,
      "num_input_tokens_seen": 7982120,
      "step": 12240
    },
    {
      "epoch": 6.417714884696017,
      "grad_norm": 0.12376776337623596,
      "learning_rate": 0.000858626171502942,
      "loss": 0.4353,
      "num_input_tokens_seen": 7985032,
      "step": 12245
    },
    {
      "epoch": 6.420335429769392,
      "grad_norm": 0.09305673092603683,
      "learning_rate": 0.0008584667827124589,
      "loss": 0.4341,
      "num_input_tokens_seen": 7987272,
      "step": 12250
    },
    {
      "epoch": 6.422955974842767,
      "grad_norm": 0.07956814765930176,
      "learning_rate": 0.0008583073189348145,
      "loss": 0.4936,
      "num_input_tokens_seen": 7990152,
      "step": 12255
    },
    {
      "epoch": 6.4255765199161425,
      "grad_norm": 0.11165442317724228,
      "learning_rate": 0.0008581477802033668,
      "loss": 0.5264,
      "num_input_tokens_seen": 7992648,
      "step": 12260
    },
    {
      "epoch": 6.428197064989518,
      "grad_norm": 0.09375695139169693,
      "learning_rate": 0.0008579881665514895,
      "loss": 0.4248,
      "num_input_tokens_seen": 7995880,
      "step": 12265
    },
    {
      "epoch": 6.430817610062893,
      "grad_norm": 0.19853894412517548,
      "learning_rate": 0.0008578284780125718,
      "loss": 0.4322,
      "num_input_tokens_seen": 7998312,
      "step": 12270
    },
    {
      "epoch": 6.433438155136268,
      "grad_norm": 0.0855468288064003,
      "learning_rate": 0.0008576687146200189,
      "loss": 0.4135,
      "num_input_tokens_seen": 8001768,
      "step": 12275
    },
    {
      "epoch": 6.436058700209643,
      "grad_norm": 0.18122312426567078,
      "learning_rate": 0.0008575088764072511,
      "loss": 0.4168,
      "num_input_tokens_seen": 8004392,
      "step": 12280
    },
    {
      "epoch": 6.438679245283019,
      "grad_norm": 0.09953632950782776,
      "learning_rate": 0.0008573489634077054,
      "loss": 0.4403,
      "num_input_tokens_seen": 8006984,
      "step": 12285
    },
    {
      "epoch": 6.441299790356394,
      "grad_norm": 0.06688188016414642,
      "learning_rate": 0.0008571889756548333,
      "loss": 0.6202,
      "num_input_tokens_seen": 8010920,
      "step": 12290
    },
    {
      "epoch": 6.44392033542977,
      "grad_norm": 0.12291409820318222,
      "learning_rate": 0.0008570289131821025,
      "loss": 0.5068,
      "num_input_tokens_seen": 8013800,
      "step": 12295
    },
    {
      "epoch": 6.446540880503145,
      "grad_norm": 0.1197703406214714,
      "learning_rate": 0.0008568687760229963,
      "loss": 0.3699,
      "num_input_tokens_seen": 8016616,
      "step": 12300
    },
    {
      "epoch": 6.44916142557652,
      "grad_norm": 0.08575113117694855,
      "learning_rate": 0.0008567085642110135,
      "loss": 0.4009,
      "num_input_tokens_seen": 8020040,
      "step": 12305
    },
    {
      "epoch": 6.451781970649895,
      "grad_norm": 0.098018117249012,
      "learning_rate": 0.0008565482777796687,
      "loss": 0.3985,
      "num_input_tokens_seen": 8024008,
      "step": 12310
    },
    {
      "epoch": 6.45440251572327,
      "grad_norm": 0.12313463538885117,
      "learning_rate": 0.0008563879167624919,
      "loss": 0.4797,
      "num_input_tokens_seen": 8027528,
      "step": 12315
    },
    {
      "epoch": 6.4570230607966455,
      "grad_norm": 0.20753991603851318,
      "learning_rate": 0.0008562274811930287,
      "loss": 0.5251,
      "num_input_tokens_seen": 8030312,
      "step": 12320
    },
    {
      "epoch": 6.459643605870021,
      "grad_norm": 0.1102941706776619,
      "learning_rate": 0.0008560669711048406,
      "loss": 0.3381,
      "num_input_tokens_seen": 8034280,
      "step": 12325
    },
    {
      "epoch": 6.462264150943396,
      "grad_norm": 0.08369558304548264,
      "learning_rate": 0.0008559063865315042,
      "loss": 0.4961,
      "num_input_tokens_seen": 8038408,
      "step": 12330
    },
    {
      "epoch": 6.464884696016772,
      "grad_norm": 0.10086033493280411,
      "learning_rate": 0.0008557457275066122,
      "loss": 0.4513,
      "num_input_tokens_seen": 8041544,
      "step": 12335
    },
    {
      "epoch": 6.467505241090147,
      "grad_norm": 0.060124628245830536,
      "learning_rate": 0.0008555849940637725,
      "loss": 0.3139,
      "num_input_tokens_seen": 8045096,
      "step": 12340
    },
    {
      "epoch": 6.470125786163522,
      "grad_norm": 0.06690020859241486,
      "learning_rate": 0.000855424186236609,
      "loss": 0.4118,
      "num_input_tokens_seen": 8049064,
      "step": 12345
    },
    {
      "epoch": 6.472746331236897,
      "grad_norm": 0.09576048702001572,
      "learning_rate": 0.0008552633040587605,
      "loss": 0.4991,
      "num_input_tokens_seen": 8051816,
      "step": 12350
    },
    {
      "epoch": 6.4753668763102725,
      "grad_norm": 0.12932316958904266,
      "learning_rate": 0.0008551023475638819,
      "loss": 0.4593,
      "num_input_tokens_seen": 8055528,
      "step": 12355
    },
    {
      "epoch": 6.477987421383648,
      "grad_norm": 0.10908866673707962,
      "learning_rate": 0.0008549413167856432,
      "loss": 0.384,
      "num_input_tokens_seen": 8058472,
      "step": 12360
    },
    {
      "epoch": 6.480607966457023,
      "grad_norm": 0.10568306595087051,
      "learning_rate": 0.0008547802117577307,
      "loss": 0.6631,
      "num_input_tokens_seen": 8061608,
      "step": 12365
    },
    {
      "epoch": 6.483228511530398,
      "grad_norm": 0.07055024802684784,
      "learning_rate": 0.0008546190325138454,
      "loss": 0.4787,
      "num_input_tokens_seen": 8064648,
      "step": 12370
    },
    {
      "epoch": 6.485849056603773,
      "grad_norm": 0.09535421431064606,
      "learning_rate": 0.000854457779087704,
      "loss": 0.6276,
      "num_input_tokens_seen": 8067496,
      "step": 12375
    },
    {
      "epoch": 6.488469601677149,
      "grad_norm": 0.10535632818937302,
      "learning_rate": 0.0008542964515130392,
      "loss": 0.4172,
      "num_input_tokens_seen": 8069864,
      "step": 12380
    },
    {
      "epoch": 6.491090146750524,
      "grad_norm": 0.11147280037403107,
      "learning_rate": 0.0008541350498235989,
      "loss": 0.5688,
      "num_input_tokens_seen": 8072936,
      "step": 12385
    },
    {
      "epoch": 6.4937106918239,
      "grad_norm": 0.13008591532707214,
      "learning_rate": 0.0008539735740531462,
      "loss": 0.5545,
      "num_input_tokens_seen": 8075784,
      "step": 12390
    },
    {
      "epoch": 6.496331236897275,
      "grad_norm": 0.18719010055065155,
      "learning_rate": 0.0008538120242354602,
      "loss": 0.4927,
      "num_input_tokens_seen": 8078280,
      "step": 12395
    },
    {
      "epoch": 6.49895178197065,
      "grad_norm": 0.09322337806224823,
      "learning_rate": 0.0008536504004043353,
      "loss": 0.3505,
      "num_input_tokens_seen": 8081992,
      "step": 12400
    },
    {
      "epoch": 6.501572327044025,
      "grad_norm": 0.15248756110668182,
      "learning_rate": 0.0008534887025935811,
      "loss": 0.5085,
      "num_input_tokens_seen": 8085672,
      "step": 12405
    },
    {
      "epoch": 6.5041928721174,
      "grad_norm": 0.07071776688098907,
      "learning_rate": 0.0008533269308370233,
      "loss": 0.4039,
      "num_input_tokens_seen": 8089000,
      "step": 12410
    },
    {
      "epoch": 6.506813417190775,
      "grad_norm": 0.06560277938842773,
      "learning_rate": 0.0008531650851685025,
      "loss": 0.3999,
      "num_input_tokens_seen": 8092168,
      "step": 12415
    },
    {
      "epoch": 6.509433962264151,
      "grad_norm": 0.09322313219308853,
      "learning_rate": 0.000853003165621875,
      "loss": 0.4847,
      "num_input_tokens_seen": 8094728,
      "step": 12420
    },
    {
      "epoch": 6.512054507337526,
      "grad_norm": 0.15087153017520905,
      "learning_rate": 0.0008528411722310126,
      "loss": 0.5035,
      "num_input_tokens_seen": 8098088,
      "step": 12425
    },
    {
      "epoch": 6.514675052410902,
      "grad_norm": 0.10209377110004425,
      "learning_rate": 0.0008526791050298022,
      "loss": 0.4694,
      "num_input_tokens_seen": 8100904,
      "step": 12430
    },
    {
      "epoch": 6.517295597484277,
      "grad_norm": 0.11731559783220291,
      "learning_rate": 0.0008525169640521467,
      "loss": 0.3852,
      "num_input_tokens_seen": 8104264,
      "step": 12435
    },
    {
      "epoch": 6.519916142557652,
      "grad_norm": 0.09106912463903427,
      "learning_rate": 0.0008523547493319641,
      "loss": 0.3511,
      "num_input_tokens_seen": 8107144,
      "step": 12440
    },
    {
      "epoch": 6.522536687631027,
      "grad_norm": 0.101629838347435,
      "learning_rate": 0.0008521924609031877,
      "loss": 0.4673,
      "num_input_tokens_seen": 8111304,
      "step": 12445
    },
    {
      "epoch": 6.5251572327044025,
      "grad_norm": 0.11791105568408966,
      "learning_rate": 0.0008520300987997667,
      "loss": 0.5,
      "num_input_tokens_seen": 8114056,
      "step": 12450
    },
    {
      "epoch": 6.527777777777778,
      "grad_norm": 0.15882274508476257,
      "learning_rate": 0.000851867663055665,
      "loss": 0.5517,
      "num_input_tokens_seen": 8116808,
      "step": 12455
    },
    {
      "epoch": 6.530398322851153,
      "grad_norm": 0.15141619741916656,
      "learning_rate": 0.0008517051537048625,
      "loss": 0.4694,
      "num_input_tokens_seen": 8119496,
      "step": 12460
    },
    {
      "epoch": 6.533018867924528,
      "grad_norm": 0.1395922601222992,
      "learning_rate": 0.0008515425707813544,
      "loss": 0.5097,
      "num_input_tokens_seen": 8122728,
      "step": 12465
    },
    {
      "epoch": 6.535639412997903,
      "grad_norm": 0.12544554471969604,
      "learning_rate": 0.0008513799143191512,
      "loss": 0.5748,
      "num_input_tokens_seen": 8126504,
      "step": 12470
    },
    {
      "epoch": 6.538259958071279,
      "grad_norm": 0.18141137063503265,
      "learning_rate": 0.0008512171843522786,
      "loss": 0.628,
      "num_input_tokens_seen": 8128776,
      "step": 12475
    },
    {
      "epoch": 6.540880503144654,
      "grad_norm": 0.09834457188844681,
      "learning_rate": 0.000851054380914778,
      "loss": 0.5422,
      "num_input_tokens_seen": 8131720,
      "step": 12480
    },
    {
      "epoch": 6.54350104821803,
      "grad_norm": 0.101329006254673,
      "learning_rate": 0.0008508915040407057,
      "loss": 0.545,
      "num_input_tokens_seen": 8135624,
      "step": 12485
    },
    {
      "epoch": 6.546121593291405,
      "grad_norm": 0.10660173743963242,
      "learning_rate": 0.0008507285537641342,
      "loss": 0.4298,
      "num_input_tokens_seen": 8138632,
      "step": 12490
    },
    {
      "epoch": 6.54874213836478,
      "grad_norm": 0.1365203708410263,
      "learning_rate": 0.0008505655301191504,
      "loss": 0.4835,
      "num_input_tokens_seen": 8142184,
      "step": 12495
    },
    {
      "epoch": 6.551362683438155,
      "grad_norm": 0.07255424559116364,
      "learning_rate": 0.0008504024331398572,
      "loss": 0.5351,
      "num_input_tokens_seen": 8146792,
      "step": 12500
    },
    {
      "epoch": 6.55398322851153,
      "grad_norm": 0.12272053956985474,
      "learning_rate": 0.0008502392628603727,
      "loss": 0.3862,
      "num_input_tokens_seen": 8150504,
      "step": 12505
    },
    {
      "epoch": 6.556603773584905,
      "grad_norm": 0.08131607621908188,
      "learning_rate": 0.0008500760193148301,
      "loss": 0.4539,
      "num_input_tokens_seen": 8153000,
      "step": 12510
    },
    {
      "epoch": 6.559224318658281,
      "grad_norm": 0.17420905828475952,
      "learning_rate": 0.0008499127025373781,
      "loss": 0.3972,
      "num_input_tokens_seen": 8155720,
      "step": 12515
    },
    {
      "epoch": 6.561844863731656,
      "grad_norm": 0.09392230957746506,
      "learning_rate": 0.0008497493125621807,
      "loss": 0.4316,
      "num_input_tokens_seen": 8159400,
      "step": 12520
    },
    {
      "epoch": 6.564465408805032,
      "grad_norm": 0.07650002092123032,
      "learning_rate": 0.0008495858494234173,
      "loss": 0.3652,
      "num_input_tokens_seen": 8162952,
      "step": 12525
    },
    {
      "epoch": 6.567085953878407,
      "grad_norm": 0.13569815456867218,
      "learning_rate": 0.0008494223131552825,
      "loss": 0.4704,
      "num_input_tokens_seen": 8166376,
      "step": 12530
    },
    {
      "epoch": 6.569706498951782,
      "grad_norm": 0.1382598876953125,
      "learning_rate": 0.0008492587037919864,
      "loss": 0.5102,
      "num_input_tokens_seen": 8169064,
      "step": 12535
    },
    {
      "epoch": 6.572327044025157,
      "grad_norm": 0.08129902184009552,
      "learning_rate": 0.0008490950213677537,
      "loss": 0.5551,
      "num_input_tokens_seen": 8171976,
      "step": 12540
    },
    {
      "epoch": 6.5749475890985325,
      "grad_norm": 0.11892248690128326,
      "learning_rate": 0.0008489312659168254,
      "loss": 0.4558,
      "num_input_tokens_seen": 8176200,
      "step": 12545
    },
    {
      "epoch": 6.577568134171908,
      "grad_norm": 0.08690586686134338,
      "learning_rate": 0.0008487674374734569,
      "loss": 0.4676,
      "num_input_tokens_seen": 8179368,
      "step": 12550
    },
    {
      "epoch": 6.580188679245283,
      "grad_norm": 0.14858998358249664,
      "learning_rate": 0.0008486035360719197,
      "loss": 0.3494,
      "num_input_tokens_seen": 8182248,
      "step": 12555
    },
    {
      "epoch": 6.582809224318658,
      "grad_norm": 0.12536506354808807,
      "learning_rate": 0.0008484395617464997,
      "loss": 0.5691,
      "num_input_tokens_seen": 8184776,
      "step": 12560
    },
    {
      "epoch": 6.585429769392033,
      "grad_norm": 0.06739994883537292,
      "learning_rate": 0.0008482755145314986,
      "loss": 0.389,
      "num_input_tokens_seen": 8187976,
      "step": 12565
    },
    {
      "epoch": 6.588050314465409,
      "grad_norm": 0.11447186022996902,
      "learning_rate": 0.0008481113944612331,
      "loss": 0.4587,
      "num_input_tokens_seen": 8190984,
      "step": 12570
    },
    {
      "epoch": 6.590670859538784,
      "grad_norm": 0.11045899987220764,
      "learning_rate": 0.0008479472015700356,
      "loss": 0.4061,
      "num_input_tokens_seen": 8194568,
      "step": 12575
    },
    {
      "epoch": 6.59329140461216,
      "grad_norm": 0.13977353274822235,
      "learning_rate": 0.0008477829358922529,
      "loss": 0.5912,
      "num_input_tokens_seen": 8197512,
      "step": 12580
    },
    {
      "epoch": 6.595911949685535,
      "grad_norm": 0.11936106532812119,
      "learning_rate": 0.0008476185974622477,
      "loss": 0.4305,
      "num_input_tokens_seen": 8201128,
      "step": 12585
    },
    {
      "epoch": 6.59853249475891,
      "grad_norm": 0.08324392884969711,
      "learning_rate": 0.0008474541863143978,
      "loss": 0.3128,
      "num_input_tokens_seen": 8204392,
      "step": 12590
    },
    {
      "epoch": 6.601153039832285,
      "grad_norm": 0.10660805553197861,
      "learning_rate": 0.0008472897024830961,
      "loss": 0.4907,
      "num_input_tokens_seen": 8206952,
      "step": 12595
    },
    {
      "epoch": 6.60377358490566,
      "grad_norm": 0.2073008418083191,
      "learning_rate": 0.0008471251460027508,
      "loss": 0.3929,
      "num_input_tokens_seen": 8209768,
      "step": 12600
    },
    {
      "epoch": 6.606394129979035,
      "grad_norm": 0.08904408663511276,
      "learning_rate": 0.0008469605169077852,
      "loss": 0.5509,
      "num_input_tokens_seen": 8216680,
      "step": 12605
    },
    {
      "epoch": 6.609014675052411,
      "grad_norm": 0.09658317267894745,
      "learning_rate": 0.0008467958152326377,
      "loss": 0.4409,
      "num_input_tokens_seen": 8220552,
      "step": 12610
    },
    {
      "epoch": 6.611635220125786,
      "grad_norm": 0.08995404839515686,
      "learning_rate": 0.0008466310410117622,
      "loss": 0.4908,
      "num_input_tokens_seen": 8225064,
      "step": 12615
    },
    {
      "epoch": 6.614255765199162,
      "grad_norm": 0.11098329722881317,
      "learning_rate": 0.0008464661942796275,
      "loss": 0.522,
      "num_input_tokens_seen": 8228168,
      "step": 12620
    },
    {
      "epoch": 6.616876310272537,
      "grad_norm": 0.26265302300453186,
      "learning_rate": 0.0008463012750707175,
      "loss": 0.3793,
      "num_input_tokens_seen": 8231944,
      "step": 12625
    },
    {
      "epoch": 6.619496855345912,
      "grad_norm": 0.1322731077671051,
      "learning_rate": 0.0008461362834195316,
      "loss": 0.4704,
      "num_input_tokens_seen": 8235848,
      "step": 12630
    },
    {
      "epoch": 6.622117400419287,
      "grad_norm": 0.0821375921368599,
      "learning_rate": 0.0008459712193605842,
      "loss": 0.5296,
      "num_input_tokens_seen": 8238792,
      "step": 12635
    },
    {
      "epoch": 6.6247379454926625,
      "grad_norm": 0.13138975203037262,
      "learning_rate": 0.0008458060829284048,
      "loss": 0.4474,
      "num_input_tokens_seen": 8242088,
      "step": 12640
    },
    {
      "epoch": 6.627358490566038,
      "grad_norm": 0.09126385301351547,
      "learning_rate": 0.0008456408741575378,
      "loss": 0.5875,
      "num_input_tokens_seen": 8244616,
      "step": 12645
    },
    {
      "epoch": 6.629979035639413,
      "grad_norm": 0.11920440942049026,
      "learning_rate": 0.0008454755930825435,
      "loss": 0.4157,
      "num_input_tokens_seen": 8247912,
      "step": 12650
    },
    {
      "epoch": 6.632599580712788,
      "grad_norm": 0.0861358791589737,
      "learning_rate": 0.0008453102397379963,
      "loss": 0.455,
      "num_input_tokens_seen": 8251816,
      "step": 12655
    },
    {
      "epoch": 6.635220125786163,
      "grad_norm": 0.11317930370569229,
      "learning_rate": 0.0008451448141584868,
      "loss": 0.5151,
      "num_input_tokens_seen": 8255432,
      "step": 12660
    },
    {
      "epoch": 6.637840670859539,
      "grad_norm": 0.06071346625685692,
      "learning_rate": 0.0008449793163786194,
      "loss": 0.3371,
      "num_input_tokens_seen": 8258824,
      "step": 12665
    },
    {
      "epoch": 6.640461215932914,
      "grad_norm": 0.12780055403709412,
      "learning_rate": 0.0008448137464330149,
      "loss": 0.5247,
      "num_input_tokens_seen": 8262888,
      "step": 12670
    },
    {
      "epoch": 6.6430817610062896,
      "grad_norm": 0.10597053915262222,
      "learning_rate": 0.0008446481043563086,
      "loss": 0.3633,
      "num_input_tokens_seen": 8266568,
      "step": 12675
    },
    {
      "epoch": 6.645702306079665,
      "grad_norm": 0.10488170385360718,
      "learning_rate": 0.0008444823901831507,
      "loss": 0.5251,
      "num_input_tokens_seen": 8269800,
      "step": 12680
    },
    {
      "epoch": 6.64832285115304,
      "grad_norm": 0.08850619941949844,
      "learning_rate": 0.0008443166039482067,
      "loss": 0.3859,
      "num_input_tokens_seen": 8272936,
      "step": 12685
    },
    {
      "epoch": 6.650943396226415,
      "grad_norm": 0.10076292604207993,
      "learning_rate": 0.0008441507456861575,
      "loss": 0.4809,
      "num_input_tokens_seen": 8276104,
      "step": 12690
    },
    {
      "epoch": 6.65356394129979,
      "grad_norm": 0.06702062487602234,
      "learning_rate": 0.0008439848154316985,
      "loss": 0.3876,
      "num_input_tokens_seen": 8278728,
      "step": 12695
    },
    {
      "epoch": 6.656184486373165,
      "grad_norm": 0.09818752855062485,
      "learning_rate": 0.0008438188132195406,
      "loss": 0.4401,
      "num_input_tokens_seen": 8282312,
      "step": 12700
    },
    {
      "epoch": 6.658805031446541,
      "grad_norm": 0.08315656334161758,
      "learning_rate": 0.0008436527390844094,
      "loss": 0.4989,
      "num_input_tokens_seen": 8285800,
      "step": 12705
    },
    {
      "epoch": 6.661425576519916,
      "grad_norm": 0.12982399761676788,
      "learning_rate": 0.0008434865930610458,
      "loss": 0.5546,
      "num_input_tokens_seen": 8288648,
      "step": 12710
    },
    {
      "epoch": 6.664046121593291,
      "grad_norm": 0.12561534345149994,
      "learning_rate": 0.0008433203751842057,
      "loss": 0.4176,
      "num_input_tokens_seen": 8291688,
      "step": 12715
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.15375414490699768,
      "learning_rate": 0.0008431540854886598,
      "loss": 0.5403,
      "num_input_tokens_seen": 8295400,
      "step": 12720
    },
    {
      "epoch": 6.669287211740042,
      "grad_norm": 0.07561640441417694,
      "learning_rate": 0.0008429877240091941,
      "loss": 0.4435,
      "num_input_tokens_seen": 8297704,
      "step": 12725
    },
    {
      "epoch": 6.671907756813417,
      "grad_norm": 0.14213013648986816,
      "learning_rate": 0.0008428212907806097,
      "loss": 0.6194,
      "num_input_tokens_seen": 8300808,
      "step": 12730
    },
    {
      "epoch": 6.6745283018867925,
      "grad_norm": 0.10740559548139572,
      "learning_rate": 0.0008426547858377222,
      "loss": 0.6239,
      "num_input_tokens_seen": 8304104,
      "step": 12735
    },
    {
      "epoch": 6.677148846960168,
      "grad_norm": 0.1584581881761551,
      "learning_rate": 0.0008424882092153629,
      "loss": 0.5518,
      "num_input_tokens_seen": 8307784,
      "step": 12740
    },
    {
      "epoch": 6.679769392033543,
      "grad_norm": 0.06725524365901947,
      "learning_rate": 0.0008423215609483774,
      "loss": 0.4269,
      "num_input_tokens_seen": 8311848,
      "step": 12745
    },
    {
      "epoch": 6.682389937106918,
      "grad_norm": 0.08100467920303345,
      "learning_rate": 0.0008421548410716269,
      "loss": 0.4752,
      "num_input_tokens_seen": 8315272,
      "step": 12750
    },
    {
      "epoch": 6.685010482180293,
      "grad_norm": 0.11448172479867935,
      "learning_rate": 0.0008419880496199869,
      "loss": 0.3885,
      "num_input_tokens_seen": 8318376,
      "step": 12755
    },
    {
      "epoch": 6.687631027253669,
      "grad_norm": 0.06711245328187943,
      "learning_rate": 0.0008418211866283488,
      "loss": 0.448,
      "num_input_tokens_seen": 8322248,
      "step": 12760
    },
    {
      "epoch": 6.690251572327044,
      "grad_norm": 0.060337360948324203,
      "learning_rate": 0.0008416542521316182,
      "loss": 0.3097,
      "num_input_tokens_seen": 8326056,
      "step": 12765
    },
    {
      "epoch": 6.6928721174004195,
      "grad_norm": 0.08357522636651993,
      "learning_rate": 0.0008414872461647156,
      "loss": 0.5285,
      "num_input_tokens_seen": 8329608,
      "step": 12770
    },
    {
      "epoch": 6.695492662473795,
      "grad_norm": 0.10261561721563339,
      "learning_rate": 0.0008413201687625772,
      "loss": 0.4609,
      "num_input_tokens_seen": 8332072,
      "step": 12775
    },
    {
      "epoch": 6.69811320754717,
      "grad_norm": 0.10879571735858917,
      "learning_rate": 0.0008411530199601534,
      "loss": 0.4877,
      "num_input_tokens_seen": 8334760,
      "step": 12780
    },
    {
      "epoch": 6.700733752620545,
      "grad_norm": 0.0928552895784378,
      "learning_rate": 0.0008409857997924097,
      "loss": 0.3696,
      "num_input_tokens_seen": 8337736,
      "step": 12785
    },
    {
      "epoch": 6.70335429769392,
      "grad_norm": 0.12669482827186584,
      "learning_rate": 0.0008408185082943271,
      "loss": 0.3691,
      "num_input_tokens_seen": 8340488,
      "step": 12790
    },
    {
      "epoch": 6.705974842767295,
      "grad_norm": 0.16096816956996918,
      "learning_rate": 0.0008406511455009007,
      "loss": 0.4865,
      "num_input_tokens_seen": 8343176,
      "step": 12795
    },
    {
      "epoch": 6.7085953878406706,
      "grad_norm": 0.08782326430082321,
      "learning_rate": 0.000840483711447141,
      "loss": 0.5474,
      "num_input_tokens_seen": 8346376,
      "step": 12800
    },
    {
      "epoch": 6.711215932914046,
      "grad_norm": 0.09056204557418823,
      "learning_rate": 0.0008403162061680736,
      "loss": 0.4201,
      "num_input_tokens_seen": 8349672,
      "step": 12805
    },
    {
      "epoch": 6.713836477987421,
      "grad_norm": 0.1093936339020729,
      "learning_rate": 0.0008401486296987382,
      "loss": 0.4804,
      "num_input_tokens_seen": 8352232,
      "step": 12810
    },
    {
      "epoch": 6.716457023060797,
      "grad_norm": 0.08703870326280594,
      "learning_rate": 0.0008399809820741901,
      "loss": 0.3682,
      "num_input_tokens_seen": 8355592,
      "step": 12815
    },
    {
      "epoch": 6.719077568134172,
      "grad_norm": 0.08265560120344162,
      "learning_rate": 0.0008398132633294993,
      "loss": 0.3663,
      "num_input_tokens_seen": 8357736,
      "step": 12820
    },
    {
      "epoch": 6.721698113207547,
      "grad_norm": 0.09496825933456421,
      "learning_rate": 0.0008396454734997506,
      "loss": 0.3838,
      "num_input_tokens_seen": 8362568,
      "step": 12825
    },
    {
      "epoch": 6.7243186582809225,
      "grad_norm": 0.09450200945138931,
      "learning_rate": 0.0008394776126200436,
      "loss": 0.4813,
      "num_input_tokens_seen": 8366152,
      "step": 12830
    },
    {
      "epoch": 6.726939203354298,
      "grad_norm": 0.20799683034420013,
      "learning_rate": 0.0008393096807254931,
      "loss": 0.4496,
      "num_input_tokens_seen": 8368456,
      "step": 12835
    },
    {
      "epoch": 6.729559748427673,
      "grad_norm": 0.11123345047235489,
      "learning_rate": 0.0008391416778512284,
      "loss": 0.4859,
      "num_input_tokens_seen": 8371560,
      "step": 12840
    },
    {
      "epoch": 6.732180293501048,
      "grad_norm": 0.14132601022720337,
      "learning_rate": 0.0008389736040323939,
      "loss": 0.4689,
      "num_input_tokens_seen": 8374792,
      "step": 12845
    },
    {
      "epoch": 6.734800838574423,
      "grad_norm": 0.12569324672222137,
      "learning_rate": 0.0008388054593041485,
      "loss": 0.436,
      "num_input_tokens_seen": 8377832,
      "step": 12850
    },
    {
      "epoch": 6.737421383647799,
      "grad_norm": 0.08040989935398102,
      "learning_rate": 0.0008386372437016665,
      "loss": 0.5258,
      "num_input_tokens_seen": 8380872,
      "step": 12855
    },
    {
      "epoch": 6.740041928721174,
      "grad_norm": 0.07965586334466934,
      "learning_rate": 0.0008384689572601364,
      "loss": 0.4624,
      "num_input_tokens_seen": 8384264,
      "step": 12860
    },
    {
      "epoch": 6.7426624737945495,
      "grad_norm": 0.06632319837808609,
      "learning_rate": 0.000838300600014762,
      "loss": 0.4837,
      "num_input_tokens_seen": 8389064,
      "step": 12865
    },
    {
      "epoch": 6.745283018867925,
      "grad_norm": 0.13302886486053467,
      "learning_rate": 0.0008381321720007613,
      "loss": 0.5443,
      "num_input_tokens_seen": 8391976,
      "step": 12870
    },
    {
      "epoch": 6.7479035639413,
      "grad_norm": 0.09415063261985779,
      "learning_rate": 0.0008379636732533681,
      "loss": 0.3652,
      "num_input_tokens_seen": 8395176,
      "step": 12875
    },
    {
      "epoch": 6.750524109014675,
      "grad_norm": 0.14915157854557037,
      "learning_rate": 0.0008377951038078302,
      "loss": 0.55,
      "num_input_tokens_seen": 8398216,
      "step": 12880
    },
    {
      "epoch": 6.75314465408805,
      "grad_norm": 0.07010987401008606,
      "learning_rate": 0.0008376264636994102,
      "loss": 0.5032,
      "num_input_tokens_seen": 8402120,
      "step": 12885
    },
    {
      "epoch": 6.755765199161425,
      "grad_norm": 0.10326386243104935,
      "learning_rate": 0.000837457752963386,
      "loss": 0.5198,
      "num_input_tokens_seen": 8405736,
      "step": 12890
    },
    {
      "epoch": 6.7583857442348005,
      "grad_norm": 0.3686521053314209,
      "learning_rate": 0.0008372889716350496,
      "loss": 0.5604,
      "num_input_tokens_seen": 8408808,
      "step": 12895
    },
    {
      "epoch": 6.761006289308176,
      "grad_norm": 0.11165366321802139,
      "learning_rate": 0.0008371201197497084,
      "loss": 0.3898,
      "num_input_tokens_seen": 8411400,
      "step": 12900
    },
    {
      "epoch": 6.763626834381551,
      "grad_norm": 0.08776131272315979,
      "learning_rate": 0.0008369511973426842,
      "loss": 0.3356,
      "num_input_tokens_seen": 8414632,
      "step": 12905
    },
    {
      "epoch": 6.766247379454927,
      "grad_norm": 0.11730676889419556,
      "learning_rate": 0.0008367822044493138,
      "loss": 0.4877,
      "num_input_tokens_seen": 8417256,
      "step": 12910
    },
    {
      "epoch": 6.768867924528302,
      "grad_norm": 0.0780317559838295,
      "learning_rate": 0.0008366131411049483,
      "loss": 0.3927,
      "num_input_tokens_seen": 8420584,
      "step": 12915
    },
    {
      "epoch": 6.771488469601677,
      "grad_norm": 0.07993180304765701,
      "learning_rate": 0.000836444007344954,
      "loss": 0.5569,
      "num_input_tokens_seen": 8423912,
      "step": 12920
    },
    {
      "epoch": 6.774109014675052,
      "grad_norm": 0.09661246836185455,
      "learning_rate": 0.0008362748032047119,
      "loss": 0.3627,
      "num_input_tokens_seen": 8427368,
      "step": 12925
    },
    {
      "epoch": 6.776729559748428,
      "grad_norm": 0.07736404240131378,
      "learning_rate": 0.0008361055287196171,
      "loss": 0.4616,
      "num_input_tokens_seen": 8431176,
      "step": 12930
    },
    {
      "epoch": 6.779350104821803,
      "grad_norm": 0.09514207392930984,
      "learning_rate": 0.0008359361839250803,
      "loss": 0.4392,
      "num_input_tokens_seen": 8433768,
      "step": 12935
    },
    {
      "epoch": 6.781970649895178,
      "grad_norm": 0.12105651199817657,
      "learning_rate": 0.0008357667688565265,
      "loss": 0.3937,
      "num_input_tokens_seen": 8437384,
      "step": 12940
    },
    {
      "epoch": 6.784591194968553,
      "grad_norm": 0.13465295732021332,
      "learning_rate": 0.0008355972835493951,
      "loss": 0.3901,
      "num_input_tokens_seen": 8441192,
      "step": 12945
    },
    {
      "epoch": 6.787211740041929,
      "grad_norm": 0.09466346353292465,
      "learning_rate": 0.0008354277280391408,
      "loss": 0.5972,
      "num_input_tokens_seen": 8446504,
      "step": 12950
    },
    {
      "epoch": 6.789832285115304,
      "grad_norm": 0.1029476672410965,
      "learning_rate": 0.0008352581023612324,
      "loss": 0.3957,
      "num_input_tokens_seen": 8449384,
      "step": 12955
    },
    {
      "epoch": 6.7924528301886795,
      "grad_norm": 0.1613312065601349,
      "learning_rate": 0.0008350884065511541,
      "loss": 0.4108,
      "num_input_tokens_seen": 8452456,
      "step": 12960
    },
    {
      "epoch": 6.795073375262055,
      "grad_norm": 0.10702396929264069,
      "learning_rate": 0.0008349186406444038,
      "loss": 0.49,
      "num_input_tokens_seen": 8457000,
      "step": 12965
    },
    {
      "epoch": 6.79769392033543,
      "grad_norm": 0.13430263102054596,
      "learning_rate": 0.0008347488046764949,
      "loss": 0.4501,
      "num_input_tokens_seen": 8461576,
      "step": 12970
    },
    {
      "epoch": 6.800314465408805,
      "grad_norm": 0.12572848796844482,
      "learning_rate": 0.0008345788986829551,
      "loss": 0.435,
      "num_input_tokens_seen": 8464712,
      "step": 12975
    },
    {
      "epoch": 6.80293501048218,
      "grad_norm": 0.09652925282716751,
      "learning_rate": 0.0008344089226993268,
      "loss": 0.392,
      "num_input_tokens_seen": 8467880,
      "step": 12980
    },
    {
      "epoch": 6.805555555555555,
      "grad_norm": 0.08158636093139648,
      "learning_rate": 0.000834238876761167,
      "loss": 0.4133,
      "num_input_tokens_seen": 8471208,
      "step": 12985
    },
    {
      "epoch": 6.8081761006289305,
      "grad_norm": 0.0762651190161705,
      "learning_rate": 0.0008340687609040473,
      "loss": 0.4645,
      "num_input_tokens_seen": 8474248,
      "step": 12990
    },
    {
      "epoch": 6.810796645702306,
      "grad_norm": 0.07928310334682465,
      "learning_rate": 0.0008338985751635542,
      "loss": 0.3771,
      "num_input_tokens_seen": 8477064,
      "step": 12995
    },
    {
      "epoch": 6.813417190775681,
      "grad_norm": 0.17540790140628815,
      "learning_rate": 0.0008337283195752883,
      "loss": 0.5313,
      "num_input_tokens_seen": 8479528,
      "step": 13000
    },
    {
      "epoch": 6.816037735849057,
      "grad_norm": 0.11576773226261139,
      "learning_rate": 0.0008335579941748654,
      "loss": 0.3342,
      "num_input_tokens_seen": 8482856,
      "step": 13005
    },
    {
      "epoch": 6.818658280922432,
      "grad_norm": 0.06885893642902374,
      "learning_rate": 0.0008333875989979156,
      "loss": 0.4788,
      "num_input_tokens_seen": 8486312,
      "step": 13010
    },
    {
      "epoch": 6.821278825995807,
      "grad_norm": 0.11145368963479996,
      "learning_rate": 0.0008332171340800835,
      "loss": 0.5074,
      "num_input_tokens_seen": 8489096,
      "step": 13015
    },
    {
      "epoch": 6.823899371069182,
      "grad_norm": 0.05814523994922638,
      "learning_rate": 0.0008330465994570287,
      "loss": 0.5132,
      "num_input_tokens_seen": 8493448,
      "step": 13020
    },
    {
      "epoch": 6.826519916142558,
      "grad_norm": 0.08305438607931137,
      "learning_rate": 0.0008328759951644247,
      "loss": 0.3501,
      "num_input_tokens_seen": 8496968,
      "step": 13025
    },
    {
      "epoch": 6.829140461215933,
      "grad_norm": 0.15882568061351776,
      "learning_rate": 0.0008327053212379603,
      "loss": 0.3924,
      "num_input_tokens_seen": 8500616,
      "step": 13030
    },
    {
      "epoch": 6.831761006289308,
      "grad_norm": 0.08446159958839417,
      "learning_rate": 0.0008325345777133382,
      "loss": 0.4966,
      "num_input_tokens_seen": 8504136,
      "step": 13035
    },
    {
      "epoch": 6.834381551362683,
      "grad_norm": 0.12087109684944153,
      "learning_rate": 0.0008323637646262763,
      "loss": 0.5288,
      "num_input_tokens_seen": 8507464,
      "step": 13040
    },
    {
      "epoch": 6.837002096436059,
      "grad_norm": 0.14922760426998138,
      "learning_rate": 0.0008321928820125067,
      "loss": 0.5119,
      "num_input_tokens_seen": 8510216,
      "step": 13045
    },
    {
      "epoch": 6.839622641509434,
      "grad_norm": 0.13859334588050842,
      "learning_rate": 0.000832021929907776,
      "loss": 0.5185,
      "num_input_tokens_seen": 8513960,
      "step": 13050
    },
    {
      "epoch": 6.8422431865828095,
      "grad_norm": 0.09360694140195847,
      "learning_rate": 0.0008318509083478454,
      "loss": 0.4509,
      "num_input_tokens_seen": 8517768,
      "step": 13055
    },
    {
      "epoch": 6.844863731656185,
      "grad_norm": 0.0700487345457077,
      "learning_rate": 0.0008316798173684907,
      "loss": 0.5566,
      "num_input_tokens_seen": 8521640,
      "step": 13060
    },
    {
      "epoch": 6.84748427672956,
      "grad_norm": 0.09237827360630035,
      "learning_rate": 0.0008315086570055024,
      "loss": 0.4261,
      "num_input_tokens_seen": 8524968,
      "step": 13065
    },
    {
      "epoch": 6.850104821802935,
      "grad_norm": 0.13110977411270142,
      "learning_rate": 0.000831337427294685,
      "loss": 0.6427,
      "num_input_tokens_seen": 8528200,
      "step": 13070
    },
    {
      "epoch": 6.85272536687631,
      "grad_norm": 0.12503567337989807,
      "learning_rate": 0.0008311661282718579,
      "loss": 0.4794,
      "num_input_tokens_seen": 8531144,
      "step": 13075
    },
    {
      "epoch": 6.855345911949685,
      "grad_norm": 0.14374123513698578,
      "learning_rate": 0.0008309947599728549,
      "loss": 0.4927,
      "num_input_tokens_seen": 8535240,
      "step": 13080
    },
    {
      "epoch": 6.8579664570230605,
      "grad_norm": 0.08447147905826569,
      "learning_rate": 0.0008308233224335243,
      "loss": 0.4909,
      "num_input_tokens_seen": 8537352,
      "step": 13085
    },
    {
      "epoch": 6.860587002096436,
      "grad_norm": 0.14724105596542358,
      "learning_rate": 0.0008306518156897289,
      "loss": 0.3987,
      "num_input_tokens_seen": 8540776,
      "step": 13090
    },
    {
      "epoch": 6.863207547169811,
      "grad_norm": 0.12985777854919434,
      "learning_rate": 0.0008304802397773459,
      "loss": 0.533,
      "num_input_tokens_seen": 8543944,
      "step": 13095
    },
    {
      "epoch": 6.865828092243187,
      "grad_norm": 0.15148620307445526,
      "learning_rate": 0.0008303085947322672,
      "loss": 0.4673,
      "num_input_tokens_seen": 8546984,
      "step": 13100
    },
    {
      "epoch": 6.868448637316562,
      "grad_norm": 0.15952840447425842,
      "learning_rate": 0.0008301368805903988,
      "loss": 0.7899,
      "num_input_tokens_seen": 8550376,
      "step": 13105
    },
    {
      "epoch": 6.871069182389937,
      "grad_norm": 0.1399940848350525,
      "learning_rate": 0.0008299650973876611,
      "loss": 0.5047,
      "num_input_tokens_seen": 8553512,
      "step": 13110
    },
    {
      "epoch": 6.873689727463312,
      "grad_norm": 0.07676985114812851,
      "learning_rate": 0.0008297932451599898,
      "loss": 0.4325,
      "num_input_tokens_seen": 8557320,
      "step": 13115
    },
    {
      "epoch": 6.876310272536688,
      "grad_norm": 0.1307850182056427,
      "learning_rate": 0.0008296213239433339,
      "loss": 0.4009,
      "num_input_tokens_seen": 8559848,
      "step": 13120
    },
    {
      "epoch": 6.878930817610063,
      "grad_norm": 0.08008258044719696,
      "learning_rate": 0.0008294493337736577,
      "loss": 0.3051,
      "num_input_tokens_seen": 8563400,
      "step": 13125
    },
    {
      "epoch": 6.881551362683438,
      "grad_norm": 0.07076594233512878,
      "learning_rate": 0.0008292772746869392,
      "loss": 0.4385,
      "num_input_tokens_seen": 8566728,
      "step": 13130
    },
    {
      "epoch": 6.884171907756813,
      "grad_norm": 0.11846038699150085,
      "learning_rate": 0.0008291051467191717,
      "loss": 0.4372,
      "num_input_tokens_seen": 8570056,
      "step": 13135
    },
    {
      "epoch": 6.886792452830189,
      "grad_norm": 0.10729189217090607,
      "learning_rate": 0.000828932949906362,
      "loss": 0.4304,
      "num_input_tokens_seen": 8573064,
      "step": 13140
    },
    {
      "epoch": 6.889412997903564,
      "grad_norm": 0.11656562238931656,
      "learning_rate": 0.0008287606842845319,
      "loss": 0.5668,
      "num_input_tokens_seen": 8577640,
      "step": 13145
    },
    {
      "epoch": 6.8920335429769395,
      "grad_norm": 0.10590581595897675,
      "learning_rate": 0.0008285883498897174,
      "loss": 0.5675,
      "num_input_tokens_seen": 8581256,
      "step": 13150
    },
    {
      "epoch": 6.894654088050315,
      "grad_norm": 0.09458253532648087,
      "learning_rate": 0.0008284159467579686,
      "loss": 0.408,
      "num_input_tokens_seen": 8584168,
      "step": 13155
    },
    {
      "epoch": 6.89727463312369,
      "grad_norm": 0.07062157243490219,
      "learning_rate": 0.0008282434749253507,
      "loss": 0.4702,
      "num_input_tokens_seen": 8587432,
      "step": 13160
    },
    {
      "epoch": 6.899895178197065,
      "grad_norm": 0.10076295584440231,
      "learning_rate": 0.0008280709344279426,
      "loss": 0.4679,
      "num_input_tokens_seen": 8590728,
      "step": 13165
    },
    {
      "epoch": 6.90251572327044,
      "grad_norm": 0.12309056520462036,
      "learning_rate": 0.0008278983253018377,
      "loss": 0.3847,
      "num_input_tokens_seen": 8594120,
      "step": 13170
    },
    {
      "epoch": 6.905136268343815,
      "grad_norm": 0.08775971829891205,
      "learning_rate": 0.0008277256475831443,
      "loss": 0.4737,
      "num_input_tokens_seen": 8596904,
      "step": 13175
    },
    {
      "epoch": 6.9077568134171905,
      "grad_norm": 0.0831993892788887,
      "learning_rate": 0.0008275529013079841,
      "loss": 0.4091,
      "num_input_tokens_seen": 8599848,
      "step": 13180
    },
    {
      "epoch": 6.910377358490566,
      "grad_norm": 0.07246214151382446,
      "learning_rate": 0.0008273800865124941,
      "loss": 0.428,
      "num_input_tokens_seen": 8603272,
      "step": 13185
    },
    {
      "epoch": 6.912997903563941,
      "grad_norm": 0.09225331246852875,
      "learning_rate": 0.0008272072032328246,
      "loss": 0.45,
      "num_input_tokens_seen": 8607240,
      "step": 13190
    },
    {
      "epoch": 6.915618448637317,
      "grad_norm": 0.30538409948349,
      "learning_rate": 0.0008270342515051414,
      "loss": 0.6379,
      "num_input_tokens_seen": 8613160,
      "step": 13195
    },
    {
      "epoch": 6.918238993710692,
      "grad_norm": 0.07376479357481003,
      "learning_rate": 0.0008268612313656238,
      "loss": 0.4754,
      "num_input_tokens_seen": 8617480,
      "step": 13200
    },
    {
      "epoch": 6.920859538784067,
      "grad_norm": 0.07718656957149506,
      "learning_rate": 0.0008266881428504655,
      "loss": 0.4362,
      "num_input_tokens_seen": 8620520,
      "step": 13205
    },
    {
      "epoch": 6.923480083857442,
      "grad_norm": 0.09908625483512878,
      "learning_rate": 0.000826514985995875,
      "loss": 0.319,
      "num_input_tokens_seen": 8626568,
      "step": 13210
    },
    {
      "epoch": 6.926100628930818,
      "grad_norm": 0.06890629231929779,
      "learning_rate": 0.0008263417608380743,
      "loss": 0.4861,
      "num_input_tokens_seen": 8630184,
      "step": 13215
    },
    {
      "epoch": 6.928721174004193,
      "grad_norm": 0.1070128008723259,
      "learning_rate": 0.0008261684674133003,
      "loss": 0.4314,
      "num_input_tokens_seen": 8633576,
      "step": 13220
    },
    {
      "epoch": 6.931341719077568,
      "grad_norm": 0.08453173190355301,
      "learning_rate": 0.0008259951057578041,
      "loss": 0.4743,
      "num_input_tokens_seen": 8636520,
      "step": 13225
    },
    {
      "epoch": 6.933962264150943,
      "grad_norm": 0.09020797163248062,
      "learning_rate": 0.000825821675907851,
      "loss": 0.3325,
      "num_input_tokens_seen": 8639816,
      "step": 13230
    },
    {
      "epoch": 6.936582809224319,
      "grad_norm": 0.11566055566072464,
      "learning_rate": 0.0008256481778997205,
      "loss": 0.5088,
      "num_input_tokens_seen": 8642888,
      "step": 13235
    },
    {
      "epoch": 6.939203354297694,
      "grad_norm": 0.07965273410081863,
      "learning_rate": 0.0008254746117697062,
      "loss": 0.4724,
      "num_input_tokens_seen": 8645704,
      "step": 13240
    },
    {
      "epoch": 6.9418238993710695,
      "grad_norm": 0.11117081344127655,
      "learning_rate": 0.0008253009775541165,
      "loss": 0.4202,
      "num_input_tokens_seen": 8648648,
      "step": 13245
    },
    {
      "epoch": 6.944444444444445,
      "grad_norm": 0.1060464084148407,
      "learning_rate": 0.0008251272752892733,
      "loss": 0.4103,
      "num_input_tokens_seen": 8651560,
      "step": 13250
    },
    {
      "epoch": 6.94706498951782,
      "grad_norm": 0.08296775072813034,
      "learning_rate": 0.0008249535050115135,
      "loss": 0.5416,
      "num_input_tokens_seen": 8655208,
      "step": 13255
    },
    {
      "epoch": 6.949685534591195,
      "grad_norm": 0.10239984840154648,
      "learning_rate": 0.0008247796667571879,
      "loss": 0.3269,
      "num_input_tokens_seen": 8657576,
      "step": 13260
    },
    {
      "epoch": 6.95230607966457,
      "grad_norm": 0.14747504889965057,
      "learning_rate": 0.000824605760562661,
      "loss": 0.6998,
      "num_input_tokens_seen": 8660872,
      "step": 13265
    },
    {
      "epoch": 6.954926624737945,
      "grad_norm": 0.07356862723827362,
      "learning_rate": 0.0008244317864643125,
      "loss": 0.4641,
      "num_input_tokens_seen": 8665192,
      "step": 13270
    },
    {
      "epoch": 6.9575471698113205,
      "grad_norm": 0.037291232496500015,
      "learning_rate": 0.0008242577444985355,
      "loss": 0.4448,
      "num_input_tokens_seen": 8670088,
      "step": 13275
    },
    {
      "epoch": 6.960167714884696,
      "grad_norm": 0.194844052195549,
      "learning_rate": 0.0008240836347017375,
      "loss": 0.4876,
      "num_input_tokens_seen": 8673576,
      "step": 13280
    },
    {
      "epoch": 6.962788259958071,
      "grad_norm": 0.09154100716114044,
      "learning_rate": 0.0008239094571103408,
      "loss": 0.6435,
      "num_input_tokens_seen": 8676424,
      "step": 13285
    },
    {
      "epoch": 6.965408805031447,
      "grad_norm": 0.09748315066099167,
      "learning_rate": 0.0008237352117607808,
      "loss": 0.437,
      "num_input_tokens_seen": 8679912,
      "step": 13290
    },
    {
      "epoch": 6.968029350104822,
      "grad_norm": 0.05578393489122391,
      "learning_rate": 0.000823560898689508,
      "loss": 0.6997,
      "num_input_tokens_seen": 8683880,
      "step": 13295
    },
    {
      "epoch": 6.970649895178197,
      "grad_norm": 0.07185646146535873,
      "learning_rate": 0.0008233865179329865,
      "loss": 0.5445,
      "num_input_tokens_seen": 8687784,
      "step": 13300
    },
    {
      "epoch": 6.973270440251572,
      "grad_norm": 0.08367586880922318,
      "learning_rate": 0.0008232120695276948,
      "loss": 0.4314,
      "num_input_tokens_seen": 8690920,
      "step": 13305
    },
    {
      "epoch": 6.975890985324948,
      "grad_norm": 0.14003176987171173,
      "learning_rate": 0.0008230375535101255,
      "loss": 0.3618,
      "num_input_tokens_seen": 8693960,
      "step": 13310
    },
    {
      "epoch": 6.978511530398323,
      "grad_norm": 0.05131925642490387,
      "learning_rate": 0.0008228629699167855,
      "loss": 0.515,
      "num_input_tokens_seen": 8697640,
      "step": 13315
    },
    {
      "epoch": 6.981132075471698,
      "grad_norm": 0.08516804873943329,
      "learning_rate": 0.0008226883187841957,
      "loss": 0.6801,
      "num_input_tokens_seen": 8699912,
      "step": 13320
    },
    {
      "epoch": 6.983752620545073,
      "grad_norm": 0.10402575135231018,
      "learning_rate": 0.0008225136001488908,
      "loss": 0.6098,
      "num_input_tokens_seen": 8703240,
      "step": 13325
    },
    {
      "epoch": 6.986373165618449,
      "grad_norm": 0.1173945963382721,
      "learning_rate": 0.0008223388140474205,
      "loss": 0.3758,
      "num_input_tokens_seen": 8706376,
      "step": 13330
    },
    {
      "epoch": 6.988993710691824,
      "grad_norm": 0.07962733507156372,
      "learning_rate": 0.0008221639605163476,
      "loss": 0.5972,
      "num_input_tokens_seen": 8709224,
      "step": 13335
    },
    {
      "epoch": 6.9916142557651995,
      "grad_norm": 0.23194600641727448,
      "learning_rate": 0.0008219890395922495,
      "loss": 0.547,
      "num_input_tokens_seen": 8711816,
      "step": 13340
    },
    {
      "epoch": 6.994234800838575,
      "grad_norm": 0.1775098741054535,
      "learning_rate": 0.0008218140513117178,
      "loss": 0.4665,
      "num_input_tokens_seen": 8715496,
      "step": 13345
    },
    {
      "epoch": 6.99685534591195,
      "grad_norm": 0.09787099808454514,
      "learning_rate": 0.0008216389957113582,
      "loss": 0.3916,
      "num_input_tokens_seen": 8718312,
      "step": 13350
    },
    {
      "epoch": 6.999475890985325,
      "grad_norm": 0.15935704112052917,
      "learning_rate": 0.0008214638728277899,
      "loss": 0.4458,
      "num_input_tokens_seen": 8722632,
      "step": 13355
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.47690561413764954,
      "eval_runtime": 13.6384,
      "eval_samples_per_second": 62.177,
      "eval_steps_per_second": 15.544,
      "num_input_tokens_seen": 8722744,
      "step": 13356
    },
    {
      "epoch": 7.0020964360587,
      "grad_norm": 0.13030122220516205,
      "learning_rate": 0.0008212886826976469,
      "loss": 0.4711,
      "num_input_tokens_seen": 8725944,
      "step": 13360
    },
    {
      "epoch": 7.004716981132075,
      "grad_norm": 0.09975176304578781,
      "learning_rate": 0.0008211134253575769,
      "loss": 0.4613,
      "num_input_tokens_seen": 8729592,
      "step": 13365
    },
    {
      "epoch": 7.0073375262054505,
      "grad_norm": 0.08704133331775665,
      "learning_rate": 0.000820938100844242,
      "loss": 0.4111,
      "num_input_tokens_seen": 8734264,
      "step": 13370
    },
    {
      "epoch": 7.009958071278826,
      "grad_norm": 0.08587646484375,
      "learning_rate": 0.0008207627091943177,
      "loss": 0.3879,
      "num_input_tokens_seen": 8738744,
      "step": 13375
    },
    {
      "epoch": 7.012578616352202,
      "grad_norm": 0.09389835596084595,
      "learning_rate": 0.000820587250444494,
      "loss": 0.3916,
      "num_input_tokens_seen": 8741720,
      "step": 13380
    },
    {
      "epoch": 7.015199161425577,
      "grad_norm": 0.0774964764714241,
      "learning_rate": 0.0008204117246314752,
      "loss": 0.4352,
      "num_input_tokens_seen": 8745112,
      "step": 13385
    },
    {
      "epoch": 7.017819706498952,
      "grad_norm": 0.324457585811615,
      "learning_rate": 0.0008202361317919788,
      "loss": 0.3909,
      "num_input_tokens_seen": 8747960,
      "step": 13390
    },
    {
      "epoch": 7.020440251572327,
      "grad_norm": 0.12030920386314392,
      "learning_rate": 0.0008200604719627373,
      "loss": 0.4772,
      "num_input_tokens_seen": 8750808,
      "step": 13395
    },
    {
      "epoch": 7.023060796645702,
      "grad_norm": 0.15233314037322998,
      "learning_rate": 0.0008198847451804964,
      "loss": 0.4772,
      "num_input_tokens_seen": 8753368,
      "step": 13400
    },
    {
      "epoch": 7.0256813417190775,
      "grad_norm": 0.15808209776878357,
      "learning_rate": 0.0008197089514820162,
      "loss": 0.4885,
      "num_input_tokens_seen": 8756056,
      "step": 13405
    },
    {
      "epoch": 7.028301886792453,
      "grad_norm": 0.1635952889919281,
      "learning_rate": 0.0008195330909040708,
      "loss": 0.4505,
      "num_input_tokens_seen": 8759256,
      "step": 13410
    },
    {
      "epoch": 7.030922431865828,
      "grad_norm": 0.17257092893123627,
      "learning_rate": 0.0008193571634834483,
      "loss": 0.4056,
      "num_input_tokens_seen": 8763032,
      "step": 13415
    },
    {
      "epoch": 7.033542976939203,
      "grad_norm": 0.16588164865970612,
      "learning_rate": 0.0008191811692569506,
      "loss": 0.3478,
      "num_input_tokens_seen": 8766072,
      "step": 13420
    },
    {
      "epoch": 7.036163522012578,
      "grad_norm": 0.1715933084487915,
      "learning_rate": 0.0008190051082613936,
      "loss": 0.4695,
      "num_input_tokens_seen": 8769976,
      "step": 13425
    },
    {
      "epoch": 7.038784067085954,
      "grad_norm": 0.09070460498332977,
      "learning_rate": 0.0008188289805336074,
      "loss": 0.5105,
      "num_input_tokens_seen": 8773528,
      "step": 13430
    },
    {
      "epoch": 7.0414046121593294,
      "grad_norm": 0.15424221754074097,
      "learning_rate": 0.0008186527861104359,
      "loss": 0.4596,
      "num_input_tokens_seen": 8776440,
      "step": 13435
    },
    {
      "epoch": 7.044025157232705,
      "grad_norm": 0.11440529674291611,
      "learning_rate": 0.0008184765250287369,
      "loss": 0.3452,
      "num_input_tokens_seen": 8780408,
      "step": 13440
    },
    {
      "epoch": 7.04664570230608,
      "grad_norm": 0.08573637157678604,
      "learning_rate": 0.0008183001973253823,
      "loss": 0.3916,
      "num_input_tokens_seen": 8782872,
      "step": 13445
    },
    {
      "epoch": 7.049266247379455,
      "grad_norm": 0.0670291855931282,
      "learning_rate": 0.0008181238030372576,
      "loss": 0.4389,
      "num_input_tokens_seen": 8786776,
      "step": 13450
    },
    {
      "epoch": 7.05188679245283,
      "grad_norm": 0.08538279682397842,
      "learning_rate": 0.0008179473422012628,
      "loss": 0.502,
      "num_input_tokens_seen": 8791576,
      "step": 13455
    },
    {
      "epoch": 7.054507337526205,
      "grad_norm": 0.18197795748710632,
      "learning_rate": 0.0008177708148543114,
      "loss": 0.4277,
      "num_input_tokens_seen": 8794072,
      "step": 13460
    },
    {
      "epoch": 7.0571278825995805,
      "grad_norm": 0.07850765436887741,
      "learning_rate": 0.0008175942210333307,
      "loss": 0.4757,
      "num_input_tokens_seen": 8798424,
      "step": 13465
    },
    {
      "epoch": 7.059748427672956,
      "grad_norm": 0.13183796405792236,
      "learning_rate": 0.0008174175607752626,
      "loss": 0.3624,
      "num_input_tokens_seen": 8801208,
      "step": 13470
    },
    {
      "epoch": 7.062368972746331,
      "grad_norm": 0.12284828722476959,
      "learning_rate": 0.0008172408341170617,
      "loss": 0.5062,
      "num_input_tokens_seen": 8804472,
      "step": 13475
    },
    {
      "epoch": 7.064989517819707,
      "grad_norm": 0.08727606385946274,
      "learning_rate": 0.0008170640410956976,
      "loss": 0.5071,
      "num_input_tokens_seen": 8808152,
      "step": 13480
    },
    {
      "epoch": 7.067610062893082,
      "grad_norm": 0.06894971430301666,
      "learning_rate": 0.0008168871817481536,
      "loss": 0.4224,
      "num_input_tokens_seen": 8811352,
      "step": 13485
    },
    {
      "epoch": 7.070230607966457,
      "grad_norm": 0.21846728026866913,
      "learning_rate": 0.0008167102561114261,
      "loss": 0.4564,
      "num_input_tokens_seen": 8814328,
      "step": 13490
    },
    {
      "epoch": 7.072851153039832,
      "grad_norm": 0.07350160926580429,
      "learning_rate": 0.0008165332642225265,
      "loss": 0.4876,
      "num_input_tokens_seen": 8817976,
      "step": 13495
    },
    {
      "epoch": 7.0754716981132075,
      "grad_norm": 0.0985574796795845,
      "learning_rate": 0.0008163562061184791,
      "loss": 0.3771,
      "num_input_tokens_seen": 8820856,
      "step": 13500
    },
    {
      "epoch": 7.078092243186583,
      "grad_norm": 0.11647026240825653,
      "learning_rate": 0.0008161790818363227,
      "loss": 0.5621,
      "num_input_tokens_seen": 8824120,
      "step": 13505
    },
    {
      "epoch": 7.080712788259958,
      "grad_norm": 0.1049204170703888,
      "learning_rate": 0.0008160018914131094,
      "loss": 0.4645,
      "num_input_tokens_seen": 8827192,
      "step": 13510
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.13231663405895233,
      "learning_rate": 0.0008158246348859057,
      "loss": 0.3822,
      "num_input_tokens_seen": 8831064,
      "step": 13515
    },
    {
      "epoch": 7.085953878406708,
      "grad_norm": 0.09681958705186844,
      "learning_rate": 0.0008156473122917913,
      "loss": 0.5401,
      "num_input_tokens_seen": 8834200,
      "step": 13520
    },
    {
      "epoch": 7.088574423480084,
      "grad_norm": 0.11693062633275986,
      "learning_rate": 0.0008154699236678604,
      "loss": 0.369,
      "num_input_tokens_seen": 8837240,
      "step": 13525
    },
    {
      "epoch": 7.091194968553459,
      "grad_norm": 0.06795059889554977,
      "learning_rate": 0.0008152924690512205,
      "loss": 0.6102,
      "num_input_tokens_seen": 8841976,
      "step": 13530
    },
    {
      "epoch": 7.093815513626835,
      "grad_norm": 0.13223309814929962,
      "learning_rate": 0.0008151149484789932,
      "loss": 0.3799,
      "num_input_tokens_seen": 8845336,
      "step": 13535
    },
    {
      "epoch": 7.09643605870021,
      "grad_norm": 0.11934983730316162,
      "learning_rate": 0.0008149373619883136,
      "loss": 0.4287,
      "num_input_tokens_seen": 8848184,
      "step": 13540
    },
    {
      "epoch": 7.099056603773585,
      "grad_norm": 0.25627580285072327,
      "learning_rate": 0.0008147597096163308,
      "loss": 0.5028,
      "num_input_tokens_seen": 8850840,
      "step": 13545
    },
    {
      "epoch": 7.10167714884696,
      "grad_norm": 0.24098314344882965,
      "learning_rate": 0.0008145819914002079,
      "loss": 0.5652,
      "num_input_tokens_seen": 8854296,
      "step": 13550
    },
    {
      "epoch": 7.104297693920335,
      "grad_norm": 0.14639133214950562,
      "learning_rate": 0.0008144042073771214,
      "loss": 0.4101,
      "num_input_tokens_seen": 8857560,
      "step": 13555
    },
    {
      "epoch": 7.1069182389937104,
      "grad_norm": 0.05077900364995003,
      "learning_rate": 0.0008142263575842615,
      "loss": 0.4363,
      "num_input_tokens_seen": 8861496,
      "step": 13560
    },
    {
      "epoch": 7.109538784067086,
      "grad_norm": 0.1305481642484665,
      "learning_rate": 0.0008140484420588323,
      "loss": 0.4479,
      "num_input_tokens_seen": 8864344,
      "step": 13565
    },
    {
      "epoch": 7.112159329140461,
      "grad_norm": 0.05786049738526344,
      "learning_rate": 0.000813870460838052,
      "loss": 0.532,
      "num_input_tokens_seen": 8868152,
      "step": 13570
    },
    {
      "epoch": 7.114779874213837,
      "grad_norm": 0.10984522849321365,
      "learning_rate": 0.0008136924139591522,
      "loss": 0.331,
      "num_input_tokens_seen": 8870776,
      "step": 13575
    },
    {
      "epoch": 7.117400419287212,
      "grad_norm": 0.11755822598934174,
      "learning_rate": 0.0008135143014593782,
      "loss": 0.561,
      "num_input_tokens_seen": 8873944,
      "step": 13580
    },
    {
      "epoch": 7.120020964360587,
      "grad_norm": 0.19316907227039337,
      "learning_rate": 0.000813336123375989,
      "loss": 0.4981,
      "num_input_tokens_seen": 8876792,
      "step": 13585
    },
    {
      "epoch": 7.122641509433962,
      "grad_norm": 0.20412340760231018,
      "learning_rate": 0.0008131578797462575,
      "loss": 0.5517,
      "num_input_tokens_seen": 8879672,
      "step": 13590
    },
    {
      "epoch": 7.1252620545073375,
      "grad_norm": 0.12647584080696106,
      "learning_rate": 0.0008129795706074703,
      "loss": 0.3503,
      "num_input_tokens_seen": 8882904,
      "step": 13595
    },
    {
      "epoch": 7.127882599580713,
      "grad_norm": 0.09133081883192062,
      "learning_rate": 0.0008128011959969277,
      "loss": 0.3552,
      "num_input_tokens_seen": 8886328,
      "step": 13600
    },
    {
      "epoch": 7.130503144654088,
      "grad_norm": 0.19531357288360596,
      "learning_rate": 0.0008126227559519434,
      "loss": 0.4151,
      "num_input_tokens_seen": 8888888,
      "step": 13605
    },
    {
      "epoch": 7.133123689727463,
      "grad_norm": 0.11636416614055634,
      "learning_rate": 0.0008124442505098452,
      "loss": 0.474,
      "num_input_tokens_seen": 8892536,
      "step": 13610
    },
    {
      "epoch": 7.135744234800838,
      "grad_norm": 0.07896890491247177,
      "learning_rate": 0.0008122656797079744,
      "loss": 0.4183,
      "num_input_tokens_seen": 8895768,
      "step": 13615
    },
    {
      "epoch": 7.138364779874214,
      "grad_norm": 0.10328991711139679,
      "learning_rate": 0.0008120870435836858,
      "loss": 0.4332,
      "num_input_tokens_seen": 8899320,
      "step": 13620
    },
    {
      "epoch": 7.140985324947589,
      "grad_norm": 0.10785181075334549,
      "learning_rate": 0.0008119083421743481,
      "loss": 0.4377,
      "num_input_tokens_seen": 8901816,
      "step": 13625
    },
    {
      "epoch": 7.143605870020965,
      "grad_norm": 0.08074071258306503,
      "learning_rate": 0.0008117295755173437,
      "loss": 0.3687,
      "num_input_tokens_seen": 8904984,
      "step": 13630
    },
    {
      "epoch": 7.14622641509434,
      "grad_norm": 0.09375317394733429,
      "learning_rate": 0.0008115507436500687,
      "loss": 0.4275,
      "num_input_tokens_seen": 8909272,
      "step": 13635
    },
    {
      "epoch": 7.148846960167715,
      "grad_norm": 0.09112917631864548,
      "learning_rate": 0.0008113718466099322,
      "loss": 0.4923,
      "num_input_tokens_seen": 8912088,
      "step": 13640
    },
    {
      "epoch": 7.15146750524109,
      "grad_norm": 0.10975171625614166,
      "learning_rate": 0.0008111928844343579,
      "loss": 0.5189,
      "num_input_tokens_seen": 8915160,
      "step": 13645
    },
    {
      "epoch": 7.154088050314465,
      "grad_norm": 0.06561939418315887,
      "learning_rate": 0.0008110138571607823,
      "loss": 0.4009,
      "num_input_tokens_seen": 8918200,
      "step": 13650
    },
    {
      "epoch": 7.15670859538784,
      "grad_norm": 0.07156075537204742,
      "learning_rate": 0.0008108347648266563,
      "loss": 0.3462,
      "num_input_tokens_seen": 8921464,
      "step": 13655
    },
    {
      "epoch": 7.159329140461216,
      "grad_norm": 0.1404196172952652,
      "learning_rate": 0.0008106556074694434,
      "loss": 0.4539,
      "num_input_tokens_seen": 8924344,
      "step": 13660
    },
    {
      "epoch": 7.161949685534591,
      "grad_norm": 0.1462915986776352,
      "learning_rate": 0.0008104763851266216,
      "loss": 0.4356,
      "num_input_tokens_seen": 8927352,
      "step": 13665
    },
    {
      "epoch": 7.164570230607967,
      "grad_norm": 0.10371314734220505,
      "learning_rate": 0.0008102970978356822,
      "loss": 0.5008,
      "num_input_tokens_seen": 8930936,
      "step": 13670
    },
    {
      "epoch": 7.167190775681342,
      "grad_norm": 0.17592622339725494,
      "learning_rate": 0.00081011774563413,
      "loss": 0.5373,
      "num_input_tokens_seen": 8934296,
      "step": 13675
    },
    {
      "epoch": 7.169811320754717,
      "grad_norm": 0.06704388558864594,
      "learning_rate": 0.0008099383285594835,
      "loss": 0.3459,
      "num_input_tokens_seen": 8937016,
      "step": 13680
    },
    {
      "epoch": 7.172431865828092,
      "grad_norm": 0.10208059102296829,
      "learning_rate": 0.0008097588466492746,
      "loss": 0.3646,
      "num_input_tokens_seen": 8940792,
      "step": 13685
    },
    {
      "epoch": 7.1750524109014675,
      "grad_norm": 0.10858423262834549,
      "learning_rate": 0.0008095792999410487,
      "loss": 0.5064,
      "num_input_tokens_seen": 8944024,
      "step": 13690
    },
    {
      "epoch": 7.177672955974843,
      "grad_norm": 0.12643690407276154,
      "learning_rate": 0.0008093996884723653,
      "loss": 0.4743,
      "num_input_tokens_seen": 8946872,
      "step": 13695
    },
    {
      "epoch": 7.180293501048218,
      "grad_norm": 0.09681853652000427,
      "learning_rate": 0.0008092200122807969,
      "loss": 0.432,
      "num_input_tokens_seen": 8950168,
      "step": 13700
    },
    {
      "epoch": 7.182914046121593,
      "grad_norm": 0.20008131861686707,
      "learning_rate": 0.0008090402714039295,
      "loss": 0.4385,
      "num_input_tokens_seen": 8953112,
      "step": 13705
    },
    {
      "epoch": 7.185534591194968,
      "grad_norm": 0.195842906832695,
      "learning_rate": 0.0008088604658793632,
      "loss": 0.385,
      "num_input_tokens_seen": 8956312,
      "step": 13710
    },
    {
      "epoch": 7.188155136268344,
      "grad_norm": 0.13231875002384186,
      "learning_rate": 0.0008086805957447111,
      "loss": 0.4116,
      "num_input_tokens_seen": 8959032,
      "step": 13715
    },
    {
      "epoch": 7.190775681341719,
      "grad_norm": 0.14712311327457428,
      "learning_rate": 0.0008085006610376,
      "loss": 0.5495,
      "num_input_tokens_seen": 8962744,
      "step": 13720
    },
    {
      "epoch": 7.193396226415095,
      "grad_norm": 0.08355096727609634,
      "learning_rate": 0.0008083206617956702,
      "loss": 0.4661,
      "num_input_tokens_seen": 8966520,
      "step": 13725
    },
    {
      "epoch": 7.19601677148847,
      "grad_norm": 0.12300273776054382,
      "learning_rate": 0.0008081405980565755,
      "loss": 0.5161,
      "num_input_tokens_seen": 8969304,
      "step": 13730
    },
    {
      "epoch": 7.198637316561845,
      "grad_norm": 0.05709628760814667,
      "learning_rate": 0.0008079604698579829,
      "loss": 0.5191,
      "num_input_tokens_seen": 8973432,
      "step": 13735
    },
    {
      "epoch": 7.20125786163522,
      "grad_norm": 0.12703441083431244,
      "learning_rate": 0.0008077802772375736,
      "loss": 0.4693,
      "num_input_tokens_seen": 8976248,
      "step": 13740
    },
    {
      "epoch": 7.203878406708595,
      "grad_norm": 0.099518321454525,
      "learning_rate": 0.0008076000202330416,
      "loss": 0.4368,
      "num_input_tokens_seen": 8980792,
      "step": 13745
    },
    {
      "epoch": 7.20649895178197,
      "grad_norm": 0.12071598321199417,
      "learning_rate": 0.0008074196988820945,
      "loss": 0.5444,
      "num_input_tokens_seen": 8983480,
      "step": 13750
    },
    {
      "epoch": 7.209119496855346,
      "grad_norm": 0.2335842251777649,
      "learning_rate": 0.0008072393132224539,
      "loss": 0.515,
      "num_input_tokens_seen": 8986200,
      "step": 13755
    },
    {
      "epoch": 7.211740041928721,
      "grad_norm": 0.11681276559829712,
      "learning_rate": 0.0008070588632918541,
      "loss": 0.4654,
      "num_input_tokens_seen": 8989816,
      "step": 13760
    },
    {
      "epoch": 7.214360587002097,
      "grad_norm": 0.07836949080228806,
      "learning_rate": 0.000806878349128043,
      "loss": 0.2925,
      "num_input_tokens_seen": 8992600,
      "step": 13765
    },
    {
      "epoch": 7.216981132075472,
      "grad_norm": 0.09724012017250061,
      "learning_rate": 0.0008066977707687826,
      "loss": 0.4707,
      "num_input_tokens_seen": 8997432,
      "step": 13770
    },
    {
      "epoch": 7.219601677148847,
      "grad_norm": 0.12833558022975922,
      "learning_rate": 0.0008065171282518473,
      "loss": 0.4657,
      "num_input_tokens_seen": 8999864,
      "step": 13775
    },
    {
      "epoch": 7.222222222222222,
      "grad_norm": 0.08301501721143723,
      "learning_rate": 0.0008063364216150257,
      "loss": 0.3613,
      "num_input_tokens_seen": 9003160,
      "step": 13780
    },
    {
      "epoch": 7.2248427672955975,
      "grad_norm": 0.19179171323776245,
      "learning_rate": 0.0008061556508961199,
      "loss": 0.4245,
      "num_input_tokens_seen": 9006040,
      "step": 13785
    },
    {
      "epoch": 7.227463312368973,
      "grad_norm": 0.11754229664802551,
      "learning_rate": 0.0008059748161329443,
      "loss": 0.4373,
      "num_input_tokens_seen": 9009624,
      "step": 13790
    },
    {
      "epoch": 7.230083857442348,
      "grad_norm": 0.0732453316450119,
      "learning_rate": 0.0008057939173633282,
      "loss": 0.4419,
      "num_input_tokens_seen": 9013912,
      "step": 13795
    },
    {
      "epoch": 7.232704402515723,
      "grad_norm": 0.0909242108464241,
      "learning_rate": 0.0008056129546251132,
      "loss": 0.4306,
      "num_input_tokens_seen": 9017016,
      "step": 13800
    },
    {
      "epoch": 7.235324947589098,
      "grad_norm": 0.17824895679950714,
      "learning_rate": 0.0008054319279561546,
      "loss": 0.4032,
      "num_input_tokens_seen": 9019000,
      "step": 13805
    },
    {
      "epoch": 7.237945492662474,
      "grad_norm": 0.14737936854362488,
      "learning_rate": 0.0008052508373943214,
      "loss": 0.5335,
      "num_input_tokens_seen": 9022520,
      "step": 13810
    },
    {
      "epoch": 7.240566037735849,
      "grad_norm": 0.09485939145088196,
      "learning_rate": 0.0008050696829774954,
      "loss": 0.4661,
      "num_input_tokens_seen": 9025496,
      "step": 13815
    },
    {
      "epoch": 7.243186582809225,
      "grad_norm": 0.10563366115093231,
      "learning_rate": 0.0008048884647435721,
      "loss": 0.4621,
      "num_input_tokens_seen": 9029464,
      "step": 13820
    },
    {
      "epoch": 7.2458071278826,
      "grad_norm": 0.14113172888755798,
      "learning_rate": 0.0008047071827304604,
      "loss": 0.5148,
      "num_input_tokens_seen": 9032088,
      "step": 13825
    },
    {
      "epoch": 7.248427672955975,
      "grad_norm": 0.09335476160049438,
      "learning_rate": 0.0008045258369760824,
      "loss": 0.4084,
      "num_input_tokens_seen": 9035768,
      "step": 13830
    },
    {
      "epoch": 7.25104821802935,
      "grad_norm": 0.09361554682254791,
      "learning_rate": 0.0008043444275183735,
      "loss": 0.4438,
      "num_input_tokens_seen": 9038840,
      "step": 13835
    },
    {
      "epoch": 7.253668763102725,
      "grad_norm": 0.1443520337343216,
      "learning_rate": 0.0008041629543952824,
      "loss": 0.3401,
      "num_input_tokens_seen": 9042328,
      "step": 13840
    },
    {
      "epoch": 7.2562893081761,
      "grad_norm": 0.17070063948631287,
      "learning_rate": 0.0008039814176447714,
      "loss": 0.431,
      "num_input_tokens_seen": 9045336,
      "step": 13845
    },
    {
      "epoch": 7.258909853249476,
      "grad_norm": 0.14305660128593445,
      "learning_rate": 0.0008037998173048157,
      "loss": 0.5232,
      "num_input_tokens_seen": 9048312,
      "step": 13850
    },
    {
      "epoch": 7.261530398322851,
      "grad_norm": 0.0749305710196495,
      "learning_rate": 0.0008036181534134044,
      "loss": 0.5659,
      "num_input_tokens_seen": 9052760,
      "step": 13855
    },
    {
      "epoch": 7.264150943396227,
      "grad_norm": 0.24131962656974792,
      "learning_rate": 0.0008034364260085391,
      "loss": 0.6688,
      "num_input_tokens_seen": 9055864,
      "step": 13860
    },
    {
      "epoch": 7.266771488469602,
      "grad_norm": 0.15930567681789398,
      "learning_rate": 0.0008032546351282353,
      "loss": 0.4525,
      "num_input_tokens_seen": 9058776,
      "step": 13865
    },
    {
      "epoch": 7.269392033542977,
      "grad_norm": 0.15436142683029175,
      "learning_rate": 0.0008030727808105215,
      "loss": 0.5971,
      "num_input_tokens_seen": 9062360,
      "step": 13870
    },
    {
      "epoch": 7.272012578616352,
      "grad_norm": 0.07653487473726273,
      "learning_rate": 0.0008028908630934397,
      "loss": 0.5614,
      "num_input_tokens_seen": 9065016,
      "step": 13875
    },
    {
      "epoch": 7.2746331236897275,
      "grad_norm": 0.11893143504858017,
      "learning_rate": 0.0008027088820150447,
      "loss": 0.4954,
      "num_input_tokens_seen": 9071992,
      "step": 13880
    },
    {
      "epoch": 7.277253668763103,
      "grad_norm": 0.10937755554914474,
      "learning_rate": 0.0008025268376134054,
      "loss": 0.4904,
      "num_input_tokens_seen": 9075672,
      "step": 13885
    },
    {
      "epoch": 7.279874213836478,
      "grad_norm": 0.10001629590988159,
      "learning_rate": 0.0008023447299266027,
      "loss": 0.4057,
      "num_input_tokens_seen": 9078936,
      "step": 13890
    },
    {
      "epoch": 7.282494758909853,
      "grad_norm": 0.14355678856372833,
      "learning_rate": 0.0008021625589927321,
      "loss": 0.6137,
      "num_input_tokens_seen": 9082168,
      "step": 13895
    },
    {
      "epoch": 7.285115303983228,
      "grad_norm": 0.24435760080814362,
      "learning_rate": 0.0008019803248499013,
      "loss": 0.5743,
      "num_input_tokens_seen": 9084664,
      "step": 13900
    },
    {
      "epoch": 7.287735849056604,
      "grad_norm": 0.0781700387597084,
      "learning_rate": 0.0008017980275362318,
      "loss": 0.431,
      "num_input_tokens_seen": 9087864,
      "step": 13905
    },
    {
      "epoch": 7.290356394129979,
      "grad_norm": 0.09565466642379761,
      "learning_rate": 0.000801615667089858,
      "loss": 0.5516,
      "num_input_tokens_seen": 9091416,
      "step": 13910
    },
    {
      "epoch": 7.2929769392033545,
      "grad_norm": 0.17822757363319397,
      "learning_rate": 0.0008014332435489275,
      "loss": 0.4303,
      "num_input_tokens_seen": 9094296,
      "step": 13915
    },
    {
      "epoch": 7.29559748427673,
      "grad_norm": 0.12645335495471954,
      "learning_rate": 0.0008012507569516016,
      "loss": 0.5175,
      "num_input_tokens_seen": 9097112,
      "step": 13920
    },
    {
      "epoch": 7.298218029350105,
      "grad_norm": 0.11691378057003021,
      "learning_rate": 0.0008010682073360541,
      "loss": 0.4372,
      "num_input_tokens_seen": 9100632,
      "step": 13925
    },
    {
      "epoch": 7.30083857442348,
      "grad_norm": 0.09269632399082184,
      "learning_rate": 0.0008008855947404724,
      "loss": 0.3977,
      "num_input_tokens_seen": 9103864,
      "step": 13930
    },
    {
      "epoch": 7.303459119496855,
      "grad_norm": 0.10662318021059036,
      "learning_rate": 0.000800702919203057,
      "loss": 0.4336,
      "num_input_tokens_seen": 9107928,
      "step": 13935
    },
    {
      "epoch": 7.30607966457023,
      "grad_norm": 0.10361350327730179,
      "learning_rate": 0.0008005201807620214,
      "loss": 0.3749,
      "num_input_tokens_seen": 9111384,
      "step": 13940
    },
    {
      "epoch": 7.308700209643606,
      "grad_norm": 0.11449004709720612,
      "learning_rate": 0.0008003373794555926,
      "loss": 0.4387,
      "num_input_tokens_seen": 9114488,
      "step": 13945
    },
    {
      "epoch": 7.311320754716981,
      "grad_norm": 0.08424603939056396,
      "learning_rate": 0.0008001545153220104,
      "loss": 0.4988,
      "num_input_tokens_seen": 9117208,
      "step": 13950
    },
    {
      "epoch": 7.313941299790357,
      "grad_norm": 0.08185281604528427,
      "learning_rate": 0.000799971588399528,
      "loss": 0.4511,
      "num_input_tokens_seen": 9121176,
      "step": 13955
    },
    {
      "epoch": 7.316561844863732,
      "grad_norm": 0.0942864865064621,
      "learning_rate": 0.0007997885987264115,
      "loss": 0.527,
      "num_input_tokens_seen": 9124216,
      "step": 13960
    },
    {
      "epoch": 7.319182389937107,
      "grad_norm": 0.08692289143800735,
      "learning_rate": 0.0007996055463409403,
      "loss": 0.4804,
      "num_input_tokens_seen": 9126936,
      "step": 13965
    },
    {
      "epoch": 7.321802935010482,
      "grad_norm": 0.09673765301704407,
      "learning_rate": 0.000799422431281407,
      "loss": 0.513,
      "num_input_tokens_seen": 9129688,
      "step": 13970
    },
    {
      "epoch": 7.3244234800838575,
      "grad_norm": 0.12537723779678345,
      "learning_rate": 0.000799239253586117,
      "loss": 0.4184,
      "num_input_tokens_seen": 9132152,
      "step": 13975
    },
    {
      "epoch": 7.327044025157233,
      "grad_norm": 0.11770173907279968,
      "learning_rate": 0.0007990560132933891,
      "loss": 0.5422,
      "num_input_tokens_seen": 9135352,
      "step": 13980
    },
    {
      "epoch": 7.329664570230608,
      "grad_norm": 0.06802419573068619,
      "learning_rate": 0.0007988727104415549,
      "loss": 0.5942,
      "num_input_tokens_seen": 9139064,
      "step": 13985
    },
    {
      "epoch": 7.332285115303983,
      "grad_norm": 0.11542167514562607,
      "learning_rate": 0.0007986893450689594,
      "loss": 0.3995,
      "num_input_tokens_seen": 9141624,
      "step": 13990
    },
    {
      "epoch": 7.334905660377358,
      "grad_norm": 0.10713585466146469,
      "learning_rate": 0.0007985059172139606,
      "loss": 0.3662,
      "num_input_tokens_seen": 9144120,
      "step": 13995
    },
    {
      "epoch": 7.337526205450734,
      "grad_norm": 0.10498439520597458,
      "learning_rate": 0.0007983224269149296,
      "loss": 0.4045,
      "num_input_tokens_seen": 9147384,
      "step": 14000
    },
    {
      "epoch": 7.340146750524109,
      "grad_norm": 0.07140097767114639,
      "learning_rate": 0.00079813887421025,
      "loss": 0.4399,
      "num_input_tokens_seen": 9150744,
      "step": 14005
    },
    {
      "epoch": 7.3427672955974845,
      "grad_norm": 0.07365104556083679,
      "learning_rate": 0.0007979552591383195,
      "loss": 0.4636,
      "num_input_tokens_seen": 9153560,
      "step": 14010
    },
    {
      "epoch": 7.34538784067086,
      "grad_norm": 0.10722661763429642,
      "learning_rate": 0.0007977715817375481,
      "loss": 0.3244,
      "num_input_tokens_seen": 9156696,
      "step": 14015
    },
    {
      "epoch": 7.348008385744235,
      "grad_norm": 0.0863112136721611,
      "learning_rate": 0.0007975878420463588,
      "loss": 0.3687,
      "num_input_tokens_seen": 9159416,
      "step": 14020
    },
    {
      "epoch": 7.35062893081761,
      "grad_norm": 0.09959740936756134,
      "learning_rate": 0.0007974040401031882,
      "loss": 0.3501,
      "num_input_tokens_seen": 9162584,
      "step": 14025
    },
    {
      "epoch": 7.353249475890985,
      "grad_norm": 0.13068796694278717,
      "learning_rate": 0.0007972201759464851,
      "loss": 0.4283,
      "num_input_tokens_seen": 9165848,
      "step": 14030
    },
    {
      "epoch": 7.35587002096436,
      "grad_norm": 0.1346888542175293,
      "learning_rate": 0.0007970362496147121,
      "loss": 0.4127,
      "num_input_tokens_seen": 9168600,
      "step": 14035
    },
    {
      "epoch": 7.3584905660377355,
      "grad_norm": 0.06807760149240494,
      "learning_rate": 0.0007968522611463447,
      "loss": 0.3796,
      "num_input_tokens_seen": 9173336,
      "step": 14040
    },
    {
      "epoch": 7.361111111111111,
      "grad_norm": 0.10140542685985565,
      "learning_rate": 0.0007966682105798708,
      "loss": 0.4479,
      "num_input_tokens_seen": 9176376,
      "step": 14045
    },
    {
      "epoch": 7.363731656184487,
      "grad_norm": 0.09891711175441742,
      "learning_rate": 0.0007964840979537918,
      "loss": 0.4913,
      "num_input_tokens_seen": 9180088,
      "step": 14050
    },
    {
      "epoch": 7.366352201257862,
      "grad_norm": 0.167833611369133,
      "learning_rate": 0.0007962999233066219,
      "loss": 0.4058,
      "num_input_tokens_seen": 9183064,
      "step": 14055
    },
    {
      "epoch": 7.368972746331237,
      "grad_norm": 0.17138487100601196,
      "learning_rate": 0.0007961156866768885,
      "loss": 0.448,
      "num_input_tokens_seen": 9186040,
      "step": 14060
    },
    {
      "epoch": 7.371593291404612,
      "grad_norm": 0.09715234488248825,
      "learning_rate": 0.0007959313881031317,
      "loss": 0.4355,
      "num_input_tokens_seen": 9189080,
      "step": 14065
    },
    {
      "epoch": 7.3742138364779874,
      "grad_norm": 0.0698665976524353,
      "learning_rate": 0.0007957470276239048,
      "loss": 0.5558,
      "num_input_tokens_seen": 9191992,
      "step": 14070
    },
    {
      "epoch": 7.376834381551363,
      "grad_norm": 0.14873993396759033,
      "learning_rate": 0.0007955626052777735,
      "loss": 0.4441,
      "num_input_tokens_seen": 9194520,
      "step": 14075
    },
    {
      "epoch": 7.379454926624738,
      "grad_norm": 0.17446322739124298,
      "learning_rate": 0.0007953781211033173,
      "loss": 0.4614,
      "num_input_tokens_seen": 9196632,
      "step": 14080
    },
    {
      "epoch": 7.382075471698113,
      "grad_norm": 0.16609543561935425,
      "learning_rate": 0.000795193575139128,
      "loss": 0.5024,
      "num_input_tokens_seen": 9199832,
      "step": 14085
    },
    {
      "epoch": 7.384696016771488,
      "grad_norm": 0.10397835820913315,
      "learning_rate": 0.0007950089674238106,
      "loss": 0.4561,
      "num_input_tokens_seen": 9203384,
      "step": 14090
    },
    {
      "epoch": 7.387316561844864,
      "grad_norm": 0.21741023659706116,
      "learning_rate": 0.0007948242979959828,
      "loss": 0.4888,
      "num_input_tokens_seen": 9206840,
      "step": 14095
    },
    {
      "epoch": 7.389937106918239,
      "grad_norm": 0.19342583417892456,
      "learning_rate": 0.0007946395668942754,
      "loss": 0.5889,
      "num_input_tokens_seen": 9209432,
      "step": 14100
    },
    {
      "epoch": 7.3925576519916145,
      "grad_norm": 0.1057036891579628,
      "learning_rate": 0.0007944547741573319,
      "loss": 0.4305,
      "num_input_tokens_seen": 9212056,
      "step": 14105
    },
    {
      "epoch": 7.39517819706499,
      "grad_norm": 0.09619389474391937,
      "learning_rate": 0.0007942699198238091,
      "loss": 0.3431,
      "num_input_tokens_seen": 9215224,
      "step": 14110
    },
    {
      "epoch": 7.397798742138365,
      "grad_norm": 0.0680018737912178,
      "learning_rate": 0.0007940850039323763,
      "loss": 0.3713,
      "num_input_tokens_seen": 9219672,
      "step": 14115
    },
    {
      "epoch": 7.40041928721174,
      "grad_norm": 0.17872390151023865,
      "learning_rate": 0.0007939000265217156,
      "loss": 0.445,
      "num_input_tokens_seen": 9222616,
      "step": 14120
    },
    {
      "epoch": 7.403039832285115,
      "grad_norm": 0.065459243953228,
      "learning_rate": 0.0007937149876305226,
      "loss": 0.6976,
      "num_input_tokens_seen": 9227032,
      "step": 14125
    },
    {
      "epoch": 7.40566037735849,
      "grad_norm": 0.19832953810691833,
      "learning_rate": 0.000793529887297505,
      "loss": 0.4988,
      "num_input_tokens_seen": 9229688,
      "step": 14130
    },
    {
      "epoch": 7.4082809224318655,
      "grad_norm": 0.1276296228170395,
      "learning_rate": 0.0007933447255613835,
      "loss": 0.5054,
      "num_input_tokens_seen": 9233016,
      "step": 14135
    },
    {
      "epoch": 7.410901467505241,
      "grad_norm": 0.11884402483701706,
      "learning_rate": 0.0007931595024608924,
      "loss": 0.4473,
      "num_input_tokens_seen": 9236504,
      "step": 14140
    },
    {
      "epoch": 7.413522012578617,
      "grad_norm": 0.10142236202955246,
      "learning_rate": 0.0007929742180347776,
      "loss": 0.4426,
      "num_input_tokens_seen": 9240344,
      "step": 14145
    },
    {
      "epoch": 7.416142557651992,
      "grad_norm": 0.12496761977672577,
      "learning_rate": 0.0007927888723217991,
      "loss": 0.4353,
      "num_input_tokens_seen": 9242904,
      "step": 14150
    },
    {
      "epoch": 7.418763102725367,
      "grad_norm": 0.182876318693161,
      "learning_rate": 0.0007926034653607288,
      "loss": 0.5487,
      "num_input_tokens_seen": 9246072,
      "step": 14155
    },
    {
      "epoch": 7.421383647798742,
      "grad_norm": 0.1850689798593521,
      "learning_rate": 0.0007924179971903516,
      "loss": 0.4583,
      "num_input_tokens_seen": 9248696,
      "step": 14160
    },
    {
      "epoch": 7.424004192872117,
      "grad_norm": 0.137950599193573,
      "learning_rate": 0.0007922324678494655,
      "loss": 0.6264,
      "num_input_tokens_seen": 9251160,
      "step": 14165
    },
    {
      "epoch": 7.426624737945493,
      "grad_norm": 0.1186298131942749,
      "learning_rate": 0.0007920468773768811,
      "loss": 0.491,
      "num_input_tokens_seen": 9254040,
      "step": 14170
    },
    {
      "epoch": 7.429245283018868,
      "grad_norm": 0.08696769177913666,
      "learning_rate": 0.0007918612258114217,
      "loss": 0.4757,
      "num_input_tokens_seen": 9257816,
      "step": 14175
    },
    {
      "epoch": 7.431865828092243,
      "grad_norm": 0.16963626444339752,
      "learning_rate": 0.0007916755131919238,
      "loss": 0.4143,
      "num_input_tokens_seen": 9260184,
      "step": 14180
    },
    {
      "epoch": 7.434486373165618,
      "grad_norm": 0.12262067943811417,
      "learning_rate": 0.000791489739557236,
      "loss": 0.5604,
      "num_input_tokens_seen": 9263032,
      "step": 14185
    },
    {
      "epoch": 7.437106918238994,
      "grad_norm": 0.108794204890728,
      "learning_rate": 0.0007913039049462203,
      "loss": 0.5318,
      "num_input_tokens_seen": 9267448,
      "step": 14190
    },
    {
      "epoch": 7.439727463312369,
      "grad_norm": 0.1403975635766983,
      "learning_rate": 0.0007911180093977511,
      "loss": 0.4276,
      "num_input_tokens_seen": 9270200,
      "step": 14195
    },
    {
      "epoch": 7.4423480083857445,
      "grad_norm": 0.15285436809062958,
      "learning_rate": 0.0007909320529507154,
      "loss": 0.4308,
      "num_input_tokens_seen": 9272856,
      "step": 14200
    },
    {
      "epoch": 7.44496855345912,
      "grad_norm": 0.08117286115884781,
      "learning_rate": 0.0007907460356440134,
      "loss": 0.435,
      "num_input_tokens_seen": 9276504,
      "step": 14205
    },
    {
      "epoch": 7.447589098532495,
      "grad_norm": 0.08687687665224075,
      "learning_rate": 0.0007905599575165577,
      "loss": 0.5017,
      "num_input_tokens_seen": 9279736,
      "step": 14210
    },
    {
      "epoch": 7.45020964360587,
      "grad_norm": 0.13795490562915802,
      "learning_rate": 0.0007903738186072739,
      "loss": 0.4113,
      "num_input_tokens_seen": 9282680,
      "step": 14215
    },
    {
      "epoch": 7.452830188679245,
      "grad_norm": 0.18981698155403137,
      "learning_rate": 0.0007901876189550999,
      "loss": 0.4479,
      "num_input_tokens_seen": 9285912,
      "step": 14220
    },
    {
      "epoch": 7.45545073375262,
      "grad_norm": 0.128278449177742,
      "learning_rate": 0.0007900013585989867,
      "loss": 0.3597,
      "num_input_tokens_seen": 9289176,
      "step": 14225
    },
    {
      "epoch": 7.4580712788259955,
      "grad_norm": 0.1316736489534378,
      "learning_rate": 0.0007898150375778979,
      "loss": 0.4276,
      "num_input_tokens_seen": 9291736,
      "step": 14230
    },
    {
      "epoch": 7.460691823899371,
      "grad_norm": 0.10158701241016388,
      "learning_rate": 0.0007896286559308095,
      "loss": 0.4578,
      "num_input_tokens_seen": 9296312,
      "step": 14235
    },
    {
      "epoch": 7.463312368972747,
      "grad_norm": 0.1489318311214447,
      "learning_rate": 0.0007894422136967105,
      "loss": 0.4027,
      "num_input_tokens_seen": 9298904,
      "step": 14240
    },
    {
      "epoch": 7.465932914046122,
      "grad_norm": 0.10406722873449326,
      "learning_rate": 0.0007892557109146026,
      "loss": 0.4599,
      "num_input_tokens_seen": 9301432,
      "step": 14245
    },
    {
      "epoch": 7.468553459119497,
      "grad_norm": 0.12147555500268936,
      "learning_rate": 0.0007890691476234999,
      "loss": 0.4696,
      "num_input_tokens_seen": 9304376,
      "step": 14250
    },
    {
      "epoch": 7.471174004192872,
      "grad_norm": 0.13557913899421692,
      "learning_rate": 0.0007888825238624294,
      "loss": 0.4582,
      "num_input_tokens_seen": 9307864,
      "step": 14255
    },
    {
      "epoch": 7.473794549266247,
      "grad_norm": 0.11668749898672104,
      "learning_rate": 0.0007886958396704307,
      "loss": 0.5047,
      "num_input_tokens_seen": 9311032,
      "step": 14260
    },
    {
      "epoch": 7.476415094339623,
      "grad_norm": 0.0830266922712326,
      "learning_rate": 0.0007885090950865559,
      "loss": 0.3505,
      "num_input_tokens_seen": 9314264,
      "step": 14265
    },
    {
      "epoch": 7.479035639412998,
      "grad_norm": 0.08928591758012772,
      "learning_rate": 0.0007883222901498701,
      "loss": 0.3761,
      "num_input_tokens_seen": 9317272,
      "step": 14270
    },
    {
      "epoch": 7.481656184486373,
      "grad_norm": 0.1917220801115036,
      "learning_rate": 0.0007881354248994503,
      "loss": 0.471,
      "num_input_tokens_seen": 9320504,
      "step": 14275
    },
    {
      "epoch": 7.484276729559748,
      "grad_norm": 0.14069688320159912,
      "learning_rate": 0.0007879484993743869,
      "loss": 0.4223,
      "num_input_tokens_seen": 9324792,
      "step": 14280
    },
    {
      "epoch": 7.486897274633124,
      "grad_norm": 0.07868162542581558,
      "learning_rate": 0.0007877615136137827,
      "loss": 0.3803,
      "num_input_tokens_seen": 9327544,
      "step": 14285
    },
    {
      "epoch": 7.489517819706499,
      "grad_norm": 0.11342009902000427,
      "learning_rate": 0.0007875744676567527,
      "loss": 0.5012,
      "num_input_tokens_seen": 9330488,
      "step": 14290
    },
    {
      "epoch": 7.4921383647798745,
      "grad_norm": 0.07678178697824478,
      "learning_rate": 0.0007873873615424248,
      "loss": 0.5325,
      "num_input_tokens_seen": 9335288,
      "step": 14295
    },
    {
      "epoch": 7.49475890985325,
      "grad_norm": 0.07717620581388474,
      "learning_rate": 0.0007872001953099396,
      "loss": 0.4313,
      "num_input_tokens_seen": 9339384,
      "step": 14300
    },
    {
      "epoch": 7.497379454926625,
      "grad_norm": 0.09632127732038498,
      "learning_rate": 0.0007870129689984501,
      "loss": 0.572,
      "num_input_tokens_seen": 9342872,
      "step": 14305
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.09454019367694855,
      "learning_rate": 0.000786825682647122,
      "loss": 0.4066,
      "num_input_tokens_seen": 9345976,
      "step": 14310
    },
    {
      "epoch": 7.502620545073375,
      "grad_norm": 0.1303713470697403,
      "learning_rate": 0.0007866383362951332,
      "loss": 0.4112,
      "num_input_tokens_seen": 9349208,
      "step": 14315
    },
    {
      "epoch": 7.50524109014675,
      "grad_norm": 0.1043364554643631,
      "learning_rate": 0.0007864509299816746,
      "loss": 0.4201,
      "num_input_tokens_seen": 9352184,
      "step": 14320
    },
    {
      "epoch": 7.5078616352201255,
      "grad_norm": 0.13383665680885315,
      "learning_rate": 0.0007862634637459496,
      "loss": 0.5025,
      "num_input_tokens_seen": 9356216,
      "step": 14325
    },
    {
      "epoch": 7.510482180293501,
      "grad_norm": 0.13921773433685303,
      "learning_rate": 0.0007860759376271737,
      "loss": 0.4396,
      "num_input_tokens_seen": 9359544,
      "step": 14330
    },
    {
      "epoch": 7.513102725366876,
      "grad_norm": 0.07056854665279388,
      "learning_rate": 0.0007858883516645755,
      "loss": 0.4194,
      "num_input_tokens_seen": 9362200,
      "step": 14335
    },
    {
      "epoch": 7.515723270440252,
      "grad_norm": 0.0852176770567894,
      "learning_rate": 0.0007857007058973957,
      "loss": 0.3982,
      "num_input_tokens_seen": 9366520,
      "step": 14340
    },
    {
      "epoch": 7.518343815513627,
      "grad_norm": 0.07750605791807175,
      "learning_rate": 0.0007855130003648876,
      "loss": 0.3904,
      "num_input_tokens_seen": 9372440,
      "step": 14345
    },
    {
      "epoch": 7.520964360587002,
      "grad_norm": 0.21503661572933197,
      "learning_rate": 0.0007853252351063171,
      "loss": 0.3713,
      "num_input_tokens_seen": 9375064,
      "step": 14350
    },
    {
      "epoch": 7.523584905660377,
      "grad_norm": 0.12048912793397903,
      "learning_rate": 0.0007851374101609627,
      "loss": 0.3729,
      "num_input_tokens_seen": 9377720,
      "step": 14355
    },
    {
      "epoch": 7.526205450733753,
      "grad_norm": 0.08466336876153946,
      "learning_rate": 0.000784949525568115,
      "loss": 0.4572,
      "num_input_tokens_seen": 9380984,
      "step": 14360
    },
    {
      "epoch": 7.528825995807128,
      "grad_norm": 0.14501191675662994,
      "learning_rate": 0.0007847615813670776,
      "loss": 0.3871,
      "num_input_tokens_seen": 9383992,
      "step": 14365
    },
    {
      "epoch": 7.531446540880503,
      "grad_norm": 0.19593507051467896,
      "learning_rate": 0.000784573577597166,
      "loss": 0.4597,
      "num_input_tokens_seen": 9386360,
      "step": 14370
    },
    {
      "epoch": 7.534067085953878,
      "grad_norm": 0.12171079963445663,
      "learning_rate": 0.0007843855142977086,
      "loss": 0.5208,
      "num_input_tokens_seen": 9389144,
      "step": 14375
    },
    {
      "epoch": 7.536687631027254,
      "grad_norm": 0.10469721257686615,
      "learning_rate": 0.000784197391508046,
      "loss": 0.3354,
      "num_input_tokens_seen": 9392024,
      "step": 14380
    },
    {
      "epoch": 7.539308176100629,
      "grad_norm": 0.18695273995399475,
      "learning_rate": 0.0007840092092675313,
      "loss": 0.4322,
      "num_input_tokens_seen": 9394872,
      "step": 14385
    },
    {
      "epoch": 7.5419287211740045,
      "grad_norm": 0.11581315845251083,
      "learning_rate": 0.0007838209676155302,
      "loss": 0.5953,
      "num_input_tokens_seen": 9397304,
      "step": 14390
    },
    {
      "epoch": 7.54454926624738,
      "grad_norm": 0.12038414180278778,
      "learning_rate": 0.0007836326665914209,
      "loss": 0.5101,
      "num_input_tokens_seen": 9400664,
      "step": 14395
    },
    {
      "epoch": 7.547169811320755,
      "grad_norm": 0.07265983521938324,
      "learning_rate": 0.0007834443062345932,
      "loss": 0.5042,
      "num_input_tokens_seen": 9403864,
      "step": 14400
    },
    {
      "epoch": 7.54979035639413,
      "grad_norm": 0.1840130239725113,
      "learning_rate": 0.0007832558865844507,
      "loss": 0.4592,
      "num_input_tokens_seen": 9407544,
      "step": 14405
    },
    {
      "epoch": 7.552410901467505,
      "grad_norm": 0.08336623758077621,
      "learning_rate": 0.0007830674076804083,
      "loss": 0.366,
      "num_input_tokens_seen": 9410968,
      "step": 14410
    },
    {
      "epoch": 7.55503144654088,
      "grad_norm": 0.2172914296388626,
      "learning_rate": 0.0007828788695618934,
      "loss": 0.5081,
      "num_input_tokens_seen": 9413400,
      "step": 14415
    },
    {
      "epoch": 7.5576519916142555,
      "grad_norm": 0.1815841645002365,
      "learning_rate": 0.0007826902722683462,
      "loss": 0.3722,
      "num_input_tokens_seen": 9415832,
      "step": 14420
    },
    {
      "epoch": 7.560272536687631,
      "grad_norm": 0.1385563164949417,
      "learning_rate": 0.0007825016158392193,
      "loss": 0.5602,
      "num_input_tokens_seen": 9419064,
      "step": 14425
    },
    {
      "epoch": 7.562893081761006,
      "grad_norm": 0.08728865534067154,
      "learning_rate": 0.0007823129003139773,
      "loss": 0.488,
      "num_input_tokens_seen": 9421752,
      "step": 14430
    },
    {
      "epoch": 7.565513626834382,
      "grad_norm": 0.12694275379180908,
      "learning_rate": 0.0007821241257320972,
      "loss": 0.5266,
      "num_input_tokens_seen": 9424984,
      "step": 14435
    },
    {
      "epoch": 7.568134171907757,
      "grad_norm": 0.12219250947237015,
      "learning_rate": 0.0007819352921330689,
      "loss": 0.3952,
      "num_input_tokens_seen": 9428216,
      "step": 14440
    },
    {
      "epoch": 7.570754716981132,
      "grad_norm": 0.12142675369977951,
      "learning_rate": 0.0007817463995563938,
      "loss": 0.4602,
      "num_input_tokens_seen": 9431576,
      "step": 14445
    },
    {
      "epoch": 7.573375262054507,
      "grad_norm": 0.20430593192577362,
      "learning_rate": 0.0007815574480415864,
      "loss": 0.5852,
      "num_input_tokens_seen": 9434680,
      "step": 14450
    },
    {
      "epoch": 7.575995807127883,
      "grad_norm": 0.20701877772808075,
      "learning_rate": 0.0007813684376281729,
      "loss": 0.2836,
      "num_input_tokens_seen": 9437432,
      "step": 14455
    },
    {
      "epoch": 7.578616352201258,
      "grad_norm": 0.09021982550621033,
      "learning_rate": 0.0007811793683556922,
      "loss": 0.3916,
      "num_input_tokens_seen": 9441208,
      "step": 14460
    },
    {
      "epoch": 7.581236897274633,
      "grad_norm": 0.11389853805303574,
      "learning_rate": 0.0007809902402636957,
      "loss": 0.4766,
      "num_input_tokens_seen": 9444056,
      "step": 14465
    },
    {
      "epoch": 7.583857442348008,
      "grad_norm": 0.2886750102043152,
      "learning_rate": 0.0007808010533917464,
      "loss": 0.569,
      "num_input_tokens_seen": 9446968,
      "step": 14470
    },
    {
      "epoch": 7.586477987421384,
      "grad_norm": 0.07205032557249069,
      "learning_rate": 0.0007806118077794205,
      "loss": 0.4707,
      "num_input_tokens_seen": 9450712,
      "step": 14475
    },
    {
      "epoch": 7.589098532494759,
      "grad_norm": 0.08525638282299042,
      "learning_rate": 0.0007804225034663058,
      "loss": 0.4157,
      "num_input_tokens_seen": 9453240,
      "step": 14480
    },
    {
      "epoch": 7.5917190775681345,
      "grad_norm": 0.08935865014791489,
      "learning_rate": 0.0007802331404920024,
      "loss": 0.3828,
      "num_input_tokens_seen": 9456728,
      "step": 14485
    },
    {
      "epoch": 7.59433962264151,
      "grad_norm": 0.10340043902397156,
      "learning_rate": 0.0007800437188961232,
      "loss": 0.4553,
      "num_input_tokens_seen": 9459800,
      "step": 14490
    },
    {
      "epoch": 7.596960167714885,
      "grad_norm": 0.07731743901968002,
      "learning_rate": 0.0007798542387182929,
      "loss": 0.4318,
      "num_input_tokens_seen": 9463384,
      "step": 14495
    },
    {
      "epoch": 7.59958071278826,
      "grad_norm": 0.11127376556396484,
      "learning_rate": 0.0007796646999981488,
      "loss": 0.4609,
      "num_input_tokens_seen": 9466520,
      "step": 14500
    },
    {
      "epoch": 7.602201257861635,
      "grad_norm": 0.1184859350323677,
      "learning_rate": 0.0007794751027753397,
      "loss": 0.3568,
      "num_input_tokens_seen": 9469944,
      "step": 14505
    },
    {
      "epoch": 7.60482180293501,
      "grad_norm": 0.5245069265365601,
      "learning_rate": 0.0007792854470895278,
      "loss": 0.4843,
      "num_input_tokens_seen": 9472280,
      "step": 14510
    },
    {
      "epoch": 7.6074423480083855,
      "grad_norm": 0.125313401222229,
      "learning_rate": 0.0007790957329803865,
      "loss": 0.4563,
      "num_input_tokens_seen": 9474808,
      "step": 14515
    },
    {
      "epoch": 7.610062893081761,
      "grad_norm": 0.07937740534543991,
      "learning_rate": 0.0007789059604876019,
      "loss": 0.4538,
      "num_input_tokens_seen": 9479064,
      "step": 14520
    },
    {
      "epoch": 7.612683438155136,
      "grad_norm": 0.09957306832075119,
      "learning_rate": 0.0007787161296508724,
      "loss": 0.4793,
      "num_input_tokens_seen": 9483128,
      "step": 14525
    },
    {
      "epoch": 7.615303983228512,
      "grad_norm": 0.1721423715353012,
      "learning_rate": 0.0007785262405099083,
      "loss": 0.4398,
      "num_input_tokens_seen": 9486136,
      "step": 14530
    },
    {
      "epoch": 7.617924528301887,
      "grad_norm": 0.24665261805057526,
      "learning_rate": 0.0007783362931044322,
      "loss": 0.7605,
      "num_input_tokens_seen": 9488568,
      "step": 14535
    },
    {
      "epoch": 7.620545073375262,
      "grad_norm": 0.17519497871398926,
      "learning_rate": 0.0007781462874741793,
      "loss": 0.4755,
      "num_input_tokens_seen": 9492440,
      "step": 14540
    },
    {
      "epoch": 7.623165618448637,
      "grad_norm": 0.10597486048936844,
      "learning_rate": 0.000777956223658896,
      "loss": 0.4138,
      "num_input_tokens_seen": 9495192,
      "step": 14545
    },
    {
      "epoch": 7.6257861635220126,
      "grad_norm": 0.22476761043071747,
      "learning_rate": 0.000777766101698342,
      "loss": 0.4963,
      "num_input_tokens_seen": 9497688,
      "step": 14550
    },
    {
      "epoch": 7.628406708595388,
      "grad_norm": 0.09728087484836578,
      "learning_rate": 0.0007775759216322882,
      "loss": 0.4695,
      "num_input_tokens_seen": 9500984,
      "step": 14555
    },
    {
      "epoch": 7.631027253668763,
      "grad_norm": 0.09762661159038544,
      "learning_rate": 0.0007773856835005187,
      "loss": 0.4416,
      "num_input_tokens_seen": 9504152,
      "step": 14560
    },
    {
      "epoch": 7.633647798742138,
      "grad_norm": 0.10211720317602158,
      "learning_rate": 0.0007771953873428285,
      "loss": 0.4558,
      "num_input_tokens_seen": 9506840,
      "step": 14565
    },
    {
      "epoch": 7.636268343815514,
      "grad_norm": 0.06505658477544785,
      "learning_rate": 0.0007770050331990259,
      "loss": 0.4961,
      "num_input_tokens_seen": 9509880,
      "step": 14570
    },
    {
      "epoch": 7.638888888888889,
      "grad_norm": 0.1299075037240982,
      "learning_rate": 0.0007768146211089304,
      "loss": 0.4476,
      "num_input_tokens_seen": 9513464,
      "step": 14575
    },
    {
      "epoch": 7.6415094339622645,
      "grad_norm": 0.20946095883846283,
      "learning_rate": 0.0007766241511123744,
      "loss": 0.4931,
      "num_input_tokens_seen": 9516216,
      "step": 14580
    },
    {
      "epoch": 7.64412997903564,
      "grad_norm": 0.0876418799161911,
      "learning_rate": 0.0007764336232492018,
      "loss": 0.3645,
      "num_input_tokens_seen": 9519032,
      "step": 14585
    },
    {
      "epoch": 7.646750524109015,
      "grad_norm": 0.061010923236608505,
      "learning_rate": 0.0007762430375592689,
      "loss": 0.376,
      "num_input_tokens_seen": 9523640,
      "step": 14590
    },
    {
      "epoch": 7.64937106918239,
      "grad_norm": 0.11070487648248672,
      "learning_rate": 0.0007760523940824441,
      "loss": 0.4216,
      "num_input_tokens_seen": 9526616,
      "step": 14595
    },
    {
      "epoch": 7.651991614255765,
      "grad_norm": 0.0864204615354538,
      "learning_rate": 0.0007758616928586077,
      "loss": 0.4736,
      "num_input_tokens_seen": 9529656,
      "step": 14600
    },
    {
      "epoch": 7.65461215932914,
      "grad_norm": 0.07556318491697311,
      "learning_rate": 0.0007756709339276527,
      "loss": 0.4046,
      "num_input_tokens_seen": 9532984,
      "step": 14605
    },
    {
      "epoch": 7.6572327044025155,
      "grad_norm": 0.18206952512264252,
      "learning_rate": 0.0007754801173294831,
      "loss": 0.4295,
      "num_input_tokens_seen": 9535928,
      "step": 14610
    },
    {
      "epoch": 7.659853249475891,
      "grad_norm": 0.11187636107206345,
      "learning_rate": 0.0007752892431040158,
      "loss": 0.4606,
      "num_input_tokens_seen": 9539256,
      "step": 14615
    },
    {
      "epoch": 7.662473794549266,
      "grad_norm": 0.09452543407678604,
      "learning_rate": 0.0007750983112911796,
      "loss": 0.4423,
      "num_input_tokens_seen": 9542296,
      "step": 14620
    },
    {
      "epoch": 7.665094339622642,
      "grad_norm": 0.11868442595005035,
      "learning_rate": 0.0007749073219309151,
      "loss": 0.3858,
      "num_input_tokens_seen": 9545368,
      "step": 14625
    },
    {
      "epoch": 7.667714884696017,
      "grad_norm": 0.09160062670707703,
      "learning_rate": 0.0007747162750631751,
      "loss": 0.4372,
      "num_input_tokens_seen": 9548472,
      "step": 14630
    },
    {
      "epoch": 7.670335429769392,
      "grad_norm": 0.05133746191859245,
      "learning_rate": 0.0007745251707279246,
      "loss": 0.3759,
      "num_input_tokens_seen": 9552248,
      "step": 14635
    },
    {
      "epoch": 7.672955974842767,
      "grad_norm": 0.1140235885977745,
      "learning_rate": 0.0007743340089651403,
      "loss": 0.6829,
      "num_input_tokens_seen": 9555320,
      "step": 14640
    },
    {
      "epoch": 7.6755765199161425,
      "grad_norm": 0.1385585069656372,
      "learning_rate": 0.0007741427898148111,
      "loss": 0.4647,
      "num_input_tokens_seen": 9558904,
      "step": 14645
    },
    {
      "epoch": 7.678197064989518,
      "grad_norm": 0.20004570484161377,
      "learning_rate": 0.0007739515133169379,
      "loss": 0.489,
      "num_input_tokens_seen": 9561624,
      "step": 14650
    },
    {
      "epoch": 7.680817610062893,
      "grad_norm": 0.15222786366939545,
      "learning_rate": 0.0007737601795115334,
      "loss": 0.5925,
      "num_input_tokens_seen": 9564568,
      "step": 14655
    },
    {
      "epoch": 7.683438155136268,
      "grad_norm": 0.12210728228092194,
      "learning_rate": 0.0007735687884386226,
      "loss": 0.5346,
      "num_input_tokens_seen": 9567704,
      "step": 14660
    },
    {
      "epoch": 7.686058700209644,
      "grad_norm": 0.09645938873291016,
      "learning_rate": 0.0007733773401382424,
      "loss": 0.4551,
      "num_input_tokens_seen": 9571512,
      "step": 14665
    },
    {
      "epoch": 7.688679245283019,
      "grad_norm": 0.11499471217393875,
      "learning_rate": 0.0007731858346504414,
      "loss": 0.547,
      "num_input_tokens_seen": 9575448,
      "step": 14670
    },
    {
      "epoch": 7.691299790356394,
      "grad_norm": 0.0711812674999237,
      "learning_rate": 0.0007729942720152805,
      "loss": 0.2729,
      "num_input_tokens_seen": 9583704,
      "step": 14675
    },
    {
      "epoch": 7.69392033542977,
      "grad_norm": 0.11120966076850891,
      "learning_rate": 0.0007728026522728324,
      "loss": 0.4255,
      "num_input_tokens_seen": 9586392,
      "step": 14680
    },
    {
      "epoch": 7.696540880503145,
      "grad_norm": 0.1262432038784027,
      "learning_rate": 0.0007726109754631817,
      "loss": 0.5793,
      "num_input_tokens_seen": 9589336,
      "step": 14685
    },
    {
      "epoch": 7.69916142557652,
      "grad_norm": 0.0728878527879715,
      "learning_rate": 0.000772419241626425,
      "loss": 0.4241,
      "num_input_tokens_seen": 9593016,
      "step": 14690
    },
    {
      "epoch": 7.701781970649895,
      "grad_norm": 0.1667003184556961,
      "learning_rate": 0.000772227450802671,
      "loss": 0.4327,
      "num_input_tokens_seen": 9595512,
      "step": 14695
    },
    {
      "epoch": 7.70440251572327,
      "grad_norm": 0.13318248093128204,
      "learning_rate": 0.0007720356030320399,
      "loss": 0.4548,
      "num_input_tokens_seen": 9598904,
      "step": 14700
    },
    {
      "epoch": 7.7070230607966455,
      "grad_norm": 0.10095631331205368,
      "learning_rate": 0.0007718436983546642,
      "loss": 0.2818,
      "num_input_tokens_seen": 9602712,
      "step": 14705
    },
    {
      "epoch": 7.709643605870021,
      "grad_norm": 0.08662593364715576,
      "learning_rate": 0.0007716517368106882,
      "loss": 0.4581,
      "num_input_tokens_seen": 9605560,
      "step": 14710
    },
    {
      "epoch": 7.712264150943396,
      "grad_norm": 0.09801062196493149,
      "learning_rate": 0.000771459718440268,
      "loss": 0.5814,
      "num_input_tokens_seen": 9609048,
      "step": 14715
    },
    {
      "epoch": 7.714884696016772,
      "grad_norm": 0.14174027740955353,
      "learning_rate": 0.0007712676432835717,
      "loss": 0.4297,
      "num_input_tokens_seen": 9612824,
      "step": 14720
    },
    {
      "epoch": 7.717505241090147,
      "grad_norm": 0.0608881339430809,
      "learning_rate": 0.0007710755113807794,
      "loss": 0.3926,
      "num_input_tokens_seen": 9615704,
      "step": 14725
    },
    {
      "epoch": 7.720125786163522,
      "grad_norm": 0.12947367131710052,
      "learning_rate": 0.0007708833227720824,
      "loss": 0.5411,
      "num_input_tokens_seen": 9618840,
      "step": 14730
    },
    {
      "epoch": 7.722746331236897,
      "grad_norm": 0.07185844331979752,
      "learning_rate": 0.0007706910774976848,
      "loss": 0.3733,
      "num_input_tokens_seen": 9622552,
      "step": 14735
    },
    {
      "epoch": 7.7253668763102725,
      "grad_norm": 0.07564031332731247,
      "learning_rate": 0.0007704987755978021,
      "loss": 0.6222,
      "num_input_tokens_seen": 9625720,
      "step": 14740
    },
    {
      "epoch": 7.727987421383648,
      "grad_norm": 0.13591736555099487,
      "learning_rate": 0.0007703064171126615,
      "loss": 0.3853,
      "num_input_tokens_seen": 9628664,
      "step": 14745
    },
    {
      "epoch": 7.730607966457023,
      "grad_norm": 0.0860925242304802,
      "learning_rate": 0.0007701140020825022,
      "loss": 0.4073,
      "num_input_tokens_seen": 9632088,
      "step": 14750
    },
    {
      "epoch": 7.733228511530398,
      "grad_norm": 0.12721002101898193,
      "learning_rate": 0.0007699215305475753,
      "loss": 0.47,
      "num_input_tokens_seen": 9635160,
      "step": 14755
    },
    {
      "epoch": 7.735849056603773,
      "grad_norm": 0.08328238874673843,
      "learning_rate": 0.0007697290025481436,
      "loss": 0.4734,
      "num_input_tokens_seen": 9638776,
      "step": 14760
    },
    {
      "epoch": 7.738469601677149,
      "grad_norm": 0.23196159303188324,
      "learning_rate": 0.0007695364181244819,
      "loss": 0.4828,
      "num_input_tokens_seen": 9641624,
      "step": 14765
    },
    {
      "epoch": 7.741090146750524,
      "grad_norm": 0.09196927398443222,
      "learning_rate": 0.0007693437773168764,
      "loss": 0.5422,
      "num_input_tokens_seen": 9649176,
      "step": 14770
    },
    {
      "epoch": 7.7437106918239,
      "grad_norm": 0.11325711011886597,
      "learning_rate": 0.0007691510801656256,
      "loss": 0.6522,
      "num_input_tokens_seen": 9651768,
      "step": 14775
    },
    {
      "epoch": 7.746331236897275,
      "grad_norm": 0.08699376881122589,
      "learning_rate": 0.0007689583267110395,
      "loss": 0.2911,
      "num_input_tokens_seen": 9654552,
      "step": 14780
    },
    {
      "epoch": 7.74895178197065,
      "grad_norm": 0.1046605184674263,
      "learning_rate": 0.0007687655169934398,
      "loss": 0.4415,
      "num_input_tokens_seen": 9657112,
      "step": 14785
    },
    {
      "epoch": 7.751572327044025,
      "grad_norm": 0.08293577283620834,
      "learning_rate": 0.0007685726510531603,
      "loss": 0.3767,
      "num_input_tokens_seen": 9661176,
      "step": 14790
    },
    {
      "epoch": 7.7541928721174,
      "grad_norm": 0.11844389140605927,
      "learning_rate": 0.0007683797289305463,
      "loss": 0.4393,
      "num_input_tokens_seen": 9663480,
      "step": 14795
    },
    {
      "epoch": 7.756813417190775,
      "grad_norm": 0.07300141453742981,
      "learning_rate": 0.0007681867506659548,
      "loss": 0.4407,
      "num_input_tokens_seen": 9666808,
      "step": 14800
    },
    {
      "epoch": 7.759433962264151,
      "grad_norm": 0.16695256531238556,
      "learning_rate": 0.0007679937162997546,
      "loss": 0.584,
      "num_input_tokens_seen": 9669336,
      "step": 14805
    },
    {
      "epoch": 7.762054507337526,
      "grad_norm": 0.1210692971944809,
      "learning_rate": 0.0007678006258723264,
      "loss": 0.568,
      "num_input_tokens_seen": 9671928,
      "step": 14810
    },
    {
      "epoch": 7.764675052410902,
      "grad_norm": 0.061415404081344604,
      "learning_rate": 0.0007676074794240626,
      "loss": 0.5373,
      "num_input_tokens_seen": 9676120,
      "step": 14815
    },
    {
      "epoch": 7.767295597484277,
      "grad_norm": 0.1452987790107727,
      "learning_rate": 0.000767414276995367,
      "loss": 0.3886,
      "num_input_tokens_seen": 9679032,
      "step": 14820
    },
    {
      "epoch": 7.769916142557652,
      "grad_norm": 0.11790480464696884,
      "learning_rate": 0.0007672210186266555,
      "loss": 0.4112,
      "num_input_tokens_seen": 9682744,
      "step": 14825
    },
    {
      "epoch": 7.772536687631027,
      "grad_norm": 0.10321962833404541,
      "learning_rate": 0.0007670277043583556,
      "loss": 0.6324,
      "num_input_tokens_seen": 9686040,
      "step": 14830
    },
    {
      "epoch": 7.7751572327044025,
      "grad_norm": 0.10272514820098877,
      "learning_rate": 0.0007668343342309063,
      "loss": 0.476,
      "num_input_tokens_seen": 9690168,
      "step": 14835
    },
    {
      "epoch": 7.777777777777778,
      "grad_norm": 0.15310825407505035,
      "learning_rate": 0.0007666409082847586,
      "loss": 0.4813,
      "num_input_tokens_seen": 9693496,
      "step": 14840
    },
    {
      "epoch": 7.780398322851153,
      "grad_norm": 0.10785981267690659,
      "learning_rate": 0.0007664474265603747,
      "loss": 0.4527,
      "num_input_tokens_seen": 9696760,
      "step": 14845
    },
    {
      "epoch": 7.783018867924528,
      "grad_norm": 0.0895407423377037,
      "learning_rate": 0.0007662538890982291,
      "loss": 0.5335,
      "num_input_tokens_seen": 9699672,
      "step": 14850
    },
    {
      "epoch": 7.785639412997903,
      "grad_norm": 0.07463322579860687,
      "learning_rate": 0.0007660602959388075,
      "loss": 0.3965,
      "num_input_tokens_seen": 9703384,
      "step": 14855
    },
    {
      "epoch": 7.788259958071279,
      "grad_norm": 0.06077635660767555,
      "learning_rate": 0.0007658666471226073,
      "loss": 0.4931,
      "num_input_tokens_seen": 9706328,
      "step": 14860
    },
    {
      "epoch": 7.790880503144654,
      "grad_norm": 0.14391857385635376,
      "learning_rate": 0.0007656729426901377,
      "loss": 0.5238,
      "num_input_tokens_seen": 9709432,
      "step": 14865
    },
    {
      "epoch": 7.79350104821803,
      "grad_norm": 0.17283137142658234,
      "learning_rate": 0.0007654791826819194,
      "loss": 0.5503,
      "num_input_tokens_seen": 9712696,
      "step": 14870
    },
    {
      "epoch": 7.796121593291405,
      "grad_norm": 0.11128263920545578,
      "learning_rate": 0.0007652853671384847,
      "loss": 0.5165,
      "num_input_tokens_seen": 9715704,
      "step": 14875
    },
    {
      "epoch": 7.79874213836478,
      "grad_norm": 0.09332703053951263,
      "learning_rate": 0.0007650914961003781,
      "loss": 0.6696,
      "num_input_tokens_seen": 9720344,
      "step": 14880
    },
    {
      "epoch": 7.801362683438155,
      "grad_norm": 0.06728927791118622,
      "learning_rate": 0.0007648975696081546,
      "loss": 0.4173,
      "num_input_tokens_seen": 9723544,
      "step": 14885
    },
    {
      "epoch": 7.80398322851153,
      "grad_norm": 0.10319774597883224,
      "learning_rate": 0.0007647035877023816,
      "loss": 0.6884,
      "num_input_tokens_seen": 9726424,
      "step": 14890
    },
    {
      "epoch": 7.806603773584905,
      "grad_norm": 0.15358804166316986,
      "learning_rate": 0.0007645095504236381,
      "loss": 0.4245,
      "num_input_tokens_seen": 9729144,
      "step": 14895
    },
    {
      "epoch": 7.809224318658281,
      "grad_norm": 0.0752289667725563,
      "learning_rate": 0.0007643154578125142,
      "loss": 0.4427,
      "num_input_tokens_seen": 9732504,
      "step": 14900
    },
    {
      "epoch": 7.811844863731656,
      "grad_norm": 0.10953088104724884,
      "learning_rate": 0.0007641213099096121,
      "loss": 0.4365,
      "num_input_tokens_seen": 9737048,
      "step": 14905
    },
    {
      "epoch": 7.814465408805032,
      "grad_norm": 0.1810780167579651,
      "learning_rate": 0.0007639271067555452,
      "loss": 0.4918,
      "num_input_tokens_seen": 9739960,
      "step": 14910
    },
    {
      "epoch": 7.817085953878407,
      "grad_norm": 0.11653956770896912,
      "learning_rate": 0.0007637328483909385,
      "loss": 0.3748,
      "num_input_tokens_seen": 9743288,
      "step": 14915
    },
    {
      "epoch": 7.819706498951782,
      "grad_norm": 0.15888743102550507,
      "learning_rate": 0.000763538534856429,
      "loss": 0.6786,
      "num_input_tokens_seen": 9746072,
      "step": 14920
    },
    {
      "epoch": 7.822327044025157,
      "grad_norm": 0.1133861392736435,
      "learning_rate": 0.0007633441661926643,
      "loss": 0.53,
      "num_input_tokens_seen": 9748920,
      "step": 14925
    },
    {
      "epoch": 7.8249475890985325,
      "grad_norm": 0.08570867776870728,
      "learning_rate": 0.0007631497424403046,
      "loss": 0.3288,
      "num_input_tokens_seen": 9751864,
      "step": 14930
    },
    {
      "epoch": 7.827568134171908,
      "grad_norm": 0.10600776970386505,
      "learning_rate": 0.000762955263640021,
      "loss": 0.4302,
      "num_input_tokens_seen": 9755128,
      "step": 14935
    },
    {
      "epoch": 7.830188679245283,
      "grad_norm": 0.1363847553730011,
      "learning_rate": 0.0007627607298324961,
      "loss": 0.3588,
      "num_input_tokens_seen": 9757976,
      "step": 14940
    },
    {
      "epoch": 7.832809224318658,
      "grad_norm": 0.07023549824953079,
      "learning_rate": 0.0007625661410584244,
      "loss": 0.3996,
      "num_input_tokens_seen": 9761464,
      "step": 14945
    },
    {
      "epoch": 7.835429769392033,
      "grad_norm": 0.14031648635864258,
      "learning_rate": 0.0007623714973585113,
      "loss": 0.4639,
      "num_input_tokens_seen": 9768408,
      "step": 14950
    },
    {
      "epoch": 7.838050314465409,
      "grad_norm": 0.08311791718006134,
      "learning_rate": 0.0007621767987734743,
      "loss": 0.5201,
      "num_input_tokens_seen": 9771832,
      "step": 14955
    },
    {
      "epoch": 7.840670859538784,
      "grad_norm": 0.08911336213350296,
      "learning_rate": 0.000761982045344042,
      "loss": 0.5632,
      "num_input_tokens_seen": 9775736,
      "step": 14960
    },
    {
      "epoch": 7.84329140461216,
      "grad_norm": 0.0856335312128067,
      "learning_rate": 0.0007617872371109549,
      "loss": 0.5286,
      "num_input_tokens_seen": 9779096,
      "step": 14965
    },
    {
      "epoch": 7.845911949685535,
      "grad_norm": 0.16167019307613373,
      "learning_rate": 0.0007615923741149643,
      "loss": 0.7219,
      "num_input_tokens_seen": 9782264,
      "step": 14970
    },
    {
      "epoch": 7.84853249475891,
      "grad_norm": 0.08048801869153976,
      "learning_rate": 0.0007613974563968333,
      "loss": 0.4427,
      "num_input_tokens_seen": 9785368,
      "step": 14975
    },
    {
      "epoch": 7.851153039832285,
      "grad_norm": 0.1205919086933136,
      "learning_rate": 0.0007612024839973368,
      "loss": 0.3808,
      "num_input_tokens_seen": 9789304,
      "step": 14980
    },
    {
      "epoch": 7.85377358490566,
      "grad_norm": 0.1302570253610611,
      "learning_rate": 0.0007610074569572605,
      "loss": 0.5797,
      "num_input_tokens_seen": 9792184,
      "step": 14985
    },
    {
      "epoch": 7.856394129979035,
      "grad_norm": 0.12241680920124054,
      "learning_rate": 0.0007608123753174019,
      "loss": 0.5411,
      "num_input_tokens_seen": 9795928,
      "step": 14990
    },
    {
      "epoch": 7.859014675052411,
      "grad_norm": 0.07621578872203827,
      "learning_rate": 0.00076061723911857,
      "loss": 0.4665,
      "num_input_tokens_seen": 9798776,
      "step": 14995
    },
    {
      "epoch": 7.861635220125786,
      "grad_norm": 0.08563676476478577,
      "learning_rate": 0.0007604220484015849,
      "loss": 0.3865,
      "num_input_tokens_seen": 9802008,
      "step": 15000
    },
    {
      "epoch": 7.864255765199162,
      "grad_norm": 0.18829964101314545,
      "learning_rate": 0.0007602268032072784,
      "loss": 0.5888,
      "num_input_tokens_seen": 9805912,
      "step": 15005
    },
    {
      "epoch": 7.866876310272537,
      "grad_norm": 0.08825279027223587,
      "learning_rate": 0.0007600315035764933,
      "loss": 0.4523,
      "num_input_tokens_seen": 9808664,
      "step": 15010
    },
    {
      "epoch": 7.869496855345912,
      "grad_norm": 0.07704784721136093,
      "learning_rate": 0.0007598361495500844,
      "loss": 0.3985,
      "num_input_tokens_seen": 9811256,
      "step": 15015
    },
    {
      "epoch": 7.872117400419287,
      "grad_norm": 0.08513381332159042,
      "learning_rate": 0.0007596407411689173,
      "loss": 0.5172,
      "num_input_tokens_seen": 9816440,
      "step": 15020
    },
    {
      "epoch": 7.8747379454926625,
      "grad_norm": 0.09821818768978119,
      "learning_rate": 0.0007594452784738695,
      "loss": 0.4374,
      "num_input_tokens_seen": 9818776,
      "step": 15025
    },
    {
      "epoch": 7.877358490566038,
      "grad_norm": 0.09279031306505203,
      "learning_rate": 0.000759249761505829,
      "loss": 0.4988,
      "num_input_tokens_seen": 9822520,
      "step": 15030
    },
    {
      "epoch": 7.879979035639413,
      "grad_norm": 0.08229315280914307,
      "learning_rate": 0.0007590541903056963,
      "loss": 0.3606,
      "num_input_tokens_seen": 9825496,
      "step": 15035
    },
    {
      "epoch": 7.882599580712788,
      "grad_norm": 0.0827680230140686,
      "learning_rate": 0.0007588585649143825,
      "loss": 0.6253,
      "num_input_tokens_seen": 9829080,
      "step": 15040
    },
    {
      "epoch": 7.885220125786163,
      "grad_norm": 0.13571470975875854,
      "learning_rate": 0.0007586628853728099,
      "loss": 0.4343,
      "num_input_tokens_seen": 9832056,
      "step": 15045
    },
    {
      "epoch": 7.887840670859539,
      "grad_norm": 0.1479671150445938,
      "learning_rate": 0.0007584671517219128,
      "loss": 0.4787,
      "num_input_tokens_seen": 9834680,
      "step": 15050
    },
    {
      "epoch": 7.890461215932914,
      "grad_norm": 0.06779713928699493,
      "learning_rate": 0.0007582713640026364,
      "loss": 0.5424,
      "num_input_tokens_seen": 9838008,
      "step": 15055
    },
    {
      "epoch": 7.8930817610062896,
      "grad_norm": 0.1077670007944107,
      "learning_rate": 0.000758075522255937,
      "loss": 0.5643,
      "num_input_tokens_seen": 9841528,
      "step": 15060
    },
    {
      "epoch": 7.895702306079665,
      "grad_norm": 0.18608614802360535,
      "learning_rate": 0.0007578796265227828,
      "loss": 0.5983,
      "num_input_tokens_seen": 9844984,
      "step": 15065
    },
    {
      "epoch": 7.89832285115304,
      "grad_norm": 0.05712399631738663,
      "learning_rate": 0.0007576836768441525,
      "loss": 0.4725,
      "num_input_tokens_seen": 9848568,
      "step": 15070
    },
    {
      "epoch": 7.900943396226415,
      "grad_norm": 0.10139506310224533,
      "learning_rate": 0.0007574876732610369,
      "loss": 0.2962,
      "num_input_tokens_seen": 9851640,
      "step": 15075
    },
    {
      "epoch": 7.90356394129979,
      "grad_norm": 0.10643954575061798,
      "learning_rate": 0.0007572916158144379,
      "loss": 0.3749,
      "num_input_tokens_seen": 9855192,
      "step": 15080
    },
    {
      "epoch": 7.906184486373165,
      "grad_norm": 0.06609027087688446,
      "learning_rate": 0.0007570955045453679,
      "loss": 0.4703,
      "num_input_tokens_seen": 9858072,
      "step": 15085
    },
    {
      "epoch": 7.908805031446541,
      "grad_norm": 0.0864725187420845,
      "learning_rate": 0.0007568993394948516,
      "loss": 0.4278,
      "num_input_tokens_seen": 9861784,
      "step": 15090
    },
    {
      "epoch": 7.911425576519916,
      "grad_norm": 0.14664193987846375,
      "learning_rate": 0.0007567031207039243,
      "loss": 0.5199,
      "num_input_tokens_seen": 9866104,
      "step": 15095
    },
    {
      "epoch": 7.914046121593291,
      "grad_norm": 0.1426536738872528,
      "learning_rate": 0.0007565068482136328,
      "loss": 0.5847,
      "num_input_tokens_seen": 9869816,
      "step": 15100
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.08455194532871246,
      "learning_rate": 0.000756310522065035,
      "loss": 0.2861,
      "num_input_tokens_seen": 9872504,
      "step": 15105
    },
    {
      "epoch": 7.919287211740042,
      "grad_norm": 0.06207937374711037,
      "learning_rate": 0.0007561141422992002,
      "loss": 0.4643,
      "num_input_tokens_seen": 9875320,
      "step": 15110
    },
    {
      "epoch": 7.921907756813417,
      "grad_norm": 0.08841118216514587,
      "learning_rate": 0.0007559177089572086,
      "loss": 0.364,
      "num_input_tokens_seen": 9878136,
      "step": 15115
    },
    {
      "epoch": 7.9245283018867925,
      "grad_norm": 0.1089022159576416,
      "learning_rate": 0.0007557212220801521,
      "loss": 0.4223,
      "num_input_tokens_seen": 9880792,
      "step": 15120
    },
    {
      "epoch": 7.927148846960168,
      "grad_norm": 0.09015168249607086,
      "learning_rate": 0.0007555246817091332,
      "loss": 0.3824,
      "num_input_tokens_seen": 9884312,
      "step": 15125
    },
    {
      "epoch": 7.929769392033543,
      "grad_norm": 0.1066121906042099,
      "learning_rate": 0.0007553280878852663,
      "loss": 0.4435,
      "num_input_tokens_seen": 9887416,
      "step": 15130
    },
    {
      "epoch": 7.932389937106918,
      "grad_norm": 0.11164677888154984,
      "learning_rate": 0.0007551314406496762,
      "loss": 0.3374,
      "num_input_tokens_seen": 9890200,
      "step": 15135
    },
    {
      "epoch": 7.935010482180293,
      "grad_norm": 0.14962586760520935,
      "learning_rate": 0.0007549347400434994,
      "loss": 0.3778,
      "num_input_tokens_seen": 9893368,
      "step": 15140
    },
    {
      "epoch": 7.937631027253669,
      "grad_norm": 0.12458784133195877,
      "learning_rate": 0.0007547379861078835,
      "loss": 0.4941,
      "num_input_tokens_seen": 9899224,
      "step": 15145
    },
    {
      "epoch": 7.940251572327044,
      "grad_norm": 0.1339745968580246,
      "learning_rate": 0.0007545411788839871,
      "loss": 0.4898,
      "num_input_tokens_seen": 9901944,
      "step": 15150
    },
    {
      "epoch": 7.9428721174004195,
      "grad_norm": 0.07614824175834656,
      "learning_rate": 0.0007543443184129799,
      "loss": 0.5824,
      "num_input_tokens_seen": 9905720,
      "step": 15155
    },
    {
      "epoch": 7.945492662473795,
      "grad_norm": 0.10940275341272354,
      "learning_rate": 0.000754147404736043,
      "loss": 0.5825,
      "num_input_tokens_seen": 9908440,
      "step": 15160
    },
    {
      "epoch": 7.94811320754717,
      "grad_norm": 0.12192007899284363,
      "learning_rate": 0.0007539504378943686,
      "loss": 0.5021,
      "num_input_tokens_seen": 9911256,
      "step": 15165
    },
    {
      "epoch": 7.950733752620545,
      "grad_norm": 0.12512533366680145,
      "learning_rate": 0.0007537534179291599,
      "loss": 0.5045,
      "num_input_tokens_seen": 9913336,
      "step": 15170
    },
    {
      "epoch": 7.95335429769392,
      "grad_norm": 0.06449317932128906,
      "learning_rate": 0.000753556344881631,
      "loss": 0.3624,
      "num_input_tokens_seen": 9917048,
      "step": 15175
    },
    {
      "epoch": 7.955974842767295,
      "grad_norm": 0.16486339271068573,
      "learning_rate": 0.0007533592187930076,
      "loss": 0.4476,
      "num_input_tokens_seen": 9920952,
      "step": 15180
    },
    {
      "epoch": 7.9585953878406706,
      "grad_norm": 0.13921023905277252,
      "learning_rate": 0.000753162039704526,
      "loss": 0.3857,
      "num_input_tokens_seen": 9924376,
      "step": 15185
    },
    {
      "epoch": 7.961215932914046,
      "grad_norm": 0.07637714594602585,
      "learning_rate": 0.000752964807657434,
      "loss": 0.5884,
      "num_input_tokens_seen": 9927160,
      "step": 15190
    },
    {
      "epoch": 7.963836477987421,
      "grad_norm": 0.09337443113327026,
      "learning_rate": 0.0007527675226929902,
      "loss": 0.5218,
      "num_input_tokens_seen": 9930840,
      "step": 15195
    },
    {
      "epoch": 7.966457023060797,
      "grad_norm": 0.08144565671682358,
      "learning_rate": 0.0007525701848524643,
      "loss": 0.6601,
      "num_input_tokens_seen": 9934104,
      "step": 15200
    },
    {
      "epoch": 7.969077568134172,
      "grad_norm": 0.12156743556261063,
      "learning_rate": 0.0007523727941771372,
      "loss": 0.3954,
      "num_input_tokens_seen": 9937016,
      "step": 15205
    },
    {
      "epoch": 7.971698113207547,
      "grad_norm": 0.3426535725593567,
      "learning_rate": 0.0007521753507083009,
      "loss": 0.4957,
      "num_input_tokens_seen": 9939736,
      "step": 15210
    },
    {
      "epoch": 7.9743186582809225,
      "grad_norm": 0.09936865419149399,
      "learning_rate": 0.0007519778544872581,
      "loss": 0.4992,
      "num_input_tokens_seen": 9942744,
      "step": 15215
    },
    {
      "epoch": 7.976939203354298,
      "grad_norm": 0.16996444761753082,
      "learning_rate": 0.000751780305555323,
      "loss": 0.5917,
      "num_input_tokens_seen": 9946776,
      "step": 15220
    },
    {
      "epoch": 7.979559748427673,
      "grad_norm": 0.16082251071929932,
      "learning_rate": 0.0007515827039538202,
      "loss": 0.4675,
      "num_input_tokens_seen": 9949304,
      "step": 15225
    },
    {
      "epoch": 7.982180293501048,
      "grad_norm": 0.07896661758422852,
      "learning_rate": 0.0007513850497240861,
      "loss": 0.4514,
      "num_input_tokens_seen": 9953112,
      "step": 15230
    },
    {
      "epoch": 7.984800838574423,
      "grad_norm": 0.07998528331518173,
      "learning_rate": 0.0007511873429074676,
      "loss": 0.471,
      "num_input_tokens_seen": 9956056,
      "step": 15235
    },
    {
      "epoch": 7.987421383647799,
      "grad_norm": 0.16168896853923798,
      "learning_rate": 0.0007509895835453224,
      "loss": 0.3786,
      "num_input_tokens_seen": 9959416,
      "step": 15240
    },
    {
      "epoch": 7.990041928721174,
      "grad_norm": 0.07514309883117676,
      "learning_rate": 0.0007507917716790201,
      "loss": 0.3819,
      "num_input_tokens_seen": 9962680,
      "step": 15245
    },
    {
      "epoch": 7.9926624737945495,
      "grad_norm": 0.06709706038236618,
      "learning_rate": 0.0007505939073499401,
      "loss": 0.5779,
      "num_input_tokens_seen": 9966616,
      "step": 15250
    },
    {
      "epoch": 7.995283018867925,
      "grad_norm": 0.06978926807641983,
      "learning_rate": 0.0007503959905994737,
      "loss": 0.4571,
      "num_input_tokens_seen": 9971864,
      "step": 15255
    },
    {
      "epoch": 7.9979035639413,
      "grad_norm": 0.10027925670146942,
      "learning_rate": 0.0007501980214690227,
      "loss": 0.7625,
      "num_input_tokens_seen": 9975864,
      "step": 15260
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.4763500690460205,
      "eval_runtime": 13.6609,
      "eval_samples_per_second": 62.075,
      "eval_steps_per_second": 15.519,
      "num_input_tokens_seen": 9977520,
      "step": 15264
    },
    {
      "epoch": 8.000524109014675,
      "grad_norm": 0.11479979753494263,
      "learning_rate": 0.00075,
      "loss": 0.535,
      "num_input_tokens_seen": 9978032,
      "step": 15265
    },
    {
      "epoch": 8.00314465408805,
      "grad_norm": 0.14040012657642365,
      "learning_rate": 0.0007498019262338295,
      "loss": 0.6184,
      "num_input_tokens_seen": 9981616,
      "step": 15270
    },
    {
      "epoch": 8.005765199161425,
      "grad_norm": 0.12170921266078949,
      "learning_rate": 0.0007496038002119459,
      "loss": 0.371,
      "num_input_tokens_seen": 9984624,
      "step": 15275
    },
    {
      "epoch": 8.0083857442348,
      "grad_norm": 0.09187596291303635,
      "learning_rate": 0.000749405621975795,
      "loss": 0.4111,
      "num_input_tokens_seen": 9987568,
      "step": 15280
    },
    {
      "epoch": 8.011006289308176,
      "grad_norm": 0.1253901869058609,
      "learning_rate": 0.0007492073915668334,
      "loss": 0.4046,
      "num_input_tokens_seen": 9991280,
      "step": 15285
    },
    {
      "epoch": 8.01362683438155,
      "grad_norm": 0.07838484644889832,
      "learning_rate": 0.0007490091090265283,
      "loss": 0.4399,
      "num_input_tokens_seen": 9994288,
      "step": 15290
    },
    {
      "epoch": 8.016247379454926,
      "grad_norm": 0.12680844962596893,
      "learning_rate": 0.0007488107743963587,
      "loss": 0.3989,
      "num_input_tokens_seen": 9997200,
      "step": 15295
    },
    {
      "epoch": 8.018867924528301,
      "grad_norm": 0.16395212709903717,
      "learning_rate": 0.0007486123877178136,
      "loss": 0.5877,
      "num_input_tokens_seen": 10000176,
      "step": 15300
    },
    {
      "epoch": 8.021488469601676,
      "grad_norm": 0.10250066220760345,
      "learning_rate": 0.0007484139490323932,
      "loss": 0.4857,
      "num_input_tokens_seen": 10003504,
      "step": 15305
    },
    {
      "epoch": 8.024109014675052,
      "grad_norm": 0.16041651368141174,
      "learning_rate": 0.000748215458381609,
      "loss": 0.4497,
      "num_input_tokens_seen": 10008688,
      "step": 15310
    },
    {
      "epoch": 8.026729559748428,
      "grad_norm": 0.1219160407781601,
      "learning_rate": 0.0007480169158069826,
      "loss": 0.5768,
      "num_input_tokens_seen": 10011536,
      "step": 15315
    },
    {
      "epoch": 8.029350104821804,
      "grad_norm": 0.13875316083431244,
      "learning_rate": 0.0007478183213500468,
      "loss": 0.4357,
      "num_input_tokens_seen": 10014096,
      "step": 15320
    },
    {
      "epoch": 8.031970649895179,
      "grad_norm": 0.06466630846261978,
      "learning_rate": 0.0007476196750523456,
      "loss": 0.4294,
      "num_input_tokens_seen": 10017360,
      "step": 15325
    },
    {
      "epoch": 8.034591194968554,
      "grad_norm": 0.09531299024820328,
      "learning_rate": 0.000747420976955433,
      "loss": 0.574,
      "num_input_tokens_seen": 10020560,
      "step": 15330
    },
    {
      "epoch": 8.03721174004193,
      "grad_norm": 0.14677762985229492,
      "learning_rate": 0.0007472222271008752,
      "loss": 0.497,
      "num_input_tokens_seen": 10024176,
      "step": 15335
    },
    {
      "epoch": 8.039832285115304,
      "grad_norm": 0.10634194314479828,
      "learning_rate": 0.0007470234255302478,
      "loss": 0.3319,
      "num_input_tokens_seen": 10028336,
      "step": 15340
    },
    {
      "epoch": 8.04245283018868,
      "grad_norm": 0.10575350373983383,
      "learning_rate": 0.0007468245722851379,
      "loss": 0.4384,
      "num_input_tokens_seen": 10031376,
      "step": 15345
    },
    {
      "epoch": 8.045073375262055,
      "grad_norm": 0.14743660390377045,
      "learning_rate": 0.0007466256674071434,
      "loss": 0.4309,
      "num_input_tokens_seen": 10033904,
      "step": 15350
    },
    {
      "epoch": 8.04769392033543,
      "grad_norm": 0.08536584675312042,
      "learning_rate": 0.000746426710937873,
      "loss": 0.4462,
      "num_input_tokens_seen": 10036720,
      "step": 15355
    },
    {
      "epoch": 8.050314465408805,
      "grad_norm": 0.17302215099334717,
      "learning_rate": 0.0007462277029189461,
      "loss": 0.5263,
      "num_input_tokens_seen": 10040016,
      "step": 15360
    },
    {
      "epoch": 8.05293501048218,
      "grad_norm": 0.08619364351034164,
      "learning_rate": 0.0007460286433919928,
      "loss": 0.5109,
      "num_input_tokens_seen": 10043088,
      "step": 15365
    },
    {
      "epoch": 8.055555555555555,
      "grad_norm": 0.12328353524208069,
      "learning_rate": 0.0007458295323986542,
      "loss": 0.5381,
      "num_input_tokens_seen": 10046160,
      "step": 15370
    },
    {
      "epoch": 8.05817610062893,
      "grad_norm": 0.11242178082466125,
      "learning_rate": 0.0007456303699805817,
      "loss": 0.4412,
      "num_input_tokens_seen": 10048592,
      "step": 15375
    },
    {
      "epoch": 8.060796645702306,
      "grad_norm": 0.060248300433158875,
      "learning_rate": 0.0007454311561794386,
      "loss": 0.4754,
      "num_input_tokens_seen": 10051536,
      "step": 15380
    },
    {
      "epoch": 8.06341719077568,
      "grad_norm": 0.10155954957008362,
      "learning_rate": 0.0007452318910368972,
      "loss": 0.5337,
      "num_input_tokens_seen": 10055632,
      "step": 15385
    },
    {
      "epoch": 8.066037735849056,
      "grad_norm": 0.0713757574558258,
      "learning_rate": 0.0007450325745946422,
      "loss": 0.5093,
      "num_input_tokens_seen": 10060528,
      "step": 15390
    },
    {
      "epoch": 8.068658280922431,
      "grad_norm": 0.15428948402404785,
      "learning_rate": 0.0007448332068943681,
      "loss": 0.3406,
      "num_input_tokens_seen": 10063664,
      "step": 15395
    },
    {
      "epoch": 8.071278825995806,
      "grad_norm": 0.19993385672569275,
      "learning_rate": 0.0007446337879777802,
      "loss": 0.4566,
      "num_input_tokens_seen": 10066288,
      "step": 15400
    },
    {
      "epoch": 8.073899371069182,
      "grad_norm": 0.16472727060317993,
      "learning_rate": 0.0007444343178865948,
      "loss": 0.591,
      "num_input_tokens_seen": 10070064,
      "step": 15405
    },
    {
      "epoch": 8.076519916142558,
      "grad_norm": 0.10797851532697678,
      "learning_rate": 0.0007442347966625389,
      "loss": 0.3787,
      "num_input_tokens_seen": 10074128,
      "step": 15410
    },
    {
      "epoch": 8.079140461215934,
      "grad_norm": 0.0919024720788002,
      "learning_rate": 0.0007440352243473496,
      "loss": 0.3056,
      "num_input_tokens_seen": 10077936,
      "step": 15415
    },
    {
      "epoch": 8.081761006289309,
      "grad_norm": 0.11833228915929794,
      "learning_rate": 0.0007438356009827758,
      "loss": 0.4872,
      "num_input_tokens_seen": 10080976,
      "step": 15420
    },
    {
      "epoch": 8.084381551362684,
      "grad_norm": 0.1414998173713684,
      "learning_rate": 0.0007436359266105759,
      "loss": 0.4543,
      "num_input_tokens_seen": 10083984,
      "step": 15425
    },
    {
      "epoch": 8.08700209643606,
      "grad_norm": 0.14578920602798462,
      "learning_rate": 0.0007434362012725198,
      "loss": 0.5838,
      "num_input_tokens_seen": 10086800,
      "step": 15430
    },
    {
      "epoch": 8.089622641509434,
      "grad_norm": 0.07614411413669586,
      "learning_rate": 0.0007432364250103877,
      "loss": 0.3952,
      "num_input_tokens_seen": 10090544,
      "step": 15435
    },
    {
      "epoch": 8.09224318658281,
      "grad_norm": 0.22126644849777222,
      "learning_rate": 0.0007430365978659704,
      "loss": 0.3924,
      "num_input_tokens_seen": 10093360,
      "step": 15440
    },
    {
      "epoch": 8.094863731656185,
      "grad_norm": 0.14103129506111145,
      "learning_rate": 0.0007428367198810694,
      "loss": 0.593,
      "num_input_tokens_seen": 10097520,
      "step": 15445
    },
    {
      "epoch": 8.09748427672956,
      "grad_norm": 0.08394189178943634,
      "learning_rate": 0.0007426367910974973,
      "loss": 0.3877,
      "num_input_tokens_seen": 10100240,
      "step": 15450
    },
    {
      "epoch": 8.100104821802935,
      "grad_norm": 0.1031506285071373,
      "learning_rate": 0.0007424368115570763,
      "loss": 0.4534,
      "num_input_tokens_seen": 10103280,
      "step": 15455
    },
    {
      "epoch": 8.10272536687631,
      "grad_norm": 0.08920285105705261,
      "learning_rate": 0.0007422367813016405,
      "loss": 0.4838,
      "num_input_tokens_seen": 10106288,
      "step": 15460
    },
    {
      "epoch": 8.105345911949685,
      "grad_norm": 0.09147537499666214,
      "learning_rate": 0.0007420367003730335,
      "loss": 0.4015,
      "num_input_tokens_seen": 10110064,
      "step": 15465
    },
    {
      "epoch": 8.10796645702306,
      "grad_norm": 0.07744736224412918,
      "learning_rate": 0.0007418365688131103,
      "loss": 0.3621,
      "num_input_tokens_seen": 10113360,
      "step": 15470
    },
    {
      "epoch": 8.110587002096436,
      "grad_norm": 0.09027903527021408,
      "learning_rate": 0.0007416363866637356,
      "loss": 0.5159,
      "num_input_tokens_seen": 10119760,
      "step": 15475
    },
    {
      "epoch": 8.11320754716981,
      "grad_norm": 0.0710931271314621,
      "learning_rate": 0.0007414361539667857,
      "loss": 0.4241,
      "num_input_tokens_seen": 10126864,
      "step": 15480
    },
    {
      "epoch": 8.115828092243186,
      "grad_norm": 0.10647162795066833,
      "learning_rate": 0.0007412358707641468,
      "loss": 0.3737,
      "num_input_tokens_seen": 10129776,
      "step": 15485
    },
    {
      "epoch": 8.118448637316561,
      "grad_norm": 0.10911637544631958,
      "learning_rate": 0.0007410355370977158,
      "loss": 0.5191,
      "num_input_tokens_seen": 10132816,
      "step": 15490
    },
    {
      "epoch": 8.121069182389936,
      "grad_norm": 0.12237312644720078,
      "learning_rate": 0.0007408351530094005,
      "loss": 0.3291,
      "num_input_tokens_seen": 10136112,
      "step": 15495
    },
    {
      "epoch": 8.123689727463312,
      "grad_norm": 0.07009895145893097,
      "learning_rate": 0.0007406347185411187,
      "loss": 0.4251,
      "num_input_tokens_seen": 10138896,
      "step": 15500
    },
    {
      "epoch": 8.126310272536688,
      "grad_norm": 0.103389210999012,
      "learning_rate": 0.0007404342337347992,
      "loss": 0.454,
      "num_input_tokens_seen": 10141456,
      "step": 15505
    },
    {
      "epoch": 8.128930817610064,
      "grad_norm": 0.12089382112026215,
      "learning_rate": 0.000740233698632381,
      "loss": 0.5336,
      "num_input_tokens_seen": 10144944,
      "step": 15510
    },
    {
      "epoch": 8.131551362683439,
      "grad_norm": 0.10590445250272751,
      "learning_rate": 0.0007400331132758136,
      "loss": 0.3942,
      "num_input_tokens_seen": 10148016,
      "step": 15515
    },
    {
      "epoch": 8.134171907756814,
      "grad_norm": 0.10346146672964096,
      "learning_rate": 0.0007398324777070576,
      "loss": 0.5019,
      "num_input_tokens_seen": 10152048,
      "step": 15520
    },
    {
      "epoch": 8.13679245283019,
      "grad_norm": 0.07888805121183395,
      "learning_rate": 0.0007396317919680832,
      "loss": 0.5156,
      "num_input_tokens_seen": 10155600,
      "step": 15525
    },
    {
      "epoch": 8.139412997903564,
      "grad_norm": 0.13693886995315552,
      "learning_rate": 0.0007394310561008717,
      "loss": 0.458,
      "num_input_tokens_seen": 10158160,
      "step": 15530
    },
    {
      "epoch": 8.14203354297694,
      "grad_norm": 0.11645162105560303,
      "learning_rate": 0.0007392302701474151,
      "loss": 0.4684,
      "num_input_tokens_seen": 10161296,
      "step": 15535
    },
    {
      "epoch": 8.144654088050315,
      "grad_norm": 0.07661382853984833,
      "learning_rate": 0.0007390294341497151,
      "loss": 0.4552,
      "num_input_tokens_seen": 10164112,
      "step": 15540
    },
    {
      "epoch": 8.14727463312369,
      "grad_norm": 0.1478821188211441,
      "learning_rate": 0.0007388285481497845,
      "loss": 0.4623,
      "num_input_tokens_seen": 10167248,
      "step": 15545
    },
    {
      "epoch": 8.149895178197065,
      "grad_norm": 0.08975090086460114,
      "learning_rate": 0.0007386276121896465,
      "loss": 0.3531,
      "num_input_tokens_seen": 10171088,
      "step": 15550
    },
    {
      "epoch": 8.15251572327044,
      "grad_norm": 0.0828062891960144,
      "learning_rate": 0.0007384266263113342,
      "loss": 0.4466,
      "num_input_tokens_seen": 10174192,
      "step": 15555
    },
    {
      "epoch": 8.155136268343815,
      "grad_norm": 0.10537033528089523,
      "learning_rate": 0.0007382255905568919,
      "loss": 0.5063,
      "num_input_tokens_seen": 10177264,
      "step": 15560
    },
    {
      "epoch": 8.15775681341719,
      "grad_norm": 0.18016615509986877,
      "learning_rate": 0.000738024504968374,
      "loss": 0.5714,
      "num_input_tokens_seen": 10179824,
      "step": 15565
    },
    {
      "epoch": 8.160377358490566,
      "grad_norm": 0.1083788126707077,
      "learning_rate": 0.0007378233695878449,
      "loss": 0.4242,
      "num_input_tokens_seen": 10183024,
      "step": 15570
    },
    {
      "epoch": 8.16299790356394,
      "grad_norm": 0.13773468136787415,
      "learning_rate": 0.0007376221844573803,
      "loss": 0.4251,
      "num_input_tokens_seen": 10186832,
      "step": 15575
    },
    {
      "epoch": 8.165618448637316,
      "grad_norm": 0.14847998321056366,
      "learning_rate": 0.0007374209496190656,
      "loss": 0.5058,
      "num_input_tokens_seen": 10189360,
      "step": 15580
    },
    {
      "epoch": 8.168238993710691,
      "grad_norm": 0.07271700352430344,
      "learning_rate": 0.0007372196651149968,
      "loss": 0.4679,
      "num_input_tokens_seen": 10193360,
      "step": 15585
    },
    {
      "epoch": 8.170859538784066,
      "grad_norm": 0.13305385410785675,
      "learning_rate": 0.0007370183309872805,
      "loss": 0.4606,
      "num_input_tokens_seen": 10197136,
      "step": 15590
    },
    {
      "epoch": 8.173480083857442,
      "grad_norm": 0.07963176816701889,
      "learning_rate": 0.0007368169472780335,
      "loss": 0.4304,
      "num_input_tokens_seen": 10200592,
      "step": 15595
    },
    {
      "epoch": 8.176100628930818,
      "grad_norm": 0.1154380738735199,
      "learning_rate": 0.0007366155140293828,
      "loss": 0.447,
      "num_input_tokens_seen": 10203088,
      "step": 15600
    },
    {
      "epoch": 8.178721174004194,
      "grad_norm": 0.12477333098649979,
      "learning_rate": 0.000736414031283466,
      "loss": 0.6034,
      "num_input_tokens_seen": 10205840,
      "step": 15605
    },
    {
      "epoch": 8.181341719077569,
      "grad_norm": 0.12244921177625656,
      "learning_rate": 0.000736212499082431,
      "loss": 0.3574,
      "num_input_tokens_seen": 10209040,
      "step": 15610
    },
    {
      "epoch": 8.183962264150944,
      "grad_norm": 0.09652385115623474,
      "learning_rate": 0.0007360109174684359,
      "loss": 0.4278,
      "num_input_tokens_seen": 10212048,
      "step": 15615
    },
    {
      "epoch": 8.18658280922432,
      "grad_norm": 0.08932774513959885,
      "learning_rate": 0.0007358092864836497,
      "loss": 0.4996,
      "num_input_tokens_seen": 10214896,
      "step": 15620
    },
    {
      "epoch": 8.189203354297694,
      "grad_norm": 0.14759278297424316,
      "learning_rate": 0.0007356076061702508,
      "loss": 0.4713,
      "num_input_tokens_seen": 10217872,
      "step": 15625
    },
    {
      "epoch": 8.19182389937107,
      "grad_norm": 0.10038979351520538,
      "learning_rate": 0.0007354058765704288,
      "loss": 0.4505,
      "num_input_tokens_seen": 10221488,
      "step": 15630
    },
    {
      "epoch": 8.194444444444445,
      "grad_norm": 0.14074963331222534,
      "learning_rate": 0.000735204097726383,
      "loss": 0.3509,
      "num_input_tokens_seen": 10224048,
      "step": 15635
    },
    {
      "epoch": 8.19706498951782,
      "grad_norm": 0.08754556626081467,
      "learning_rate": 0.0007350022696803233,
      "loss": 0.423,
      "num_input_tokens_seen": 10228368,
      "step": 15640
    },
    {
      "epoch": 8.199685534591195,
      "grad_norm": 0.09797331690788269,
      "learning_rate": 0.0007348003924744699,
      "loss": 0.4251,
      "num_input_tokens_seen": 10231728,
      "step": 15645
    },
    {
      "epoch": 8.20230607966457,
      "grad_norm": 0.1409253180027008,
      "learning_rate": 0.000734598466151053,
      "loss": 0.4219,
      "num_input_tokens_seen": 10234960,
      "step": 15650
    },
    {
      "epoch": 8.204926624737945,
      "grad_norm": 0.07918477058410645,
      "learning_rate": 0.0007343964907523135,
      "loss": 0.4457,
      "num_input_tokens_seen": 10238448,
      "step": 15655
    },
    {
      "epoch": 8.20754716981132,
      "grad_norm": 0.14435657858848572,
      "learning_rate": 0.0007341944663205023,
      "loss": 0.3689,
      "num_input_tokens_seen": 10240912,
      "step": 15660
    },
    {
      "epoch": 8.210167714884696,
      "grad_norm": 0.08220561593770981,
      "learning_rate": 0.0007339923928978805,
      "loss": 0.4683,
      "num_input_tokens_seen": 10244816,
      "step": 15665
    },
    {
      "epoch": 8.21278825995807,
      "grad_norm": 0.11975070089101791,
      "learning_rate": 0.0007337902705267197,
      "loss": 0.4718,
      "num_input_tokens_seen": 10247728,
      "step": 15670
    },
    {
      "epoch": 8.215408805031446,
      "grad_norm": 0.09250564873218536,
      "learning_rate": 0.0007335880992493016,
      "loss": 0.4189,
      "num_input_tokens_seen": 10251248,
      "step": 15675
    },
    {
      "epoch": 8.218029350104821,
      "grad_norm": 0.09936953336000443,
      "learning_rate": 0.000733385879107918,
      "loss": 0.468,
      "num_input_tokens_seen": 10254160,
      "step": 15680
    },
    {
      "epoch": 8.220649895178196,
      "grad_norm": 0.09649016708135605,
      "learning_rate": 0.000733183610144871,
      "loss": 0.3829,
      "num_input_tokens_seen": 10256944,
      "step": 15685
    },
    {
      "epoch": 8.223270440251572,
      "grad_norm": 0.1471586674451828,
      "learning_rate": 0.0007329812924024732,
      "loss": 0.5116,
      "num_input_tokens_seen": 10259888,
      "step": 15690
    },
    {
      "epoch": 8.225890985324948,
      "grad_norm": 0.11424370110034943,
      "learning_rate": 0.0007327789259230468,
      "loss": 0.5706,
      "num_input_tokens_seen": 10262640,
      "step": 15695
    },
    {
      "epoch": 8.228511530398324,
      "grad_norm": 0.11762601882219315,
      "learning_rate": 0.0007325765107489249,
      "loss": 0.4956,
      "num_input_tokens_seen": 10265424,
      "step": 15700
    },
    {
      "epoch": 8.231132075471699,
      "grad_norm": 0.09282614290714264,
      "learning_rate": 0.0007323740469224505,
      "loss": 0.4939,
      "num_input_tokens_seen": 10267888,
      "step": 15705
    },
    {
      "epoch": 8.233752620545074,
      "grad_norm": 0.06841390579938889,
      "learning_rate": 0.0007321715344859763,
      "loss": 0.3102,
      "num_input_tokens_seen": 10270992,
      "step": 15710
    },
    {
      "epoch": 8.23637316561845,
      "grad_norm": 0.13849075138568878,
      "learning_rate": 0.000731968973481866,
      "loss": 0.507,
      "num_input_tokens_seen": 10274128,
      "step": 15715
    },
    {
      "epoch": 8.238993710691824,
      "grad_norm": 0.16804972290992737,
      "learning_rate": 0.0007317663639524928,
      "loss": 0.4136,
      "num_input_tokens_seen": 10278128,
      "step": 15720
    },
    {
      "epoch": 8.2416142557652,
      "grad_norm": 0.09926069527864456,
      "learning_rate": 0.0007315637059402404,
      "loss": 0.4412,
      "num_input_tokens_seen": 10280720,
      "step": 15725
    },
    {
      "epoch": 8.244234800838575,
      "grad_norm": 0.1128113642334938,
      "learning_rate": 0.0007313609994875024,
      "loss": 0.4163,
      "num_input_tokens_seen": 10283280,
      "step": 15730
    },
    {
      "epoch": 8.24685534591195,
      "grad_norm": 0.07269995659589767,
      "learning_rate": 0.0007311582446366831,
      "loss": 0.5062,
      "num_input_tokens_seen": 10287600,
      "step": 15735
    },
    {
      "epoch": 8.249475890985325,
      "grad_norm": 0.15211749076843262,
      "learning_rate": 0.000730955441430196,
      "loss": 0.4045,
      "num_input_tokens_seen": 10289808,
      "step": 15740
    },
    {
      "epoch": 8.2520964360587,
      "grad_norm": 0.24844105541706085,
      "learning_rate": 0.0007307525899104655,
      "loss": 0.5088,
      "num_input_tokens_seen": 10292656,
      "step": 15745
    },
    {
      "epoch": 8.254716981132075,
      "grad_norm": 0.08826178312301636,
      "learning_rate": 0.0007305496901199259,
      "loss": 0.3983,
      "num_input_tokens_seen": 10295664,
      "step": 15750
    },
    {
      "epoch": 8.25733752620545,
      "grad_norm": 0.11429459601640701,
      "learning_rate": 0.0007303467421010211,
      "loss": 0.477,
      "num_input_tokens_seen": 10299248,
      "step": 15755
    },
    {
      "epoch": 8.259958071278826,
      "grad_norm": 0.08446352183818817,
      "learning_rate": 0.0007301437458962061,
      "loss": 0.4996,
      "num_input_tokens_seen": 10302832,
      "step": 15760
    },
    {
      "epoch": 8.2625786163522,
      "grad_norm": 0.08917246758937836,
      "learning_rate": 0.0007299407015479448,
      "loss": 0.486,
      "num_input_tokens_seen": 10307888,
      "step": 15765
    },
    {
      "epoch": 8.265199161425576,
      "grad_norm": 0.11178901046514511,
      "learning_rate": 0.0007297376090987122,
      "loss": 0.4358,
      "num_input_tokens_seen": 10311248,
      "step": 15770
    },
    {
      "epoch": 8.267819706498951,
      "grad_norm": 0.1311890333890915,
      "learning_rate": 0.0007295344685909926,
      "loss": 0.4932,
      "num_input_tokens_seen": 10314320,
      "step": 15775
    },
    {
      "epoch": 8.270440251572326,
      "grad_norm": 0.11781345307826996,
      "learning_rate": 0.000729331280067281,
      "loss": 0.5009,
      "num_input_tokens_seen": 10317936,
      "step": 15780
    },
    {
      "epoch": 8.273060796645701,
      "grad_norm": 0.10758163779973984,
      "learning_rate": 0.0007291280435700819,
      "loss": 0.535,
      "num_input_tokens_seen": 10321136,
      "step": 15785
    },
    {
      "epoch": 8.275681341719078,
      "grad_norm": 0.11975176632404327,
      "learning_rate": 0.0007289247591419102,
      "loss": 0.5323,
      "num_input_tokens_seen": 10323760,
      "step": 15790
    },
    {
      "epoch": 8.278301886792454,
      "grad_norm": 0.15215565264225006,
      "learning_rate": 0.0007287214268252904,
      "loss": 0.4738,
      "num_input_tokens_seen": 10327088,
      "step": 15795
    },
    {
      "epoch": 8.280922431865829,
      "grad_norm": 0.11051085591316223,
      "learning_rate": 0.0007285180466627577,
      "loss": 0.5739,
      "num_input_tokens_seen": 10330448,
      "step": 15800
    },
    {
      "epoch": 8.283542976939204,
      "grad_norm": 0.13953328132629395,
      "learning_rate": 0.0007283146186968565,
      "loss": 0.3925,
      "num_input_tokens_seen": 10334672,
      "step": 15805
    },
    {
      "epoch": 8.286163522012579,
      "grad_norm": 0.13102780282497406,
      "learning_rate": 0.000728111142970142,
      "loss": 0.5243,
      "num_input_tokens_seen": 10337904,
      "step": 15810
    },
    {
      "epoch": 8.288784067085954,
      "grad_norm": 0.13981057703495026,
      "learning_rate": 0.0007279076195251788,
      "loss": 0.4215,
      "num_input_tokens_seen": 10341488,
      "step": 15815
    },
    {
      "epoch": 8.29140461215933,
      "grad_norm": 0.21814675629138947,
      "learning_rate": 0.0007277040484045416,
      "loss": 0.4538,
      "num_input_tokens_seen": 10344944,
      "step": 15820
    },
    {
      "epoch": 8.294025157232705,
      "grad_norm": 0.14702312648296356,
      "learning_rate": 0.0007275004296508154,
      "loss": 0.5195,
      "num_input_tokens_seen": 10347248,
      "step": 15825
    },
    {
      "epoch": 8.29664570230608,
      "grad_norm": 0.12347737699747086,
      "learning_rate": 0.0007272967633065947,
      "loss": 0.5752,
      "num_input_tokens_seen": 10349712,
      "step": 15830
    },
    {
      "epoch": 8.299266247379455,
      "grad_norm": 0.08400460332632065,
      "learning_rate": 0.0007270930494144843,
      "loss": 0.436,
      "num_input_tokens_seen": 10353936,
      "step": 15835
    },
    {
      "epoch": 8.30188679245283,
      "grad_norm": 0.21741847693920135,
      "learning_rate": 0.0007268892880170988,
      "loss": 0.4438,
      "num_input_tokens_seen": 10356432,
      "step": 15840
    },
    {
      "epoch": 8.304507337526205,
      "grad_norm": 0.12618979811668396,
      "learning_rate": 0.0007266854791570625,
      "loss": 0.6897,
      "num_input_tokens_seen": 10360624,
      "step": 15845
    },
    {
      "epoch": 8.30712788259958,
      "grad_norm": 0.10708403587341309,
      "learning_rate": 0.0007264816228770103,
      "loss": 0.4981,
      "num_input_tokens_seen": 10364432,
      "step": 15850
    },
    {
      "epoch": 8.309748427672956,
      "grad_norm": 0.11004709452390671,
      "learning_rate": 0.0007262777192195866,
      "loss": 0.4272,
      "num_input_tokens_seen": 10367184,
      "step": 15855
    },
    {
      "epoch": 8.31236897274633,
      "grad_norm": 0.0892661064863205,
      "learning_rate": 0.0007260737682274452,
      "loss": 0.4213,
      "num_input_tokens_seen": 10370192,
      "step": 15860
    },
    {
      "epoch": 8.314989517819706,
      "grad_norm": 0.09227535873651505,
      "learning_rate": 0.0007258697699432511,
      "loss": 0.5447,
      "num_input_tokens_seen": 10373744,
      "step": 15865
    },
    {
      "epoch": 8.317610062893081,
      "grad_norm": 0.11500407755374908,
      "learning_rate": 0.0007256657244096775,
      "loss": 0.4783,
      "num_input_tokens_seen": 10376400,
      "step": 15870
    },
    {
      "epoch": 8.320230607966456,
      "grad_norm": 0.10412607342004776,
      "learning_rate": 0.0007254616316694091,
      "loss": 0.3639,
      "num_input_tokens_seen": 10379600,
      "step": 15875
    },
    {
      "epoch": 8.322851153039831,
      "grad_norm": 0.101921446621418,
      "learning_rate": 0.0007252574917651398,
      "loss": 0.4374,
      "num_input_tokens_seen": 10383088,
      "step": 15880
    },
    {
      "epoch": 8.325471698113208,
      "grad_norm": 0.1581958830356598,
      "learning_rate": 0.0007250533047395728,
      "loss": 0.469,
      "num_input_tokens_seen": 10386288,
      "step": 15885
    },
    {
      "epoch": 8.328092243186584,
      "grad_norm": 0.09197613596916199,
      "learning_rate": 0.0007248490706354221,
      "loss": 0.621,
      "num_input_tokens_seen": 10389744,
      "step": 15890
    },
    {
      "epoch": 8.330712788259959,
      "grad_norm": 0.09988155961036682,
      "learning_rate": 0.0007246447894954109,
      "loss": 0.3831,
      "num_input_tokens_seen": 10392880,
      "step": 15895
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.10336586087942123,
      "learning_rate": 0.0007244404613622727,
      "loss": 0.5796,
      "num_input_tokens_seen": 10397168,
      "step": 15900
    },
    {
      "epoch": 8.335953878406709,
      "grad_norm": 0.1345578283071518,
      "learning_rate": 0.0007242360862787507,
      "loss": 0.4842,
      "num_input_tokens_seen": 10400784,
      "step": 15905
    },
    {
      "epoch": 8.338574423480084,
      "grad_norm": 0.1151551902294159,
      "learning_rate": 0.0007240316642875975,
      "loss": 0.2862,
      "num_input_tokens_seen": 10403568,
      "step": 15910
    },
    {
      "epoch": 8.34119496855346,
      "grad_norm": 0.09686007350683212,
      "learning_rate": 0.0007238271954315759,
      "loss": 0.4524,
      "num_input_tokens_seen": 10406800,
      "step": 15915
    },
    {
      "epoch": 8.343815513626835,
      "grad_norm": 0.07073403894901276,
      "learning_rate": 0.0007236226797534589,
      "loss": 0.3988,
      "num_input_tokens_seen": 10409744,
      "step": 15920
    },
    {
      "epoch": 8.34643605870021,
      "grad_norm": 0.1693178415298462,
      "learning_rate": 0.0007234181172960283,
      "loss": 0.4614,
      "num_input_tokens_seen": 10412880,
      "step": 15925
    },
    {
      "epoch": 8.349056603773585,
      "grad_norm": 0.18736204504966736,
      "learning_rate": 0.0007232135081020766,
      "loss": 0.4737,
      "num_input_tokens_seen": 10416432,
      "step": 15930
    },
    {
      "epoch": 8.35167714884696,
      "grad_norm": 0.21565908193588257,
      "learning_rate": 0.0007230088522144054,
      "loss": 0.4503,
      "num_input_tokens_seen": 10419824,
      "step": 15935
    },
    {
      "epoch": 8.354297693920335,
      "grad_norm": 0.09596601128578186,
      "learning_rate": 0.0007228041496758265,
      "loss": 0.4573,
      "num_input_tokens_seen": 10422800,
      "step": 15940
    },
    {
      "epoch": 8.35691823899371,
      "grad_norm": 0.11168210208415985,
      "learning_rate": 0.0007225994005291615,
      "loss": 0.377,
      "num_input_tokens_seen": 10425808,
      "step": 15945
    },
    {
      "epoch": 8.359538784067086,
      "grad_norm": 0.08497819304466248,
      "learning_rate": 0.0007223946048172414,
      "loss": 0.4556,
      "num_input_tokens_seen": 10428944,
      "step": 15950
    },
    {
      "epoch": 8.36215932914046,
      "grad_norm": 0.09993211179971695,
      "learning_rate": 0.0007221897625829072,
      "loss": 0.4891,
      "num_input_tokens_seen": 10433648,
      "step": 15955
    },
    {
      "epoch": 8.364779874213836,
      "grad_norm": 0.07432350516319275,
      "learning_rate": 0.0007219848738690095,
      "loss": 0.4362,
      "num_input_tokens_seen": 10436784,
      "step": 15960
    },
    {
      "epoch": 8.367400419287211,
      "grad_norm": 0.16535444557666779,
      "learning_rate": 0.0007217799387184089,
      "loss": 0.4256,
      "num_input_tokens_seen": 10439280,
      "step": 15965
    },
    {
      "epoch": 8.370020964360586,
      "grad_norm": 0.09656427055597305,
      "learning_rate": 0.0007215749571739752,
      "loss": 0.3495,
      "num_input_tokens_seen": 10441744,
      "step": 15970
    },
    {
      "epoch": 8.372641509433961,
      "grad_norm": 0.11273189634084702,
      "learning_rate": 0.0007213699292785883,
      "loss": 0.4376,
      "num_input_tokens_seen": 10445424,
      "step": 15975
    },
    {
      "epoch": 8.375262054507338,
      "grad_norm": 0.13427318632602692,
      "learning_rate": 0.0007211648550751377,
      "loss": 0.661,
      "num_input_tokens_seen": 10448688,
      "step": 15980
    },
    {
      "epoch": 8.377882599580714,
      "grad_norm": 0.09558184444904327,
      "learning_rate": 0.0007209597346065226,
      "loss": 0.4783,
      "num_input_tokens_seen": 10453040,
      "step": 15985
    },
    {
      "epoch": 8.380503144654089,
      "grad_norm": 0.09113331884145737,
      "learning_rate": 0.000720754567915652,
      "loss": 0.5149,
      "num_input_tokens_seen": 10457072,
      "step": 15990
    },
    {
      "epoch": 8.383123689727464,
      "grad_norm": 0.23292997479438782,
      "learning_rate": 0.000720549355045444,
      "loss": 0.3278,
      "num_input_tokens_seen": 10459280,
      "step": 15995
    },
    {
      "epoch": 8.385744234800839,
      "grad_norm": 0.13553719222545624,
      "learning_rate": 0.0007203440960388273,
      "loss": 0.406,
      "num_input_tokens_seen": 10462192,
      "step": 16000
    },
    {
      "epoch": 8.388364779874214,
      "grad_norm": 0.09706948697566986,
      "learning_rate": 0.0007201387909387396,
      "loss": 0.4644,
      "num_input_tokens_seen": 10466672,
      "step": 16005
    },
    {
      "epoch": 8.39098532494759,
      "grad_norm": 0.08438181132078171,
      "learning_rate": 0.0007199334397881282,
      "loss": 0.451,
      "num_input_tokens_seen": 10469776,
      "step": 16010
    },
    {
      "epoch": 8.393605870020965,
      "grad_norm": 0.19709408283233643,
      "learning_rate": 0.0007197280426299502,
      "loss": 0.3309,
      "num_input_tokens_seen": 10472848,
      "step": 16015
    },
    {
      "epoch": 8.39622641509434,
      "grad_norm": 0.31612280011177063,
      "learning_rate": 0.0007195225995071727,
      "loss": 0.5434,
      "num_input_tokens_seen": 10476368,
      "step": 16020
    },
    {
      "epoch": 8.398846960167715,
      "grad_norm": 0.10269228368997574,
      "learning_rate": 0.0007193171104627718,
      "loss": 0.4764,
      "num_input_tokens_seen": 10479472,
      "step": 16025
    },
    {
      "epoch": 8.40146750524109,
      "grad_norm": 0.1381174772977829,
      "learning_rate": 0.0007191115755397333,
      "loss": 0.5145,
      "num_input_tokens_seen": 10482000,
      "step": 16030
    },
    {
      "epoch": 8.404088050314465,
      "grad_norm": 0.17192131280899048,
      "learning_rate": 0.0007189059947810531,
      "loss": 0.4663,
      "num_input_tokens_seen": 10484592,
      "step": 16035
    },
    {
      "epoch": 8.40670859538784,
      "grad_norm": 0.29354920983314514,
      "learning_rate": 0.0007187003682297363,
      "loss": 0.4224,
      "num_input_tokens_seen": 10487216,
      "step": 16040
    },
    {
      "epoch": 8.409329140461216,
      "grad_norm": 0.11110679060220718,
      "learning_rate": 0.0007184946959287972,
      "loss": 0.4646,
      "num_input_tokens_seen": 10490512,
      "step": 16045
    },
    {
      "epoch": 8.41194968553459,
      "grad_norm": 0.10986445099115372,
      "learning_rate": 0.0007182889779212609,
      "loss": 0.369,
      "num_input_tokens_seen": 10493552,
      "step": 16050
    },
    {
      "epoch": 8.414570230607966,
      "grad_norm": 0.1180182471871376,
      "learning_rate": 0.0007180832142501605,
      "loss": 0.5279,
      "num_input_tokens_seen": 10497264,
      "step": 16055
    },
    {
      "epoch": 8.417190775681341,
      "grad_norm": 0.11794240027666092,
      "learning_rate": 0.0007178774049585397,
      "loss": 0.3657,
      "num_input_tokens_seen": 10499984,
      "step": 16060
    },
    {
      "epoch": 8.419811320754716,
      "grad_norm": 0.1287388950586319,
      "learning_rate": 0.0007176715500894515,
      "loss": 0.4205,
      "num_input_tokens_seen": 10503248,
      "step": 16065
    },
    {
      "epoch": 8.422431865828091,
      "grad_norm": 0.06339357793331146,
      "learning_rate": 0.0007174656496859584,
      "loss": 0.4663,
      "num_input_tokens_seen": 10507088,
      "step": 16070
    },
    {
      "epoch": 8.425052410901468,
      "grad_norm": 0.10774976760149002,
      "learning_rate": 0.0007172597037911323,
      "loss": 0.4146,
      "num_input_tokens_seen": 10510416,
      "step": 16075
    },
    {
      "epoch": 8.427672955974844,
      "grad_norm": 0.11645669490098953,
      "learning_rate": 0.0007170537124480548,
      "loss": 0.5404,
      "num_input_tokens_seen": 10514384,
      "step": 16080
    },
    {
      "epoch": 8.430293501048219,
      "grad_norm": 0.0669996440410614,
      "learning_rate": 0.0007168476756998169,
      "loss": 0.547,
      "num_input_tokens_seen": 10517872,
      "step": 16085
    },
    {
      "epoch": 8.432914046121594,
      "grad_norm": 0.11381513625383377,
      "learning_rate": 0.0007166415935895194,
      "loss": 0.4563,
      "num_input_tokens_seen": 10521200,
      "step": 16090
    },
    {
      "epoch": 8.435534591194969,
      "grad_norm": 0.0821501761674881,
      "learning_rate": 0.0007164354661602718,
      "loss": 0.4476,
      "num_input_tokens_seen": 10523856,
      "step": 16095
    },
    {
      "epoch": 8.438155136268344,
      "grad_norm": 0.06185821816325188,
      "learning_rate": 0.000716229293455194,
      "loss": 0.5087,
      "num_input_tokens_seen": 10527728,
      "step": 16100
    },
    {
      "epoch": 8.44077568134172,
      "grad_norm": 0.10981016606092453,
      "learning_rate": 0.000716023075517415,
      "loss": 0.4675,
      "num_input_tokens_seen": 10531536,
      "step": 16105
    },
    {
      "epoch": 8.443396226415095,
      "grad_norm": 0.08617140352725983,
      "learning_rate": 0.000715816812390073,
      "loss": 0.4005,
      "num_input_tokens_seen": 10534352,
      "step": 16110
    },
    {
      "epoch": 8.44601677148847,
      "grad_norm": 0.10167176276445389,
      "learning_rate": 0.0007156105041163161,
      "loss": 0.4554,
      "num_input_tokens_seen": 10537552,
      "step": 16115
    },
    {
      "epoch": 8.448637316561845,
      "grad_norm": 0.08828598260879517,
      "learning_rate": 0.0007154041507393015,
      "loss": 0.4302,
      "num_input_tokens_seen": 10539952,
      "step": 16120
    },
    {
      "epoch": 8.45125786163522,
      "grad_norm": 0.09711083024740219,
      "learning_rate": 0.000715197752302196,
      "loss": 0.4249,
      "num_input_tokens_seen": 10543408,
      "step": 16125
    },
    {
      "epoch": 8.453878406708595,
      "grad_norm": 0.04989193007349968,
      "learning_rate": 0.0007149913088481759,
      "loss": 0.3575,
      "num_input_tokens_seen": 10546352,
      "step": 16130
    },
    {
      "epoch": 8.45649895178197,
      "grad_norm": 0.08140551298856735,
      "learning_rate": 0.0007147848204204266,
      "loss": 0.4002,
      "num_input_tokens_seen": 10550352,
      "step": 16135
    },
    {
      "epoch": 8.459119496855346,
      "grad_norm": 0.09815114736557007,
      "learning_rate": 0.0007145782870621435,
      "loss": 0.5858,
      "num_input_tokens_seen": 10554864,
      "step": 16140
    },
    {
      "epoch": 8.46174004192872,
      "grad_norm": 0.11886417120695114,
      "learning_rate": 0.0007143717088165304,
      "loss": 0.3797,
      "num_input_tokens_seen": 10558960,
      "step": 16145
    },
    {
      "epoch": 8.464360587002096,
      "grad_norm": 0.07174130529165268,
      "learning_rate": 0.0007141650857268019,
      "loss": 0.458,
      "num_input_tokens_seen": 10563600,
      "step": 16150
    },
    {
      "epoch": 8.466981132075471,
      "grad_norm": 0.12825651466846466,
      "learning_rate": 0.0007139584178361807,
      "loss": 0.4304,
      "num_input_tokens_seen": 10566480,
      "step": 16155
    },
    {
      "epoch": 8.469601677148846,
      "grad_norm": 0.12014181911945343,
      "learning_rate": 0.0007137517051878994,
      "loss": 0.3471,
      "num_input_tokens_seen": 10569616,
      "step": 16160
    },
    {
      "epoch": 8.472222222222221,
      "grad_norm": 0.09435711055994034,
      "learning_rate": 0.0007135449478251998,
      "loss": 0.5219,
      "num_input_tokens_seen": 10572336,
      "step": 16165
    },
    {
      "epoch": 8.474842767295598,
      "grad_norm": 0.1927560567855835,
      "learning_rate": 0.0007133381457913336,
      "loss": 0.5356,
      "num_input_tokens_seen": 10574576,
      "step": 16170
    },
    {
      "epoch": 8.477463312368974,
      "grad_norm": 0.0938018262386322,
      "learning_rate": 0.0007131312991295611,
      "loss": 0.4084,
      "num_input_tokens_seen": 10578640,
      "step": 16175
    },
    {
      "epoch": 8.480083857442349,
      "grad_norm": 0.06759318709373474,
      "learning_rate": 0.0007129244078831525,
      "loss": 0.3671,
      "num_input_tokens_seen": 10581392,
      "step": 16180
    },
    {
      "epoch": 8.482704402515724,
      "grad_norm": 0.118764728307724,
      "learning_rate": 0.0007127174720953866,
      "loss": 0.6347,
      "num_input_tokens_seen": 10584144,
      "step": 16185
    },
    {
      "epoch": 8.485324947589099,
      "grad_norm": 0.26128309965133667,
      "learning_rate": 0.0007125104918095526,
      "loss": 0.492,
      "num_input_tokens_seen": 10587600,
      "step": 16190
    },
    {
      "epoch": 8.487945492662474,
      "grad_norm": 0.13631336390972137,
      "learning_rate": 0.0007123034670689483,
      "loss": 0.4688,
      "num_input_tokens_seen": 10590832,
      "step": 16195
    },
    {
      "epoch": 8.49056603773585,
      "grad_norm": 0.12068382650613785,
      "learning_rate": 0.0007120963979168804,
      "loss": 0.5147,
      "num_input_tokens_seen": 10593712,
      "step": 16200
    },
    {
      "epoch": 8.493186582809225,
      "grad_norm": 0.0964496061205864,
      "learning_rate": 0.000711889284396666,
      "loss": 0.4327,
      "num_input_tokens_seen": 10596336,
      "step": 16205
    },
    {
      "epoch": 8.4958071278826,
      "grad_norm": 0.09526512771844864,
      "learning_rate": 0.0007116821265516307,
      "loss": 0.4437,
      "num_input_tokens_seen": 10599536,
      "step": 16210
    },
    {
      "epoch": 8.498427672955975,
      "grad_norm": 0.09459935873746872,
      "learning_rate": 0.0007114749244251094,
      "loss": 0.2516,
      "num_input_tokens_seen": 10602576,
      "step": 16215
    },
    {
      "epoch": 8.50104821802935,
      "grad_norm": 0.17468750476837158,
      "learning_rate": 0.0007112676780604468,
      "loss": 0.3856,
      "num_input_tokens_seen": 10605616,
      "step": 16220
    },
    {
      "epoch": 8.503668763102725,
      "grad_norm": 0.1235714703798294,
      "learning_rate": 0.000711060387500996,
      "loss": 0.6129,
      "num_input_tokens_seen": 10609040,
      "step": 16225
    },
    {
      "epoch": 8.5062893081761,
      "grad_norm": 0.0891658291220665,
      "learning_rate": 0.0007108530527901199,
      "loss": 0.55,
      "num_input_tokens_seen": 10612304,
      "step": 16230
    },
    {
      "epoch": 8.508909853249476,
      "grad_norm": 0.08835206925868988,
      "learning_rate": 0.000710645673971191,
      "loss": 0.3944,
      "num_input_tokens_seen": 10614928,
      "step": 16235
    },
    {
      "epoch": 8.51153039832285,
      "grad_norm": 0.10492004454135895,
      "learning_rate": 0.00071043825108759,
      "loss": 0.5607,
      "num_input_tokens_seen": 10618320,
      "step": 16240
    },
    {
      "epoch": 8.514150943396226,
      "grad_norm": 0.19433780014514923,
      "learning_rate": 0.0007102307841827079,
      "loss": 0.4567,
      "num_input_tokens_seen": 10621296,
      "step": 16245
    },
    {
      "epoch": 8.516771488469601,
      "grad_norm": 0.10323988646268845,
      "learning_rate": 0.0007100232732999443,
      "loss": 0.4829,
      "num_input_tokens_seen": 10623984,
      "step": 16250
    },
    {
      "epoch": 8.519392033542976,
      "grad_norm": 0.11076923459768295,
      "learning_rate": 0.0007098157184827076,
      "loss": 0.4336,
      "num_input_tokens_seen": 10628560,
      "step": 16255
    },
    {
      "epoch": 8.522012578616351,
      "grad_norm": 0.1287056803703308,
      "learning_rate": 0.0007096081197744166,
      "loss": 0.3974,
      "num_input_tokens_seen": 10631856,
      "step": 16260
    },
    {
      "epoch": 8.524633123689728,
      "grad_norm": 0.08669227361679077,
      "learning_rate": 0.0007094004772184981,
      "loss": 0.4205,
      "num_input_tokens_seen": 10635696,
      "step": 16265
    },
    {
      "epoch": 8.527253668763104,
      "grad_norm": 0.14422695338726044,
      "learning_rate": 0.0007091927908583889,
      "loss": 0.4717,
      "num_input_tokens_seen": 10638384,
      "step": 16270
    },
    {
      "epoch": 8.529874213836479,
      "grad_norm": 0.12868645787239075,
      "learning_rate": 0.0007089850607375343,
      "loss": 0.4711,
      "num_input_tokens_seen": 10641456,
      "step": 16275
    },
    {
      "epoch": 8.532494758909854,
      "grad_norm": 0.24071452021598816,
      "learning_rate": 0.0007087772868993894,
      "loss": 0.3876,
      "num_input_tokens_seen": 10644336,
      "step": 16280
    },
    {
      "epoch": 8.535115303983229,
      "grad_norm": 0.11577317118644714,
      "learning_rate": 0.0007085694693874178,
      "loss": 0.4122,
      "num_input_tokens_seen": 10647440,
      "step": 16285
    },
    {
      "epoch": 8.537735849056604,
      "grad_norm": 0.09764394164085388,
      "learning_rate": 0.0007083616082450928,
      "loss": 0.4192,
      "num_input_tokens_seen": 10649872,
      "step": 16290
    },
    {
      "epoch": 8.54035639412998,
      "grad_norm": 0.07528941333293915,
      "learning_rate": 0.0007081537035158962,
      "loss": 0.5099,
      "num_input_tokens_seen": 10652976,
      "step": 16295
    },
    {
      "epoch": 8.542976939203355,
      "grad_norm": 0.12017757445573807,
      "learning_rate": 0.0007079457552433198,
      "loss": 0.423,
      "num_input_tokens_seen": 10656016,
      "step": 16300
    },
    {
      "epoch": 8.54559748427673,
      "grad_norm": 0.1007038876414299,
      "learning_rate": 0.0007077377634708637,
      "loss": 0.5045,
      "num_input_tokens_seen": 10659536,
      "step": 16305
    },
    {
      "epoch": 8.548218029350105,
      "grad_norm": 0.12437506765127182,
      "learning_rate": 0.0007075297282420375,
      "loss": 0.3606,
      "num_input_tokens_seen": 10662416,
      "step": 16310
    },
    {
      "epoch": 8.55083857442348,
      "grad_norm": 0.0659826323390007,
      "learning_rate": 0.0007073216496003598,
      "loss": 0.4074,
      "num_input_tokens_seen": 10666320,
      "step": 16315
    },
    {
      "epoch": 8.553459119496855,
      "grad_norm": 0.1499374508857727,
      "learning_rate": 0.0007071135275893584,
      "loss": 0.6093,
      "num_input_tokens_seen": 10669136,
      "step": 16320
    },
    {
      "epoch": 8.55607966457023,
      "grad_norm": 0.09271066635847092,
      "learning_rate": 0.0007069053622525696,
      "loss": 0.4303,
      "num_input_tokens_seen": 10672240,
      "step": 16325
    },
    {
      "epoch": 8.558700209643606,
      "grad_norm": 0.1291496753692627,
      "learning_rate": 0.0007066971536335395,
      "loss": 0.4585,
      "num_input_tokens_seen": 10674992,
      "step": 16330
    },
    {
      "epoch": 8.56132075471698,
      "grad_norm": 0.12741993367671967,
      "learning_rate": 0.0007064889017758234,
      "loss": 0.4995,
      "num_input_tokens_seen": 10677616,
      "step": 16335
    },
    {
      "epoch": 8.563941299790356,
      "grad_norm": 0.099430613219738,
      "learning_rate": 0.0007062806067229845,
      "loss": 0.4655,
      "num_input_tokens_seen": 10681136,
      "step": 16340
    },
    {
      "epoch": 8.566561844863731,
      "grad_norm": 0.17488549649715424,
      "learning_rate": 0.0007060722685185961,
      "loss": 0.5957,
      "num_input_tokens_seen": 10684368,
      "step": 16345
    },
    {
      "epoch": 8.569182389937106,
      "grad_norm": 0.07646837085485458,
      "learning_rate": 0.00070586388720624,
      "loss": 0.5001,
      "num_input_tokens_seen": 10687632,
      "step": 16350
    },
    {
      "epoch": 8.571802935010481,
      "grad_norm": 0.0725211575627327,
      "learning_rate": 0.0007056554628295076,
      "loss": 0.4756,
      "num_input_tokens_seen": 10692336,
      "step": 16355
    },
    {
      "epoch": 8.574423480083858,
      "grad_norm": 0.05818783864378929,
      "learning_rate": 0.0007054469954319984,
      "loss": 0.4843,
      "num_input_tokens_seen": 10696048,
      "step": 16360
    },
    {
      "epoch": 8.577044025157234,
      "grad_norm": 0.25732913613319397,
      "learning_rate": 0.0007052384850573217,
      "loss": 0.4144,
      "num_input_tokens_seen": 10700304,
      "step": 16365
    },
    {
      "epoch": 8.579664570230609,
      "grad_norm": 0.0955854281783104,
      "learning_rate": 0.0007050299317490952,
      "loss": 0.4625,
      "num_input_tokens_seen": 10703120,
      "step": 16370
    },
    {
      "epoch": 8.582285115303984,
      "grad_norm": 0.05248231068253517,
      "learning_rate": 0.0007048213355509463,
      "loss": 0.437,
      "num_input_tokens_seen": 10707536,
      "step": 16375
    },
    {
      "epoch": 8.584905660377359,
      "grad_norm": 0.06906358897686005,
      "learning_rate": 0.0007046126965065107,
      "loss": 0.5055,
      "num_input_tokens_seen": 10710384,
      "step": 16380
    },
    {
      "epoch": 8.587526205450734,
      "grad_norm": 0.15782442688941956,
      "learning_rate": 0.0007044040146594332,
      "loss": 0.4435,
      "num_input_tokens_seen": 10713840,
      "step": 16385
    },
    {
      "epoch": 8.59014675052411,
      "grad_norm": 0.11646877974271774,
      "learning_rate": 0.0007041952900533681,
      "loss": 0.4109,
      "num_input_tokens_seen": 10716720,
      "step": 16390
    },
    {
      "epoch": 8.592767295597485,
      "grad_norm": 0.12181928008794785,
      "learning_rate": 0.0007039865227319777,
      "loss": 0.501,
      "num_input_tokens_seen": 10720720,
      "step": 16395
    },
    {
      "epoch": 8.59538784067086,
      "grad_norm": 0.11601388454437256,
      "learning_rate": 0.0007037777127389339,
      "loss": 0.425,
      "num_input_tokens_seen": 10723952,
      "step": 16400
    },
    {
      "epoch": 8.598008385744235,
      "grad_norm": 0.16052058339118958,
      "learning_rate": 0.0007035688601179177,
      "loss": 0.5539,
      "num_input_tokens_seen": 10726096,
      "step": 16405
    },
    {
      "epoch": 8.60062893081761,
      "grad_norm": 0.07830444723367691,
      "learning_rate": 0.000703359964912618,
      "loss": 0.3837,
      "num_input_tokens_seen": 10729456,
      "step": 16410
    },
    {
      "epoch": 8.603249475890985,
      "grad_norm": 0.105791836977005,
      "learning_rate": 0.000703151027166734,
      "loss": 0.3473,
      "num_input_tokens_seen": 10731824,
      "step": 16415
    },
    {
      "epoch": 8.60587002096436,
      "grad_norm": 0.10476022958755493,
      "learning_rate": 0.0007029420469239726,
      "loss": 0.3477,
      "num_input_tokens_seen": 10734864,
      "step": 16420
    },
    {
      "epoch": 8.608490566037736,
      "grad_norm": 0.12381698191165924,
      "learning_rate": 0.0007027330242280503,
      "loss": 0.4398,
      "num_input_tokens_seen": 10737744,
      "step": 16425
    },
    {
      "epoch": 8.61111111111111,
      "grad_norm": 0.13310381770133972,
      "learning_rate": 0.0007025239591226923,
      "loss": 0.332,
      "num_input_tokens_seen": 10740656,
      "step": 16430
    },
    {
      "epoch": 8.613731656184486,
      "grad_norm": 0.18002380430698395,
      "learning_rate": 0.0007023148516516326,
      "loss": 0.6968,
      "num_input_tokens_seen": 10744688,
      "step": 16435
    },
    {
      "epoch": 8.616352201257861,
      "grad_norm": 0.13175928592681885,
      "learning_rate": 0.0007021057018586139,
      "loss": 0.4906,
      "num_input_tokens_seen": 10747184,
      "step": 16440
    },
    {
      "epoch": 8.618972746331236,
      "grad_norm": 0.11104906350374222,
      "learning_rate": 0.0007018965097873883,
      "loss": 0.5902,
      "num_input_tokens_seen": 10750320,
      "step": 16445
    },
    {
      "epoch": 8.621593291404611,
      "grad_norm": 0.10520106554031372,
      "learning_rate": 0.0007016872754817161,
      "loss": 0.3757,
      "num_input_tokens_seen": 10753328,
      "step": 16450
    },
    {
      "epoch": 8.624213836477988,
      "grad_norm": 0.11146209388971329,
      "learning_rate": 0.0007014779989853668,
      "loss": 0.4665,
      "num_input_tokens_seen": 10756208,
      "step": 16455
    },
    {
      "epoch": 8.626834381551364,
      "grad_norm": 0.18516755104064941,
      "learning_rate": 0.0007012686803421189,
      "loss": 0.4071,
      "num_input_tokens_seen": 10759888,
      "step": 16460
    },
    {
      "epoch": 8.629454926624739,
      "grad_norm": 0.13832935690879822,
      "learning_rate": 0.000701059319595759,
      "loss": 0.3991,
      "num_input_tokens_seen": 10763152,
      "step": 16465
    },
    {
      "epoch": 8.632075471698114,
      "grad_norm": 0.1820092648267746,
      "learning_rate": 0.0007008499167900833,
      "loss": 0.4618,
      "num_input_tokens_seen": 10767024,
      "step": 16470
    },
    {
      "epoch": 8.634696016771489,
      "grad_norm": 0.11441336572170258,
      "learning_rate": 0.0007006404719688966,
      "loss": 0.3552,
      "num_input_tokens_seen": 10770096,
      "step": 16475
    },
    {
      "epoch": 8.637316561844864,
      "grad_norm": 0.17059707641601562,
      "learning_rate": 0.000700430985176012,
      "loss": 0.502,
      "num_input_tokens_seen": 10774576,
      "step": 16480
    },
    {
      "epoch": 8.63993710691824,
      "grad_norm": 0.10855337232351303,
      "learning_rate": 0.0007002214564552521,
      "loss": 0.3484,
      "num_input_tokens_seen": 10777296,
      "step": 16485
    },
    {
      "epoch": 8.642557651991615,
      "grad_norm": 0.08965571969747543,
      "learning_rate": 0.0007000118858504476,
      "loss": 0.3929,
      "num_input_tokens_seen": 10779696,
      "step": 16490
    },
    {
      "epoch": 8.64517819706499,
      "grad_norm": 0.19331082701683044,
      "learning_rate": 0.0006998022734054386,
      "loss": 0.3901,
      "num_input_tokens_seen": 10783184,
      "step": 16495
    },
    {
      "epoch": 8.647798742138365,
      "grad_norm": 0.07420553267002106,
      "learning_rate": 0.0006995926191640734,
      "loss": 0.6046,
      "num_input_tokens_seen": 10786512,
      "step": 16500
    },
    {
      "epoch": 8.65041928721174,
      "grad_norm": 0.16949628293514252,
      "learning_rate": 0.0006993829231702092,
      "loss": 0.4158,
      "num_input_tokens_seen": 10789872,
      "step": 16505
    },
    {
      "epoch": 8.653039832285115,
      "grad_norm": 0.1124805137515068,
      "learning_rate": 0.0006991731854677124,
      "loss": 0.4057,
      "num_input_tokens_seen": 10792944,
      "step": 16510
    },
    {
      "epoch": 8.65566037735849,
      "grad_norm": 0.19670097529888153,
      "learning_rate": 0.0006989634061004572,
      "loss": 0.4665,
      "num_input_tokens_seen": 10796624,
      "step": 16515
    },
    {
      "epoch": 8.658280922431866,
      "grad_norm": 0.09752697497606277,
      "learning_rate": 0.0006987535851123276,
      "loss": 0.4465,
      "num_input_tokens_seen": 10800144,
      "step": 16520
    },
    {
      "epoch": 8.66090146750524,
      "grad_norm": 0.1836780458688736,
      "learning_rate": 0.0006985437225472155,
      "loss": 0.41,
      "num_input_tokens_seen": 10803152,
      "step": 16525
    },
    {
      "epoch": 8.663522012578616,
      "grad_norm": 0.17304110527038574,
      "learning_rate": 0.0006983338184490215,
      "loss": 0.5014,
      "num_input_tokens_seen": 10805552,
      "step": 16530
    },
    {
      "epoch": 8.666142557651991,
      "grad_norm": 0.11483418196439743,
      "learning_rate": 0.0006981238728616557,
      "loss": 0.4439,
      "num_input_tokens_seen": 10808880,
      "step": 16535
    },
    {
      "epoch": 8.668763102725366,
      "grad_norm": 0.13100698590278625,
      "learning_rate": 0.0006979138858290358,
      "loss": 0.4325,
      "num_input_tokens_seen": 10812240,
      "step": 16540
    },
    {
      "epoch": 8.671383647798741,
      "grad_norm": 0.18456998467445374,
      "learning_rate": 0.0006977038573950889,
      "loss": 0.404,
      "num_input_tokens_seen": 10815600,
      "step": 16545
    },
    {
      "epoch": 8.674004192872118,
      "grad_norm": 0.10186731815338135,
      "learning_rate": 0.0006974937876037508,
      "loss": 0.455,
      "num_input_tokens_seen": 10819120,
      "step": 16550
    },
    {
      "epoch": 8.676624737945493,
      "grad_norm": 0.1459975391626358,
      "learning_rate": 0.0006972836764989652,
      "loss": 0.3834,
      "num_input_tokens_seen": 10821744,
      "step": 16555
    },
    {
      "epoch": 8.679245283018869,
      "grad_norm": 0.169907346367836,
      "learning_rate": 0.0006970735241246853,
      "loss": 0.4244,
      "num_input_tokens_seen": 10824336,
      "step": 16560
    },
    {
      "epoch": 8.681865828092244,
      "grad_norm": 0.12170907855033875,
      "learning_rate": 0.0006968633305248724,
      "loss": 0.5696,
      "num_input_tokens_seen": 10826672,
      "step": 16565
    },
    {
      "epoch": 8.684486373165619,
      "grad_norm": 0.10882449150085449,
      "learning_rate": 0.0006966530957434968,
      "loss": 0.386,
      "num_input_tokens_seen": 10830192,
      "step": 16570
    },
    {
      "epoch": 8.687106918238994,
      "grad_norm": 0.18337853252887726,
      "learning_rate": 0.0006964428198245372,
      "loss": 0.6291,
      "num_input_tokens_seen": 10834096,
      "step": 16575
    },
    {
      "epoch": 8.68972746331237,
      "grad_norm": 0.13237158954143524,
      "learning_rate": 0.0006962325028119806,
      "loss": 0.4557,
      "num_input_tokens_seen": 10837360,
      "step": 16580
    },
    {
      "epoch": 8.692348008385745,
      "grad_norm": 0.09274701774120331,
      "learning_rate": 0.0006960221447498232,
      "loss": 0.544,
      "num_input_tokens_seen": 10841168,
      "step": 16585
    },
    {
      "epoch": 8.69496855345912,
      "grad_norm": 0.10504230856895447,
      "learning_rate": 0.0006958117456820696,
      "loss": 0.3266,
      "num_input_tokens_seen": 10844784,
      "step": 16590
    },
    {
      "epoch": 8.697589098532495,
      "grad_norm": 0.1461242288351059,
      "learning_rate": 0.0006956013056527326,
      "loss": 0.4465,
      "num_input_tokens_seen": 10847376,
      "step": 16595
    },
    {
      "epoch": 8.70020964360587,
      "grad_norm": 0.11456122994422913,
      "learning_rate": 0.0006953908247058341,
      "loss": 0.3699,
      "num_input_tokens_seen": 10850000,
      "step": 16600
    },
    {
      "epoch": 8.702830188679245,
      "grad_norm": 0.10861588269472122,
      "learning_rate": 0.0006951803028854041,
      "loss": 0.3671,
      "num_input_tokens_seen": 10852528,
      "step": 16605
    },
    {
      "epoch": 8.70545073375262,
      "grad_norm": 0.15945017337799072,
      "learning_rate": 0.0006949697402354816,
      "loss": 0.4228,
      "num_input_tokens_seen": 10855312,
      "step": 16610
    },
    {
      "epoch": 8.708071278825996,
      "grad_norm": 0.10888849943876266,
      "learning_rate": 0.0006947591368001138,
      "loss": 0.6019,
      "num_input_tokens_seen": 10859376,
      "step": 16615
    },
    {
      "epoch": 8.71069182389937,
      "grad_norm": 0.13688072562217712,
      "learning_rate": 0.0006945484926233563,
      "loss": 0.4813,
      "num_input_tokens_seen": 10862224,
      "step": 16620
    },
    {
      "epoch": 8.713312368972746,
      "grad_norm": 0.15777158737182617,
      "learning_rate": 0.0006943378077492737,
      "loss": 0.6026,
      "num_input_tokens_seen": 10865104,
      "step": 16625
    },
    {
      "epoch": 8.715932914046121,
      "grad_norm": 0.10667625069618225,
      "learning_rate": 0.000694127082221939,
      "loss": 0.3896,
      "num_input_tokens_seen": 10867792,
      "step": 16630
    },
    {
      "epoch": 8.718553459119496,
      "grad_norm": 0.16235487163066864,
      "learning_rate": 0.0006939163160854334,
      "loss": 0.4884,
      "num_input_tokens_seen": 10870768,
      "step": 16635
    },
    {
      "epoch": 8.721174004192871,
      "grad_norm": 0.09398061782121658,
      "learning_rate": 0.0006937055093838467,
      "loss": 0.3219,
      "num_input_tokens_seen": 10875056,
      "step": 16640
    },
    {
      "epoch": 8.723794549266248,
      "grad_norm": 0.14336971938610077,
      "learning_rate": 0.0006934946621612774,
      "loss": 0.4962,
      "num_input_tokens_seen": 10878288,
      "step": 16645
    },
    {
      "epoch": 8.726415094339622,
      "grad_norm": 0.13698828220367432,
      "learning_rate": 0.0006932837744618322,
      "loss": 0.4585,
      "num_input_tokens_seen": 10880720,
      "step": 16650
    },
    {
      "epoch": 8.729035639412999,
      "grad_norm": 0.08296828716993332,
      "learning_rate": 0.0006930728463296265,
      "loss": 0.2879,
      "num_input_tokens_seen": 10884528,
      "step": 16655
    },
    {
      "epoch": 8.731656184486374,
      "grad_norm": 0.11441094428300858,
      "learning_rate": 0.0006928618778087842,
      "loss": 0.5396,
      "num_input_tokens_seen": 10886960,
      "step": 16660
    },
    {
      "epoch": 8.734276729559749,
      "grad_norm": 0.08442367613315582,
      "learning_rate": 0.0006926508689434371,
      "loss": 0.4633,
      "num_input_tokens_seen": 10889904,
      "step": 16665
    },
    {
      "epoch": 8.736897274633124,
      "grad_norm": 0.11338143795728683,
      "learning_rate": 0.0006924398197777263,
      "loss": 0.5356,
      "num_input_tokens_seen": 10893072,
      "step": 16670
    },
    {
      "epoch": 8.7395178197065,
      "grad_norm": 0.09578580409288406,
      "learning_rate": 0.0006922287303558006,
      "loss": 0.4884,
      "num_input_tokens_seen": 10897392,
      "step": 16675
    },
    {
      "epoch": 8.742138364779874,
      "grad_norm": 0.07577946037054062,
      "learning_rate": 0.0006920176007218175,
      "loss": 0.5472,
      "num_input_tokens_seen": 10901008,
      "step": 16680
    },
    {
      "epoch": 8.74475890985325,
      "grad_norm": 0.08930304646492004,
      "learning_rate": 0.000691806430919943,
      "loss": 0.5273,
      "num_input_tokens_seen": 10904848,
      "step": 16685
    },
    {
      "epoch": 8.747379454926625,
      "grad_norm": 0.14845697581768036,
      "learning_rate": 0.0006915952209943514,
      "loss": 0.4691,
      "num_input_tokens_seen": 10908528,
      "step": 16690
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.07186488807201385,
      "learning_rate": 0.0006913839709892256,
      "loss": 0.5588,
      "num_input_tokens_seen": 10912080,
      "step": 16695
    },
    {
      "epoch": 8.752620545073375,
      "grad_norm": 0.10261267423629761,
      "learning_rate": 0.0006911726809487561,
      "loss": 0.4743,
      "num_input_tokens_seen": 10916528,
      "step": 16700
    },
    {
      "epoch": 8.75524109014675,
      "grad_norm": 0.11739129573106766,
      "learning_rate": 0.0006909613509171431,
      "loss": 0.4324,
      "num_input_tokens_seen": 10920688,
      "step": 16705
    },
    {
      "epoch": 8.757861635220126,
      "grad_norm": 0.13663232326507568,
      "learning_rate": 0.0006907499809385941,
      "loss": 0.4315,
      "num_input_tokens_seen": 10923600,
      "step": 16710
    },
    {
      "epoch": 8.7604821802935,
      "grad_norm": 0.07952861487865448,
      "learning_rate": 0.0006905385710573252,
      "loss": 0.3877,
      "num_input_tokens_seen": 10926544,
      "step": 16715
    },
    {
      "epoch": 8.763102725366876,
      "grad_norm": 0.0904303640127182,
      "learning_rate": 0.000690327121317561,
      "loss": 0.3826,
      "num_input_tokens_seen": 10929392,
      "step": 16720
    },
    {
      "epoch": 8.765723270440251,
      "grad_norm": 0.10709076374769211,
      "learning_rate": 0.0006901156317635342,
      "loss": 0.4275,
      "num_input_tokens_seen": 10933456,
      "step": 16725
    },
    {
      "epoch": 8.768343815513626,
      "grad_norm": 0.11750505864620209,
      "learning_rate": 0.0006899041024394864,
      "loss": 0.5771,
      "num_input_tokens_seen": 10936336,
      "step": 16730
    },
    {
      "epoch": 8.770964360587001,
      "grad_norm": 0.10174725949764252,
      "learning_rate": 0.000689692533389667,
      "loss": 0.5032,
      "num_input_tokens_seen": 10939696,
      "step": 16735
    },
    {
      "epoch": 8.773584905660378,
      "grad_norm": 0.13780835270881653,
      "learning_rate": 0.0006894809246583334,
      "loss": 0.3521,
      "num_input_tokens_seen": 10942192,
      "step": 16740
    },
    {
      "epoch": 8.776205450733752,
      "grad_norm": 0.1188582330942154,
      "learning_rate": 0.0006892692762897523,
      "loss": 0.2877,
      "num_input_tokens_seen": 10944624,
      "step": 16745
    },
    {
      "epoch": 8.778825995807129,
      "grad_norm": 0.0983397588133812,
      "learning_rate": 0.000689057588328198,
      "loss": 0.3973,
      "num_input_tokens_seen": 10947952,
      "step": 16750
    },
    {
      "epoch": 8.781446540880504,
      "grad_norm": 0.12811264395713806,
      "learning_rate": 0.0006888458608179528,
      "loss": 0.4502,
      "num_input_tokens_seen": 10951440,
      "step": 16755
    },
    {
      "epoch": 8.784067085953879,
      "grad_norm": 0.10011114925146103,
      "learning_rate": 0.0006886340938033085,
      "loss": 0.3987,
      "num_input_tokens_seen": 10954224,
      "step": 16760
    },
    {
      "epoch": 8.786687631027254,
      "grad_norm": 0.29854103922843933,
      "learning_rate": 0.0006884222873285632,
      "loss": 0.4612,
      "num_input_tokens_seen": 10957392,
      "step": 16765
    },
    {
      "epoch": 8.78930817610063,
      "grad_norm": 0.07179532945156097,
      "learning_rate": 0.0006882104414380254,
      "loss": 0.5099,
      "num_input_tokens_seen": 10961136,
      "step": 16770
    },
    {
      "epoch": 8.791928721174004,
      "grad_norm": 0.10353521257638931,
      "learning_rate": 0.0006879985561760105,
      "loss": 0.5028,
      "num_input_tokens_seen": 10964272,
      "step": 16775
    },
    {
      "epoch": 8.79454926624738,
      "grad_norm": 0.09296797215938568,
      "learning_rate": 0.0006877866315868422,
      "loss": 0.3601,
      "num_input_tokens_seen": 10967344,
      "step": 16780
    },
    {
      "epoch": 8.797169811320755,
      "grad_norm": 0.16909991204738617,
      "learning_rate": 0.0006875746677148531,
      "loss": 0.3997,
      "num_input_tokens_seen": 10970800,
      "step": 16785
    },
    {
      "epoch": 8.79979035639413,
      "grad_norm": 0.06221037730574608,
      "learning_rate": 0.0006873626646043835,
      "loss": 0.4584,
      "num_input_tokens_seen": 10974544,
      "step": 16790
    },
    {
      "epoch": 8.802410901467505,
      "grad_norm": 0.18900254368782043,
      "learning_rate": 0.000687150622299782,
      "loss": 0.4785,
      "num_input_tokens_seen": 10976784,
      "step": 16795
    },
    {
      "epoch": 8.80503144654088,
      "grad_norm": 0.08396586030721664,
      "learning_rate": 0.0006869385408454056,
      "loss": 0.5024,
      "num_input_tokens_seen": 10980400,
      "step": 16800
    },
    {
      "epoch": 8.807651991614255,
      "grad_norm": 0.11219280958175659,
      "learning_rate": 0.0006867264202856188,
      "loss": 0.344,
      "num_input_tokens_seen": 10986160,
      "step": 16805
    },
    {
      "epoch": 8.81027253668763,
      "grad_norm": 0.12169553339481354,
      "learning_rate": 0.0006865142606647954,
      "loss": 0.4681,
      "num_input_tokens_seen": 10989584,
      "step": 16810
    },
    {
      "epoch": 8.812893081761006,
      "grad_norm": 0.12898461520671844,
      "learning_rate": 0.0006863020620273166,
      "loss": 0.5361,
      "num_input_tokens_seen": 10992464,
      "step": 16815
    },
    {
      "epoch": 8.815513626834381,
      "grad_norm": 0.1853424608707428,
      "learning_rate": 0.0006860898244175716,
      "loss": 0.5374,
      "num_input_tokens_seen": 10995472,
      "step": 16820
    },
    {
      "epoch": 8.818134171907756,
      "grad_norm": 0.18052195012569427,
      "learning_rate": 0.0006858775478799586,
      "loss": 0.4112,
      "num_input_tokens_seen": 10999088,
      "step": 16825
    },
    {
      "epoch": 8.820754716981131,
      "grad_norm": 0.11141294986009598,
      "learning_rate": 0.0006856652324588831,
      "loss": 0.4576,
      "num_input_tokens_seen": 11002000,
      "step": 16830
    },
    {
      "epoch": 8.823375262054507,
      "grad_norm": 0.18409143388271332,
      "learning_rate": 0.000685452878198759,
      "loss": 0.5931,
      "num_input_tokens_seen": 11005360,
      "step": 16835
    },
    {
      "epoch": 8.825995807127882,
      "grad_norm": 0.09697546064853668,
      "learning_rate": 0.0006852404851440088,
      "loss": 0.3895,
      "num_input_tokens_seen": 11008272,
      "step": 16840
    },
    {
      "epoch": 8.828616352201259,
      "grad_norm": 0.09554576128721237,
      "learning_rate": 0.0006850280533390624,
      "loss": 0.4231,
      "num_input_tokens_seen": 11011760,
      "step": 16845
    },
    {
      "epoch": 8.831236897274634,
      "grad_norm": 0.10284645110368729,
      "learning_rate": 0.0006848155828283581,
      "loss": 0.4913,
      "num_input_tokens_seen": 11014736,
      "step": 16850
    },
    {
      "epoch": 8.833857442348009,
      "grad_norm": 0.10627724230289459,
      "learning_rate": 0.0006846030736563422,
      "loss": 0.3868,
      "num_input_tokens_seen": 11018128,
      "step": 16855
    },
    {
      "epoch": 8.836477987421384,
      "grad_norm": 0.08459225296974182,
      "learning_rate": 0.0006843905258674696,
      "loss": 0.4076,
      "num_input_tokens_seen": 11022032,
      "step": 16860
    },
    {
      "epoch": 8.83909853249476,
      "grad_norm": 0.14491838216781616,
      "learning_rate": 0.0006841779395062026,
      "loss": 0.427,
      "num_input_tokens_seen": 11024944,
      "step": 16865
    },
    {
      "epoch": 8.841719077568134,
      "grad_norm": 0.1026647761464119,
      "learning_rate": 0.0006839653146170116,
      "loss": 0.4013,
      "num_input_tokens_seen": 11028272,
      "step": 16870
    },
    {
      "epoch": 8.84433962264151,
      "grad_norm": 0.2662732005119324,
      "learning_rate": 0.0006837526512443758,
      "loss": 0.463,
      "num_input_tokens_seen": 11031088,
      "step": 16875
    },
    {
      "epoch": 8.846960167714885,
      "grad_norm": 0.14981652796268463,
      "learning_rate": 0.0006835399494327818,
      "loss": 0.4978,
      "num_input_tokens_seen": 11033456,
      "step": 16880
    },
    {
      "epoch": 8.84958071278826,
      "grad_norm": 0.1025235503911972,
      "learning_rate": 0.0006833272092267241,
      "loss": 0.4799,
      "num_input_tokens_seen": 11036976,
      "step": 16885
    },
    {
      "epoch": 8.852201257861635,
      "grad_norm": 0.10144464671611786,
      "learning_rate": 0.000683114430670706,
      "loss": 0.4606,
      "num_input_tokens_seen": 11039472,
      "step": 16890
    },
    {
      "epoch": 8.85482180293501,
      "grad_norm": 0.11421573162078857,
      "learning_rate": 0.0006829016138092378,
      "loss": 0.4196,
      "num_input_tokens_seen": 11042064,
      "step": 16895
    },
    {
      "epoch": 8.857442348008385,
      "grad_norm": 0.10651542991399765,
      "learning_rate": 0.0006826887586868388,
      "loss": 0.5021,
      "num_input_tokens_seen": 11045232,
      "step": 16900
    },
    {
      "epoch": 8.86006289308176,
      "grad_norm": 0.10334833711385727,
      "learning_rate": 0.0006824758653480356,
      "loss": 0.4169,
      "num_input_tokens_seen": 11048784,
      "step": 16905
    },
    {
      "epoch": 8.862683438155136,
      "grad_norm": 0.08644543588161469,
      "learning_rate": 0.0006822629338373632,
      "loss": 0.484,
      "num_input_tokens_seen": 11052528,
      "step": 16910
    },
    {
      "epoch": 8.865303983228511,
      "grad_norm": 0.19297786056995392,
      "learning_rate": 0.0006820499641993644,
      "loss": 0.7277,
      "num_input_tokens_seen": 11055824,
      "step": 16915
    },
    {
      "epoch": 8.867924528301886,
      "grad_norm": 0.12099384516477585,
      "learning_rate": 0.0006818369564785902,
      "loss": 0.3205,
      "num_input_tokens_seen": 11059504,
      "step": 16920
    },
    {
      "epoch": 8.870545073375261,
      "grad_norm": 0.05762539431452751,
      "learning_rate": 0.0006816239107195989,
      "loss": 0.4282,
      "num_input_tokens_seen": 11062544,
      "step": 16925
    },
    {
      "epoch": 8.873165618448636,
      "grad_norm": 0.08180857449769974,
      "learning_rate": 0.000681410826966958,
      "loss": 0.4175,
      "num_input_tokens_seen": 11065584,
      "step": 16930
    },
    {
      "epoch": 8.875786163522012,
      "grad_norm": 0.14003944396972656,
      "learning_rate": 0.0006811977052652414,
      "loss": 0.3784,
      "num_input_tokens_seen": 11068336,
      "step": 16935
    },
    {
      "epoch": 8.878406708595389,
      "grad_norm": 0.11903782933950424,
      "learning_rate": 0.000680984545659032,
      "loss": 0.479,
      "num_input_tokens_seen": 11071184,
      "step": 16940
    },
    {
      "epoch": 8.881027253668764,
      "grad_norm": 0.1015782505273819,
      "learning_rate": 0.0006807713481929207,
      "loss": 0.2886,
      "num_input_tokens_seen": 11074320,
      "step": 16945
    },
    {
      "epoch": 8.883647798742139,
      "grad_norm": 0.08640080690383911,
      "learning_rate": 0.0006805581129115055,
      "loss": 0.4075,
      "num_input_tokens_seen": 11077168,
      "step": 16950
    },
    {
      "epoch": 8.886268343815514,
      "grad_norm": 0.22395049035549164,
      "learning_rate": 0.0006803448398593931,
      "loss": 0.4482,
      "num_input_tokens_seen": 11080080,
      "step": 16955
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 0.0996198058128357,
      "learning_rate": 0.0006801315290811976,
      "loss": 0.3536,
      "num_input_tokens_seen": 11083408,
      "step": 16960
    },
    {
      "epoch": 8.891509433962264,
      "grad_norm": 0.14133894443511963,
      "learning_rate": 0.0006799181806215413,
      "loss": 0.5637,
      "num_input_tokens_seen": 11087184,
      "step": 16965
    },
    {
      "epoch": 8.89412997903564,
      "grad_norm": 0.08255190402269363,
      "learning_rate": 0.0006797047945250543,
      "loss": 0.3932,
      "num_input_tokens_seen": 11090864,
      "step": 16970
    },
    {
      "epoch": 8.896750524109015,
      "grad_norm": 0.08240991830825806,
      "learning_rate": 0.0006794913708363745,
      "loss": 0.4013,
      "num_input_tokens_seen": 11094288,
      "step": 16975
    },
    {
      "epoch": 8.89937106918239,
      "grad_norm": 0.0804135873913765,
      "learning_rate": 0.0006792779096001475,
      "loss": 0.2855,
      "num_input_tokens_seen": 11096656,
      "step": 16980
    },
    {
      "epoch": 8.901991614255765,
      "grad_norm": 0.07127098739147186,
      "learning_rate": 0.0006790644108610273,
      "loss": 0.4312,
      "num_input_tokens_seen": 11100144,
      "step": 16985
    },
    {
      "epoch": 8.90461215932914,
      "grad_norm": 0.11144876480102539,
      "learning_rate": 0.0006788508746636751,
      "loss": 0.4031,
      "num_input_tokens_seen": 11103440,
      "step": 16990
    },
    {
      "epoch": 8.907232704402515,
      "grad_norm": 0.11302673071622849,
      "learning_rate": 0.0006786373010527605,
      "loss": 0.4016,
      "num_input_tokens_seen": 11107056,
      "step": 16995
    },
    {
      "epoch": 8.90985324947589,
      "grad_norm": 0.2041640728712082,
      "learning_rate": 0.0006784236900729603,
      "loss": 0.4208,
      "num_input_tokens_seen": 11110640,
      "step": 17000
    },
    {
      "epoch": 8.912473794549266,
      "grad_norm": 0.021179506555199623,
      "learning_rate": 0.0006782100417689599,
      "loss": 0.3137,
      "num_input_tokens_seen": 11117008,
      "step": 17005
    },
    {
      "epoch": 8.915094339622641,
      "grad_norm": 0.13199682533740997,
      "learning_rate": 0.0006779963561854517,
      "loss": 0.4034,
      "num_input_tokens_seen": 11120176,
      "step": 17010
    },
    {
      "epoch": 8.917714884696016,
      "grad_norm": 0.15859997272491455,
      "learning_rate": 0.0006777826333671367,
      "loss": 0.4966,
      "num_input_tokens_seen": 11123504,
      "step": 17015
    },
    {
      "epoch": 8.920335429769391,
      "grad_norm": 0.1822897344827652,
      "learning_rate": 0.0006775688733587227,
      "loss": 0.4936,
      "num_input_tokens_seen": 11126000,
      "step": 17020
    },
    {
      "epoch": 8.922955974842766,
      "grad_norm": 0.06288214027881622,
      "learning_rate": 0.0006773550762049265,
      "loss": 0.395,
      "num_input_tokens_seen": 11129584,
      "step": 17025
    },
    {
      "epoch": 8.925576519916142,
      "grad_norm": 0.15122880041599274,
      "learning_rate": 0.0006771412419504716,
      "loss": 0.4707,
      "num_input_tokens_seen": 11132240,
      "step": 17030
    },
    {
      "epoch": 8.928197064989519,
      "grad_norm": 0.12432268261909485,
      "learning_rate": 0.00067692737064009,
      "loss": 0.4814,
      "num_input_tokens_seen": 11135120,
      "step": 17035
    },
    {
      "epoch": 8.930817610062894,
      "grad_norm": 0.18600788712501526,
      "learning_rate": 0.0006767134623185208,
      "loss": 0.3472,
      "num_input_tokens_seen": 11137968,
      "step": 17040
    },
    {
      "epoch": 8.933438155136269,
      "grad_norm": 0.071506567299366,
      "learning_rate": 0.0006764995170305114,
      "loss": 0.3739,
      "num_input_tokens_seen": 11140368,
      "step": 17045
    },
    {
      "epoch": 8.936058700209644,
      "grad_norm": 0.12982630729675293,
      "learning_rate": 0.0006762855348208166,
      "loss": 0.5281,
      "num_input_tokens_seen": 11145168,
      "step": 17050
    },
    {
      "epoch": 8.93867924528302,
      "grad_norm": 0.08673599362373352,
      "learning_rate": 0.0006760715157341991,
      "loss": 0.4861,
      "num_input_tokens_seen": 11149008,
      "step": 17055
    },
    {
      "epoch": 8.941299790356394,
      "grad_norm": 0.09617940336465836,
      "learning_rate": 0.0006758574598154292,
      "loss": 0.4499,
      "num_input_tokens_seen": 11156336,
      "step": 17060
    },
    {
      "epoch": 8.94392033542977,
      "grad_norm": 0.1268904060125351,
      "learning_rate": 0.0006756433671092852,
      "loss": 0.5479,
      "num_input_tokens_seen": 11159152,
      "step": 17065
    },
    {
      "epoch": 8.946540880503145,
      "grad_norm": 0.0920475497841835,
      "learning_rate": 0.0006754292376605524,
      "loss": 0.3913,
      "num_input_tokens_seen": 11162096,
      "step": 17070
    },
    {
      "epoch": 8.94916142557652,
      "grad_norm": 0.11338157206773758,
      "learning_rate": 0.0006752150715140247,
      "loss": 0.4449,
      "num_input_tokens_seen": 11165200,
      "step": 17075
    },
    {
      "epoch": 8.951781970649895,
      "grad_norm": 0.2096540331840515,
      "learning_rate": 0.0006750008687145028,
      "loss": 0.5662,
      "num_input_tokens_seen": 11168368,
      "step": 17080
    },
    {
      "epoch": 8.95440251572327,
      "grad_norm": 0.0777662992477417,
      "learning_rate": 0.0006747866293067958,
      "loss": 0.54,
      "num_input_tokens_seen": 11172048,
      "step": 17085
    },
    {
      "epoch": 8.957023060796645,
      "grad_norm": 0.05863034725189209,
      "learning_rate": 0.00067457235333572,
      "loss": 0.4452,
      "num_input_tokens_seen": 11175600,
      "step": 17090
    },
    {
      "epoch": 8.95964360587002,
      "grad_norm": 0.1609656810760498,
      "learning_rate": 0.0006743580408460994,
      "loss": 0.4059,
      "num_input_tokens_seen": 11178576,
      "step": 17095
    },
    {
      "epoch": 8.962264150943396,
      "grad_norm": 0.12435434758663177,
      "learning_rate": 0.0006741436918827659,
      "loss": 0.5079,
      "num_input_tokens_seen": 11181168,
      "step": 17100
    },
    {
      "epoch": 8.964884696016771,
      "grad_norm": 0.15492261946201324,
      "learning_rate": 0.0006739293064905589,
      "loss": 0.3863,
      "num_input_tokens_seen": 11184400,
      "step": 17105
    },
    {
      "epoch": 8.967505241090146,
      "grad_norm": 0.11099161952733994,
      "learning_rate": 0.0006737148847143251,
      "loss": 0.4803,
      "num_input_tokens_seen": 11187536,
      "step": 17110
    },
    {
      "epoch": 8.970125786163521,
      "grad_norm": 0.11457332223653793,
      "learning_rate": 0.0006735004265989195,
      "loss": 0.4219,
      "num_input_tokens_seen": 11191568,
      "step": 17115
    },
    {
      "epoch": 8.972746331236896,
      "grad_norm": 0.1777803599834442,
      "learning_rate": 0.0006732859321892038,
      "loss": 0.3653,
      "num_input_tokens_seen": 11195024,
      "step": 17120
    },
    {
      "epoch": 8.975366876310272,
      "grad_norm": 0.15269428491592407,
      "learning_rate": 0.0006730714015300481,
      "loss": 0.4725,
      "num_input_tokens_seen": 11198480,
      "step": 17125
    },
    {
      "epoch": 8.977987421383649,
      "grad_norm": 0.06046298146247864,
      "learning_rate": 0.0006728568346663299,
      "loss": 0.4848,
      "num_input_tokens_seen": 11201712,
      "step": 17130
    },
    {
      "epoch": 8.980607966457024,
      "grad_norm": 0.09425347298383713,
      "learning_rate": 0.0006726422316429337,
      "loss": 0.3859,
      "num_input_tokens_seen": 11204720,
      "step": 17135
    },
    {
      "epoch": 8.983228511530399,
      "grad_norm": 0.1689903289079666,
      "learning_rate": 0.0006724275925047523,
      "loss": 0.4338,
      "num_input_tokens_seen": 11207440,
      "step": 17140
    },
    {
      "epoch": 8.985849056603774,
      "grad_norm": 0.09075170010328293,
      "learning_rate": 0.0006722129172966858,
      "loss": 0.4481,
      "num_input_tokens_seen": 11210384,
      "step": 17145
    },
    {
      "epoch": 8.98846960167715,
      "grad_norm": 0.14578665792942047,
      "learning_rate": 0.0006719982060636416,
      "loss": 0.4439,
      "num_input_tokens_seen": 11213392,
      "step": 17150
    },
    {
      "epoch": 8.991090146750524,
      "grad_norm": 0.12896187603473663,
      "learning_rate": 0.000671783458850535,
      "loss": 0.5086,
      "num_input_tokens_seen": 11216016,
      "step": 17155
    },
    {
      "epoch": 8.9937106918239,
      "grad_norm": 0.10747672617435455,
      "learning_rate": 0.0006715686757022886,
      "loss": 0.5205,
      "num_input_tokens_seen": 11218160,
      "step": 17160
    },
    {
      "epoch": 8.996331236897275,
      "grad_norm": 0.10770094394683838,
      "learning_rate": 0.0006713538566638326,
      "loss": 0.6709,
      "num_input_tokens_seen": 11222000,
      "step": 17165
    },
    {
      "epoch": 8.99895178197065,
      "grad_norm": 0.1756763756275177,
      "learning_rate": 0.0006711390017801049,
      "loss": 0.4813,
      "num_input_tokens_seen": 11224816,
      "step": 17170
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.4771013855934143,
      "eval_runtime": 13.6848,
      "eval_samples_per_second": 61.967,
      "eval_steps_per_second": 15.492,
      "num_input_tokens_seen": 11225416,
      "step": 17172
    },
    {
      "epoch": 9.001572327044025,
      "grad_norm": 0.14227880537509918,
      "learning_rate": 0.0006709241110960502,
      "loss": 0.5788,
      "num_input_tokens_seen": 11227112,
      "step": 17175
    },
    {
      "epoch": 9.0041928721174,
      "grad_norm": 0.10956287384033203,
      "learning_rate": 0.0006707091846566216,
      "loss": 0.4042,
      "num_input_tokens_seen": 11229544,
      "step": 17180
    },
    {
      "epoch": 9.006813417190775,
      "grad_norm": 0.09220755100250244,
      "learning_rate": 0.0006704942225067791,
      "loss": 0.4815,
      "num_input_tokens_seen": 11233640,
      "step": 17185
    },
    {
      "epoch": 9.00943396226415,
      "grad_norm": 0.14008063077926636,
      "learning_rate": 0.0006702792246914902,
      "loss": 0.3751,
      "num_input_tokens_seen": 11236552,
      "step": 17190
    },
    {
      "epoch": 9.012054507337526,
      "grad_norm": 0.14146144688129425,
      "learning_rate": 0.0006700641912557304,
      "loss": 0.4148,
      "num_input_tokens_seen": 11240008,
      "step": 17195
    },
    {
      "epoch": 9.014675052410901,
      "grad_norm": 0.11597496271133423,
      "learning_rate": 0.0006698491222444818,
      "loss": 0.4365,
      "num_input_tokens_seen": 11243176,
      "step": 17200
    },
    {
      "epoch": 9.017295597484276,
      "grad_norm": 0.11374436318874359,
      "learning_rate": 0.0006696340177027346,
      "loss": 0.4278,
      "num_input_tokens_seen": 11246568,
      "step": 17205
    },
    {
      "epoch": 9.019916142557651,
      "grad_norm": 0.06019924208521843,
      "learning_rate": 0.0006694188776754863,
      "loss": 0.418,
      "num_input_tokens_seen": 11251080,
      "step": 17210
    },
    {
      "epoch": 9.022536687631026,
      "grad_norm": 0.1688077300786972,
      "learning_rate": 0.0006692037022077415,
      "loss": 0.6104,
      "num_input_tokens_seen": 11253256,
      "step": 17215
    },
    {
      "epoch": 9.025157232704403,
      "grad_norm": 0.07513809204101562,
      "learning_rate": 0.0006689884913445126,
      "loss": 0.4437,
      "num_input_tokens_seen": 11256936,
      "step": 17220
    },
    {
      "epoch": 9.027777777777779,
      "grad_norm": 0.08781451731920242,
      "learning_rate": 0.0006687732451308193,
      "loss": 0.4612,
      "num_input_tokens_seen": 11259784,
      "step": 17225
    },
    {
      "epoch": 9.030398322851154,
      "grad_norm": 0.09374050050973892,
      "learning_rate": 0.0006685579636116886,
      "loss": 0.4245,
      "num_input_tokens_seen": 11262728,
      "step": 17230
    },
    {
      "epoch": 9.033018867924529,
      "grad_norm": 0.10193618386983871,
      "learning_rate": 0.0006683426468321547,
      "loss": 0.4245,
      "num_input_tokens_seen": 11265640,
      "step": 17235
    },
    {
      "epoch": 9.035639412997904,
      "grad_norm": 0.07315962761640549,
      "learning_rate": 0.0006681272948372598,
      "loss": 0.3939,
      "num_input_tokens_seen": 11270344,
      "step": 17240
    },
    {
      "epoch": 9.03825995807128,
      "grad_norm": 0.4148363173007965,
      "learning_rate": 0.000667911907672053,
      "loss": 0.5643,
      "num_input_tokens_seen": 11272584,
      "step": 17245
    },
    {
      "epoch": 9.040880503144654,
      "grad_norm": 0.15675941109657288,
      "learning_rate": 0.0006676964853815906,
      "loss": 0.4891,
      "num_input_tokens_seen": 11276872,
      "step": 17250
    },
    {
      "epoch": 9.04350104821803,
      "grad_norm": 0.0954805389046669,
      "learning_rate": 0.0006674810280109367,
      "loss": 0.4397,
      "num_input_tokens_seen": 11279688,
      "step": 17255
    },
    {
      "epoch": 9.046121593291405,
      "grad_norm": 0.097059465944767,
      "learning_rate": 0.0006672655356051625,
      "loss": 0.4009,
      "num_input_tokens_seen": 11282888,
      "step": 17260
    },
    {
      "epoch": 9.04874213836478,
      "grad_norm": 0.11538057774305344,
      "learning_rate": 0.0006670500082093465,
      "loss": 0.543,
      "num_input_tokens_seen": 11285928,
      "step": 17265
    },
    {
      "epoch": 9.051362683438155,
      "grad_norm": 0.1405768096446991,
      "learning_rate": 0.0006668344458685745,
      "loss": 0.4127,
      "num_input_tokens_seen": 11289288,
      "step": 17270
    },
    {
      "epoch": 9.05398322851153,
      "grad_norm": 0.08532179147005081,
      "learning_rate": 0.00066661884862794,
      "loss": 0.5457,
      "num_input_tokens_seen": 11295976,
      "step": 17275
    },
    {
      "epoch": 9.056603773584905,
      "grad_norm": 0.09547598659992218,
      "learning_rate": 0.000666403216532543,
      "loss": 0.4642,
      "num_input_tokens_seen": 11299816,
      "step": 17280
    },
    {
      "epoch": 9.05922431865828,
      "grad_norm": 0.08767342567443848,
      "learning_rate": 0.0006661875496274916,
      "loss": 0.5322,
      "num_input_tokens_seen": 11303176,
      "step": 17285
    },
    {
      "epoch": 9.061844863731656,
      "grad_norm": 0.13327033817768097,
      "learning_rate": 0.0006659718479579008,
      "loss": 0.3514,
      "num_input_tokens_seen": 11306376,
      "step": 17290
    },
    {
      "epoch": 9.064465408805031,
      "grad_norm": 0.1027042344212532,
      "learning_rate": 0.0006657561115688929,
      "loss": 0.3321,
      "num_input_tokens_seen": 11310696,
      "step": 17295
    },
    {
      "epoch": 9.067085953878406,
      "grad_norm": 0.14232076704502106,
      "learning_rate": 0.0006655403405055977,
      "loss": 0.3887,
      "num_input_tokens_seen": 11314888,
      "step": 17300
    },
    {
      "epoch": 9.069706498951781,
      "grad_norm": 0.15421268343925476,
      "learning_rate": 0.0006653245348131517,
      "loss": 0.4957,
      "num_input_tokens_seen": 11317576,
      "step": 17305
    },
    {
      "epoch": 9.072327044025156,
      "grad_norm": 0.13086119294166565,
      "learning_rate": 0.0006651086945366991,
      "loss": 0.4645,
      "num_input_tokens_seen": 11320840,
      "step": 17310
    },
    {
      "epoch": 9.074947589098532,
      "grad_norm": 0.10509280115365982,
      "learning_rate": 0.0006648928197213914,
      "loss": 0.2937,
      "num_input_tokens_seen": 11324040,
      "step": 17315
    },
    {
      "epoch": 9.077568134171909,
      "grad_norm": 0.17335760593414307,
      "learning_rate": 0.0006646769104123868,
      "loss": 0.5224,
      "num_input_tokens_seen": 11327784,
      "step": 17320
    },
    {
      "epoch": 9.080188679245284,
      "grad_norm": 0.07876310497522354,
      "learning_rate": 0.0006644609666548513,
      "loss": 0.4029,
      "num_input_tokens_seen": 11331304,
      "step": 17325
    },
    {
      "epoch": 9.082809224318659,
      "grad_norm": 0.09916389733552933,
      "learning_rate": 0.000664244988493958,
      "loss": 0.5448,
      "num_input_tokens_seen": 11334312,
      "step": 17330
    },
    {
      "epoch": 9.085429769392034,
      "grad_norm": 0.06608074903488159,
      "learning_rate": 0.0006640289759748867,
      "loss": 0.4826,
      "num_input_tokens_seen": 11339144,
      "step": 17335
    },
    {
      "epoch": 9.08805031446541,
      "grad_norm": 0.11957615613937378,
      "learning_rate": 0.0006638129291428252,
      "loss": 0.3224,
      "num_input_tokens_seen": 11342664,
      "step": 17340
    },
    {
      "epoch": 9.090670859538784,
      "grad_norm": 0.12781177461147308,
      "learning_rate": 0.0006635968480429677,
      "loss": 0.3899,
      "num_input_tokens_seen": 11345768,
      "step": 17345
    },
    {
      "epoch": 9.09329140461216,
      "grad_norm": 0.09360740333795547,
      "learning_rate": 0.0006633807327205162,
      "loss": 0.5843,
      "num_input_tokens_seen": 11349448,
      "step": 17350
    },
    {
      "epoch": 9.095911949685535,
      "grad_norm": 0.1190343052148819,
      "learning_rate": 0.0006631645832206789,
      "loss": 0.384,
      "num_input_tokens_seen": 11352744,
      "step": 17355
    },
    {
      "epoch": 9.09853249475891,
      "grad_norm": 0.3548249900341034,
      "learning_rate": 0.0006629483995886727,
      "loss": 0.4619,
      "num_input_tokens_seen": 11354920,
      "step": 17360
    },
    {
      "epoch": 9.101153039832285,
      "grad_norm": 0.12244933843612671,
      "learning_rate": 0.0006627321818697202,
      "loss": 0.3798,
      "num_input_tokens_seen": 11359240,
      "step": 17365
    },
    {
      "epoch": 9.10377358490566,
      "grad_norm": 0.10368146747350693,
      "learning_rate": 0.0006625159301090518,
      "loss": 0.5083,
      "num_input_tokens_seen": 11362056,
      "step": 17370
    },
    {
      "epoch": 9.106394129979035,
      "grad_norm": 0.1383463442325592,
      "learning_rate": 0.0006622996443519047,
      "loss": 0.342,
      "num_input_tokens_seen": 11364648,
      "step": 17375
    },
    {
      "epoch": 9.10901467505241,
      "grad_norm": 0.10890854150056839,
      "learning_rate": 0.0006620833246435238,
      "loss": 0.4009,
      "num_input_tokens_seen": 11368168,
      "step": 17380
    },
    {
      "epoch": 9.111635220125786,
      "grad_norm": 0.1313929557800293,
      "learning_rate": 0.0006618669710291606,
      "loss": 0.4466,
      "num_input_tokens_seen": 11370856,
      "step": 17385
    },
    {
      "epoch": 9.114255765199161,
      "grad_norm": 0.12786588072776794,
      "learning_rate": 0.0006616505835540736,
      "loss": 0.4332,
      "num_input_tokens_seen": 11373768,
      "step": 17390
    },
    {
      "epoch": 9.116876310272536,
      "grad_norm": 0.09822624921798706,
      "learning_rate": 0.0006614341622635287,
      "loss": 0.4947,
      "num_input_tokens_seen": 11377192,
      "step": 17395
    },
    {
      "epoch": 9.119496855345911,
      "grad_norm": 0.12287261337041855,
      "learning_rate": 0.0006612177072027989,
      "loss": 0.4114,
      "num_input_tokens_seen": 11379912,
      "step": 17400
    },
    {
      "epoch": 9.122117400419286,
      "grad_norm": 0.09739354252815247,
      "learning_rate": 0.0006610012184171641,
      "loss": 0.4563,
      "num_input_tokens_seen": 11383496,
      "step": 17405
    },
    {
      "epoch": 9.124737945492662,
      "grad_norm": 0.16899926960468292,
      "learning_rate": 0.0006607846959519109,
      "loss": 0.5866,
      "num_input_tokens_seen": 11386504,
      "step": 17410
    },
    {
      "epoch": 9.127358490566039,
      "grad_norm": 0.43233343958854675,
      "learning_rate": 0.0006605681398523339,
      "loss": 0.3626,
      "num_input_tokens_seen": 11388776,
      "step": 17415
    },
    {
      "epoch": 9.129979035639414,
      "grad_norm": 0.11477284133434296,
      "learning_rate": 0.0006603515501637338,
      "loss": 0.572,
      "num_input_tokens_seen": 11391976,
      "step": 17420
    },
    {
      "epoch": 9.132599580712789,
      "grad_norm": 0.0978914275765419,
      "learning_rate": 0.0006601349269314187,
      "loss": 0.4238,
      "num_input_tokens_seen": 11394856,
      "step": 17425
    },
    {
      "epoch": 9.135220125786164,
      "grad_norm": 0.16951464116573334,
      "learning_rate": 0.0006599182702007042,
      "loss": 0.4869,
      "num_input_tokens_seen": 11397896,
      "step": 17430
    },
    {
      "epoch": 9.13784067085954,
      "grad_norm": 0.15714827179908752,
      "learning_rate": 0.0006597015800169116,
      "loss": 0.5284,
      "num_input_tokens_seen": 11401096,
      "step": 17435
    },
    {
      "epoch": 9.140461215932914,
      "grad_norm": 0.18472948670387268,
      "learning_rate": 0.0006594848564253705,
      "loss": 0.4128,
      "num_input_tokens_seen": 11404616,
      "step": 17440
    },
    {
      "epoch": 9.14308176100629,
      "grad_norm": 0.0935584157705307,
      "learning_rate": 0.0006592680994714171,
      "loss": 0.4262,
      "num_input_tokens_seen": 11407848,
      "step": 17445
    },
    {
      "epoch": 9.145702306079665,
      "grad_norm": 0.13456954061985016,
      "learning_rate": 0.0006590513092003943,
      "loss": 0.4209,
      "num_input_tokens_seen": 11410760,
      "step": 17450
    },
    {
      "epoch": 9.14832285115304,
      "grad_norm": 0.138517826795578,
      "learning_rate": 0.0006588344856576521,
      "loss": 0.4906,
      "num_input_tokens_seen": 11413864,
      "step": 17455
    },
    {
      "epoch": 9.150943396226415,
      "grad_norm": 0.1032198816537857,
      "learning_rate": 0.0006586176288885475,
      "loss": 0.3911,
      "num_input_tokens_seen": 11416808,
      "step": 17460
    },
    {
      "epoch": 9.15356394129979,
      "grad_norm": 0.12480530142784119,
      "learning_rate": 0.0006584007389384446,
      "loss": 0.5206,
      "num_input_tokens_seen": 11419944,
      "step": 17465
    },
    {
      "epoch": 9.156184486373165,
      "grad_norm": 0.14118197560310364,
      "learning_rate": 0.0006581838158527144,
      "loss": 0.4077,
      "num_input_tokens_seen": 11422728,
      "step": 17470
    },
    {
      "epoch": 9.15880503144654,
      "grad_norm": 0.11784952133893967,
      "learning_rate": 0.0006579668596767343,
      "loss": 0.4954,
      "num_input_tokens_seen": 11430984,
      "step": 17475
    },
    {
      "epoch": 9.161425576519916,
      "grad_norm": 0.16609354317188263,
      "learning_rate": 0.0006577498704558894,
      "loss": 0.4305,
      "num_input_tokens_seen": 11433672,
      "step": 17480
    },
    {
      "epoch": 9.164046121593291,
      "grad_norm": 0.1536012887954712,
      "learning_rate": 0.0006575328482355715,
      "loss": 0.4592,
      "num_input_tokens_seen": 11436168,
      "step": 17485
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.05770903080701828,
      "learning_rate": 0.0006573157930611788,
      "loss": 0.3244,
      "num_input_tokens_seen": 11439528,
      "step": 17490
    },
    {
      "epoch": 9.169287211740041,
      "grad_norm": 0.14726518094539642,
      "learning_rate": 0.000657098704978117,
      "loss": 0.4805,
      "num_input_tokens_seen": 11442312,
      "step": 17495
    },
    {
      "epoch": 9.171907756813416,
      "grad_norm": 0.1680908054113388,
      "learning_rate": 0.0006568815840317984,
      "loss": 0.3962,
      "num_input_tokens_seen": 11445416,
      "step": 17500
    },
    {
      "epoch": 9.174528301886792,
      "grad_norm": 0.13989391922950745,
      "learning_rate": 0.0006566644302676422,
      "loss": 0.5987,
      "num_input_tokens_seen": 11448712,
      "step": 17505
    },
    {
      "epoch": 9.177148846960169,
      "grad_norm": 0.1254730522632599,
      "learning_rate": 0.0006564472437310746,
      "loss": 0.4842,
      "num_input_tokens_seen": 11452104,
      "step": 17510
    },
    {
      "epoch": 9.179769392033544,
      "grad_norm": 0.09629812091588974,
      "learning_rate": 0.0006562300244675283,
      "loss": 0.3351,
      "num_input_tokens_seen": 11456136,
      "step": 17515
    },
    {
      "epoch": 9.182389937106919,
      "grad_norm": 0.09794220328330994,
      "learning_rate": 0.0006560127725224432,
      "loss": 0.3779,
      "num_input_tokens_seen": 11459272,
      "step": 17520
    },
    {
      "epoch": 9.185010482180294,
      "grad_norm": 0.08001342415809631,
      "learning_rate": 0.0006557954879412662,
      "loss": 0.425,
      "num_input_tokens_seen": 11463208,
      "step": 17525
    },
    {
      "epoch": 9.18763102725367,
      "grad_norm": 0.14152948558330536,
      "learning_rate": 0.0006555781707694506,
      "loss": 0.4144,
      "num_input_tokens_seen": 11466472,
      "step": 17530
    },
    {
      "epoch": 9.190251572327044,
      "grad_norm": 0.17398735880851746,
      "learning_rate": 0.0006553608210524564,
      "loss": 0.5312,
      "num_input_tokens_seen": 11469192,
      "step": 17535
    },
    {
      "epoch": 9.19287211740042,
      "grad_norm": 0.11005575209856033,
      "learning_rate": 0.0006551434388357509,
      "loss": 0.4049,
      "num_input_tokens_seen": 11472232,
      "step": 17540
    },
    {
      "epoch": 9.195492662473795,
      "grad_norm": 0.07303833216428757,
      "learning_rate": 0.000654926024164808,
      "loss": 0.4779,
      "num_input_tokens_seen": 11476040,
      "step": 17545
    },
    {
      "epoch": 9.19811320754717,
      "grad_norm": 0.13231608271598816,
      "learning_rate": 0.0006547085770851084,
      "loss": 0.4109,
      "num_input_tokens_seen": 11478728,
      "step": 17550
    },
    {
      "epoch": 9.200733752620545,
      "grad_norm": 0.1264968067407608,
      "learning_rate": 0.0006544910976421395,
      "loss": 0.521,
      "num_input_tokens_seen": 11481448,
      "step": 17555
    },
    {
      "epoch": 9.20335429769392,
      "grad_norm": 0.09321920573711395,
      "learning_rate": 0.0006542735858813953,
      "loss": 0.4532,
      "num_input_tokens_seen": 11484424,
      "step": 17560
    },
    {
      "epoch": 9.205974842767295,
      "grad_norm": 0.11423920840024948,
      "learning_rate": 0.0006540560418483771,
      "loss": 0.437,
      "num_input_tokens_seen": 11487560,
      "step": 17565
    },
    {
      "epoch": 9.20859538784067,
      "grad_norm": 0.18565620481967926,
      "learning_rate": 0.0006538384655885925,
      "loss": 0.4491,
      "num_input_tokens_seen": 11490632,
      "step": 17570
    },
    {
      "epoch": 9.211215932914046,
      "grad_norm": 0.1712266504764557,
      "learning_rate": 0.000653620857147556,
      "loss": 0.4231,
      "num_input_tokens_seen": 11493032,
      "step": 17575
    },
    {
      "epoch": 9.213836477987421,
      "grad_norm": 0.11210068315267563,
      "learning_rate": 0.0006534032165707887,
      "loss": 0.3852,
      "num_input_tokens_seen": 11496200,
      "step": 17580
    },
    {
      "epoch": 9.216457023060796,
      "grad_norm": 0.140158012509346,
      "learning_rate": 0.0006531855439038187,
      "loss": 0.4612,
      "num_input_tokens_seen": 11498696,
      "step": 17585
    },
    {
      "epoch": 9.219077568134171,
      "grad_norm": 0.10926975309848785,
      "learning_rate": 0.0006529678391921805,
      "loss": 0.3961,
      "num_input_tokens_seen": 11502312,
      "step": 17590
    },
    {
      "epoch": 9.221698113207546,
      "grad_norm": 0.09724919497966766,
      "learning_rate": 0.0006527501024814155,
      "loss": 0.433,
      "num_input_tokens_seen": 11505160,
      "step": 17595
    },
    {
      "epoch": 9.224318658280922,
      "grad_norm": 0.08422398567199707,
      "learning_rate": 0.0006525323338170718,
      "loss": 0.3593,
      "num_input_tokens_seen": 11508456,
      "step": 17600
    },
    {
      "epoch": 9.226939203354299,
      "grad_norm": 0.11991164088249207,
      "learning_rate": 0.000652314533244704,
      "loss": 0.515,
      "num_input_tokens_seen": 11511816,
      "step": 17605
    },
    {
      "epoch": 9.229559748427674,
      "grad_norm": 0.11039245128631592,
      "learning_rate": 0.0006520967008098735,
      "loss": 0.4954,
      "num_input_tokens_seen": 11514088,
      "step": 17610
    },
    {
      "epoch": 9.232180293501049,
      "grad_norm": 0.09597177058458328,
      "learning_rate": 0.0006518788365581485,
      "loss": 0.3516,
      "num_input_tokens_seen": 11517096,
      "step": 17615
    },
    {
      "epoch": 9.234800838574424,
      "grad_norm": 0.11422000825405121,
      "learning_rate": 0.0006516609405351034,
      "loss": 0.3938,
      "num_input_tokens_seen": 11520168,
      "step": 17620
    },
    {
      "epoch": 9.2374213836478,
      "grad_norm": 0.11683446913957596,
      "learning_rate": 0.00065144301278632,
      "loss": 0.552,
      "num_input_tokens_seen": 11523944,
      "step": 17625
    },
    {
      "epoch": 9.240041928721174,
      "grad_norm": 0.05836237967014313,
      "learning_rate": 0.0006512250533573862,
      "loss": 0.5865,
      "num_input_tokens_seen": 11527720,
      "step": 17630
    },
    {
      "epoch": 9.24266247379455,
      "grad_norm": 0.08357113599777222,
      "learning_rate": 0.0006510070622938962,
      "loss": 0.5069,
      "num_input_tokens_seen": 11531304,
      "step": 17635
    },
    {
      "epoch": 9.245283018867925,
      "grad_norm": 0.09294572472572327,
      "learning_rate": 0.0006507890396414516,
      "loss": 0.4031,
      "num_input_tokens_seen": 11535176,
      "step": 17640
    },
    {
      "epoch": 9.2479035639413,
      "grad_norm": 0.09780790656805038,
      "learning_rate": 0.0006505709854456602,
      "loss": 0.495,
      "num_input_tokens_seen": 11539016,
      "step": 17645
    },
    {
      "epoch": 9.250524109014675,
      "grad_norm": 0.08971788734197617,
      "learning_rate": 0.0006503528997521365,
      "loss": 0.3712,
      "num_input_tokens_seen": 11543752,
      "step": 17650
    },
    {
      "epoch": 9.25314465408805,
      "grad_norm": 0.12291628122329712,
      "learning_rate": 0.0006501347826065017,
      "loss": 0.4586,
      "num_input_tokens_seen": 11546664,
      "step": 17655
    },
    {
      "epoch": 9.255765199161425,
      "grad_norm": 0.18707561492919922,
      "learning_rate": 0.000649916634054383,
      "loss": 0.4614,
      "num_input_tokens_seen": 11549032,
      "step": 17660
    },
    {
      "epoch": 9.2583857442348,
      "grad_norm": 0.10674767196178436,
      "learning_rate": 0.0006496984541414147,
      "loss": 0.551,
      "num_input_tokens_seen": 11552328,
      "step": 17665
    },
    {
      "epoch": 9.261006289308176,
      "grad_norm": 0.09709037095308304,
      "learning_rate": 0.0006494802429132378,
      "loss": 0.5752,
      "num_input_tokens_seen": 11555464,
      "step": 17670
    },
    {
      "epoch": 9.26362683438155,
      "grad_norm": 0.12866060435771942,
      "learning_rate": 0.0006492620004154993,
      "loss": 0.4575,
      "num_input_tokens_seen": 11558088,
      "step": 17675
    },
    {
      "epoch": 9.266247379454926,
      "grad_norm": 0.10493738949298859,
      "learning_rate": 0.0006490437266938534,
      "loss": 0.4893,
      "num_input_tokens_seen": 11560872,
      "step": 17680
    },
    {
      "epoch": 9.268867924528301,
      "grad_norm": 0.11329315602779388,
      "learning_rate": 0.0006488254217939601,
      "loss": 0.3849,
      "num_input_tokens_seen": 11564264,
      "step": 17685
    },
    {
      "epoch": 9.271488469601676,
      "grad_norm": 0.09571637213230133,
      "learning_rate": 0.0006486070857614863,
      "loss": 0.4264,
      "num_input_tokens_seen": 11567656,
      "step": 17690
    },
    {
      "epoch": 9.274109014675052,
      "grad_norm": 0.12225890904664993,
      "learning_rate": 0.0006483887186421059,
      "loss": 0.5005,
      "num_input_tokens_seen": 11571176,
      "step": 17695
    },
    {
      "epoch": 9.276729559748428,
      "grad_norm": 0.09629057347774506,
      "learning_rate": 0.0006481703204814982,
      "loss": 0.529,
      "num_input_tokens_seen": 11574216,
      "step": 17700
    },
    {
      "epoch": 9.279350104821804,
      "grad_norm": 0.11469560861587524,
      "learning_rate": 0.00064795189132535,
      "loss": 0.361,
      "num_input_tokens_seen": 11577608,
      "step": 17705
    },
    {
      "epoch": 9.281970649895179,
      "grad_norm": 0.08327808231115341,
      "learning_rate": 0.000647733431219354,
      "loss": 0.4711,
      "num_input_tokens_seen": 11581000,
      "step": 17710
    },
    {
      "epoch": 9.284591194968554,
      "grad_norm": 0.11936628818511963,
      "learning_rate": 0.0006475149402092097,
      "loss": 0.4726,
      "num_input_tokens_seen": 11584840,
      "step": 17715
    },
    {
      "epoch": 9.28721174004193,
      "grad_norm": 0.11777584254741669,
      "learning_rate": 0.0006472964183406229,
      "loss": 0.4629,
      "num_input_tokens_seen": 11587912,
      "step": 17720
    },
    {
      "epoch": 9.289832285115304,
      "grad_norm": 0.15261982381343842,
      "learning_rate": 0.0006470778656593055,
      "loss": 0.4711,
      "num_input_tokens_seen": 11591752,
      "step": 17725
    },
    {
      "epoch": 9.29245283018868,
      "grad_norm": 0.1769772171974182,
      "learning_rate": 0.0006468592822109769,
      "loss": 0.5144,
      "num_input_tokens_seen": 11594248,
      "step": 17730
    },
    {
      "epoch": 9.295073375262055,
      "grad_norm": 0.1332647055387497,
      "learning_rate": 0.0006466406680413619,
      "loss": 0.4436,
      "num_input_tokens_seen": 11597448,
      "step": 17735
    },
    {
      "epoch": 9.29769392033543,
      "grad_norm": 0.11987088620662689,
      "learning_rate": 0.000646422023196192,
      "loss": 0.6166,
      "num_input_tokens_seen": 11600360,
      "step": 17740
    },
    {
      "epoch": 9.300314465408805,
      "grad_norm": 0.19176296889781952,
      "learning_rate": 0.0006462033477212054,
      "loss": 0.5138,
      "num_input_tokens_seen": 11603528,
      "step": 17745
    },
    {
      "epoch": 9.30293501048218,
      "grad_norm": 0.13069576025009155,
      "learning_rate": 0.0006459846416621462,
      "loss": 0.4801,
      "num_input_tokens_seen": 11606600,
      "step": 17750
    },
    {
      "epoch": 9.305555555555555,
      "grad_norm": 0.08917295932769775,
      "learning_rate": 0.0006457659050647657,
      "loss": 0.4041,
      "num_input_tokens_seen": 11609064,
      "step": 17755
    },
    {
      "epoch": 9.30817610062893,
      "grad_norm": 0.08763982355594635,
      "learning_rate": 0.0006455471379748208,
      "loss": 0.4088,
      "num_input_tokens_seen": 11612328,
      "step": 17760
    },
    {
      "epoch": 9.310796645702306,
      "grad_norm": 0.09844016283750534,
      "learning_rate": 0.000645328340438075,
      "loss": 0.4873,
      "num_input_tokens_seen": 11615912,
      "step": 17765
    },
    {
      "epoch": 9.31341719077568,
      "grad_norm": 0.10023217648267746,
      "learning_rate": 0.0006451095125002985,
      "loss": 0.4907,
      "num_input_tokens_seen": 11618888,
      "step": 17770
    },
    {
      "epoch": 9.316037735849056,
      "grad_norm": 0.14095646142959595,
      "learning_rate": 0.0006448906542072674,
      "loss": 0.6841,
      "num_input_tokens_seen": 11621544,
      "step": 17775
    },
    {
      "epoch": 9.318658280922431,
      "grad_norm": 0.12849459052085876,
      "learning_rate": 0.0006446717656047645,
      "loss": 0.3885,
      "num_input_tokens_seen": 11624040,
      "step": 17780
    },
    {
      "epoch": 9.321278825995806,
      "grad_norm": 0.15631896257400513,
      "learning_rate": 0.0006444528467385789,
      "loss": 0.4728,
      "num_input_tokens_seen": 11626728,
      "step": 17785
    },
    {
      "epoch": 9.323899371069182,
      "grad_norm": 0.186278834939003,
      "learning_rate": 0.0006442338976545054,
      "loss": 0.3334,
      "num_input_tokens_seen": 11629832,
      "step": 17790
    },
    {
      "epoch": 9.326519916142558,
      "grad_norm": 0.12243286520242691,
      "learning_rate": 0.0006440149183983461,
      "loss": 0.3573,
      "num_input_tokens_seen": 11633320,
      "step": 17795
    },
    {
      "epoch": 9.329140461215934,
      "grad_norm": 0.13403351604938507,
      "learning_rate": 0.0006437959090159093,
      "loss": 0.4195,
      "num_input_tokens_seen": 11636104,
      "step": 17800
    },
    {
      "epoch": 9.331761006289309,
      "grad_norm": 0.08715302497148514,
      "learning_rate": 0.0006435768695530085,
      "loss": 0.4104,
      "num_input_tokens_seen": 11639752,
      "step": 17805
    },
    {
      "epoch": 9.334381551362684,
      "grad_norm": 0.15610887110233307,
      "learning_rate": 0.0006433578000554645,
      "loss": 0.4085,
      "num_input_tokens_seen": 11642664,
      "step": 17810
    },
    {
      "epoch": 9.33700209643606,
      "grad_norm": 0.10419534146785736,
      "learning_rate": 0.0006431387005691045,
      "loss": 0.4933,
      "num_input_tokens_seen": 11646024,
      "step": 17815
    },
    {
      "epoch": 9.339622641509434,
      "grad_norm": 0.09408817440271378,
      "learning_rate": 0.0006429195711397611,
      "loss": 0.4232,
      "num_input_tokens_seen": 11649192,
      "step": 17820
    },
    {
      "epoch": 9.34224318658281,
      "grad_norm": 0.08043096959590912,
      "learning_rate": 0.0006427004118132742,
      "loss": 0.537,
      "num_input_tokens_seen": 11653192,
      "step": 17825
    },
    {
      "epoch": 9.344863731656185,
      "grad_norm": 0.19638215005397797,
      "learning_rate": 0.0006424812226354889,
      "loss": 0.4423,
      "num_input_tokens_seen": 11657224,
      "step": 17830
    },
    {
      "epoch": 9.34748427672956,
      "grad_norm": 0.11119966953992844,
      "learning_rate": 0.0006422620036522574,
      "loss": 0.5753,
      "num_input_tokens_seen": 11660328,
      "step": 17835
    },
    {
      "epoch": 9.350104821802935,
      "grad_norm": 0.10805497318506241,
      "learning_rate": 0.000642042754909438,
      "loss": 0.4833,
      "num_input_tokens_seen": 11663400,
      "step": 17840
    },
    {
      "epoch": 9.35272536687631,
      "grad_norm": 0.15237538516521454,
      "learning_rate": 0.0006418234764528945,
      "loss": 0.4697,
      "num_input_tokens_seen": 11665992,
      "step": 17845
    },
    {
      "epoch": 9.355345911949685,
      "grad_norm": 0.17098380625247955,
      "learning_rate": 0.0006416041683284978,
      "loss": 0.3942,
      "num_input_tokens_seen": 11669000,
      "step": 17850
    },
    {
      "epoch": 9.35796645702306,
      "grad_norm": 0.12616810202598572,
      "learning_rate": 0.0006413848305821246,
      "loss": 0.4444,
      "num_input_tokens_seen": 11671976,
      "step": 17855
    },
    {
      "epoch": 9.360587002096436,
      "grad_norm": 0.08515214920043945,
      "learning_rate": 0.0006411654632596578,
      "loss": 0.3855,
      "num_input_tokens_seen": 11674984,
      "step": 17860
    },
    {
      "epoch": 9.36320754716981,
      "grad_norm": 0.12348882108926773,
      "learning_rate": 0.0006409460664069867,
      "loss": 0.4228,
      "num_input_tokens_seen": 11677864,
      "step": 17865
    },
    {
      "epoch": 9.365828092243186,
      "grad_norm": 0.05746029317378998,
      "learning_rate": 0.0006407266400700064,
      "loss": 0.4037,
      "num_input_tokens_seen": 11681128,
      "step": 17870
    },
    {
      "epoch": 9.368448637316561,
      "grad_norm": 0.16283953189849854,
      "learning_rate": 0.0006405071842946185,
      "loss": 0.448,
      "num_input_tokens_seen": 11683880,
      "step": 17875
    },
    {
      "epoch": 9.371069182389936,
      "grad_norm": 0.18463192880153656,
      "learning_rate": 0.0006402876991267308,
      "loss": 0.4571,
      "num_input_tokens_seen": 11687496,
      "step": 17880
    },
    {
      "epoch": 9.373689727463312,
      "grad_norm": 0.15534210205078125,
      "learning_rate": 0.0006400681846122568,
      "loss": 0.4594,
      "num_input_tokens_seen": 11690696,
      "step": 17885
    },
    {
      "epoch": 9.376310272536688,
      "grad_norm": 0.09802783280611038,
      "learning_rate": 0.0006398486407971166,
      "loss": 0.4191,
      "num_input_tokens_seen": 11693544,
      "step": 17890
    },
    {
      "epoch": 9.378930817610064,
      "grad_norm": 0.17945750057697296,
      "learning_rate": 0.0006396290677272361,
      "loss": 0.5189,
      "num_input_tokens_seen": 11696840,
      "step": 17895
    },
    {
      "epoch": 9.381551362683439,
      "grad_norm": 0.09225361794233322,
      "learning_rate": 0.0006394094654485477,
      "loss": 0.472,
      "num_input_tokens_seen": 11700264,
      "step": 17900
    },
    {
      "epoch": 9.384171907756814,
      "grad_norm": 0.1508653163909912,
      "learning_rate": 0.0006391898340069896,
      "loss": 0.3196,
      "num_input_tokens_seen": 11703496,
      "step": 17905
    },
    {
      "epoch": 9.38679245283019,
      "grad_norm": 0.16238562762737274,
      "learning_rate": 0.0006389701734485061,
      "loss": 0.5598,
      "num_input_tokens_seen": 11706664,
      "step": 17910
    },
    {
      "epoch": 9.389412997903564,
      "grad_norm": 0.1656741499900818,
      "learning_rate": 0.0006387504838190479,
      "loss": 0.4791,
      "num_input_tokens_seen": 11709480,
      "step": 17915
    },
    {
      "epoch": 9.39203354297694,
      "grad_norm": 0.09325830638408661,
      "learning_rate": 0.0006385307651645715,
      "loss": 0.3734,
      "num_input_tokens_seen": 11712712,
      "step": 17920
    },
    {
      "epoch": 9.394654088050315,
      "grad_norm": 0.1364547610282898,
      "learning_rate": 0.0006383110175310393,
      "loss": 0.5415,
      "num_input_tokens_seen": 11715464,
      "step": 17925
    },
    {
      "epoch": 9.39727463312369,
      "grad_norm": 0.10324880480766296,
      "learning_rate": 0.0006380912409644202,
      "loss": 0.5056,
      "num_input_tokens_seen": 11718120,
      "step": 17930
    },
    {
      "epoch": 9.399895178197065,
      "grad_norm": 0.10458019375801086,
      "learning_rate": 0.000637871435510689,
      "loss": 0.4914,
      "num_input_tokens_seen": 11721512,
      "step": 17935
    },
    {
      "epoch": 9.40251572327044,
      "grad_norm": 0.11837224662303925,
      "learning_rate": 0.0006376516012158262,
      "loss": 0.2954,
      "num_input_tokens_seen": 11724008,
      "step": 17940
    },
    {
      "epoch": 9.405136268343815,
      "grad_norm": 0.09823258221149445,
      "learning_rate": 0.000637431738125819,
      "loss": 0.4357,
      "num_input_tokens_seen": 11726696,
      "step": 17945
    },
    {
      "epoch": 9.40775681341719,
      "grad_norm": 0.05685073509812355,
      "learning_rate": 0.00063721184628666,
      "loss": 0.3623,
      "num_input_tokens_seen": 11730408,
      "step": 17950
    },
    {
      "epoch": 9.410377358490566,
      "grad_norm": 0.1365811973810196,
      "learning_rate": 0.0006369919257443484,
      "loss": 0.535,
      "num_input_tokens_seen": 11733320,
      "step": 17955
    },
    {
      "epoch": 9.41299790356394,
      "grad_norm": 0.13181959092617035,
      "learning_rate": 0.0006367719765448886,
      "loss": 0.4327,
      "num_input_tokens_seen": 11738472,
      "step": 17960
    },
    {
      "epoch": 9.415618448637316,
      "grad_norm": 0.11410430073738098,
      "learning_rate": 0.0006365519987342916,
      "loss": 0.5066,
      "num_input_tokens_seen": 11741032,
      "step": 17965
    },
    {
      "epoch": 9.418238993710691,
      "grad_norm": 0.21636825799942017,
      "learning_rate": 0.0006363319923585746,
      "loss": 0.4495,
      "num_input_tokens_seen": 11744328,
      "step": 17970
    },
    {
      "epoch": 9.420859538784066,
      "grad_norm": 0.1659470647573471,
      "learning_rate": 0.0006361119574637599,
      "loss": 0.3676,
      "num_input_tokens_seen": 11747976,
      "step": 17975
    },
    {
      "epoch": 9.423480083857442,
      "grad_norm": 0.0988200381398201,
      "learning_rate": 0.0006358918940958767,
      "loss": 0.5691,
      "num_input_tokens_seen": 11751144,
      "step": 17980
    },
    {
      "epoch": 9.426100628930818,
      "grad_norm": 0.11213499307632446,
      "learning_rate": 0.0006356718023009597,
      "loss": 0.4685,
      "num_input_tokens_seen": 11754312,
      "step": 17985
    },
    {
      "epoch": 9.428721174004194,
      "grad_norm": 0.07994434982538223,
      "learning_rate": 0.0006354516821250492,
      "loss": 0.3431,
      "num_input_tokens_seen": 11757896,
      "step": 17990
    },
    {
      "epoch": 9.431341719077569,
      "grad_norm": 0.07621408253908157,
      "learning_rate": 0.0006352315336141923,
      "loss": 0.3945,
      "num_input_tokens_seen": 11760840,
      "step": 17995
    },
    {
      "epoch": 9.433962264150944,
      "grad_norm": 0.11968646943569183,
      "learning_rate": 0.0006350113568144414,
      "loss": 0.4052,
      "num_input_tokens_seen": 11764136,
      "step": 18000
    },
    {
      "epoch": 9.43658280922432,
      "grad_norm": 0.41380783915519714,
      "learning_rate": 0.0006347911517718547,
      "loss": 0.5533,
      "num_input_tokens_seen": 11766696,
      "step": 18005
    },
    {
      "epoch": 9.439203354297694,
      "grad_norm": 0.23714123666286469,
      "learning_rate": 0.0006345709185324972,
      "loss": 0.494,
      "num_input_tokens_seen": 11769160,
      "step": 18010
    },
    {
      "epoch": 9.44182389937107,
      "grad_norm": 0.07438685745000839,
      "learning_rate": 0.0006343506571424386,
      "loss": 0.4757,
      "num_input_tokens_seen": 11772360,
      "step": 18015
    },
    {
      "epoch": 9.444444444444445,
      "grad_norm": 0.17671048641204834,
      "learning_rate": 0.0006341303676477552,
      "loss": 0.5021,
      "num_input_tokens_seen": 11774984,
      "step": 18020
    },
    {
      "epoch": 9.44706498951782,
      "grad_norm": 0.09815135598182678,
      "learning_rate": 0.0006339100500945293,
      "loss": 0.4489,
      "num_input_tokens_seen": 11777928,
      "step": 18025
    },
    {
      "epoch": 9.449685534591195,
      "grad_norm": 0.12703946232795715,
      "learning_rate": 0.0006336897045288486,
      "loss": 0.4705,
      "num_input_tokens_seen": 11781096,
      "step": 18030
    },
    {
      "epoch": 9.45230607966457,
      "grad_norm": 0.07455099374055862,
      "learning_rate": 0.0006334693309968068,
      "loss": 0.4014,
      "num_input_tokens_seen": 11784104,
      "step": 18035
    },
    {
      "epoch": 9.454926624737945,
      "grad_norm": 0.07981032878160477,
      "learning_rate": 0.0006332489295445038,
      "loss": 0.5055,
      "num_input_tokens_seen": 11787304,
      "step": 18040
    },
    {
      "epoch": 9.45754716981132,
      "grad_norm": 0.13959762454032898,
      "learning_rate": 0.0006330285002180448,
      "loss": 0.3484,
      "num_input_tokens_seen": 11790024,
      "step": 18045
    },
    {
      "epoch": 9.460167714884696,
      "grad_norm": 0.12211234867572784,
      "learning_rate": 0.0006328080430635412,
      "loss": 0.3885,
      "num_input_tokens_seen": 11792840,
      "step": 18050
    },
    {
      "epoch": 9.46278825995807,
      "grad_norm": 0.1474064290523529,
      "learning_rate": 0.0006325875581271103,
      "loss": 0.4342,
      "num_input_tokens_seen": 11795720,
      "step": 18055
    },
    {
      "epoch": 9.465408805031446,
      "grad_norm": 0.15228071808815002,
      "learning_rate": 0.0006323670454548749,
      "loss": 0.4295,
      "num_input_tokens_seen": 11798472,
      "step": 18060
    },
    {
      "epoch": 9.468029350104821,
      "grad_norm": 0.13723991811275482,
      "learning_rate": 0.0006321465050929635,
      "loss": 0.4241,
      "num_input_tokens_seen": 11801800,
      "step": 18065
    },
    {
      "epoch": 9.470649895178196,
      "grad_norm": 0.13489490747451782,
      "learning_rate": 0.000631925937087511,
      "loss": 0.4953,
      "num_input_tokens_seen": 11805160,
      "step": 18070
    },
    {
      "epoch": 9.473270440251572,
      "grad_norm": 0.11272192001342773,
      "learning_rate": 0.0006317053414846576,
      "loss": 0.4244,
      "num_input_tokens_seen": 11811816,
      "step": 18075
    },
    {
      "epoch": 9.475890985324948,
      "grad_norm": 0.078374482691288,
      "learning_rate": 0.0006314847183305492,
      "loss": 0.4912,
      "num_input_tokens_seen": 11816040,
      "step": 18080
    },
    {
      "epoch": 9.478511530398324,
      "grad_norm": 0.0912112295627594,
      "learning_rate": 0.0006312640676713378,
      "loss": 0.5042,
      "num_input_tokens_seen": 11818920,
      "step": 18085
    },
    {
      "epoch": 9.481132075471699,
      "grad_norm": 0.14575713872909546,
      "learning_rate": 0.0006310433895531811,
      "loss": 0.5138,
      "num_input_tokens_seen": 11821736,
      "step": 18090
    },
    {
      "epoch": 9.483752620545074,
      "grad_norm": 0.2083340287208557,
      "learning_rate": 0.0006308226840222422,
      "loss": 0.4754,
      "num_input_tokens_seen": 11825256,
      "step": 18095
    },
    {
      "epoch": 9.48637316561845,
      "grad_norm": 0.07296447455883026,
      "learning_rate": 0.0006306019511246905,
      "loss": 0.5382,
      "num_input_tokens_seen": 11829416,
      "step": 18100
    },
    {
      "epoch": 9.488993710691824,
      "grad_norm": 0.10034040361642838,
      "learning_rate": 0.0006303811909067003,
      "loss": 0.5677,
      "num_input_tokens_seen": 11832200,
      "step": 18105
    },
    {
      "epoch": 9.4916142557652,
      "grad_norm": 0.2423153519630432,
      "learning_rate": 0.0006301604034144527,
      "loss": 0.4835,
      "num_input_tokens_seen": 11835592,
      "step": 18110
    },
    {
      "epoch": 9.494234800838575,
      "grad_norm": 0.1301403045654297,
      "learning_rate": 0.0006299395886941336,
      "loss": 0.4246,
      "num_input_tokens_seen": 11839400,
      "step": 18115
    },
    {
      "epoch": 9.49685534591195,
      "grad_norm": 0.1504867821931839,
      "learning_rate": 0.0006297187467919347,
      "loss": 0.5328,
      "num_input_tokens_seen": 11842216,
      "step": 18120
    },
    {
      "epoch": 9.499475890985325,
      "grad_norm": 0.11014442145824432,
      "learning_rate": 0.0006294978777540542,
      "loss": 0.3716,
      "num_input_tokens_seen": 11844936,
      "step": 18125
    },
    {
      "epoch": 9.5020964360587,
      "grad_norm": 0.15395550429821014,
      "learning_rate": 0.000629276981626695,
      "loss": 0.4463,
      "num_input_tokens_seen": 11847912,
      "step": 18130
    },
    {
      "epoch": 9.504716981132075,
      "grad_norm": 0.06472618132829666,
      "learning_rate": 0.0006290560584560661,
      "loss": 0.3511,
      "num_input_tokens_seen": 11853192,
      "step": 18135
    },
    {
      "epoch": 9.50733752620545,
      "grad_norm": 0.1269376426935196,
      "learning_rate": 0.0006288351082883822,
      "loss": 0.538,
      "num_input_tokens_seen": 11856808,
      "step": 18140
    },
    {
      "epoch": 9.509958071278826,
      "grad_norm": 0.14169056713581085,
      "learning_rate": 0.0006286141311698633,
      "loss": 0.685,
      "num_input_tokens_seen": 11860360,
      "step": 18145
    },
    {
      "epoch": 9.5125786163522,
      "grad_norm": 0.09532574564218521,
      "learning_rate": 0.0006283931271467355,
      "loss": 0.3539,
      "num_input_tokens_seen": 11863048,
      "step": 18150
    },
    {
      "epoch": 9.515199161425576,
      "grad_norm": 0.09946965426206589,
      "learning_rate": 0.0006281720962652305,
      "loss": 0.4405,
      "num_input_tokens_seen": 11867016,
      "step": 18155
    },
    {
      "epoch": 9.517819706498951,
      "grad_norm": 0.19107335805892944,
      "learning_rate": 0.0006279510385715849,
      "loss": 0.4266,
      "num_input_tokens_seen": 11870728,
      "step": 18160
    },
    {
      "epoch": 9.520440251572326,
      "grad_norm": 0.09581673890352249,
      "learning_rate": 0.0006277299541120419,
      "loss": 0.4584,
      "num_input_tokens_seen": 11873928,
      "step": 18165
    },
    {
      "epoch": 9.523060796645701,
      "grad_norm": 0.1476849615573883,
      "learning_rate": 0.0006275088429328499,
      "loss": 0.3898,
      "num_input_tokens_seen": 11876968,
      "step": 18170
    },
    {
      "epoch": 9.525681341719078,
      "grad_norm": 0.07365325838327408,
      "learning_rate": 0.0006272877050802623,
      "loss": 0.441,
      "num_input_tokens_seen": 11880648,
      "step": 18175
    },
    {
      "epoch": 9.528301886792454,
      "grad_norm": 0.10817422717809677,
      "learning_rate": 0.0006270665406005393,
      "loss": 0.4433,
      "num_input_tokens_seen": 11883560,
      "step": 18180
    },
    {
      "epoch": 9.530922431865829,
      "grad_norm": 0.1111697107553482,
      "learning_rate": 0.0006268453495399455,
      "loss": 0.4864,
      "num_input_tokens_seen": 11888296,
      "step": 18185
    },
    {
      "epoch": 9.533542976939204,
      "grad_norm": 0.12337185442447662,
      "learning_rate": 0.0006266241319447517,
      "loss": 0.421,
      "num_input_tokens_seen": 11892872,
      "step": 18190
    },
    {
      "epoch": 9.536163522012579,
      "grad_norm": 0.14186720550060272,
      "learning_rate": 0.0006264028878612343,
      "loss": 0.399,
      "num_input_tokens_seen": 11895944,
      "step": 18195
    },
    {
      "epoch": 9.538784067085954,
      "grad_norm": 0.20926468074321747,
      "learning_rate": 0.0006261816173356746,
      "loss": 0.4582,
      "num_input_tokens_seen": 11898696,
      "step": 18200
    },
    {
      "epoch": 9.54140461215933,
      "grad_norm": 0.04317750409245491,
      "learning_rate": 0.0006259603204143602,
      "loss": 0.3331,
      "num_input_tokens_seen": 11904744,
      "step": 18205
    },
    {
      "epoch": 9.544025157232705,
      "grad_norm": 0.12642596662044525,
      "learning_rate": 0.0006257389971435839,
      "loss": 0.4055,
      "num_input_tokens_seen": 11907656,
      "step": 18210
    },
    {
      "epoch": 9.54664570230608,
      "grad_norm": 0.13599573075771332,
      "learning_rate": 0.0006255176475696437,
      "loss": 0.5269,
      "num_input_tokens_seen": 11910504,
      "step": 18215
    },
    {
      "epoch": 9.549266247379455,
      "grad_norm": 0.2678540349006653,
      "learning_rate": 0.0006252962717388438,
      "loss": 0.5035,
      "num_input_tokens_seen": 11913192,
      "step": 18220
    },
    {
      "epoch": 9.55188679245283,
      "grad_norm": 0.13423505425453186,
      "learning_rate": 0.0006250748696974932,
      "loss": 0.5852,
      "num_input_tokens_seen": 11916680,
      "step": 18225
    },
    {
      "epoch": 9.554507337526205,
      "grad_norm": 0.2298392504453659,
      "learning_rate": 0.0006248534414919067,
      "loss": 0.3838,
      "num_input_tokens_seen": 11919656,
      "step": 18230
    },
    {
      "epoch": 9.55712788259958,
      "grad_norm": 0.10088813304901123,
      "learning_rate": 0.0006246319871684047,
      "loss": 0.4097,
      "num_input_tokens_seen": 11922632,
      "step": 18235
    },
    {
      "epoch": 9.559748427672956,
      "grad_norm": 0.10897526144981384,
      "learning_rate": 0.000624410506773313,
      "loss": 0.4771,
      "num_input_tokens_seen": 11926280,
      "step": 18240
    },
    {
      "epoch": 9.56236897274633,
      "grad_norm": 0.06509082764387131,
      "learning_rate": 0.0006241890003529626,
      "loss": 0.2839,
      "num_input_tokens_seen": 11929768,
      "step": 18245
    },
    {
      "epoch": 9.564989517819706,
      "grad_norm": 0.08427762240171432,
      "learning_rate": 0.00062396746795369,
      "loss": 0.4344,
      "num_input_tokens_seen": 11933480,
      "step": 18250
    },
    {
      "epoch": 9.567610062893081,
      "grad_norm": 0.12859545648097992,
      "learning_rate": 0.0006237459096218375,
      "loss": 0.3586,
      "num_input_tokens_seen": 11936200,
      "step": 18255
    },
    {
      "epoch": 9.570230607966456,
      "grad_norm": 0.16309304535388947,
      "learning_rate": 0.0006235243254037525,
      "loss": 0.5319,
      "num_input_tokens_seen": 11938472,
      "step": 18260
    },
    {
      "epoch": 9.572851153039831,
      "grad_norm": 0.0840001255273819,
      "learning_rate": 0.0006233027153457878,
      "loss": 0.5312,
      "num_input_tokens_seen": 11942280,
      "step": 18265
    },
    {
      "epoch": 9.575471698113208,
      "grad_norm": 0.10092054307460785,
      "learning_rate": 0.0006230810794943017,
      "loss": 0.4042,
      "num_input_tokens_seen": 11945800,
      "step": 18270
    },
    {
      "epoch": 9.578092243186584,
      "grad_norm": 0.09149090200662613,
      "learning_rate": 0.0006228594178956581,
      "loss": 0.4194,
      "num_input_tokens_seen": 11948200,
      "step": 18275
    },
    {
      "epoch": 9.580712788259959,
      "grad_norm": 0.16605958342552185,
      "learning_rate": 0.0006226377305962259,
      "loss": 0.4841,
      "num_input_tokens_seen": 11951656,
      "step": 18280
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.08735449612140656,
      "learning_rate": 0.0006224160176423796,
      "loss": 0.4408,
      "num_input_tokens_seen": 11955208,
      "step": 18285
    },
    {
      "epoch": 9.585953878406709,
      "grad_norm": 0.1875091940164566,
      "learning_rate": 0.0006221942790804989,
      "loss": 0.3666,
      "num_input_tokens_seen": 11957768,
      "step": 18290
    },
    {
      "epoch": 9.588574423480084,
      "grad_norm": 0.13988856971263885,
      "learning_rate": 0.0006219725149569691,
      "loss": 0.4291,
      "num_input_tokens_seen": 11960552,
      "step": 18295
    },
    {
      "epoch": 9.59119496855346,
      "grad_norm": 0.11545945703983307,
      "learning_rate": 0.0006217507253181809,
      "loss": 0.5111,
      "num_input_tokens_seen": 11964552,
      "step": 18300
    },
    {
      "epoch": 9.593815513626835,
      "grad_norm": 0.24626369774341583,
      "learning_rate": 0.0006215289102105297,
      "loss": 0.4115,
      "num_input_tokens_seen": 11966824,
      "step": 18305
    },
    {
      "epoch": 9.59643605870021,
      "grad_norm": 0.15215937793254852,
      "learning_rate": 0.0006213070696804171,
      "loss": 0.4216,
      "num_input_tokens_seen": 11969832,
      "step": 18310
    },
    {
      "epoch": 9.599056603773585,
      "grad_norm": 0.12849952280521393,
      "learning_rate": 0.0006210852037742495,
      "loss": 0.3851,
      "num_input_tokens_seen": 11972424,
      "step": 18315
    },
    {
      "epoch": 9.60167714884696,
      "grad_norm": 0.16404202580451965,
      "learning_rate": 0.0006208633125384385,
      "loss": 0.4645,
      "num_input_tokens_seen": 11976552,
      "step": 18320
    },
    {
      "epoch": 9.604297693920335,
      "grad_norm": 0.1066608875989914,
      "learning_rate": 0.0006206413960194017,
      "loss": 0.4246,
      "num_input_tokens_seen": 11979720,
      "step": 18325
    },
    {
      "epoch": 9.60691823899371,
      "grad_norm": 0.0922519713640213,
      "learning_rate": 0.000620419454263561,
      "loss": 0.5142,
      "num_input_tokens_seen": 11982536,
      "step": 18330
    },
    {
      "epoch": 9.609538784067086,
      "grad_norm": 0.08693506568670273,
      "learning_rate": 0.0006201974873173443,
      "loss": 0.349,
      "num_input_tokens_seen": 11985384,
      "step": 18335
    },
    {
      "epoch": 9.61215932914046,
      "grad_norm": 0.11808482557535172,
      "learning_rate": 0.0006199754952271847,
      "loss": 0.4166,
      "num_input_tokens_seen": 11988712,
      "step": 18340
    },
    {
      "epoch": 9.614779874213836,
      "grad_norm": 0.08197429031133652,
      "learning_rate": 0.00061975347803952,
      "loss": 0.4258,
      "num_input_tokens_seen": 11993352,
      "step": 18345
    },
    {
      "epoch": 9.617400419287211,
      "grad_norm": 0.09363829344511032,
      "learning_rate": 0.000619531435800794,
      "loss": 0.4557,
      "num_input_tokens_seen": 11995848,
      "step": 18350
    },
    {
      "epoch": 9.620020964360586,
      "grad_norm": 0.1160377636551857,
      "learning_rate": 0.0006193093685574553,
      "loss": 0.5082,
      "num_input_tokens_seen": 11999336,
      "step": 18355
    },
    {
      "epoch": 9.622641509433961,
      "grad_norm": 0.07986525446176529,
      "learning_rate": 0.0006190872763559578,
      "loss": 0.4641,
      "num_input_tokens_seen": 12003080,
      "step": 18360
    },
    {
      "epoch": 9.625262054507338,
      "grad_norm": 0.059002988040447235,
      "learning_rate": 0.0006188651592427609,
      "loss": 0.2751,
      "num_input_tokens_seen": 12007240,
      "step": 18365
    },
    {
      "epoch": 9.627882599580714,
      "grad_norm": 0.09701389074325562,
      "learning_rate": 0.0006186430172643287,
      "loss": 0.4764,
      "num_input_tokens_seen": 12009928,
      "step": 18370
    },
    {
      "epoch": 9.630503144654089,
      "grad_norm": 0.10934816300868988,
      "learning_rate": 0.0006184208504671307,
      "loss": 0.417,
      "num_input_tokens_seen": 12013384,
      "step": 18375
    },
    {
      "epoch": 9.633123689727464,
      "grad_norm": 0.13467998802661896,
      "learning_rate": 0.000618198658897642,
      "loss": 0.4744,
      "num_input_tokens_seen": 12016520,
      "step": 18380
    },
    {
      "epoch": 9.635744234800839,
      "grad_norm": 0.14809104800224304,
      "learning_rate": 0.0006179764426023422,
      "loss": 0.4096,
      "num_input_tokens_seen": 12020040,
      "step": 18385
    },
    {
      "epoch": 9.638364779874214,
      "grad_norm": 0.09560774266719818,
      "learning_rate": 0.0006177542016277167,
      "loss": 0.4288,
      "num_input_tokens_seen": 12023464,
      "step": 18390
    },
    {
      "epoch": 9.64098532494759,
      "grad_norm": 0.12010490149259567,
      "learning_rate": 0.0006175319360202556,
      "loss": 0.3339,
      "num_input_tokens_seen": 12026664,
      "step": 18395
    },
    {
      "epoch": 9.643605870020965,
      "grad_norm": 0.07385553419589996,
      "learning_rate": 0.0006173096458264542,
      "loss": 0.3853,
      "num_input_tokens_seen": 12030440,
      "step": 18400
    },
    {
      "epoch": 9.64622641509434,
      "grad_norm": 0.1138584092259407,
      "learning_rate": 0.0006170873310928133,
      "loss": 0.4884,
      "num_input_tokens_seen": 12032872,
      "step": 18405
    },
    {
      "epoch": 9.648846960167715,
      "grad_norm": 0.07830438017845154,
      "learning_rate": 0.0006168649918658387,
      "loss": 0.3642,
      "num_input_tokens_seen": 12037864,
      "step": 18410
    },
    {
      "epoch": 9.65146750524109,
      "grad_norm": 0.1193498894572258,
      "learning_rate": 0.0006166426281920407,
      "loss": 0.3034,
      "num_input_tokens_seen": 12040904,
      "step": 18415
    },
    {
      "epoch": 9.654088050314465,
      "grad_norm": 0.0719648078083992,
      "learning_rate": 0.000616420240117936,
      "loss": 0.4401,
      "num_input_tokens_seen": 12044296,
      "step": 18420
    },
    {
      "epoch": 9.65670859538784,
      "grad_norm": 0.09876414388418198,
      "learning_rate": 0.000616197827690045,
      "loss": 0.3414,
      "num_input_tokens_seen": 12047208,
      "step": 18425
    },
    {
      "epoch": 9.659329140461216,
      "grad_norm": 0.11615648865699768,
      "learning_rate": 0.0006159753909548943,
      "loss": 0.4942,
      "num_input_tokens_seen": 12050696,
      "step": 18430
    },
    {
      "epoch": 9.66194968553459,
      "grad_norm": 0.11975496262311935,
      "learning_rate": 0.0006157529299590148,
      "loss": 0.4915,
      "num_input_tokens_seen": 12054536,
      "step": 18435
    },
    {
      "epoch": 9.664570230607966,
      "grad_norm": 0.19010259211063385,
      "learning_rate": 0.000615530444748943,
      "loss": 0.4485,
      "num_input_tokens_seen": 12056776,
      "step": 18440
    },
    {
      "epoch": 9.667190775681341,
      "grad_norm": 0.11598443984985352,
      "learning_rate": 0.0006153079353712201,
      "loss": 0.4982,
      "num_input_tokens_seen": 12059720,
      "step": 18445
    },
    {
      "epoch": 9.669811320754716,
      "grad_norm": 0.1312403827905655,
      "learning_rate": 0.0006150854018723926,
      "loss": 0.4487,
      "num_input_tokens_seen": 12063304,
      "step": 18450
    },
    {
      "epoch": 9.672431865828091,
      "grad_norm": 0.08103755116462708,
      "learning_rate": 0.0006148628442990122,
      "loss": 0.5086,
      "num_input_tokens_seen": 12067592,
      "step": 18455
    },
    {
      "epoch": 9.675052410901468,
      "grad_norm": 0.10956735908985138,
      "learning_rate": 0.0006146402626976351,
      "loss": 0.4427,
      "num_input_tokens_seen": 12070856,
      "step": 18460
    },
    {
      "epoch": 9.677672955974844,
      "grad_norm": 0.08863738924264908,
      "learning_rate": 0.0006144176571148228,
      "loss": 0.4607,
      "num_input_tokens_seen": 12074280,
      "step": 18465
    },
    {
      "epoch": 9.680293501048219,
      "grad_norm": 0.1365455538034439,
      "learning_rate": 0.0006141950275971422,
      "loss": 0.3919,
      "num_input_tokens_seen": 12077288,
      "step": 18470
    },
    {
      "epoch": 9.682914046121594,
      "grad_norm": 0.12287846207618713,
      "learning_rate": 0.0006139723741911644,
      "loss": 0.381,
      "num_input_tokens_seen": 12082056,
      "step": 18475
    },
    {
      "epoch": 9.685534591194969,
      "grad_norm": 0.08655964583158493,
      "learning_rate": 0.0006137496969434664,
      "loss": 0.5192,
      "num_input_tokens_seen": 12085128,
      "step": 18480
    },
    {
      "epoch": 9.688155136268344,
      "grad_norm": 0.07208514958620071,
      "learning_rate": 0.0006135269959006294,
      "loss": 0.5368,
      "num_input_tokens_seen": 12089032,
      "step": 18485
    },
    {
      "epoch": 9.69077568134172,
      "grad_norm": 0.09240026026964188,
      "learning_rate": 0.00061330427110924,
      "loss": 0.5312,
      "num_input_tokens_seen": 12091496,
      "step": 18490
    },
    {
      "epoch": 9.693396226415095,
      "grad_norm": 0.09566652774810791,
      "learning_rate": 0.0006130815226158899,
      "loss": 0.552,
      "num_input_tokens_seen": 12095208,
      "step": 18495
    },
    {
      "epoch": 9.69601677148847,
      "grad_norm": 0.09471077471971512,
      "learning_rate": 0.0006128587504671753,
      "loss": 0.5135,
      "num_input_tokens_seen": 12099176,
      "step": 18500
    },
    {
      "epoch": 9.698637316561845,
      "grad_norm": 0.11919187754392624,
      "learning_rate": 0.0006126359547096974,
      "loss": 0.5442,
      "num_input_tokens_seen": 12102408,
      "step": 18505
    },
    {
      "epoch": 9.70125786163522,
      "grad_norm": 0.09048940241336823,
      "learning_rate": 0.0006124131353900632,
      "loss": 0.5231,
      "num_input_tokens_seen": 12105704,
      "step": 18510
    },
    {
      "epoch": 9.703878406708595,
      "grad_norm": 0.08190982043743134,
      "learning_rate": 0.0006121902925548833,
      "loss": 0.5459,
      "num_input_tokens_seen": 12108520,
      "step": 18515
    },
    {
      "epoch": 9.70649895178197,
      "grad_norm": 0.09216926991939545,
      "learning_rate": 0.0006119674262507743,
      "loss": 0.4344,
      "num_input_tokens_seen": 12111912,
      "step": 18520
    },
    {
      "epoch": 9.709119496855346,
      "grad_norm": 0.11242518573999405,
      "learning_rate": 0.0006117445365243571,
      "loss": 0.4231,
      "num_input_tokens_seen": 12116040,
      "step": 18525
    },
    {
      "epoch": 9.71174004192872,
      "grad_norm": 0.08411416411399841,
      "learning_rate": 0.0006115216234222575,
      "loss": 0.4001,
      "num_input_tokens_seen": 12118632,
      "step": 18530
    },
    {
      "epoch": 9.714360587002096,
      "grad_norm": 0.09713716059923172,
      "learning_rate": 0.0006112986869911068,
      "loss": 0.3296,
      "num_input_tokens_seen": 12121192,
      "step": 18535
    },
    {
      "epoch": 9.716981132075471,
      "grad_norm": 0.11368709802627563,
      "learning_rate": 0.0006110757272775405,
      "loss": 0.4263,
      "num_input_tokens_seen": 12123976,
      "step": 18540
    },
    {
      "epoch": 9.719601677148846,
      "grad_norm": 0.1049814373254776,
      "learning_rate": 0.0006108527443281992,
      "loss": 0.5874,
      "num_input_tokens_seen": 12127816,
      "step": 18545
    },
    {
      "epoch": 9.722222222222221,
      "grad_norm": 0.07493001967668533,
      "learning_rate": 0.0006106297381897284,
      "loss": 0.507,
      "num_input_tokens_seen": 12131848,
      "step": 18550
    },
    {
      "epoch": 9.724842767295598,
      "grad_norm": 0.11537284404039383,
      "learning_rate": 0.0006104067089087787,
      "loss": 0.4204,
      "num_input_tokens_seen": 12135432,
      "step": 18555
    },
    {
      "epoch": 9.727463312368974,
      "grad_norm": 0.12034064531326294,
      "learning_rate": 0.0006101836565320049,
      "loss": 0.4865,
      "num_input_tokens_seen": 12138376,
      "step": 18560
    },
    {
      "epoch": 9.730083857442349,
      "grad_norm": 0.12102637439966202,
      "learning_rate": 0.0006099605811060673,
      "loss": 0.5464,
      "num_input_tokens_seen": 12141480,
      "step": 18565
    },
    {
      "epoch": 9.732704402515724,
      "grad_norm": 0.09911659359931946,
      "learning_rate": 0.0006097374826776307,
      "loss": 0.3879,
      "num_input_tokens_seen": 12144168,
      "step": 18570
    },
    {
      "epoch": 9.735324947589099,
      "grad_norm": 0.07249822467565536,
      "learning_rate": 0.0006095143612933646,
      "loss": 0.5656,
      "num_input_tokens_seen": 12148168,
      "step": 18575
    },
    {
      "epoch": 9.737945492662474,
      "grad_norm": 0.0902681052684784,
      "learning_rate": 0.0006092912169999435,
      "loss": 0.3243,
      "num_input_tokens_seen": 12150696,
      "step": 18580
    },
    {
      "epoch": 9.74056603773585,
      "grad_norm": 0.10564766824245453,
      "learning_rate": 0.0006090680498440465,
      "loss": 0.3665,
      "num_input_tokens_seen": 12153928,
      "step": 18585
    },
    {
      "epoch": 9.743186582809225,
      "grad_norm": 0.14157544076442719,
      "learning_rate": 0.0006088448598723581,
      "loss": 0.4128,
      "num_input_tokens_seen": 12157384,
      "step": 18590
    },
    {
      "epoch": 9.7458071278826,
      "grad_norm": 0.09043174237012863,
      "learning_rate": 0.0006086216471315666,
      "loss": 0.4251,
      "num_input_tokens_seen": 12160200,
      "step": 18595
    },
    {
      "epoch": 9.748427672955975,
      "grad_norm": 0.12461917847394943,
      "learning_rate": 0.0006083984116683659,
      "loss": 0.596,
      "num_input_tokens_seen": 12162504,
      "step": 18600
    },
    {
      "epoch": 9.75104821802935,
      "grad_norm": 0.11859162896871567,
      "learning_rate": 0.0006081751535294539,
      "loss": 0.4419,
      "num_input_tokens_seen": 12165288,
      "step": 18605
    },
    {
      "epoch": 9.753668763102725,
      "grad_norm": 0.20481525361537933,
      "learning_rate": 0.0006079518727615341,
      "loss": 0.4292,
      "num_input_tokens_seen": 12167912,
      "step": 18610
    },
    {
      "epoch": 9.7562893081761,
      "grad_norm": 0.4973631501197815,
      "learning_rate": 0.0006077285694113141,
      "loss": 0.5159,
      "num_input_tokens_seen": 12171624,
      "step": 18615
    },
    {
      "epoch": 9.758909853249476,
      "grad_norm": 0.15379323065280914,
      "learning_rate": 0.0006075052435255062,
      "loss": 0.4874,
      "num_input_tokens_seen": 12174632,
      "step": 18620
    },
    {
      "epoch": 9.76153039832285,
      "grad_norm": 0.23945441842079163,
      "learning_rate": 0.000607281895150828,
      "loss": 0.5763,
      "num_input_tokens_seen": 12177896,
      "step": 18625
    },
    {
      "epoch": 9.764150943396226,
      "grad_norm": 0.1479024887084961,
      "learning_rate": 0.0006070585243340013,
      "loss": 0.5016,
      "num_input_tokens_seen": 12181256,
      "step": 18630
    },
    {
      "epoch": 9.766771488469601,
      "grad_norm": 0.1208629459142685,
      "learning_rate": 0.0006068351311217526,
      "loss": 0.5003,
      "num_input_tokens_seen": 12183848,
      "step": 18635
    },
    {
      "epoch": 9.769392033542976,
      "grad_norm": 0.0951380729675293,
      "learning_rate": 0.0006066117155608135,
      "loss": 0.4212,
      "num_input_tokens_seen": 12187208,
      "step": 18640
    },
    {
      "epoch": 9.772012578616351,
      "grad_norm": 0.08688042312860489,
      "learning_rate": 0.0006063882776979196,
      "loss": 0.4649,
      "num_input_tokens_seen": 12190568,
      "step": 18645
    },
    {
      "epoch": 9.774633123689728,
      "grad_norm": 0.1315222978591919,
      "learning_rate": 0.0006061648175798117,
      "loss": 0.3294,
      "num_input_tokens_seen": 12193224,
      "step": 18650
    },
    {
      "epoch": 9.777253668763104,
      "grad_norm": 0.1180787980556488,
      "learning_rate": 0.0006059413352532355,
      "loss": 0.3957,
      "num_input_tokens_seen": 12195816,
      "step": 18655
    },
    {
      "epoch": 9.779874213836479,
      "grad_norm": 0.16949740052223206,
      "learning_rate": 0.0006057178307649402,
      "loss": 0.4441,
      "num_input_tokens_seen": 12198856,
      "step": 18660
    },
    {
      "epoch": 9.782494758909854,
      "grad_norm": 0.16319765150547028,
      "learning_rate": 0.000605494304161681,
      "loss": 0.5291,
      "num_input_tokens_seen": 12201992,
      "step": 18665
    },
    {
      "epoch": 9.785115303983229,
      "grad_norm": 0.12641580402851105,
      "learning_rate": 0.0006052707554902169,
      "loss": 0.4819,
      "num_input_tokens_seen": 12205608,
      "step": 18670
    },
    {
      "epoch": 9.787735849056604,
      "grad_norm": 0.10054242610931396,
      "learning_rate": 0.0006050471847973117,
      "loss": 0.5493,
      "num_input_tokens_seen": 12209352,
      "step": 18675
    },
    {
      "epoch": 9.79035639412998,
      "grad_norm": 0.12331856042146683,
      "learning_rate": 0.000604823592129734,
      "loss": 0.4435,
      "num_input_tokens_seen": 12213768,
      "step": 18680
    },
    {
      "epoch": 9.792976939203355,
      "grad_norm": 0.14593727886676788,
      "learning_rate": 0.0006045999775342566,
      "loss": 0.4437,
      "num_input_tokens_seen": 12216776,
      "step": 18685
    },
    {
      "epoch": 9.79559748427673,
      "grad_norm": 0.08174338936805725,
      "learning_rate": 0.0006043763410576572,
      "loss": 0.3882,
      "num_input_tokens_seen": 12221000,
      "step": 18690
    },
    {
      "epoch": 9.798218029350105,
      "grad_norm": 0.24120226502418518,
      "learning_rate": 0.0006041526827467182,
      "loss": 0.4466,
      "num_input_tokens_seen": 12224200,
      "step": 18695
    },
    {
      "epoch": 9.80083857442348,
      "grad_norm": 0.09989489614963531,
      "learning_rate": 0.000603929002648226,
      "loss": 0.4424,
      "num_input_tokens_seen": 12226920,
      "step": 18700
    },
    {
      "epoch": 9.803459119496855,
      "grad_norm": 0.09872578829526901,
      "learning_rate": 0.0006037053008089723,
      "loss": 0.4878,
      "num_input_tokens_seen": 12229960,
      "step": 18705
    },
    {
      "epoch": 9.80607966457023,
      "grad_norm": 0.15584854781627655,
      "learning_rate": 0.0006034815772757528,
      "loss": 0.3881,
      "num_input_tokens_seen": 12232040,
      "step": 18710
    },
    {
      "epoch": 9.808700209643606,
      "grad_norm": 0.09694447368383408,
      "learning_rate": 0.0006032578320953678,
      "loss": 0.3756,
      "num_input_tokens_seen": 12234472,
      "step": 18715
    },
    {
      "epoch": 9.81132075471698,
      "grad_norm": 0.18179559707641602,
      "learning_rate": 0.0006030340653146224,
      "loss": 0.3372,
      "num_input_tokens_seen": 12237448,
      "step": 18720
    },
    {
      "epoch": 9.813941299790356,
      "grad_norm": 0.09358673542737961,
      "learning_rate": 0.0006028102769803261,
      "loss": 0.4492,
      "num_input_tokens_seen": 12240264,
      "step": 18725
    },
    {
      "epoch": 9.816561844863731,
      "grad_norm": 0.10728645324707031,
      "learning_rate": 0.0006025864671392925,
      "loss": 0.4052,
      "num_input_tokens_seen": 12243176,
      "step": 18730
    },
    {
      "epoch": 9.819182389937106,
      "grad_norm": 0.1670396327972412,
      "learning_rate": 0.0006023626358383406,
      "loss": 0.4837,
      "num_input_tokens_seen": 12245864,
      "step": 18735
    },
    {
      "epoch": 9.821802935010481,
      "grad_norm": 0.09499961882829666,
      "learning_rate": 0.0006021387831242932,
      "loss": 0.4259,
      "num_input_tokens_seen": 12248712,
      "step": 18740
    },
    {
      "epoch": 9.824423480083858,
      "grad_norm": 0.19462192058563232,
      "learning_rate": 0.0006019149090439774,
      "loss": 0.4801,
      "num_input_tokens_seen": 12251144,
      "step": 18745
    },
    {
      "epoch": 9.827044025157234,
      "grad_norm": 0.09992755949497223,
      "learning_rate": 0.0006016910136442254,
      "loss": 0.4431,
      "num_input_tokens_seen": 12255336,
      "step": 18750
    },
    {
      "epoch": 9.829664570230609,
      "grad_norm": 0.3234175145626068,
      "learning_rate": 0.0006014670969718735,
      "loss": 0.4855,
      "num_input_tokens_seen": 12257672,
      "step": 18755
    },
    {
      "epoch": 9.832285115303984,
      "grad_norm": 0.09431423991918564,
      "learning_rate": 0.0006012431590737625,
      "loss": 0.4468,
      "num_input_tokens_seen": 12261032,
      "step": 18760
    },
    {
      "epoch": 9.834905660377359,
      "grad_norm": 0.09624609351158142,
      "learning_rate": 0.0006010191999967378,
      "loss": 0.4438,
      "num_input_tokens_seen": 12264488,
      "step": 18765
    },
    {
      "epoch": 9.837526205450734,
      "grad_norm": 0.21004897356033325,
      "learning_rate": 0.0006007952197876487,
      "loss": 0.4661,
      "num_input_tokens_seen": 12267432,
      "step": 18770
    },
    {
      "epoch": 9.84014675052411,
      "grad_norm": 0.17495523393154144,
      "learning_rate": 0.0006005712184933498,
      "loss": 0.3484,
      "num_input_tokens_seen": 12270888,
      "step": 18775
    },
    {
      "epoch": 9.842767295597485,
      "grad_norm": 0.07972435653209686,
      "learning_rate": 0.0006003471961606992,
      "loss": 0.4288,
      "num_input_tokens_seen": 12273896,
      "step": 18780
    },
    {
      "epoch": 9.84538784067086,
      "grad_norm": 0.11525954306125641,
      "learning_rate": 0.0006001231528365601,
      "loss": 0.5208,
      "num_input_tokens_seen": 12276328,
      "step": 18785
    },
    {
      "epoch": 9.848008385744235,
      "grad_norm": 0.12375792115926743,
      "learning_rate": 0.0005998990885677996,
      "loss": 0.3738,
      "num_input_tokens_seen": 12279016,
      "step": 18790
    },
    {
      "epoch": 9.85062893081761,
      "grad_norm": 0.20725226402282715,
      "learning_rate": 0.0005996750034012895,
      "loss": 0.3657,
      "num_input_tokens_seen": 12281512,
      "step": 18795
    },
    {
      "epoch": 9.853249475890985,
      "grad_norm": 0.1568562239408493,
      "learning_rate": 0.0005994508973839058,
      "loss": 0.5298,
      "num_input_tokens_seen": 12285160,
      "step": 18800
    },
    {
      "epoch": 9.85587002096436,
      "grad_norm": 0.09904938191175461,
      "learning_rate": 0.0005992267705625289,
      "loss": 0.4683,
      "num_input_tokens_seen": 12288616,
      "step": 18805
    },
    {
      "epoch": 9.858490566037736,
      "grad_norm": 0.10327628999948502,
      "learning_rate": 0.0005990026229840439,
      "loss": 0.5423,
      "num_input_tokens_seen": 12292680,
      "step": 18810
    },
    {
      "epoch": 9.86111111111111,
      "grad_norm": 0.1054098829627037,
      "learning_rate": 0.0005987784546953394,
      "loss": 0.4012,
      "num_input_tokens_seen": 12297160,
      "step": 18815
    },
    {
      "epoch": 9.863731656184486,
      "grad_norm": 0.0986405611038208,
      "learning_rate": 0.0005985542657433091,
      "loss": 0.5824,
      "num_input_tokens_seen": 12300520,
      "step": 18820
    },
    {
      "epoch": 9.866352201257861,
      "grad_norm": 0.09868453443050385,
      "learning_rate": 0.000598330056174851,
      "loss": 0.4545,
      "num_input_tokens_seen": 12303496,
      "step": 18825
    },
    {
      "epoch": 9.868972746331236,
      "grad_norm": 0.10915733873844147,
      "learning_rate": 0.0005981058260368668,
      "loss": 0.5188,
      "num_input_tokens_seen": 12306568,
      "step": 18830
    },
    {
      "epoch": 9.871593291404611,
      "grad_norm": 0.12569189071655273,
      "learning_rate": 0.0005978815753762632,
      "loss": 0.5227,
      "num_input_tokens_seen": 12309160,
      "step": 18835
    },
    {
      "epoch": 9.874213836477988,
      "grad_norm": 0.08726951479911804,
      "learning_rate": 0.0005976573042399505,
      "loss": 0.4239,
      "num_input_tokens_seen": 12312776,
      "step": 18840
    },
    {
      "epoch": 9.876834381551364,
      "grad_norm": 0.1403905749320984,
      "learning_rate": 0.000597433012674844,
      "loss": 0.3864,
      "num_input_tokens_seen": 12316104,
      "step": 18845
    },
    {
      "epoch": 9.879454926624739,
      "grad_norm": 0.1947355717420578,
      "learning_rate": 0.0005972087007278628,
      "loss": 0.5452,
      "num_input_tokens_seen": 12318568,
      "step": 18850
    },
    {
      "epoch": 9.882075471698114,
      "grad_norm": 0.19863535463809967,
      "learning_rate": 0.0005969843684459305,
      "loss": 0.5051,
      "num_input_tokens_seen": 12321736,
      "step": 18855
    },
    {
      "epoch": 9.884696016771489,
      "grad_norm": 0.10586798191070557,
      "learning_rate": 0.0005967600158759746,
      "loss": 0.4853,
      "num_input_tokens_seen": 12325032,
      "step": 18860
    },
    {
      "epoch": 9.887316561844864,
      "grad_norm": 0.06677664816379547,
      "learning_rate": 0.0005965356430649276,
      "loss": 0.4926,
      "num_input_tokens_seen": 12329160,
      "step": 18865
    },
    {
      "epoch": 9.88993710691824,
      "grad_norm": 0.08639637380838394,
      "learning_rate": 0.0005963112500597251,
      "loss": 0.6609,
      "num_input_tokens_seen": 12332392,
      "step": 18870
    },
    {
      "epoch": 9.892557651991615,
      "grad_norm": 0.08631680905818939,
      "learning_rate": 0.0005960868369073079,
      "loss": 0.4279,
      "num_input_tokens_seen": 12336456,
      "step": 18875
    },
    {
      "epoch": 9.89517819706499,
      "grad_norm": 0.12199366837739944,
      "learning_rate": 0.0005958624036546208,
      "loss": 0.3962,
      "num_input_tokens_seen": 12339080,
      "step": 18880
    },
    {
      "epoch": 9.897798742138365,
      "grad_norm": 0.12197305262088776,
      "learning_rate": 0.0005956379503486123,
      "loss": 0.3916,
      "num_input_tokens_seen": 12341768,
      "step": 18885
    },
    {
      "epoch": 9.90041928721174,
      "grad_norm": 0.14529088139533997,
      "learning_rate": 0.0005954134770362359,
      "loss": 0.4129,
      "num_input_tokens_seen": 12344936,
      "step": 18890
    },
    {
      "epoch": 9.903039832285115,
      "grad_norm": 0.11707998067140579,
      "learning_rate": 0.0005951889837644486,
      "loss": 0.456,
      "num_input_tokens_seen": 12349416,
      "step": 18895
    },
    {
      "epoch": 9.90566037735849,
      "grad_norm": 0.22639021277427673,
      "learning_rate": 0.0005949644705802116,
      "loss": 0.4998,
      "num_input_tokens_seen": 12352360,
      "step": 18900
    },
    {
      "epoch": 9.908280922431866,
      "grad_norm": 0.10549063980579376,
      "learning_rate": 0.0005947399375304909,
      "loss": 0.5098,
      "num_input_tokens_seen": 12355688,
      "step": 18905
    },
    {
      "epoch": 9.91090146750524,
      "grad_norm": 0.06159110367298126,
      "learning_rate": 0.0005945153846622563,
      "loss": 0.4414,
      "num_input_tokens_seen": 12359560,
      "step": 18910
    },
    {
      "epoch": 9.913522012578616,
      "grad_norm": 0.11434759199619293,
      "learning_rate": 0.0005942908120224815,
      "loss": 0.5053,
      "num_input_tokens_seen": 12363656,
      "step": 18915
    },
    {
      "epoch": 9.916142557651991,
      "grad_norm": 0.07452518492937088,
      "learning_rate": 0.0005940662196581443,
      "loss": 0.3968,
      "num_input_tokens_seen": 12367688,
      "step": 18920
    },
    {
      "epoch": 9.918763102725366,
      "grad_norm": 0.15519960224628448,
      "learning_rate": 0.0005938416076162273,
      "loss": 0.4563,
      "num_input_tokens_seen": 12371400,
      "step": 18925
    },
    {
      "epoch": 9.921383647798741,
      "grad_norm": 0.09753282368183136,
      "learning_rate": 0.0005936169759437165,
      "loss": 0.4313,
      "num_input_tokens_seen": 12374152,
      "step": 18930
    },
    {
      "epoch": 9.924004192872118,
      "grad_norm": 0.18939785659313202,
      "learning_rate": 0.0005933923246876024,
      "loss": 0.3603,
      "num_input_tokens_seen": 12378472,
      "step": 18935
    },
    {
      "epoch": 9.926624737945493,
      "grad_norm": 0.11800622195005417,
      "learning_rate": 0.0005931676538948795,
      "loss": 0.5157,
      "num_input_tokens_seen": 12381480,
      "step": 18940
    },
    {
      "epoch": 9.929245283018869,
      "grad_norm": 0.07833640277385712,
      "learning_rate": 0.0005929429636125463,
      "loss": 0.4126,
      "num_input_tokens_seen": 12384648,
      "step": 18945
    },
    {
      "epoch": 9.931865828092244,
      "grad_norm": 0.11978009343147278,
      "learning_rate": 0.0005927182538876055,
      "loss": 0.3626,
      "num_input_tokens_seen": 12387432,
      "step": 18950
    },
    {
      "epoch": 9.934486373165619,
      "grad_norm": 0.10704459995031357,
      "learning_rate": 0.0005924935247670637,
      "loss": 0.4193,
      "num_input_tokens_seen": 12390984,
      "step": 18955
    },
    {
      "epoch": 9.937106918238994,
      "grad_norm": 0.09492632746696472,
      "learning_rate": 0.0005922687762979317,
      "loss": 0.3906,
      "num_input_tokens_seen": 12394760,
      "step": 18960
    },
    {
      "epoch": 9.93972746331237,
      "grad_norm": 0.15798234939575195,
      "learning_rate": 0.0005920440085272245,
      "loss": 0.5201,
      "num_input_tokens_seen": 12397768,
      "step": 18965
    },
    {
      "epoch": 9.942348008385745,
      "grad_norm": 0.12580230832099915,
      "learning_rate": 0.0005918192215019608,
      "loss": 0.3791,
      "num_input_tokens_seen": 12400968,
      "step": 18970
    },
    {
      "epoch": 9.94496855345912,
      "grad_norm": 0.1046203076839447,
      "learning_rate": 0.0005915944152691633,
      "loss": 0.4955,
      "num_input_tokens_seen": 12406664,
      "step": 18975
    },
    {
      "epoch": 9.947589098532495,
      "grad_norm": 0.1258704662322998,
      "learning_rate": 0.0005913695898758593,
      "loss": 0.4364,
      "num_input_tokens_seen": 12409448,
      "step": 18980
    },
    {
      "epoch": 9.95020964360587,
      "grad_norm": 0.07038866728544235,
      "learning_rate": 0.0005911447453690793,
      "loss": 0.3426,
      "num_input_tokens_seen": 12412744,
      "step": 18985
    },
    {
      "epoch": 9.952830188679245,
      "grad_norm": 0.09165529161691666,
      "learning_rate": 0.0005909198817958585,
      "loss": 0.6211,
      "num_input_tokens_seen": 12415656,
      "step": 18990
    },
    {
      "epoch": 9.95545073375262,
      "grad_norm": 0.11653349548578262,
      "learning_rate": 0.0005906949992032359,
      "loss": 0.5464,
      "num_input_tokens_seen": 12418472,
      "step": 18995
    },
    {
      "epoch": 9.958071278825996,
      "grad_norm": 0.11377286911010742,
      "learning_rate": 0.0005904700976382539,
      "loss": 0.4042,
      "num_input_tokens_seen": 12421768,
      "step": 19000
    },
    {
      "epoch": 9.96069182389937,
      "grad_norm": 0.085383839905262,
      "learning_rate": 0.0005902451771479596,
      "loss": 0.4304,
      "num_input_tokens_seen": 12425800,
      "step": 19005
    },
    {
      "epoch": 9.963312368972746,
      "grad_norm": 0.11748147010803223,
      "learning_rate": 0.000590020237779404,
      "loss": 0.5502,
      "num_input_tokens_seen": 12429288,
      "step": 19010
    },
    {
      "epoch": 9.965932914046121,
      "grad_norm": 0.10848899185657501,
      "learning_rate": 0.0005897952795796415,
      "loss": 0.3955,
      "num_input_tokens_seen": 12433160,
      "step": 19015
    },
    {
      "epoch": 9.968553459119496,
      "grad_norm": 0.16525889933109283,
      "learning_rate": 0.0005895703025957311,
      "loss": 0.418,
      "num_input_tokens_seen": 12435944,
      "step": 19020
    },
    {
      "epoch": 9.971174004192871,
      "grad_norm": 0.0853663831949234,
      "learning_rate": 0.0005893453068747352,
      "loss": 0.3851,
      "num_input_tokens_seen": 12438216,
      "step": 19025
    },
    {
      "epoch": 9.973794549266248,
      "grad_norm": 0.17565983533859253,
      "learning_rate": 0.0005891202924637202,
      "loss": 0.4056,
      "num_input_tokens_seen": 12440904,
      "step": 19030
    },
    {
      "epoch": 9.976415094339622,
      "grad_norm": 0.15381492674350739,
      "learning_rate": 0.0005888952594097572,
      "loss": 0.5152,
      "num_input_tokens_seen": 12443752,
      "step": 19035
    },
    {
      "epoch": 9.979035639412999,
      "grad_norm": 0.22017090022563934,
      "learning_rate": 0.0005886702077599197,
      "loss": 0.6507,
      "num_input_tokens_seen": 12446152,
      "step": 19040
    },
    {
      "epoch": 9.981656184486374,
      "grad_norm": 0.09794865548610687,
      "learning_rate": 0.0005884451375612865,
      "loss": 0.4348,
      "num_input_tokens_seen": 12449160,
      "step": 19045
    },
    {
      "epoch": 9.984276729559749,
      "grad_norm": 0.09431680291891098,
      "learning_rate": 0.0005882200488609396,
      "loss": 0.4895,
      "num_input_tokens_seen": 12453064,
      "step": 19050
    },
    {
      "epoch": 9.986897274633124,
      "grad_norm": 0.1443812996149063,
      "learning_rate": 0.0005879949417059649,
      "loss": 0.4384,
      "num_input_tokens_seen": 12455944,
      "step": 19055
    },
    {
      "epoch": 9.9895178197065,
      "grad_norm": 0.1352253556251526,
      "learning_rate": 0.0005877698161434522,
      "loss": 0.5133,
      "num_input_tokens_seen": 12459528,
      "step": 19060
    },
    {
      "epoch": 9.992138364779874,
      "grad_norm": 0.08458501100540161,
      "learning_rate": 0.0005875446722204955,
      "loss": 0.4745,
      "num_input_tokens_seen": 12463048,
      "step": 19065
    },
    {
      "epoch": 9.99475890985325,
      "grad_norm": 0.09657080471515656,
      "learning_rate": 0.0005873195099841919,
      "loss": 0.4332,
      "num_input_tokens_seen": 12467240,
      "step": 19070
    },
    {
      "epoch": 9.997379454926625,
      "grad_norm": 0.10616642981767654,
      "learning_rate": 0.0005870943294816431,
      "loss": 0.6189,
      "num_input_tokens_seen": 12470216,
      "step": 19075
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.20372481644153595,
      "learning_rate": 0.0005868691307599543,
      "loss": 0.6371,
      "num_input_tokens_seen": 12472912,
      "step": 19080
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.4767511487007141,
      "eval_runtime": 13.6679,
      "eval_samples_per_second": 62.043,
      "eval_steps_per_second": 15.511,
      "num_input_tokens_seen": 12472912,
      "step": 19080
    },
    {
      "epoch": 10.002620545073375,
      "grad_norm": 0.11482968181371689,
      "learning_rate": 0.0005866439138662343,
      "loss": 0.3825,
      "num_input_tokens_seen": 12475568,
      "step": 19085
    },
    {
      "epoch": 10.00524109014675,
      "grad_norm": 0.29419270157814026,
      "learning_rate": 0.000586418678847596,
      "loss": 0.3636,
      "num_input_tokens_seen": 12478128,
      "step": 19090
    },
    {
      "epoch": 10.007861635220126,
      "grad_norm": 0.11274312436580658,
      "learning_rate": 0.000586193425751156,
      "loss": 0.4176,
      "num_input_tokens_seen": 12481520,
      "step": 19095
    },
    {
      "epoch": 10.0104821802935,
      "grad_norm": 0.07914841175079346,
      "learning_rate": 0.0005859681546240348,
      "loss": 0.5063,
      "num_input_tokens_seen": 12485264,
      "step": 19100
    },
    {
      "epoch": 10.013102725366876,
      "grad_norm": 0.108059361577034,
      "learning_rate": 0.0005857428655133562,
      "loss": 0.357,
      "num_input_tokens_seen": 12488464,
      "step": 19105
    },
    {
      "epoch": 10.015723270440251,
      "grad_norm": 0.2610377073287964,
      "learning_rate": 0.0005855175584662485,
      "loss": 0.4279,
      "num_input_tokens_seen": 12491504,
      "step": 19110
    },
    {
      "epoch": 10.018343815513626,
      "grad_norm": 0.1871674656867981,
      "learning_rate": 0.0005852922335298433,
      "loss": 0.7464,
      "num_input_tokens_seen": 12494576,
      "step": 19115
    },
    {
      "epoch": 10.020964360587001,
      "grad_norm": 0.12558035552501678,
      "learning_rate": 0.0005850668907512757,
      "loss": 0.4578,
      "num_input_tokens_seen": 12497648,
      "step": 19120
    },
    {
      "epoch": 10.023584905660377,
      "grad_norm": 0.14799487590789795,
      "learning_rate": 0.0005848415301776852,
      "loss": 0.4397,
      "num_input_tokens_seen": 12500208,
      "step": 19125
    },
    {
      "epoch": 10.026205450733753,
      "grad_norm": 0.1469098925590515,
      "learning_rate": 0.0005846161518562144,
      "loss": 0.5308,
      "num_input_tokens_seen": 12503248,
      "step": 19130
    },
    {
      "epoch": 10.028825995807129,
      "grad_norm": 0.1160552054643631,
      "learning_rate": 0.00058439075583401,
      "loss": 0.4477,
      "num_input_tokens_seen": 12508080,
      "step": 19135
    },
    {
      "epoch": 10.031446540880504,
      "grad_norm": 0.08240006119012833,
      "learning_rate": 0.0005841653421582223,
      "loss": 0.3979,
      "num_input_tokens_seen": 12511856,
      "step": 19140
    },
    {
      "epoch": 10.034067085953879,
      "grad_norm": 0.07588406652212143,
      "learning_rate": 0.0005839399108760052,
      "loss": 0.3983,
      "num_input_tokens_seen": 12515920,
      "step": 19145
    },
    {
      "epoch": 10.036687631027254,
      "grad_norm": 0.12745651602745056,
      "learning_rate": 0.0005837144620345165,
      "loss": 0.4972,
      "num_input_tokens_seen": 12519024,
      "step": 19150
    },
    {
      "epoch": 10.03930817610063,
      "grad_norm": 0.16654463112354279,
      "learning_rate": 0.0005834889956809173,
      "loss": 0.4997,
      "num_input_tokens_seen": 12521840,
      "step": 19155
    },
    {
      "epoch": 10.041928721174004,
      "grad_norm": 0.12016050517559052,
      "learning_rate": 0.0005832635118623726,
      "loss": 0.4886,
      "num_input_tokens_seen": 12525008,
      "step": 19160
    },
    {
      "epoch": 10.04454926624738,
      "grad_norm": 0.11052445322275162,
      "learning_rate": 0.0005830380106260513,
      "loss": 0.3878,
      "num_input_tokens_seen": 12528048,
      "step": 19165
    },
    {
      "epoch": 10.047169811320755,
      "grad_norm": 0.13150671124458313,
      "learning_rate": 0.0005828124920191255,
      "loss": 0.3785,
      "num_input_tokens_seen": 12531536,
      "step": 19170
    },
    {
      "epoch": 10.04979035639413,
      "grad_norm": 0.10632416605949402,
      "learning_rate": 0.000582586956088771,
      "loss": 0.4615,
      "num_input_tokens_seen": 12535248,
      "step": 19175
    },
    {
      "epoch": 10.052410901467505,
      "grad_norm": 0.11218702793121338,
      "learning_rate": 0.0005823614028821677,
      "loss": 0.3575,
      "num_input_tokens_seen": 12538128,
      "step": 19180
    },
    {
      "epoch": 10.05503144654088,
      "grad_norm": 0.12238290160894394,
      "learning_rate": 0.0005821358324464985,
      "loss": 0.3942,
      "num_input_tokens_seen": 12541136,
      "step": 19185
    },
    {
      "epoch": 10.057651991614255,
      "grad_norm": 0.09873249381780624,
      "learning_rate": 0.0005819102448289501,
      "loss": 0.4146,
      "num_input_tokens_seen": 12544272,
      "step": 19190
    },
    {
      "epoch": 10.06027253668763,
      "grad_norm": 0.10681317001581192,
      "learning_rate": 0.000581684640076713,
      "loss": 0.4173,
      "num_input_tokens_seen": 12547184,
      "step": 19195
    },
    {
      "epoch": 10.062893081761006,
      "grad_norm": 0.12663929164409637,
      "learning_rate": 0.0005814590182369811,
      "loss": 0.4191,
      "num_input_tokens_seen": 12550416,
      "step": 19200
    },
    {
      "epoch": 10.065513626834381,
      "grad_norm": 0.14566075801849365,
      "learning_rate": 0.000581233379356952,
      "loss": 0.3906,
      "num_input_tokens_seen": 12552688,
      "step": 19205
    },
    {
      "epoch": 10.068134171907756,
      "grad_norm": 0.13241590559482574,
      "learning_rate": 0.0005810077234838267,
      "loss": 0.5043,
      "num_input_tokens_seen": 12555536,
      "step": 19210
    },
    {
      "epoch": 10.070754716981131,
      "grad_norm": 0.09901121258735657,
      "learning_rate": 0.0005807820506648097,
      "loss": 0.4527,
      "num_input_tokens_seen": 12558672,
      "step": 19215
    },
    {
      "epoch": 10.073375262054507,
      "grad_norm": 0.19747501611709595,
      "learning_rate": 0.0005805563609471095,
      "loss": 0.4574,
      "num_input_tokens_seen": 12562192,
      "step": 19220
    },
    {
      "epoch": 10.075995807127883,
      "grad_norm": 0.10078168660402298,
      "learning_rate": 0.0005803306543779375,
      "loss": 0.4293,
      "num_input_tokens_seen": 12565584,
      "step": 19225
    },
    {
      "epoch": 10.078616352201259,
      "grad_norm": 0.13778848946094513,
      "learning_rate": 0.000580104931004509,
      "loss": 0.4303,
      "num_input_tokens_seen": 12568720,
      "step": 19230
    },
    {
      "epoch": 10.081236897274634,
      "grad_norm": 0.11240297555923462,
      "learning_rate": 0.000579879190874043,
      "loss": 0.3456,
      "num_input_tokens_seen": 12572432,
      "step": 19235
    },
    {
      "epoch": 10.083857442348009,
      "grad_norm": 0.11942725628614426,
      "learning_rate": 0.0005796534340337614,
      "loss": 0.4733,
      "num_input_tokens_seen": 12575632,
      "step": 19240
    },
    {
      "epoch": 10.086477987421384,
      "grad_norm": 0.08830930292606354,
      "learning_rate": 0.0005794276605308902,
      "loss": 0.4203,
      "num_input_tokens_seen": 12579888,
      "step": 19245
    },
    {
      "epoch": 10.08909853249476,
      "grad_norm": 0.23225361108779907,
      "learning_rate": 0.0005792018704126586,
      "loss": 0.3763,
      "num_input_tokens_seen": 12582416,
      "step": 19250
    },
    {
      "epoch": 10.091719077568134,
      "grad_norm": 0.11635960638523102,
      "learning_rate": 0.0005789760637262992,
      "loss": 0.386,
      "num_input_tokens_seen": 12585360,
      "step": 19255
    },
    {
      "epoch": 10.09433962264151,
      "grad_norm": 0.04985661804676056,
      "learning_rate": 0.0005787502405190483,
      "loss": 0.4405,
      "num_input_tokens_seen": 12589456,
      "step": 19260
    },
    {
      "epoch": 10.096960167714885,
      "grad_norm": 0.14481432735919952,
      "learning_rate": 0.0005785244008381456,
      "loss": 0.4433,
      "num_input_tokens_seen": 12592752,
      "step": 19265
    },
    {
      "epoch": 10.09958071278826,
      "grad_norm": 0.10678253322839737,
      "learning_rate": 0.0005782985447308341,
      "loss": 0.5313,
      "num_input_tokens_seen": 12596304,
      "step": 19270
    },
    {
      "epoch": 10.102201257861635,
      "grad_norm": 0.10532750189304352,
      "learning_rate": 0.0005780726722443602,
      "loss": 0.5041,
      "num_input_tokens_seen": 12600048,
      "step": 19275
    },
    {
      "epoch": 10.10482180293501,
      "grad_norm": 0.08560477197170258,
      "learning_rate": 0.0005778467834259741,
      "loss": 0.3758,
      "num_input_tokens_seen": 12602992,
      "step": 19280
    },
    {
      "epoch": 10.107442348008385,
      "grad_norm": 0.1150825172662735,
      "learning_rate": 0.000577620878322929,
      "loss": 0.4581,
      "num_input_tokens_seen": 12606960,
      "step": 19285
    },
    {
      "epoch": 10.11006289308176,
      "grad_norm": 0.11894679069519043,
      "learning_rate": 0.0005773949569824816,
      "loss": 0.3501,
      "num_input_tokens_seen": 12609584,
      "step": 19290
    },
    {
      "epoch": 10.112683438155136,
      "grad_norm": 0.08103623241186142,
      "learning_rate": 0.0005771690194518922,
      "loss": 0.4422,
      "num_input_tokens_seen": 12612368,
      "step": 19295
    },
    {
      "epoch": 10.115303983228511,
      "grad_norm": 0.1309443861246109,
      "learning_rate": 0.0005769430657784245,
      "loss": 0.4168,
      "num_input_tokens_seen": 12615472,
      "step": 19300
    },
    {
      "epoch": 10.117924528301886,
      "grad_norm": 0.10475215315818787,
      "learning_rate": 0.0005767170960093449,
      "loss": 0.6316,
      "num_input_tokens_seen": 12621456,
      "step": 19305
    },
    {
      "epoch": 10.120545073375261,
      "grad_norm": 0.19603398442268372,
      "learning_rate": 0.0005764911101919244,
      "loss": 0.4527,
      "num_input_tokens_seen": 12624624,
      "step": 19310
    },
    {
      "epoch": 10.123165618448636,
      "grad_norm": 0.0998455211520195,
      "learning_rate": 0.0005762651083734363,
      "loss": 0.5302,
      "num_input_tokens_seen": 12628112,
      "step": 19315
    },
    {
      "epoch": 10.125786163522013,
      "grad_norm": 0.10927373170852661,
      "learning_rate": 0.0005760390906011574,
      "loss": 0.4944,
      "num_input_tokens_seen": 12631536,
      "step": 19320
    },
    {
      "epoch": 10.128406708595389,
      "grad_norm": 0.24132633209228516,
      "learning_rate": 0.0005758130569223684,
      "loss": 0.4381,
      "num_input_tokens_seen": 12634704,
      "step": 19325
    },
    {
      "epoch": 10.131027253668764,
      "grad_norm": 0.08583596348762512,
      "learning_rate": 0.0005755870073843527,
      "loss": 0.4076,
      "num_input_tokens_seen": 12638640,
      "step": 19330
    },
    {
      "epoch": 10.133647798742139,
      "grad_norm": 0.09717433899641037,
      "learning_rate": 0.0005753609420343973,
      "loss": 0.3736,
      "num_input_tokens_seen": 12641392,
      "step": 19335
    },
    {
      "epoch": 10.136268343815514,
      "grad_norm": 0.08937235176563263,
      "learning_rate": 0.0005751348609197929,
      "loss": 0.3308,
      "num_input_tokens_seen": 12648656,
      "step": 19340
    },
    {
      "epoch": 10.13888888888889,
      "grad_norm": 0.16241736710071564,
      "learning_rate": 0.0005749087640878325,
      "loss": 0.3866,
      "num_input_tokens_seen": 12651760,
      "step": 19345
    },
    {
      "epoch": 10.141509433962264,
      "grad_norm": 0.15311749279499054,
      "learning_rate": 0.0005746826515858135,
      "loss": 0.4548,
      "num_input_tokens_seen": 12655120,
      "step": 19350
    },
    {
      "epoch": 10.14412997903564,
      "grad_norm": 0.25718116760253906,
      "learning_rate": 0.0005744565234610356,
      "loss": 0.4192,
      "num_input_tokens_seen": 12657936,
      "step": 19355
    },
    {
      "epoch": 10.146750524109015,
      "grad_norm": 0.16515880823135376,
      "learning_rate": 0.0005742303797608023,
      "loss": 0.4059,
      "num_input_tokens_seen": 12661648,
      "step": 19360
    },
    {
      "epoch": 10.14937106918239,
      "grad_norm": 0.1214669868350029,
      "learning_rate": 0.0005740042205324208,
      "loss": 0.6098,
      "num_input_tokens_seen": 12665328,
      "step": 19365
    },
    {
      "epoch": 10.151991614255765,
      "grad_norm": 0.14138008654117584,
      "learning_rate": 0.0005737780458232004,
      "loss": 0.4268,
      "num_input_tokens_seen": 12668464,
      "step": 19370
    },
    {
      "epoch": 10.15461215932914,
      "grad_norm": 0.11900096386671066,
      "learning_rate": 0.0005735518556804546,
      "loss": 0.3877,
      "num_input_tokens_seen": 12672016,
      "step": 19375
    },
    {
      "epoch": 10.157232704402515,
      "grad_norm": 0.2128889113664627,
      "learning_rate": 0.0005733256501514999,
      "loss": 0.503,
      "num_input_tokens_seen": 12675312,
      "step": 19380
    },
    {
      "epoch": 10.15985324947589,
      "grad_norm": 0.14553305506706238,
      "learning_rate": 0.0005730994292836555,
      "loss": 0.6105,
      "num_input_tokens_seen": 12677872,
      "step": 19385
    },
    {
      "epoch": 10.162473794549266,
      "grad_norm": 0.1284639686346054,
      "learning_rate": 0.0005728731931242445,
      "loss": 0.4022,
      "num_input_tokens_seen": 12684112,
      "step": 19390
    },
    {
      "epoch": 10.165094339622641,
      "grad_norm": 0.12242262065410614,
      "learning_rate": 0.0005726469417205928,
      "loss": 0.3103,
      "num_input_tokens_seen": 12686736,
      "step": 19395
    },
    {
      "epoch": 10.167714884696016,
      "grad_norm": 0.05563567951321602,
      "learning_rate": 0.0005724206751200297,
      "loss": 0.6424,
      "num_input_tokens_seen": 12690352,
      "step": 19400
    },
    {
      "epoch": 10.170335429769391,
      "grad_norm": 0.08593939244747162,
      "learning_rate": 0.0005721943933698879,
      "loss": 0.4044,
      "num_input_tokens_seen": 12693264,
      "step": 19405
    },
    {
      "epoch": 10.172955974842766,
      "grad_norm": 0.09520191699266434,
      "learning_rate": 0.0005719680965175023,
      "loss": 0.3814,
      "num_input_tokens_seen": 12695888,
      "step": 19410
    },
    {
      "epoch": 10.175576519916143,
      "grad_norm": 0.10653743147850037,
      "learning_rate": 0.000571741784610212,
      "loss": 0.4735,
      "num_input_tokens_seen": 12699216,
      "step": 19415
    },
    {
      "epoch": 10.178197064989519,
      "grad_norm": 0.07471439987421036,
      "learning_rate": 0.0005715154576953589,
      "loss": 0.4052,
      "num_input_tokens_seen": 12703344,
      "step": 19420
    },
    {
      "epoch": 10.180817610062894,
      "grad_norm": 0.0968952402472496,
      "learning_rate": 0.0005712891158202879,
      "loss": 0.3835,
      "num_input_tokens_seen": 12706480,
      "step": 19425
    },
    {
      "epoch": 10.183438155136269,
      "grad_norm": 0.11013349890708923,
      "learning_rate": 0.0005710627590323473,
      "loss": 0.452,
      "num_input_tokens_seen": 12709744,
      "step": 19430
    },
    {
      "epoch": 10.186058700209644,
      "grad_norm": 0.09358863532543182,
      "learning_rate": 0.0005708363873788882,
      "loss": 0.5193,
      "num_input_tokens_seen": 12712816,
      "step": 19435
    },
    {
      "epoch": 10.18867924528302,
      "grad_norm": 0.11911161243915558,
      "learning_rate": 0.0005706100009072649,
      "loss": 0.4559,
      "num_input_tokens_seen": 12716304,
      "step": 19440
    },
    {
      "epoch": 10.191299790356394,
      "grad_norm": 0.09406551718711853,
      "learning_rate": 0.000570383599664835,
      "loss": 0.4096,
      "num_input_tokens_seen": 12719216,
      "step": 19445
    },
    {
      "epoch": 10.19392033542977,
      "grad_norm": 0.1376129686832428,
      "learning_rate": 0.0005701571836989591,
      "loss": 0.5348,
      "num_input_tokens_seen": 12723312,
      "step": 19450
    },
    {
      "epoch": 10.196540880503145,
      "grad_norm": 0.0620347335934639,
      "learning_rate": 0.0005699307530570008,
      "loss": 0.4124,
      "num_input_tokens_seen": 12726320,
      "step": 19455
    },
    {
      "epoch": 10.19916142557652,
      "grad_norm": 0.09585399925708771,
      "learning_rate": 0.0005697043077863267,
      "loss": 0.5284,
      "num_input_tokens_seen": 12730128,
      "step": 19460
    },
    {
      "epoch": 10.201781970649895,
      "grad_norm": 0.06791529804468155,
      "learning_rate": 0.0005694778479343065,
      "loss": 0.6467,
      "num_input_tokens_seen": 12735024,
      "step": 19465
    },
    {
      "epoch": 10.20440251572327,
      "grad_norm": 0.1201506033539772,
      "learning_rate": 0.0005692513735483134,
      "loss": 0.3118,
      "num_input_tokens_seen": 12737872,
      "step": 19470
    },
    {
      "epoch": 10.207023060796645,
      "grad_norm": 0.12455113232135773,
      "learning_rate": 0.0005690248846757228,
      "loss": 0.3897,
      "num_input_tokens_seen": 12740400,
      "step": 19475
    },
    {
      "epoch": 10.20964360587002,
      "grad_norm": 0.10545849800109863,
      "learning_rate": 0.0005687983813639139,
      "loss": 0.3115,
      "num_input_tokens_seen": 12743664,
      "step": 19480
    },
    {
      "epoch": 10.212264150943396,
      "grad_norm": 0.10401374846696854,
      "learning_rate": 0.0005685718636602685,
      "loss": 0.5598,
      "num_input_tokens_seen": 12746512,
      "step": 19485
    },
    {
      "epoch": 10.214884696016771,
      "grad_norm": 0.08930328488349915,
      "learning_rate": 0.0005683453316121716,
      "loss": 0.4382,
      "num_input_tokens_seen": 12750160,
      "step": 19490
    },
    {
      "epoch": 10.217505241090146,
      "grad_norm": 0.07432622462511063,
      "learning_rate": 0.0005681187852670111,
      "loss": 0.4398,
      "num_input_tokens_seen": 12753520,
      "step": 19495
    },
    {
      "epoch": 10.220125786163521,
      "grad_norm": 0.08932963013648987,
      "learning_rate": 0.0005678922246721777,
      "loss": 0.4445,
      "num_input_tokens_seen": 12756624,
      "step": 19500
    },
    {
      "epoch": 10.222746331236896,
      "grad_norm": 0.15686839818954468,
      "learning_rate": 0.0005676656498750656,
      "loss": 0.4081,
      "num_input_tokens_seen": 12759248,
      "step": 19505
    },
    {
      "epoch": 10.225366876310272,
      "grad_norm": 0.1399465799331665,
      "learning_rate": 0.0005674390609230715,
      "loss": 0.3571,
      "num_input_tokens_seen": 12762384,
      "step": 19510
    },
    {
      "epoch": 10.227987421383649,
      "grad_norm": 0.12872251868247986,
      "learning_rate": 0.0005672124578635951,
      "loss": 0.4994,
      "num_input_tokens_seen": 12766224,
      "step": 19515
    },
    {
      "epoch": 10.230607966457024,
      "grad_norm": 0.12754365801811218,
      "learning_rate": 0.0005669858407440394,
      "loss": 0.4284,
      "num_input_tokens_seen": 12768912,
      "step": 19520
    },
    {
      "epoch": 10.233228511530399,
      "grad_norm": 0.09909353405237198,
      "learning_rate": 0.00056675920961181,
      "loss": 0.4074,
      "num_input_tokens_seen": 12772336,
      "step": 19525
    },
    {
      "epoch": 10.235849056603774,
      "grad_norm": 0.21178874373435974,
      "learning_rate": 0.0005665325645143155,
      "loss": 0.3786,
      "num_input_tokens_seen": 12775216,
      "step": 19530
    },
    {
      "epoch": 10.23846960167715,
      "grad_norm": 0.10017992556095123,
      "learning_rate": 0.0005663059054989679,
      "loss": 0.4101,
      "num_input_tokens_seen": 12778512,
      "step": 19535
    },
    {
      "epoch": 10.241090146750524,
      "grad_norm": 0.13995425403118134,
      "learning_rate": 0.0005660792326131809,
      "loss": 0.3331,
      "num_input_tokens_seen": 12782576,
      "step": 19540
    },
    {
      "epoch": 10.2437106918239,
      "grad_norm": 0.11166522651910782,
      "learning_rate": 0.0005658525459043725,
      "loss": 0.39,
      "num_input_tokens_seen": 12785584,
      "step": 19545
    },
    {
      "epoch": 10.246331236897275,
      "grad_norm": 0.10803329944610596,
      "learning_rate": 0.000565625845419963,
      "loss": 0.4391,
      "num_input_tokens_seen": 12788432,
      "step": 19550
    },
    {
      "epoch": 10.24895178197065,
      "grad_norm": 0.16949473321437836,
      "learning_rate": 0.000565399131207375,
      "loss": 0.6545,
      "num_input_tokens_seen": 12791312,
      "step": 19555
    },
    {
      "epoch": 10.251572327044025,
      "grad_norm": 0.08180146664381027,
      "learning_rate": 0.000565172403314035,
      "loss": 0.3727,
      "num_input_tokens_seen": 12795120,
      "step": 19560
    },
    {
      "epoch": 10.2541928721174,
      "grad_norm": 0.09370331466197968,
      "learning_rate": 0.0005649456617873717,
      "loss": 0.3717,
      "num_input_tokens_seen": 12798032,
      "step": 19565
    },
    {
      "epoch": 10.256813417190775,
      "grad_norm": 0.15120439231395721,
      "learning_rate": 0.0005647189066748169,
      "loss": 0.3985,
      "num_input_tokens_seen": 12800688,
      "step": 19570
    },
    {
      "epoch": 10.25943396226415,
      "grad_norm": 0.1035619005560875,
      "learning_rate": 0.0005644921380238052,
      "loss": 0.5216,
      "num_input_tokens_seen": 12804240,
      "step": 19575
    },
    {
      "epoch": 10.262054507337526,
      "grad_norm": 0.13452133536338806,
      "learning_rate": 0.000564265355881774,
      "loss": 0.4516,
      "num_input_tokens_seen": 12807216,
      "step": 19580
    },
    {
      "epoch": 10.264675052410901,
      "grad_norm": 0.09856753796339035,
      "learning_rate": 0.0005640385602961634,
      "loss": 0.4009,
      "num_input_tokens_seen": 12810352,
      "step": 19585
    },
    {
      "epoch": 10.267295597484276,
      "grad_norm": 0.15043464303016663,
      "learning_rate": 0.0005638117513144168,
      "loss": 0.4459,
      "num_input_tokens_seen": 12813328,
      "step": 19590
    },
    {
      "epoch": 10.269916142557651,
      "grad_norm": 0.13640464842319489,
      "learning_rate": 0.0005635849289839797,
      "loss": 0.4574,
      "num_input_tokens_seen": 12816336,
      "step": 19595
    },
    {
      "epoch": 10.272536687631026,
      "grad_norm": 0.15934032201766968,
      "learning_rate": 0.000563358093352301,
      "loss": 0.382,
      "num_input_tokens_seen": 12820624,
      "step": 19600
    },
    {
      "epoch": 10.275157232704402,
      "grad_norm": 0.09821782261133194,
      "learning_rate": 0.0005631312444668318,
      "loss": 0.5047,
      "num_input_tokens_seen": 12824176,
      "step": 19605
    },
    {
      "epoch": 10.277777777777779,
      "grad_norm": 0.13588541746139526,
      "learning_rate": 0.0005629043823750266,
      "loss": 0.5321,
      "num_input_tokens_seen": 12827376,
      "step": 19610
    },
    {
      "epoch": 10.280398322851154,
      "grad_norm": 0.1517147421836853,
      "learning_rate": 0.0005626775071243423,
      "loss": 0.3083,
      "num_input_tokens_seen": 12830704,
      "step": 19615
    },
    {
      "epoch": 10.283018867924529,
      "grad_norm": 0.10232327878475189,
      "learning_rate": 0.0005624506187622384,
      "loss": 0.5405,
      "num_input_tokens_seen": 12833616,
      "step": 19620
    },
    {
      "epoch": 10.285639412997904,
      "grad_norm": 0.08166618645191193,
      "learning_rate": 0.0005622237173361777,
      "loss": 0.4683,
      "num_input_tokens_seen": 12836688,
      "step": 19625
    },
    {
      "epoch": 10.28825995807128,
      "grad_norm": 0.08148292452096939,
      "learning_rate": 0.0005619968028936252,
      "loss": 0.5028,
      "num_input_tokens_seen": 12840656,
      "step": 19630
    },
    {
      "epoch": 10.290880503144654,
      "grad_norm": 0.09276816993951797,
      "learning_rate": 0.0005617698754820489,
      "loss": 0.433,
      "num_input_tokens_seen": 12843408,
      "step": 19635
    },
    {
      "epoch": 10.29350104821803,
      "grad_norm": 0.1064811646938324,
      "learning_rate": 0.0005615429351489192,
      "loss": 0.5431,
      "num_input_tokens_seen": 12846224,
      "step": 19640
    },
    {
      "epoch": 10.296121593291405,
      "grad_norm": 0.16799329221248627,
      "learning_rate": 0.0005613159819417095,
      "loss": 0.548,
      "num_input_tokens_seen": 12850288,
      "step": 19645
    },
    {
      "epoch": 10.29874213836478,
      "grad_norm": 0.1292349398136139,
      "learning_rate": 0.0005610890159078961,
      "loss": 0.4437,
      "num_input_tokens_seen": 12853424,
      "step": 19650
    },
    {
      "epoch": 10.301362683438155,
      "grad_norm": 0.16333869099617004,
      "learning_rate": 0.0005608620370949575,
      "loss": 0.4848,
      "num_input_tokens_seen": 12856656,
      "step": 19655
    },
    {
      "epoch": 10.30398322851153,
      "grad_norm": 0.1157824844121933,
      "learning_rate": 0.000560635045550375,
      "loss": 0.52,
      "num_input_tokens_seen": 12859248,
      "step": 19660
    },
    {
      "epoch": 10.306603773584905,
      "grad_norm": 0.10640665143728256,
      "learning_rate": 0.0005604080413216328,
      "loss": 0.3632,
      "num_input_tokens_seen": 12862160,
      "step": 19665
    },
    {
      "epoch": 10.30922431865828,
      "grad_norm": 0.22125747799873352,
      "learning_rate": 0.0005601810244562175,
      "loss": 0.5291,
      "num_input_tokens_seen": 12864304,
      "step": 19670
    },
    {
      "epoch": 10.311844863731656,
      "grad_norm": 0.10895510762929916,
      "learning_rate": 0.0005599539950016184,
      "loss": 0.5083,
      "num_input_tokens_seen": 12868752,
      "step": 19675
    },
    {
      "epoch": 10.314465408805031,
      "grad_norm": 0.08730626851320267,
      "learning_rate": 0.0005597269530053277,
      "loss": 0.4081,
      "num_input_tokens_seen": 12872112,
      "step": 19680
    },
    {
      "epoch": 10.317085953878406,
      "grad_norm": 0.24294638633728027,
      "learning_rate": 0.0005594998985148398,
      "loss": 0.4477,
      "num_input_tokens_seen": 12874576,
      "step": 19685
    },
    {
      "epoch": 10.319706498951781,
      "grad_norm": 0.13173098862171173,
      "learning_rate": 0.0005592728315776519,
      "loss": 0.4509,
      "num_input_tokens_seen": 12877232,
      "step": 19690
    },
    {
      "epoch": 10.322327044025156,
      "grad_norm": 0.1300700455904007,
      "learning_rate": 0.0005590457522412638,
      "loss": 0.401,
      "num_input_tokens_seen": 12880656,
      "step": 19695
    },
    {
      "epoch": 10.324947589098532,
      "grad_norm": 0.12260672450065613,
      "learning_rate": 0.000558818660553178,
      "loss": 0.364,
      "num_input_tokens_seen": 12883472,
      "step": 19700
    },
    {
      "epoch": 10.327568134171909,
      "grad_norm": 0.14607450366020203,
      "learning_rate": 0.0005585915565608995,
      "loss": 0.3923,
      "num_input_tokens_seen": 12885776,
      "step": 19705
    },
    {
      "epoch": 10.330188679245284,
      "grad_norm": 0.17589642107486725,
      "learning_rate": 0.0005583644403119357,
      "loss": 0.4753,
      "num_input_tokens_seen": 12888688,
      "step": 19710
    },
    {
      "epoch": 10.332809224318659,
      "grad_norm": 0.11595425009727478,
      "learning_rate": 0.0005581373118537969,
      "loss": 0.4879,
      "num_input_tokens_seen": 12891664,
      "step": 19715
    },
    {
      "epoch": 10.335429769392034,
      "grad_norm": 0.2037249356508255,
      "learning_rate": 0.0005579101712339957,
      "loss": 0.4488,
      "num_input_tokens_seen": 12894832,
      "step": 19720
    },
    {
      "epoch": 10.33805031446541,
      "grad_norm": 0.08988293260335922,
      "learning_rate": 0.0005576830185000474,
      "loss": 0.2957,
      "num_input_tokens_seen": 12897744,
      "step": 19725
    },
    {
      "epoch": 10.340670859538784,
      "grad_norm": 0.16964603960514069,
      "learning_rate": 0.0005574558536994698,
      "loss": 0.4046,
      "num_input_tokens_seen": 12901008,
      "step": 19730
    },
    {
      "epoch": 10.34329140461216,
      "grad_norm": 0.10841861367225647,
      "learning_rate": 0.0005572286768797829,
      "loss": 0.4,
      "num_input_tokens_seen": 12903792,
      "step": 19735
    },
    {
      "epoch": 10.345911949685535,
      "grad_norm": 0.1439935714006424,
      "learning_rate": 0.0005570014880885098,
      "loss": 0.3995,
      "num_input_tokens_seen": 12907120,
      "step": 19740
    },
    {
      "epoch": 10.34853249475891,
      "grad_norm": 0.1988840252161026,
      "learning_rate": 0.0005567742873731757,
      "loss": 0.5274,
      "num_input_tokens_seen": 12910320,
      "step": 19745
    },
    {
      "epoch": 10.351153039832285,
      "grad_norm": 0.1573723703622818,
      "learning_rate": 0.0005565470747813085,
      "loss": 0.4983,
      "num_input_tokens_seen": 12913008,
      "step": 19750
    },
    {
      "epoch": 10.35377358490566,
      "grad_norm": 0.12743663787841797,
      "learning_rate": 0.0005563198503604382,
      "loss": 0.5478,
      "num_input_tokens_seen": 12916432,
      "step": 19755
    },
    {
      "epoch": 10.356394129979035,
      "grad_norm": 0.10483597218990326,
      "learning_rate": 0.0005560926141580978,
      "loss": 0.4626,
      "num_input_tokens_seen": 12919536,
      "step": 19760
    },
    {
      "epoch": 10.35901467505241,
      "grad_norm": 0.08470845967531204,
      "learning_rate": 0.0005558653662218225,
      "loss": 0.4148,
      "num_input_tokens_seen": 12922768,
      "step": 19765
    },
    {
      "epoch": 10.361635220125786,
      "grad_norm": 0.1098729595541954,
      "learning_rate": 0.00055563810659915,
      "loss": 0.4273,
      "num_input_tokens_seen": 12925840,
      "step": 19770
    },
    {
      "epoch": 10.364255765199161,
      "grad_norm": 0.14913402497768402,
      "learning_rate": 0.0005554108353376201,
      "loss": 0.3725,
      "num_input_tokens_seen": 12928656,
      "step": 19775
    },
    {
      "epoch": 10.366876310272536,
      "grad_norm": 0.14623427391052246,
      "learning_rate": 0.0005551835524847757,
      "loss": 0.4488,
      "num_input_tokens_seen": 12931504,
      "step": 19780
    },
    {
      "epoch": 10.369496855345911,
      "grad_norm": 0.09997770935297012,
      "learning_rate": 0.0005549562580881618,
      "loss": 0.4406,
      "num_input_tokens_seen": 12935056,
      "step": 19785
    },
    {
      "epoch": 10.372117400419286,
      "grad_norm": 0.24297389388084412,
      "learning_rate": 0.0005547289521953257,
      "loss": 0.3994,
      "num_input_tokens_seen": 12938064,
      "step": 19790
    },
    {
      "epoch": 10.374737945492662,
      "grad_norm": 0.09929215908050537,
      "learning_rate": 0.000554501634853817,
      "loss": 0.4553,
      "num_input_tokens_seen": 12941456,
      "step": 19795
    },
    {
      "epoch": 10.377358490566039,
      "grad_norm": 0.10405424982309341,
      "learning_rate": 0.0005542743061111883,
      "loss": 0.4018,
      "num_input_tokens_seen": 12945232,
      "step": 19800
    },
    {
      "epoch": 10.379979035639414,
      "grad_norm": 0.132859468460083,
      "learning_rate": 0.0005540469660149938,
      "loss": 0.3544,
      "num_input_tokens_seen": 12947760,
      "step": 19805
    },
    {
      "epoch": 10.382599580712789,
      "grad_norm": 0.08859997987747192,
      "learning_rate": 0.0005538196146127907,
      "loss": 0.4129,
      "num_input_tokens_seen": 12951216,
      "step": 19810
    },
    {
      "epoch": 10.385220125786164,
      "grad_norm": 0.11055377125740051,
      "learning_rate": 0.0005535922519521381,
      "loss": 0.3755,
      "num_input_tokens_seen": 12954544,
      "step": 19815
    },
    {
      "epoch": 10.38784067085954,
      "grad_norm": 0.17973029613494873,
      "learning_rate": 0.0005533648780805979,
      "loss": 0.5746,
      "num_input_tokens_seen": 12959568,
      "step": 19820
    },
    {
      "epoch": 10.390461215932914,
      "grad_norm": 0.08349721133708954,
      "learning_rate": 0.000553137493045734,
      "loss": 0.4495,
      "num_input_tokens_seen": 12962992,
      "step": 19825
    },
    {
      "epoch": 10.39308176100629,
      "grad_norm": 0.1467285007238388,
      "learning_rate": 0.0005529100968951127,
      "loss": 0.4134,
      "num_input_tokens_seen": 12966608,
      "step": 19830
    },
    {
      "epoch": 10.395702306079665,
      "grad_norm": 0.06711369007825851,
      "learning_rate": 0.0005526826896763029,
      "loss": 0.4217,
      "num_input_tokens_seen": 12969744,
      "step": 19835
    },
    {
      "epoch": 10.39832285115304,
      "grad_norm": 0.1860193908214569,
      "learning_rate": 0.0005524552714368753,
      "loss": 0.5114,
      "num_input_tokens_seen": 12972784,
      "step": 19840
    },
    {
      "epoch": 10.400943396226415,
      "grad_norm": 0.11959493160247803,
      "learning_rate": 0.0005522278422244035,
      "loss": 0.4346,
      "num_input_tokens_seen": 12976944,
      "step": 19845
    },
    {
      "epoch": 10.40356394129979,
      "grad_norm": 0.1245473250746727,
      "learning_rate": 0.0005520004020864631,
      "loss": 0.3396,
      "num_input_tokens_seen": 12979984,
      "step": 19850
    },
    {
      "epoch": 10.406184486373165,
      "grad_norm": 0.18778479099273682,
      "learning_rate": 0.0005517729510706315,
      "loss": 0.4716,
      "num_input_tokens_seen": 12982704,
      "step": 19855
    },
    {
      "epoch": 10.40880503144654,
      "grad_norm": 0.11688510328531265,
      "learning_rate": 0.0005515454892244892,
      "loss": 0.4334,
      "num_input_tokens_seen": 12985680,
      "step": 19860
    },
    {
      "epoch": 10.411425576519916,
      "grad_norm": 0.11664941906929016,
      "learning_rate": 0.0005513180165956189,
      "loss": 0.3971,
      "num_input_tokens_seen": 12989200,
      "step": 19865
    },
    {
      "epoch": 10.414046121593291,
      "grad_norm": 0.0789051502943039,
      "learning_rate": 0.0005510905332316049,
      "loss": 0.4143,
      "num_input_tokens_seen": 12992560,
      "step": 19870
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.22471243143081665,
      "learning_rate": 0.0005508630391800341,
      "loss": 0.3632,
      "num_input_tokens_seen": 12995472,
      "step": 19875
    },
    {
      "epoch": 10.419287211740041,
      "grad_norm": 0.11332698166370392,
      "learning_rate": 0.0005506355344884959,
      "loss": 0.4632,
      "num_input_tokens_seen": 12999024,
      "step": 19880
    },
    {
      "epoch": 10.421907756813416,
      "grad_norm": 0.11592622101306915,
      "learning_rate": 0.0005504080192045813,
      "loss": 0.3795,
      "num_input_tokens_seen": 13001744,
      "step": 19885
    },
    {
      "epoch": 10.424528301886792,
      "grad_norm": 0.15686754882335663,
      "learning_rate": 0.0005501804933758846,
      "loss": 0.4954,
      "num_input_tokens_seen": 13004272,
      "step": 19890
    },
    {
      "epoch": 10.427148846960169,
      "grad_norm": 0.22350412607192993,
      "learning_rate": 0.0005499529570500009,
      "loss": 0.501,
      "num_input_tokens_seen": 13007472,
      "step": 19895
    },
    {
      "epoch": 10.429769392033544,
      "grad_norm": 0.15185785293579102,
      "learning_rate": 0.0005497254102745285,
      "loss": 0.4285,
      "num_input_tokens_seen": 13011120,
      "step": 19900
    },
    {
      "epoch": 10.432389937106919,
      "grad_norm": 0.16900916397571564,
      "learning_rate": 0.0005494978530970676,
      "loss": 0.4291,
      "num_input_tokens_seen": 13013872,
      "step": 19905
    },
    {
      "epoch": 10.435010482180294,
      "grad_norm": 0.11078570038080215,
      "learning_rate": 0.0005492702855652206,
      "loss": 0.4703,
      "num_input_tokens_seen": 13016592,
      "step": 19910
    },
    {
      "epoch": 10.43763102725367,
      "grad_norm": 0.14610610902309418,
      "learning_rate": 0.000549042707726592,
      "loss": 0.3473,
      "num_input_tokens_seen": 13019888,
      "step": 19915
    },
    {
      "epoch": 10.440251572327044,
      "grad_norm": 0.07809162139892578,
      "learning_rate": 0.0005488151196287882,
      "loss": 0.554,
      "num_input_tokens_seen": 13023664,
      "step": 19920
    },
    {
      "epoch": 10.44287211740042,
      "grad_norm": 0.10230448842048645,
      "learning_rate": 0.0005485875213194184,
      "loss": 0.3819,
      "num_input_tokens_seen": 13027152,
      "step": 19925
    },
    {
      "epoch": 10.445492662473795,
      "grad_norm": 0.1270526945590973,
      "learning_rate": 0.0005483599128460935,
      "loss": 0.4611,
      "num_input_tokens_seen": 13030160,
      "step": 19930
    },
    {
      "epoch": 10.44811320754717,
      "grad_norm": 0.10057152807712555,
      "learning_rate": 0.0005481322942564266,
      "loss": 0.409,
      "num_input_tokens_seen": 13034000,
      "step": 19935
    },
    {
      "epoch": 10.450733752620545,
      "grad_norm": 0.09643945097923279,
      "learning_rate": 0.0005479046655980327,
      "loss": 0.3776,
      "num_input_tokens_seen": 13037392,
      "step": 19940
    },
    {
      "epoch": 10.45335429769392,
      "grad_norm": 0.14460724592208862,
      "learning_rate": 0.0005476770269185295,
      "loss": 0.4015,
      "num_input_tokens_seen": 13040496,
      "step": 19945
    },
    {
      "epoch": 10.455974842767295,
      "grad_norm": 0.38788461685180664,
      "learning_rate": 0.0005474493782655361,
      "loss": 0.4316,
      "num_input_tokens_seen": 13043248,
      "step": 19950
    },
    {
      "epoch": 10.45859538784067,
      "grad_norm": 0.2255769968032837,
      "learning_rate": 0.0005472217196866742,
      "loss": 0.4193,
      "num_input_tokens_seen": 13046512,
      "step": 19955
    },
    {
      "epoch": 10.461215932914046,
      "grad_norm": 0.12441136687994003,
      "learning_rate": 0.0005469940512295671,
      "loss": 0.4487,
      "num_input_tokens_seen": 13049616,
      "step": 19960
    },
    {
      "epoch": 10.463836477987421,
      "grad_norm": 0.1336430311203003,
      "learning_rate": 0.0005467663729418406,
      "loss": 0.3665,
      "num_input_tokens_seen": 13052048,
      "step": 19965
    },
    {
      "epoch": 10.466457023060796,
      "grad_norm": 0.24339559674263,
      "learning_rate": 0.0005465386848711225,
      "loss": 0.5146,
      "num_input_tokens_seen": 13054096,
      "step": 19970
    },
    {
      "epoch": 10.469077568134171,
      "grad_norm": 0.08627758920192719,
      "learning_rate": 0.0005463109870650426,
      "loss": 0.3607,
      "num_input_tokens_seen": 13057488,
      "step": 19975
    },
    {
      "epoch": 10.471698113207546,
      "grad_norm": 0.10105010867118835,
      "learning_rate": 0.0005460832795712323,
      "loss": 0.383,
      "num_input_tokens_seen": 13060336,
      "step": 19980
    },
    {
      "epoch": 10.474318658280922,
      "grad_norm": 0.08879278600215912,
      "learning_rate": 0.0005458555624373258,
      "loss": 0.4403,
      "num_input_tokens_seen": 13063728,
      "step": 19985
    },
    {
      "epoch": 10.476939203354299,
      "grad_norm": 0.133588507771492,
      "learning_rate": 0.0005456278357109589,
      "loss": 0.4585,
      "num_input_tokens_seen": 13066256,
      "step": 19990
    },
    {
      "epoch": 10.479559748427674,
      "grad_norm": 0.13026708364486694,
      "learning_rate": 0.0005454000994397691,
      "loss": 0.5175,
      "num_input_tokens_seen": 13069424,
      "step": 19995
    },
    {
      "epoch": 10.482180293501049,
      "grad_norm": 0.12701444327831268,
      "learning_rate": 0.0005451723536713965,
      "loss": 0.3734,
      "num_input_tokens_seen": 13072560,
      "step": 20000
    },
    {
      "epoch": 10.484800838574424,
      "grad_norm": 0.10718289017677307,
      "learning_rate": 0.0005449445984534828,
      "loss": 0.5688,
      "num_input_tokens_seen": 13076176,
      "step": 20005
    },
    {
      "epoch": 10.4874213836478,
      "grad_norm": 0.09348221868276596,
      "learning_rate": 0.0005447168338336721,
      "loss": 0.4306,
      "num_input_tokens_seen": 13079984,
      "step": 20010
    },
    {
      "epoch": 10.490041928721174,
      "grad_norm": 0.09471307694911957,
      "learning_rate": 0.0005444890598596098,
      "loss": 0.3919,
      "num_input_tokens_seen": 13082928,
      "step": 20015
    },
    {
      "epoch": 10.49266247379455,
      "grad_norm": 0.09065566211938858,
      "learning_rate": 0.0005442612765789437,
      "loss": 0.5306,
      "num_input_tokens_seen": 13085776,
      "step": 20020
    },
    {
      "epoch": 10.495283018867925,
      "grad_norm": 0.09867990016937256,
      "learning_rate": 0.0005440334840393235,
      "loss": 0.3944,
      "num_input_tokens_seen": 13088656,
      "step": 20025
    },
    {
      "epoch": 10.4979035639413,
      "grad_norm": 0.11088432371616364,
      "learning_rate": 0.0005438056822884007,
      "loss": 0.4485,
      "num_input_tokens_seen": 13091728,
      "step": 20030
    },
    {
      "epoch": 10.500524109014675,
      "grad_norm": 0.09352476894855499,
      "learning_rate": 0.0005435778713738292,
      "loss": 0.5598,
      "num_input_tokens_seen": 13096048,
      "step": 20035
    },
    {
      "epoch": 10.50314465408805,
      "grad_norm": 0.11664571613073349,
      "learning_rate": 0.0005433500513432639,
      "loss": 0.5422,
      "num_input_tokens_seen": 13098608,
      "step": 20040
    },
    {
      "epoch": 10.505765199161425,
      "grad_norm": 0.12881697714328766,
      "learning_rate": 0.0005431222222443626,
      "loss": 0.4398,
      "num_input_tokens_seen": 13101872,
      "step": 20045
    },
    {
      "epoch": 10.5083857442348,
      "grad_norm": 0.0900137647986412,
      "learning_rate": 0.0005428943841247843,
      "loss": 0.4597,
      "num_input_tokens_seen": 13109072,
      "step": 20050
    },
    {
      "epoch": 10.511006289308176,
      "grad_norm": 0.19723062217235565,
      "learning_rate": 0.0005426665370321901,
      "loss": 0.4253,
      "num_input_tokens_seen": 13112080,
      "step": 20055
    },
    {
      "epoch": 10.51362683438155,
      "grad_norm": 0.08995455503463745,
      "learning_rate": 0.0005424386810142433,
      "loss": 0.3858,
      "num_input_tokens_seen": 13114704,
      "step": 20060
    },
    {
      "epoch": 10.516247379454926,
      "grad_norm": 0.10325802117586136,
      "learning_rate": 0.0005422108161186086,
      "loss": 0.5378,
      "num_input_tokens_seen": 13117360,
      "step": 20065
    },
    {
      "epoch": 10.518867924528301,
      "grad_norm": 0.08347077667713165,
      "learning_rate": 0.0005419829423929525,
      "loss": 0.4004,
      "num_input_tokens_seen": 13121104,
      "step": 20070
    },
    {
      "epoch": 10.521488469601676,
      "grad_norm": 0.1096155047416687,
      "learning_rate": 0.0005417550598849441,
      "loss": 0.4072,
      "num_input_tokens_seen": 13124464,
      "step": 20075
    },
    {
      "epoch": 10.524109014675052,
      "grad_norm": 0.12479033321142197,
      "learning_rate": 0.0005415271686422534,
      "loss": 0.3649,
      "num_input_tokens_seen": 13127024,
      "step": 20080
    },
    {
      "epoch": 10.526729559748428,
      "grad_norm": 0.1555185168981552,
      "learning_rate": 0.0005412992687125527,
      "loss": 0.411,
      "num_input_tokens_seen": 13129936,
      "step": 20085
    },
    {
      "epoch": 10.529350104821804,
      "grad_norm": 0.14765365421772003,
      "learning_rate": 0.0005410713601435164,
      "loss": 0.4123,
      "num_input_tokens_seen": 13132656,
      "step": 20090
    },
    {
      "epoch": 10.531970649895179,
      "grad_norm": 0.08883940428495407,
      "learning_rate": 0.0005408434429828199,
      "loss": 0.4763,
      "num_input_tokens_seen": 13136528,
      "step": 20095
    },
    {
      "epoch": 10.534591194968554,
      "grad_norm": 0.09350511431694031,
      "learning_rate": 0.0005406155172781412,
      "loss": 0.3792,
      "num_input_tokens_seen": 13139568,
      "step": 20100
    },
    {
      "epoch": 10.53721174004193,
      "grad_norm": 0.12008367478847504,
      "learning_rate": 0.0005403875830771596,
      "loss": 0.3807,
      "num_input_tokens_seen": 13142704,
      "step": 20105
    },
    {
      "epoch": 10.539832285115304,
      "grad_norm": 0.1282113492488861,
      "learning_rate": 0.0005401596404275564,
      "loss": 0.5006,
      "num_input_tokens_seen": 13145936,
      "step": 20110
    },
    {
      "epoch": 10.54245283018868,
      "grad_norm": 0.1046561673283577,
      "learning_rate": 0.0005399316893770147,
      "loss": 0.5378,
      "num_input_tokens_seen": 13149360,
      "step": 20115
    },
    {
      "epoch": 10.545073375262055,
      "grad_norm": 0.17283880710601807,
      "learning_rate": 0.0005397037299732189,
      "loss": 0.5369,
      "num_input_tokens_seen": 13151920,
      "step": 20120
    },
    {
      "epoch": 10.54769392033543,
      "grad_norm": 0.11752065271139145,
      "learning_rate": 0.000539475762263856,
      "loss": 0.4774,
      "num_input_tokens_seen": 13155024,
      "step": 20125
    },
    {
      "epoch": 10.550314465408805,
      "grad_norm": 0.13019917905330658,
      "learning_rate": 0.0005392477862966138,
      "loss": 0.4597,
      "num_input_tokens_seen": 13158320,
      "step": 20130
    },
    {
      "epoch": 10.55293501048218,
      "grad_norm": 0.12398676574230194,
      "learning_rate": 0.0005390198021191827,
      "loss": 0.4267,
      "num_input_tokens_seen": 13161040,
      "step": 20135
    },
    {
      "epoch": 10.555555555555555,
      "grad_norm": 0.20516039431095123,
      "learning_rate": 0.000538791809779254,
      "loss": 0.3607,
      "num_input_tokens_seen": 13163984,
      "step": 20140
    },
    {
      "epoch": 10.55817610062893,
      "grad_norm": 0.14843063056468964,
      "learning_rate": 0.0005385638093245213,
      "loss": 0.5564,
      "num_input_tokens_seen": 13167888,
      "step": 20145
    },
    {
      "epoch": 10.560796645702306,
      "grad_norm": 0.0598343200981617,
      "learning_rate": 0.0005383358008026795,
      "loss": 0.4008,
      "num_input_tokens_seen": 13171312,
      "step": 20150
    },
    {
      "epoch": 10.56341719077568,
      "grad_norm": 0.13259416818618774,
      "learning_rate": 0.0005381077842614257,
      "loss": 0.4546,
      "num_input_tokens_seen": 13174192,
      "step": 20155
    },
    {
      "epoch": 10.566037735849056,
      "grad_norm": 0.09525424242019653,
      "learning_rate": 0.0005378797597484582,
      "loss": 0.5295,
      "num_input_tokens_seen": 13178736,
      "step": 20160
    },
    {
      "epoch": 10.568658280922431,
      "grad_norm": 0.08316601067781448,
      "learning_rate": 0.0005376517273114771,
      "loss": 0.3913,
      "num_input_tokens_seen": 13181392,
      "step": 20165
    },
    {
      "epoch": 10.571278825995806,
      "grad_norm": 0.09708501398563385,
      "learning_rate": 0.0005374236869981841,
      "loss": 0.377,
      "num_input_tokens_seen": 13184496,
      "step": 20170
    },
    {
      "epoch": 10.573899371069182,
      "grad_norm": 0.14496095478534698,
      "learning_rate": 0.0005371956388562827,
      "loss": 0.5065,
      "num_input_tokens_seen": 13187760,
      "step": 20175
    },
    {
      "epoch": 10.576519916142558,
      "grad_norm": 0.20548540353775024,
      "learning_rate": 0.0005369675829334782,
      "loss": 0.3753,
      "num_input_tokens_seen": 13190640,
      "step": 20180
    },
    {
      "epoch": 10.579140461215934,
      "grad_norm": 0.1314241886138916,
      "learning_rate": 0.0005367395192774769,
      "loss": 0.4403,
      "num_input_tokens_seen": 13193840,
      "step": 20185
    },
    {
      "epoch": 10.581761006289309,
      "grad_norm": 0.09526025503873825,
      "learning_rate": 0.0005365114479359875,
      "loss": 0.4971,
      "num_input_tokens_seen": 13197648,
      "step": 20190
    },
    {
      "epoch": 10.584381551362684,
      "grad_norm": 0.09765823185443878,
      "learning_rate": 0.0005362833689567197,
      "loss": 0.2619,
      "num_input_tokens_seen": 13201808,
      "step": 20195
    },
    {
      "epoch": 10.58700209643606,
      "grad_norm": 0.1381268948316574,
      "learning_rate": 0.0005360552823873849,
      "loss": 0.5487,
      "num_input_tokens_seen": 13204976,
      "step": 20200
    },
    {
      "epoch": 10.589622641509434,
      "grad_norm": 0.18087954819202423,
      "learning_rate": 0.0005358271882756966,
      "loss": 0.5263,
      "num_input_tokens_seen": 13207856,
      "step": 20205
    },
    {
      "epoch": 10.59224318658281,
      "grad_norm": 0.19481052458286285,
      "learning_rate": 0.0005355990866693689,
      "loss": 0.3342,
      "num_input_tokens_seen": 13210768,
      "step": 20210
    },
    {
      "epoch": 10.594863731656185,
      "grad_norm": 0.1271095722913742,
      "learning_rate": 0.0005353709776161187,
      "loss": 0.5088,
      "num_input_tokens_seen": 13213776,
      "step": 20215
    },
    {
      "epoch": 10.59748427672956,
      "grad_norm": 0.09862782806158066,
      "learning_rate": 0.0005351428611636636,
      "loss": 0.5794,
      "num_input_tokens_seen": 13217104,
      "step": 20220
    },
    {
      "epoch": 10.600104821802935,
      "grad_norm": 0.06879469752311707,
      "learning_rate": 0.0005349147373597226,
      "loss": 0.395,
      "num_input_tokens_seen": 13220048,
      "step": 20225
    },
    {
      "epoch": 10.60272536687631,
      "grad_norm": 0.13896657526493073,
      "learning_rate": 0.000534686606252017,
      "loss": 0.4325,
      "num_input_tokens_seen": 13223376,
      "step": 20230
    },
    {
      "epoch": 10.605345911949685,
      "grad_norm": 0.12488805502653122,
      "learning_rate": 0.0005344584678882692,
      "loss": 0.5175,
      "num_input_tokens_seen": 13226512,
      "step": 20235
    },
    {
      "epoch": 10.60796645702306,
      "grad_norm": 0.08729437738656998,
      "learning_rate": 0.0005342303223162027,
      "loss": 0.3674,
      "num_input_tokens_seen": 13229744,
      "step": 20240
    },
    {
      "epoch": 10.610587002096436,
      "grad_norm": 0.08886808156967163,
      "learning_rate": 0.0005340021695835437,
      "loss": 0.4209,
      "num_input_tokens_seen": 13233552,
      "step": 20245
    },
    {
      "epoch": 10.61320754716981,
      "grad_norm": 0.11993158608675003,
      "learning_rate": 0.0005337740097380184,
      "loss": 0.3803,
      "num_input_tokens_seen": 13237008,
      "step": 20250
    },
    {
      "epoch": 10.615828092243186,
      "grad_norm": 0.13558723032474518,
      "learning_rate": 0.0005335458428273557,
      "loss": 0.3224,
      "num_input_tokens_seen": 13240080,
      "step": 20255
    },
    {
      "epoch": 10.618448637316561,
      "grad_norm": 0.12076767534017563,
      "learning_rate": 0.0005333176688992855,
      "loss": 0.4703,
      "num_input_tokens_seen": 13243408,
      "step": 20260
    },
    {
      "epoch": 10.621069182389936,
      "grad_norm": 0.13823562860488892,
      "learning_rate": 0.000533089488001539,
      "loss": 0.5277,
      "num_input_tokens_seen": 13247152,
      "step": 20265
    },
    {
      "epoch": 10.623689727463312,
      "grad_norm": 0.09107458591461182,
      "learning_rate": 0.0005328613001818492,
      "loss": 0.3229,
      "num_input_tokens_seen": 13251376,
      "step": 20270
    },
    {
      "epoch": 10.626310272536688,
      "grad_norm": 0.11235371977090836,
      "learning_rate": 0.0005326331054879502,
      "loss": 0.3852,
      "num_input_tokens_seen": 13254992,
      "step": 20275
    },
    {
      "epoch": 10.628930817610064,
      "grad_norm": 0.1147443875670433,
      "learning_rate": 0.0005324049039675778,
      "loss": 0.4377,
      "num_input_tokens_seen": 13257712,
      "step": 20280
    },
    {
      "epoch": 10.631551362683439,
      "grad_norm": 0.12743468582630157,
      "learning_rate": 0.0005321766956684693,
      "loss": 0.3702,
      "num_input_tokens_seen": 13262192,
      "step": 20285
    },
    {
      "epoch": 10.634171907756814,
      "grad_norm": 0.07508701086044312,
      "learning_rate": 0.0005319484806383631,
      "loss": 0.4912,
      "num_input_tokens_seen": 13266832,
      "step": 20290
    },
    {
      "epoch": 10.63679245283019,
      "grad_norm": 0.19447660446166992,
      "learning_rate": 0.0005317202589249991,
      "loss": 0.4928,
      "num_input_tokens_seen": 13269424,
      "step": 20295
    },
    {
      "epoch": 10.639412997903564,
      "grad_norm": 0.11456628143787384,
      "learning_rate": 0.0005314920305761191,
      "loss": 0.5589,
      "num_input_tokens_seen": 13272144,
      "step": 20300
    },
    {
      "epoch": 10.64203354297694,
      "grad_norm": 0.1157691553235054,
      "learning_rate": 0.0005312637956394654,
      "loss": 0.4031,
      "num_input_tokens_seen": 13275376,
      "step": 20305
    },
    {
      "epoch": 10.644654088050315,
      "grad_norm": 0.11811770498752594,
      "learning_rate": 0.0005310355541627824,
      "loss": 0.3823,
      "num_input_tokens_seen": 13278320,
      "step": 20310
    },
    {
      "epoch": 10.64727463312369,
      "grad_norm": 0.20464269816875458,
      "learning_rate": 0.0005308073061938153,
      "loss": 0.4823,
      "num_input_tokens_seen": 13280816,
      "step": 20315
    },
    {
      "epoch": 10.649895178197065,
      "grad_norm": 0.09690547734498978,
      "learning_rate": 0.0005305790517803115,
      "loss": 0.6439,
      "num_input_tokens_seen": 13284784,
      "step": 20320
    },
    {
      "epoch": 10.65251572327044,
      "grad_norm": 0.09936420619487762,
      "learning_rate": 0.0005303507909700189,
      "loss": 0.5849,
      "num_input_tokens_seen": 13287376,
      "step": 20325
    },
    {
      "epoch": 10.655136268343815,
      "grad_norm": 0.09876690804958344,
      "learning_rate": 0.000530122523810687,
      "loss": 0.2876,
      "num_input_tokens_seen": 13290928,
      "step": 20330
    },
    {
      "epoch": 10.65775681341719,
      "grad_norm": 0.24354799091815948,
      "learning_rate": 0.0005298942503500668,
      "loss": 0.5562,
      "num_input_tokens_seen": 13294192,
      "step": 20335
    },
    {
      "epoch": 10.660377358490566,
      "grad_norm": 0.17461974918842316,
      "learning_rate": 0.0005296659706359105,
      "loss": 0.4557,
      "num_input_tokens_seen": 13297456,
      "step": 20340
    },
    {
      "epoch": 10.66299790356394,
      "grad_norm": 0.10039780288934708,
      "learning_rate": 0.0005294376847159716,
      "loss": 0.6244,
      "num_input_tokens_seen": 13301008,
      "step": 20345
    },
    {
      "epoch": 10.665618448637316,
      "grad_norm": 0.1424005925655365,
      "learning_rate": 0.0005292093926380049,
      "loss": 0.5067,
      "num_input_tokens_seen": 13304368,
      "step": 20350
    },
    {
      "epoch": 10.668238993710691,
      "grad_norm": 0.1433793604373932,
      "learning_rate": 0.0005289810944497663,
      "loss": 0.5514,
      "num_input_tokens_seen": 13306864,
      "step": 20355
    },
    {
      "epoch": 10.670859538784066,
      "grad_norm": 0.14659880101680756,
      "learning_rate": 0.0005287527901990137,
      "loss": 0.4494,
      "num_input_tokens_seen": 13310352,
      "step": 20360
    },
    {
      "epoch": 10.673480083857442,
      "grad_norm": 0.1783721148967743,
      "learning_rate": 0.0005285244799335053,
      "loss": 0.4922,
      "num_input_tokens_seen": 13313488,
      "step": 20365
    },
    {
      "epoch": 10.676100628930818,
      "grad_norm": 0.21169158816337585,
      "learning_rate": 0.0005282961637010009,
      "loss": 0.4333,
      "num_input_tokens_seen": 13316112,
      "step": 20370
    },
    {
      "epoch": 10.678721174004194,
      "grad_norm": 0.07243939489126205,
      "learning_rate": 0.0005280678415492621,
      "loss": 0.4412,
      "num_input_tokens_seen": 13320528,
      "step": 20375
    },
    {
      "epoch": 10.681341719077569,
      "grad_norm": 0.08690328150987625,
      "learning_rate": 0.0005278395135260512,
      "loss": 0.4569,
      "num_input_tokens_seen": 13323888,
      "step": 20380
    },
    {
      "epoch": 10.683962264150944,
      "grad_norm": 0.125441774725914,
      "learning_rate": 0.0005276111796791314,
      "loss": 0.5321,
      "num_input_tokens_seen": 13327568,
      "step": 20385
    },
    {
      "epoch": 10.68658280922432,
      "grad_norm": 0.16432401537895203,
      "learning_rate": 0.000527382840056268,
      "loss": 0.5574,
      "num_input_tokens_seen": 13330096,
      "step": 20390
    },
    {
      "epoch": 10.689203354297694,
      "grad_norm": 0.1639891266822815,
      "learning_rate": 0.0005271544947052267,
      "loss": 0.4027,
      "num_input_tokens_seen": 13332560,
      "step": 20395
    },
    {
      "epoch": 10.69182389937107,
      "grad_norm": 0.10012872517108917,
      "learning_rate": 0.000526926143673775,
      "loss": 0.5737,
      "num_input_tokens_seen": 13336080,
      "step": 20400
    },
    {
      "epoch": 10.694444444444445,
      "grad_norm": 0.26539334654808044,
      "learning_rate": 0.0005266977870096813,
      "loss": 0.3957,
      "num_input_tokens_seen": 13339696,
      "step": 20405
    },
    {
      "epoch": 10.69706498951782,
      "grad_norm": 0.06645004451274872,
      "learning_rate": 0.000526469424760715,
      "loss": 0.4127,
      "num_input_tokens_seen": 13343760,
      "step": 20410
    },
    {
      "epoch": 10.699685534591195,
      "grad_norm": 0.13993363082408905,
      "learning_rate": 0.0005262410569746471,
      "loss": 0.5125,
      "num_input_tokens_seen": 13346928,
      "step": 20415
    },
    {
      "epoch": 10.70230607966457,
      "grad_norm": 0.08412140607833862,
      "learning_rate": 0.0005260126836992495,
      "loss": 0.5421,
      "num_input_tokens_seen": 13349968,
      "step": 20420
    },
    {
      "epoch": 10.704926624737945,
      "grad_norm": 0.2008841633796692,
      "learning_rate": 0.000525784304982295,
      "loss": 0.4836,
      "num_input_tokens_seen": 13353232,
      "step": 20425
    },
    {
      "epoch": 10.70754716981132,
      "grad_norm": 0.14825651049613953,
      "learning_rate": 0.0005255559208715585,
      "loss": 0.4313,
      "num_input_tokens_seen": 13356496,
      "step": 20430
    },
    {
      "epoch": 10.710167714884696,
      "grad_norm": 0.13450056314468384,
      "learning_rate": 0.0005253275314148145,
      "loss": 0.4693,
      "num_input_tokens_seen": 13360656,
      "step": 20435
    },
    {
      "epoch": 10.71278825995807,
      "grad_norm": 0.1256178766489029,
      "learning_rate": 0.0005250991366598401,
      "loss": 0.3505,
      "num_input_tokens_seen": 13363984,
      "step": 20440
    },
    {
      "epoch": 10.715408805031446,
      "grad_norm": 0.22127123177051544,
      "learning_rate": 0.0005248707366544126,
      "loss": 0.4612,
      "num_input_tokens_seen": 13367664,
      "step": 20445
    },
    {
      "epoch": 10.718029350104821,
      "grad_norm": 0.23529955744743347,
      "learning_rate": 0.0005246423314463106,
      "loss": 0.3571,
      "num_input_tokens_seen": 13369744,
      "step": 20450
    },
    {
      "epoch": 10.720649895178196,
      "grad_norm": 0.10581902414560318,
      "learning_rate": 0.000524413921083314,
      "loss": 0.4297,
      "num_input_tokens_seen": 13373584,
      "step": 20455
    },
    {
      "epoch": 10.723270440251572,
      "grad_norm": 0.09316805750131607,
      "learning_rate": 0.0005241855056132039,
      "loss": 0.4969,
      "num_input_tokens_seen": 13377232,
      "step": 20460
    },
    {
      "epoch": 10.725890985324948,
      "grad_norm": 0.11650831252336502,
      "learning_rate": 0.0005239570850837617,
      "loss": 0.5641,
      "num_input_tokens_seen": 13380944,
      "step": 20465
    },
    {
      "epoch": 10.728511530398324,
      "grad_norm": 0.15696026384830475,
      "learning_rate": 0.0005237286595427709,
      "loss": 0.4418,
      "num_input_tokens_seen": 13385072,
      "step": 20470
    },
    {
      "epoch": 10.731132075471699,
      "grad_norm": 0.11881249397993088,
      "learning_rate": 0.000523500229038015,
      "loss": 0.4381,
      "num_input_tokens_seen": 13388016,
      "step": 20475
    },
    {
      "epoch": 10.733752620545074,
      "grad_norm": 0.09760258346796036,
      "learning_rate": 0.0005232717936172794,
      "loss": 0.4691,
      "num_input_tokens_seen": 13391760,
      "step": 20480
    },
    {
      "epoch": 10.73637316561845,
      "grad_norm": 0.09885180741548538,
      "learning_rate": 0.0005230433533283498,
      "loss": 0.5331,
      "num_input_tokens_seen": 13396144,
      "step": 20485
    },
    {
      "epoch": 10.738993710691824,
      "grad_norm": 0.16008904576301575,
      "learning_rate": 0.0005228149082190139,
      "loss": 0.3732,
      "num_input_tokens_seen": 13399824,
      "step": 20490
    },
    {
      "epoch": 10.7416142557652,
      "grad_norm": 0.1006757840514183,
      "learning_rate": 0.0005225864583370594,
      "loss": 0.4265,
      "num_input_tokens_seen": 13403248,
      "step": 20495
    },
    {
      "epoch": 10.744234800838575,
      "grad_norm": 0.11756785959005356,
      "learning_rate": 0.0005223580037302754,
      "loss": 0.3832,
      "num_input_tokens_seen": 13405904,
      "step": 20500
    },
    {
      "epoch": 10.74685534591195,
      "grad_norm": 0.1542951762676239,
      "learning_rate": 0.0005221295444464522,
      "loss": 0.3659,
      "num_input_tokens_seen": 13409360,
      "step": 20505
    },
    {
      "epoch": 10.749475890985325,
      "grad_norm": 0.10553816705942154,
      "learning_rate": 0.0005219010805333807,
      "loss": 0.4065,
      "num_input_tokens_seen": 13412304,
      "step": 20510
    },
    {
      "epoch": 10.7520964360587,
      "grad_norm": 0.13314762711524963,
      "learning_rate": 0.000521672612038853,
      "loss": 0.4604,
      "num_input_tokens_seen": 13415568,
      "step": 20515
    },
    {
      "epoch": 10.754716981132075,
      "grad_norm": 0.16380693018436432,
      "learning_rate": 0.0005214441390106624,
      "loss": 0.4805,
      "num_input_tokens_seen": 13418160,
      "step": 20520
    },
    {
      "epoch": 10.75733752620545,
      "grad_norm": 0.13647238910198212,
      "learning_rate": 0.0005212156614966022,
      "loss": 0.3207,
      "num_input_tokens_seen": 13421168,
      "step": 20525
    },
    {
      "epoch": 10.759958071278826,
      "grad_norm": 0.08558963984251022,
      "learning_rate": 0.0005209871795444678,
      "loss": 0.3944,
      "num_input_tokens_seen": 13423824,
      "step": 20530
    },
    {
      "epoch": 10.7625786163522,
      "grad_norm": 0.11682350188493729,
      "learning_rate": 0.000520758693202055,
      "loss": 0.4064,
      "num_input_tokens_seen": 13426928,
      "step": 20535
    },
    {
      "epoch": 10.765199161425576,
      "grad_norm": 0.09352771937847137,
      "learning_rate": 0.0005205302025171601,
      "loss": 0.4639,
      "num_input_tokens_seen": 13429712,
      "step": 20540
    },
    {
      "epoch": 10.767819706498951,
      "grad_norm": 0.08472044765949249,
      "learning_rate": 0.0005203017075375812,
      "loss": 0.3653,
      "num_input_tokens_seen": 13433648,
      "step": 20545
    },
    {
      "epoch": 10.770440251572326,
      "grad_norm": 0.15754207968711853,
      "learning_rate": 0.0005200732083111169,
      "loss": 0.3986,
      "num_input_tokens_seen": 13436048,
      "step": 20550
    },
    {
      "epoch": 10.773060796645701,
      "grad_norm": 0.14299893379211426,
      "learning_rate": 0.000519844704885566,
      "loss": 0.4767,
      "num_input_tokens_seen": 13438672,
      "step": 20555
    },
    {
      "epoch": 10.775681341719078,
      "grad_norm": 0.11011461168527603,
      "learning_rate": 0.0005196161973087297,
      "loss": 0.3604,
      "num_input_tokens_seen": 13440976,
      "step": 20560
    },
    {
      "epoch": 10.778301886792454,
      "grad_norm": 0.12106092274188995,
      "learning_rate": 0.0005193876856284084,
      "loss": 0.3409,
      "num_input_tokens_seen": 13444528,
      "step": 20565
    },
    {
      "epoch": 10.780922431865829,
      "grad_norm": 0.24421074986457825,
      "learning_rate": 0.0005191591698924046,
      "loss": 0.4983,
      "num_input_tokens_seen": 13447664,
      "step": 20570
    },
    {
      "epoch": 10.783542976939204,
      "grad_norm": 0.09911254048347473,
      "learning_rate": 0.0005189306501485211,
      "loss": 0.5011,
      "num_input_tokens_seen": 13451312,
      "step": 20575
    },
    {
      "epoch": 10.786163522012579,
      "grad_norm": 0.1446632593870163,
      "learning_rate": 0.0005187021264445613,
      "loss": 0.4298,
      "num_input_tokens_seen": 13453776,
      "step": 20580
    },
    {
      "epoch": 10.788784067085954,
      "grad_norm": 0.20118287205696106,
      "learning_rate": 0.0005184735988283302,
      "loss": 0.4328,
      "num_input_tokens_seen": 13456656,
      "step": 20585
    },
    {
      "epoch": 10.79140461215933,
      "grad_norm": 0.10757164657115936,
      "learning_rate": 0.000518245067347633,
      "loss": 0.4352,
      "num_input_tokens_seen": 13459440,
      "step": 20590
    },
    {
      "epoch": 10.794025157232705,
      "grad_norm": 0.13998542726039886,
      "learning_rate": 0.0005180165320502756,
      "loss": 0.5419,
      "num_input_tokens_seen": 13462608,
      "step": 20595
    },
    {
      "epoch": 10.79664570230608,
      "grad_norm": 0.1391306221485138,
      "learning_rate": 0.0005177879929840655,
      "loss": 0.4384,
      "num_input_tokens_seen": 13465424,
      "step": 20600
    },
    {
      "epoch": 10.799266247379455,
      "grad_norm": 0.18044911324977875,
      "learning_rate": 0.0005175594501968103,
      "loss": 0.4461,
      "num_input_tokens_seen": 13468688,
      "step": 20605
    },
    {
      "epoch": 10.80188679245283,
      "grad_norm": 0.15423010289669037,
      "learning_rate": 0.0005173309037363182,
      "loss": 0.3716,
      "num_input_tokens_seen": 13471312,
      "step": 20610
    },
    {
      "epoch": 10.804507337526205,
      "grad_norm": 0.2118196189403534,
      "learning_rate": 0.0005171023536503991,
      "loss": 0.2687,
      "num_input_tokens_seen": 13474352,
      "step": 20615
    },
    {
      "epoch": 10.80712788259958,
      "grad_norm": 0.06834159791469574,
      "learning_rate": 0.0005168737999868624,
      "loss": 0.5295,
      "num_input_tokens_seen": 13478704,
      "step": 20620
    },
    {
      "epoch": 10.809748427672956,
      "grad_norm": 0.17818567156791687,
      "learning_rate": 0.0005166452427935193,
      "loss": 0.4343,
      "num_input_tokens_seen": 13481904,
      "step": 20625
    },
    {
      "epoch": 10.81236897274633,
      "grad_norm": 0.10407667607069016,
      "learning_rate": 0.0005164166821181814,
      "loss": 0.5895,
      "num_input_tokens_seen": 13484624,
      "step": 20630
    },
    {
      "epoch": 10.814989517819706,
      "grad_norm": 0.10163155943155289,
      "learning_rate": 0.0005161881180086607,
      "loss": 0.3895,
      "num_input_tokens_seen": 13488368,
      "step": 20635
    },
    {
      "epoch": 10.817610062893081,
      "grad_norm": 0.1322035938501358,
      "learning_rate": 0.0005159595505127705,
      "loss": 0.558,
      "num_input_tokens_seen": 13490672,
      "step": 20640
    },
    {
      "epoch": 10.820230607966456,
      "grad_norm": 0.1061524748802185,
      "learning_rate": 0.0005157309796783246,
      "loss": 0.4006,
      "num_input_tokens_seen": 13495984,
      "step": 20645
    },
    {
      "epoch": 10.822851153039831,
      "grad_norm": 0.16175180673599243,
      "learning_rate": 0.000515502405553137,
      "loss": 0.4193,
      "num_input_tokens_seen": 13498416,
      "step": 20650
    },
    {
      "epoch": 10.825471698113208,
      "grad_norm": 0.0985182598233223,
      "learning_rate": 0.0005152738281850231,
      "loss": 0.4831,
      "num_input_tokens_seen": 13502512,
      "step": 20655
    },
    {
      "epoch": 10.828092243186584,
      "grad_norm": 0.08770599216222763,
      "learning_rate": 0.0005150452476217986,
      "loss": 0.4985,
      "num_input_tokens_seen": 13506416,
      "step": 20660
    },
    {
      "epoch": 10.830712788259959,
      "grad_norm": 0.13816305994987488,
      "learning_rate": 0.0005148166639112799,
      "loss": 0.5668,
      "num_input_tokens_seen": 13509392,
      "step": 20665
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.24562722444534302,
      "learning_rate": 0.0005145880771012842,
      "loss": 0.5274,
      "num_input_tokens_seen": 13514032,
      "step": 20670
    },
    {
      "epoch": 10.835953878406709,
      "grad_norm": 0.1387433558702469,
      "learning_rate": 0.0005143594872396291,
      "loss": 0.4954,
      "num_input_tokens_seen": 13517968,
      "step": 20675
    },
    {
      "epoch": 10.838574423480084,
      "grad_norm": 0.05570732057094574,
      "learning_rate": 0.0005141308943741333,
      "loss": 0.5318,
      "num_input_tokens_seen": 13521616,
      "step": 20680
    },
    {
      "epoch": 10.84119496855346,
      "grad_norm": 0.11805916577577591,
      "learning_rate": 0.0005139022985526154,
      "loss": 0.3011,
      "num_input_tokens_seen": 13524592,
      "step": 20685
    },
    {
      "epoch": 10.843815513626835,
      "grad_norm": 0.10432586818933487,
      "learning_rate": 0.0005136736998228952,
      "loss": 0.5029,
      "num_input_tokens_seen": 13528048,
      "step": 20690
    },
    {
      "epoch": 10.84643605870021,
      "grad_norm": 0.09389755874872208,
      "learning_rate": 0.0005134450982327933,
      "loss": 0.4583,
      "num_input_tokens_seen": 13531120,
      "step": 20695
    },
    {
      "epoch": 10.849056603773585,
      "grad_norm": 0.11276329308748245,
      "learning_rate": 0.0005132164938301299,
      "loss": 0.4824,
      "num_input_tokens_seen": 13534288,
      "step": 20700
    },
    {
      "epoch": 10.85167714884696,
      "grad_norm": 0.08690806478261948,
      "learning_rate": 0.0005129878866627271,
      "loss": 0.5944,
      "num_input_tokens_seen": 13538032,
      "step": 20705
    },
    {
      "epoch": 10.854297693920335,
      "grad_norm": 0.20309937000274658,
      "learning_rate": 0.0005127592767784063,
      "loss": 0.4705,
      "num_input_tokens_seen": 13541008,
      "step": 20710
    },
    {
      "epoch": 10.85691823899371,
      "grad_norm": 0.15731659531593323,
      "learning_rate": 0.0005125306642249905,
      "loss": 0.49,
      "num_input_tokens_seen": 13544304,
      "step": 20715
    },
    {
      "epoch": 10.859538784067086,
      "grad_norm": 0.12066203355789185,
      "learning_rate": 0.0005123020490503027,
      "loss": 0.4857,
      "num_input_tokens_seen": 13548048,
      "step": 20720
    },
    {
      "epoch": 10.86215932914046,
      "grad_norm": 0.0935816541314125,
      "learning_rate": 0.0005120734313021665,
      "loss": 0.3266,
      "num_input_tokens_seen": 13554288,
      "step": 20725
    },
    {
      "epoch": 10.864779874213836,
      "grad_norm": 0.1414474993944168,
      "learning_rate": 0.0005118448110284063,
      "loss": 0.4999,
      "num_input_tokens_seen": 13558320,
      "step": 20730
    },
    {
      "epoch": 10.867400419287211,
      "grad_norm": 0.18863317370414734,
      "learning_rate": 0.0005116161882768469,
      "loss": 0.3623,
      "num_input_tokens_seen": 13561328,
      "step": 20735
    },
    {
      "epoch": 10.870020964360586,
      "grad_norm": 0.11979490518569946,
      "learning_rate": 0.0005113875630953131,
      "loss": 0.5736,
      "num_input_tokens_seen": 13566224,
      "step": 20740
    },
    {
      "epoch": 10.872641509433961,
      "grad_norm": 0.15189602971076965,
      "learning_rate": 0.0005111589355316314,
      "loss": 0.5918,
      "num_input_tokens_seen": 13568752,
      "step": 20745
    },
    {
      "epoch": 10.875262054507338,
      "grad_norm": 0.10150940716266632,
      "learning_rate": 0.0005109303056336274,
      "loss": 0.3887,
      "num_input_tokens_seen": 13571664,
      "step": 20750
    },
    {
      "epoch": 10.877882599580714,
      "grad_norm": 0.08511987328529358,
      "learning_rate": 0.0005107016734491281,
      "loss": 0.4338,
      "num_input_tokens_seen": 13574704,
      "step": 20755
    },
    {
      "epoch": 10.880503144654089,
      "grad_norm": 0.11078013479709625,
      "learning_rate": 0.0005104730390259611,
      "loss": 0.4672,
      "num_input_tokens_seen": 13577264,
      "step": 20760
    },
    {
      "epoch": 10.883123689727464,
      "grad_norm": 0.13176420331001282,
      "learning_rate": 0.0005102444024119537,
      "loss": 0.3565,
      "num_input_tokens_seen": 13580240,
      "step": 20765
    },
    {
      "epoch": 10.885744234800839,
      "grad_norm": 0.083295539021492,
      "learning_rate": 0.0005100157636549342,
      "loss": 0.391,
      "num_input_tokens_seen": 13583472,
      "step": 20770
    },
    {
      "epoch": 10.888364779874214,
      "grad_norm": 0.08657340705394745,
      "learning_rate": 0.0005097871228027312,
      "loss": 0.4552,
      "num_input_tokens_seen": 13586640,
      "step": 20775
    },
    {
      "epoch": 10.89098532494759,
      "grad_norm": 0.11471182852983475,
      "learning_rate": 0.0005095584799031736,
      "loss": 0.439,
      "num_input_tokens_seen": 13589680,
      "step": 20780
    },
    {
      "epoch": 10.893605870020965,
      "grad_norm": 0.2622021734714508,
      "learning_rate": 0.0005093298350040912,
      "loss": 0.6354,
      "num_input_tokens_seen": 13593072,
      "step": 20785
    },
    {
      "epoch": 10.89622641509434,
      "grad_norm": 0.11574646830558777,
      "learning_rate": 0.0005091011881533139,
      "loss": 0.413,
      "num_input_tokens_seen": 13596624,
      "step": 20790
    },
    {
      "epoch": 10.898846960167715,
      "grad_norm": 0.08066970854997635,
      "learning_rate": 0.0005088725393986716,
      "loss": 0.3862,
      "num_input_tokens_seen": 13599088,
      "step": 20795
    },
    {
      "epoch": 10.90146750524109,
      "grad_norm": 0.1131475642323494,
      "learning_rate": 0.0005086438887879955,
      "loss": 0.3726,
      "num_input_tokens_seen": 13601552,
      "step": 20800
    },
    {
      "epoch": 10.904088050314465,
      "grad_norm": 0.11683715134859085,
      "learning_rate": 0.0005084152363691164,
      "loss": 0.3692,
      "num_input_tokens_seen": 13604144,
      "step": 20805
    },
    {
      "epoch": 10.90670859538784,
      "grad_norm": 0.19489921629428864,
      "learning_rate": 0.0005081865821898658,
      "loss": 0.4546,
      "num_input_tokens_seen": 13606928,
      "step": 20810
    },
    {
      "epoch": 10.909329140461216,
      "grad_norm": 0.09103545546531677,
      "learning_rate": 0.0005079579262980756,
      "loss": 0.4213,
      "num_input_tokens_seen": 13610320,
      "step": 20815
    },
    {
      "epoch": 10.91194968553459,
      "grad_norm": 0.05119582638144493,
      "learning_rate": 0.0005077292687415781,
      "loss": 0.6735,
      "num_input_tokens_seen": 13613680,
      "step": 20820
    },
    {
      "epoch": 10.914570230607966,
      "grad_norm": 0.17810913920402527,
      "learning_rate": 0.0005075006095682056,
      "loss": 0.3536,
      "num_input_tokens_seen": 13617264,
      "step": 20825
    },
    {
      "epoch": 10.917190775681341,
      "grad_norm": 0.12004398554563522,
      "learning_rate": 0.0005072719488257914,
      "loss": 0.43,
      "num_input_tokens_seen": 13620208,
      "step": 20830
    },
    {
      "epoch": 10.919811320754716,
      "grad_norm": 0.13879378139972687,
      "learning_rate": 0.0005070432865621683,
      "loss": 0.4068,
      "num_input_tokens_seen": 13623248,
      "step": 20835
    },
    {
      "epoch": 10.922431865828091,
      "grad_norm": 0.1360885053873062,
      "learning_rate": 0.00050681462282517,
      "loss": 0.4338,
      "num_input_tokens_seen": 13626672,
      "step": 20840
    },
    {
      "epoch": 10.925052410901468,
      "grad_norm": 0.08835313469171524,
      "learning_rate": 0.0005065859576626304,
      "loss": 0.4926,
      "num_input_tokens_seen": 13629776,
      "step": 20845
    },
    {
      "epoch": 10.927672955974844,
      "grad_norm": 0.1348976045846939,
      "learning_rate": 0.0005063572911223836,
      "loss": 0.5164,
      "num_input_tokens_seen": 13632336,
      "step": 20850
    },
    {
      "epoch": 10.930293501048219,
      "grad_norm": 0.1997879445552826,
      "learning_rate": 0.0005061286232522639,
      "loss": 0.4858,
      "num_input_tokens_seen": 13635600,
      "step": 20855
    },
    {
      "epoch": 10.932914046121594,
      "grad_norm": 0.11776750534772873,
      "learning_rate": 0.0005058999541001064,
      "loss": 0.4206,
      "num_input_tokens_seen": 13639248,
      "step": 20860
    },
    {
      "epoch": 10.935534591194969,
      "grad_norm": 0.22886130213737488,
      "learning_rate": 0.0005056712837137456,
      "loss": 0.4035,
      "num_input_tokens_seen": 13641872,
      "step": 20865
    },
    {
      "epoch": 10.938155136268344,
      "grad_norm": 0.09088453650474548,
      "learning_rate": 0.000505442612141017,
      "loss": 0.4026,
      "num_input_tokens_seen": 13645424,
      "step": 20870
    },
    {
      "epoch": 10.94077568134172,
      "grad_norm": 0.08088110387325287,
      "learning_rate": 0.000505213939429756,
      "loss": 0.4115,
      "num_input_tokens_seen": 13648368,
      "step": 20875
    },
    {
      "epoch": 10.943396226415095,
      "grad_norm": 0.11276282370090485,
      "learning_rate": 0.0005049852656277984,
      "loss": 0.4946,
      "num_input_tokens_seen": 13650704,
      "step": 20880
    },
    {
      "epoch": 10.94601677148847,
      "grad_norm": 0.11179694533348083,
      "learning_rate": 0.0005047565907829801,
      "loss": 0.5783,
      "num_input_tokens_seen": 13653552,
      "step": 20885
    },
    {
      "epoch": 10.948637316561845,
      "grad_norm": 0.07783403992652893,
      "learning_rate": 0.0005045279149431374,
      "loss": 0.4826,
      "num_input_tokens_seen": 13657488,
      "step": 20890
    },
    {
      "epoch": 10.95125786163522,
      "grad_norm": 0.1801067292690277,
      "learning_rate": 0.0005042992381561063,
      "loss": 0.426,
      "num_input_tokens_seen": 13660976,
      "step": 20895
    },
    {
      "epoch": 10.953878406708595,
      "grad_norm": 0.08624589443206787,
      "learning_rate": 0.0005040705604697238,
      "loss": 0.3823,
      "num_input_tokens_seen": 13664080,
      "step": 20900
    },
    {
      "epoch": 10.95649895178197,
      "grad_norm": 0.12618671357631683,
      "learning_rate": 0.0005038418819318265,
      "loss": 0.6066,
      "num_input_tokens_seen": 13666960,
      "step": 20905
    },
    {
      "epoch": 10.959119496855346,
      "grad_norm": 0.08728969842195511,
      "learning_rate": 0.0005036132025902511,
      "loss": 0.4184,
      "num_input_tokens_seen": 13670832,
      "step": 20910
    },
    {
      "epoch": 10.96174004192872,
      "grad_norm": 0.14195923507213593,
      "learning_rate": 0.0005033845224928352,
      "loss": 0.4347,
      "num_input_tokens_seen": 13673456,
      "step": 20915
    },
    {
      "epoch": 10.964360587002096,
      "grad_norm": 0.13473796844482422,
      "learning_rate": 0.0005031558416874156,
      "loss": 0.395,
      "num_input_tokens_seen": 13676208,
      "step": 20920
    },
    {
      "epoch": 10.966981132075471,
      "grad_norm": 0.09167715907096863,
      "learning_rate": 0.0005029271602218301,
      "loss": 0.5104,
      "num_input_tokens_seen": 13679184,
      "step": 20925
    },
    {
      "epoch": 10.969601677148846,
      "grad_norm": 0.13664719462394714,
      "learning_rate": 0.0005026984781439162,
      "loss": 0.4936,
      "num_input_tokens_seen": 13682896,
      "step": 20930
    },
    {
      "epoch": 10.972222222222221,
      "grad_norm": 0.12432032823562622,
      "learning_rate": 0.0005024697955015112,
      "loss": 0.5598,
      "num_input_tokens_seen": 13686064,
      "step": 20935
    },
    {
      "epoch": 10.974842767295598,
      "grad_norm": 0.06797799468040466,
      "learning_rate": 0.0005022411123424532,
      "loss": 0.5193,
      "num_input_tokens_seen": 13689424,
      "step": 20940
    },
    {
      "epoch": 10.977463312368974,
      "grad_norm": 0.07973021268844604,
      "learning_rate": 0.00050201242871458,
      "loss": 0.5689,
      "num_input_tokens_seen": 13692496,
      "step": 20945
    },
    {
      "epoch": 10.980083857442349,
      "grad_norm": 0.17281939089298248,
      "learning_rate": 0.0005017837446657298,
      "loss": 0.4818,
      "num_input_tokens_seen": 13695728,
      "step": 20950
    },
    {
      "epoch": 10.982704402515724,
      "grad_norm": 0.08715026080608368,
      "learning_rate": 0.0005015550602437405,
      "loss": 0.5023,
      "num_input_tokens_seen": 13698640,
      "step": 20955
    },
    {
      "epoch": 10.985324947589099,
      "grad_norm": 0.2574523091316223,
      "learning_rate": 0.0005013263754964504,
      "loss": 0.5038,
      "num_input_tokens_seen": 13702608,
      "step": 20960
    },
    {
      "epoch": 10.987945492662474,
      "grad_norm": 0.1404331624507904,
      "learning_rate": 0.0005010976904716977,
      "loss": 0.5345,
      "num_input_tokens_seen": 13706352,
      "step": 20965
    },
    {
      "epoch": 10.99056603773585,
      "grad_norm": 0.10824745893478394,
      "learning_rate": 0.0005008690052173206,
      "loss": 0.421,
      "num_input_tokens_seen": 13711056,
      "step": 20970
    },
    {
      "epoch": 10.993186582809225,
      "grad_norm": 0.1747899353504181,
      "learning_rate": 0.0005006403197811575,
      "loss": 0.4065,
      "num_input_tokens_seen": 13714480,
      "step": 20975
    },
    {
      "epoch": 10.9958071278826,
      "grad_norm": 0.07572788000106812,
      "learning_rate": 0.0005004116342110469,
      "loss": 0.4003,
      "num_input_tokens_seen": 13717136,
      "step": 20980
    },
    {
      "epoch": 10.998427672955975,
      "grad_norm": 0.11103976517915726,
      "learning_rate": 0.0005001829485548272,
      "loss": 0.5587,
      "num_input_tokens_seen": 13720464,
      "step": 20985
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.47602909803390503,
      "eval_runtime": 13.654,
      "eval_samples_per_second": 62.107,
      "eval_steps_per_second": 15.527,
      "num_input_tokens_seen": 13721824,
      "step": 20988
    },
    {
      "epoch": 11.00104821802935,
      "grad_norm": 0.09611909091472626,
      "learning_rate": 0.0004999542628603364,
      "loss": 0.3949,
      "num_input_tokens_seen": 13723072,
      "step": 20990
    },
    {
      "epoch": 11.003668763102725,
      "grad_norm": 0.10525713860988617,
      "learning_rate": 0.0004997255771754136,
      "loss": 0.4088,
      "num_input_tokens_seen": 13726400,
      "step": 20995
    },
    {
      "epoch": 11.0062893081761,
      "grad_norm": 0.13983245193958282,
      "learning_rate": 0.0004994968915478969,
      "loss": 0.3501,
      "num_input_tokens_seen": 13729280,
      "step": 21000
    },
    {
      "epoch": 11.008909853249476,
      "grad_norm": 0.11677879095077515,
      "learning_rate": 0.0004992682060256246,
      "loss": 0.3839,
      "num_input_tokens_seen": 13732416,
      "step": 21005
    },
    {
      "epoch": 11.01153039832285,
      "grad_norm": 0.12627187371253967,
      "learning_rate": 0.0004990395206564353,
      "loss": 0.5674,
      "num_input_tokens_seen": 13735232,
      "step": 21010
    },
    {
      "epoch": 11.014150943396226,
      "grad_norm": 0.11444895714521408,
      "learning_rate": 0.0004988108354881674,
      "loss": 0.4406,
      "num_input_tokens_seen": 13738656,
      "step": 21015
    },
    {
      "epoch": 11.016771488469601,
      "grad_norm": 0.073458231985569,
      "learning_rate": 0.0004985821505686591,
      "loss": 0.3851,
      "num_input_tokens_seen": 13741568,
      "step": 21020
    },
    {
      "epoch": 11.019392033542976,
      "grad_norm": 0.11040565371513367,
      "learning_rate": 0.0004983534659457489,
      "loss": 0.3411,
      "num_input_tokens_seen": 13744192,
      "step": 21025
    },
    {
      "epoch": 11.022012578616351,
      "grad_norm": 0.47663015127182007,
      "learning_rate": 0.0004981247816672745,
      "loss": 0.4668,
      "num_input_tokens_seen": 13746656,
      "step": 21030
    },
    {
      "epoch": 11.024633123689727,
      "grad_norm": 0.2077661156654358,
      "learning_rate": 0.0004978960977810746,
      "loss": 0.4678,
      "num_input_tokens_seen": 13749920,
      "step": 21035
    },
    {
      "epoch": 11.027253668763104,
      "grad_norm": 0.10309150069952011,
      "learning_rate": 0.0004976674143349869,
      "loss": 0.5556,
      "num_input_tokens_seen": 13752864,
      "step": 21040
    },
    {
      "epoch": 11.029874213836479,
      "grad_norm": 0.1604829579591751,
      "learning_rate": 0.0004974387313768497,
      "loss": 0.4302,
      "num_input_tokens_seen": 13756192,
      "step": 21045
    },
    {
      "epoch": 11.032494758909854,
      "grad_norm": 0.15624821186065674,
      "learning_rate": 0.0004972100489545007,
      "loss": 0.4126,
      "num_input_tokens_seen": 13759968,
      "step": 21050
    },
    {
      "epoch": 11.035115303983229,
      "grad_norm": 0.07702669501304626,
      "learning_rate": 0.0004969813671157774,
      "loss": 0.4348,
      "num_input_tokens_seen": 13763072,
      "step": 21055
    },
    {
      "epoch": 11.037735849056604,
      "grad_norm": 0.13799911737442017,
      "learning_rate": 0.0004967526859085177,
      "loss": 0.3595,
      "num_input_tokens_seen": 13765728,
      "step": 21060
    },
    {
      "epoch": 11.04035639412998,
      "grad_norm": 0.07647251337766647,
      "learning_rate": 0.0004965240053805591,
      "loss": 0.453,
      "num_input_tokens_seen": 13769504,
      "step": 21065
    },
    {
      "epoch": 11.042976939203355,
      "grad_norm": 0.12915195524692535,
      "learning_rate": 0.000496295325579739,
      "loss": 0.4964,
      "num_input_tokens_seen": 13773760,
      "step": 21070
    },
    {
      "epoch": 11.04559748427673,
      "grad_norm": 0.09554459899663925,
      "learning_rate": 0.0004960666465538945,
      "loss": 0.461,
      "num_input_tokens_seen": 13777088,
      "step": 21075
    },
    {
      "epoch": 11.048218029350105,
      "grad_norm": 0.2044604867696762,
      "learning_rate": 0.0004958379683508627,
      "loss": 0.4267,
      "num_input_tokens_seen": 13781120,
      "step": 21080
    },
    {
      "epoch": 11.05083857442348,
      "grad_norm": 0.11769215017557144,
      "learning_rate": 0.0004956092910184803,
      "loss": 0.4204,
      "num_input_tokens_seen": 13784064,
      "step": 21085
    },
    {
      "epoch": 11.053459119496855,
      "grad_norm": 0.23991581797599792,
      "learning_rate": 0.0004953806146045843,
      "loss": 0.4695,
      "num_input_tokens_seen": 13787104,
      "step": 21090
    },
    {
      "epoch": 11.05607966457023,
      "grad_norm": 0.11669694632291794,
      "learning_rate": 0.0004951519391570108,
      "loss": 0.4474,
      "num_input_tokens_seen": 13789824,
      "step": 21095
    },
    {
      "epoch": 11.058700209643606,
      "grad_norm": 0.11780118197202682,
      "learning_rate": 0.0004949232647235964,
      "loss": 0.5203,
      "num_input_tokens_seen": 13793152,
      "step": 21100
    },
    {
      "epoch": 11.06132075471698,
      "grad_norm": 0.09770016372203827,
      "learning_rate": 0.0004946945913521771,
      "loss": 0.5788,
      "num_input_tokens_seen": 13796288,
      "step": 21105
    },
    {
      "epoch": 11.063941299790356,
      "grad_norm": 0.14530812203884125,
      "learning_rate": 0.0004944659190905889,
      "loss": 0.5105,
      "num_input_tokens_seen": 13799072,
      "step": 21110
    },
    {
      "epoch": 11.066561844863731,
      "grad_norm": 0.122046560049057,
      "learning_rate": 0.0004942372479866674,
      "loss": 0.423,
      "num_input_tokens_seen": 13802560,
      "step": 21115
    },
    {
      "epoch": 11.069182389937106,
      "grad_norm": 0.07542832940816879,
      "learning_rate": 0.0004940085780882475,
      "loss": 0.4347,
      "num_input_tokens_seen": 13806592,
      "step": 21120
    },
    {
      "epoch": 11.071802935010481,
      "grad_norm": 0.1528952419757843,
      "learning_rate": 0.0004937799094431649,
      "loss": 0.3739,
      "num_input_tokens_seen": 13809568,
      "step": 21125
    },
    {
      "epoch": 11.074423480083857,
      "grad_norm": 0.16462931036949158,
      "learning_rate": 0.0004935512420992542,
      "loss": 0.3603,
      "num_input_tokens_seen": 13812960,
      "step": 21130
    },
    {
      "epoch": 11.077044025157234,
      "grad_norm": 0.1252872347831726,
      "learning_rate": 0.0004933225761043502,
      "loss": 0.6348,
      "num_input_tokens_seen": 13815712,
      "step": 21135
    },
    {
      "epoch": 11.079664570230609,
      "grad_norm": 0.1891532689332962,
      "learning_rate": 0.0004930939115062872,
      "loss": 0.4686,
      "num_input_tokens_seen": 13818560,
      "step": 21140
    },
    {
      "epoch": 11.082285115303984,
      "grad_norm": 0.11658810824155807,
      "learning_rate": 0.0004928652483528989,
      "loss": 0.3916,
      "num_input_tokens_seen": 13823264,
      "step": 21145
    },
    {
      "epoch": 11.084905660377359,
      "grad_norm": 0.10376624017953873,
      "learning_rate": 0.0004926365866920193,
      "loss": 0.474,
      "num_input_tokens_seen": 13826464,
      "step": 21150
    },
    {
      "epoch": 11.087526205450734,
      "grad_norm": 0.09996460378170013,
      "learning_rate": 0.0004924079265714817,
      "loss": 0.3761,
      "num_input_tokens_seen": 13829280,
      "step": 21155
    },
    {
      "epoch": 11.09014675052411,
      "grad_norm": 0.1755571812391281,
      "learning_rate": 0.0004921792680391193,
      "loss": 0.3835,
      "num_input_tokens_seen": 13833344,
      "step": 21160
    },
    {
      "epoch": 11.092767295597485,
      "grad_norm": 0.09448325634002686,
      "learning_rate": 0.0004919506111427649,
      "loss": 0.4848,
      "num_input_tokens_seen": 13837088,
      "step": 21165
    },
    {
      "epoch": 11.09538784067086,
      "grad_norm": 0.14630328118801117,
      "learning_rate": 0.0004917219559302507,
      "loss": 0.4732,
      "num_input_tokens_seen": 13839488,
      "step": 21170
    },
    {
      "epoch": 11.098008385744235,
      "grad_norm": 0.10201606154441833,
      "learning_rate": 0.0004914933024494089,
      "loss": 0.3501,
      "num_input_tokens_seen": 13842528,
      "step": 21175
    },
    {
      "epoch": 11.10062893081761,
      "grad_norm": 0.098932184278965,
      "learning_rate": 0.0004912646507480713,
      "loss": 0.331,
      "num_input_tokens_seen": 13845312,
      "step": 21180
    },
    {
      "epoch": 11.103249475890985,
      "grad_norm": 0.18970535695552826,
      "learning_rate": 0.0004910360008740689,
      "loss": 0.3896,
      "num_input_tokens_seen": 13848256,
      "step": 21185
    },
    {
      "epoch": 11.10587002096436,
      "grad_norm": 0.08200985193252563,
      "learning_rate": 0.0004908073528752329,
      "loss": 0.4128,
      "num_input_tokens_seen": 13852064,
      "step": 21190
    },
    {
      "epoch": 11.108490566037736,
      "grad_norm": 0.1385767161846161,
      "learning_rate": 0.0004905787067993941,
      "loss": 0.5086,
      "num_input_tokens_seen": 13855040,
      "step": 21195
    },
    {
      "epoch": 11.11111111111111,
      "grad_norm": 0.09717290103435516,
      "learning_rate": 0.000490350062694382,
      "loss": 0.4926,
      "num_input_tokens_seen": 13858528,
      "step": 21200
    },
    {
      "epoch": 11.113731656184486,
      "grad_norm": 0.17512260377407074,
      "learning_rate": 0.0004901214206080269,
      "loss": 0.4381,
      "num_input_tokens_seen": 13862048,
      "step": 21205
    },
    {
      "epoch": 11.116352201257861,
      "grad_norm": 0.14842180907726288,
      "learning_rate": 0.0004898927805881577,
      "loss": 0.4417,
      "num_input_tokens_seen": 13864864,
      "step": 21210
    },
    {
      "epoch": 11.118972746331236,
      "grad_norm": 0.0889921486377716,
      "learning_rate": 0.0004896641426826036,
      "loss": 0.3739,
      "num_input_tokens_seen": 13868256,
      "step": 21215
    },
    {
      "epoch": 11.121593291404611,
      "grad_norm": 0.24266675114631653,
      "learning_rate": 0.0004894355069391931,
      "loss": 0.4298,
      "num_input_tokens_seen": 13870944,
      "step": 21220
    },
    {
      "epoch": 11.124213836477987,
      "grad_norm": 0.1108548566699028,
      "learning_rate": 0.0004892068734057538,
      "loss": 0.4222,
      "num_input_tokens_seen": 13874016,
      "step": 21225
    },
    {
      "epoch": 11.126834381551364,
      "grad_norm": 0.1408959925174713,
      "learning_rate": 0.0004889782421301134,
      "loss": 0.5526,
      "num_input_tokens_seen": 13881184,
      "step": 21230
    },
    {
      "epoch": 11.129454926624739,
      "grad_norm": 0.12323157489299774,
      "learning_rate": 0.0004887496131600991,
      "loss": 0.4884,
      "num_input_tokens_seen": 13884224,
      "step": 21235
    },
    {
      "epoch": 11.132075471698114,
      "grad_norm": 0.1438027024269104,
      "learning_rate": 0.0004885209865435373,
      "loss": 0.3382,
      "num_input_tokens_seen": 13888064,
      "step": 21240
    },
    {
      "epoch": 11.134696016771489,
      "grad_norm": 0.11950208246707916,
      "learning_rate": 0.0004882923623282543,
      "loss": 0.3307,
      "num_input_tokens_seen": 13890912,
      "step": 21245
    },
    {
      "epoch": 11.137316561844864,
      "grad_norm": 0.10414446145296097,
      "learning_rate": 0.0004880637405620756,
      "loss": 0.5036,
      "num_input_tokens_seen": 13894432,
      "step": 21250
    },
    {
      "epoch": 11.13993710691824,
      "grad_norm": 0.16925744712352753,
      "learning_rate": 0.00048783512129282604,
      "loss": 0.5398,
      "num_input_tokens_seen": 13898048,
      "step": 21255
    },
    {
      "epoch": 11.142557651991615,
      "grad_norm": 0.28268274664878845,
      "learning_rate": 0.00048760650456833033,
      "loss": 0.6349,
      "num_input_tokens_seen": 13901184,
      "step": 21260
    },
    {
      "epoch": 11.14517819706499,
      "grad_norm": 0.18516656756401062,
      "learning_rate": 0.0004873778904364125,
      "loss": 0.3097,
      "num_input_tokens_seen": 13904864,
      "step": 21265
    },
    {
      "epoch": 11.147798742138365,
      "grad_norm": 0.11078567802906036,
      "learning_rate": 0.00048714927894489597,
      "loss": 0.3569,
      "num_input_tokens_seen": 13908096,
      "step": 21270
    },
    {
      "epoch": 11.15041928721174,
      "grad_norm": 0.07871480286121368,
      "learning_rate": 0.00048692067014160357,
      "loss": 0.3189,
      "num_input_tokens_seen": 13911392,
      "step": 21275
    },
    {
      "epoch": 11.153039832285115,
      "grad_norm": 0.0773041695356369,
      "learning_rate": 0.00048669206407435806,
      "loss": 0.5086,
      "num_input_tokens_seen": 13915104,
      "step": 21280
    },
    {
      "epoch": 11.15566037735849,
      "grad_norm": 0.0974210649728775,
      "learning_rate": 0.00048646346079098075,
      "loss": 0.4434,
      "num_input_tokens_seen": 13918176,
      "step": 21285
    },
    {
      "epoch": 11.158280922431866,
      "grad_norm": 0.10361873358488083,
      "learning_rate": 0.0004862348603392929,
      "loss": 0.3287,
      "num_input_tokens_seen": 13921120,
      "step": 21290
    },
    {
      "epoch": 11.16090146750524,
      "grad_norm": 0.12258080393075943,
      "learning_rate": 0.0004860062627671154,
      "loss": 0.3647,
      "num_input_tokens_seen": 13924224,
      "step": 21295
    },
    {
      "epoch": 11.163522012578616,
      "grad_norm": 0.1054263710975647,
      "learning_rate": 0.0004857776681222679,
      "loss": 0.4749,
      "num_input_tokens_seen": 13927488,
      "step": 21300
    },
    {
      "epoch": 11.166142557651991,
      "grad_norm": 0.14748981595039368,
      "learning_rate": 0.00048554907645257024,
      "loss": 0.3446,
      "num_input_tokens_seen": 13930880,
      "step": 21305
    },
    {
      "epoch": 11.168763102725366,
      "grad_norm": 0.20379970967769623,
      "learning_rate": 0.0004853204878058407,
      "loss": 0.4508,
      "num_input_tokens_seen": 13933728,
      "step": 21310
    },
    {
      "epoch": 11.171383647798741,
      "grad_norm": 0.13138599693775177,
      "learning_rate": 0.0004850919022298977,
      "loss": 0.5096,
      "num_input_tokens_seen": 13937664,
      "step": 21315
    },
    {
      "epoch": 11.174004192872117,
      "grad_norm": 0.07451052963733673,
      "learning_rate": 0.0004848633197725586,
      "loss": 0.3591,
      "num_input_tokens_seen": 13940544,
      "step": 21320
    },
    {
      "epoch": 11.176624737945493,
      "grad_norm": 0.07375714182853699,
      "learning_rate": 0.0004846347404816404,
      "loss": 0.4282,
      "num_input_tokens_seen": 13943712,
      "step": 21325
    },
    {
      "epoch": 11.179245283018869,
      "grad_norm": 0.08454205840826035,
      "learning_rate": 0.0004844061644049591,
      "loss": 0.3565,
      "num_input_tokens_seen": 13947200,
      "step": 21330
    },
    {
      "epoch": 11.181865828092244,
      "grad_norm": 0.10672978311777115,
      "learning_rate": 0.0004841775915903305,
      "loss": 0.7929,
      "num_input_tokens_seen": 13950240,
      "step": 21335
    },
    {
      "epoch": 11.184486373165619,
      "grad_norm": 0.08650162070989609,
      "learning_rate": 0.00048394902208556917,
      "loss": 0.3244,
      "num_input_tokens_seen": 13953440,
      "step": 21340
    },
    {
      "epoch": 11.187106918238994,
      "grad_norm": 0.11118267476558685,
      "learning_rate": 0.0004837204559384892,
      "loss": 0.4054,
      "num_input_tokens_seen": 13956416,
      "step": 21345
    },
    {
      "epoch": 11.18972746331237,
      "grad_norm": 0.060565683990716934,
      "learning_rate": 0.0004834918931969042,
      "loss": 0.4167,
      "num_input_tokens_seen": 13959840,
      "step": 21350
    },
    {
      "epoch": 11.192348008385745,
      "grad_norm": 0.16513048112392426,
      "learning_rate": 0.0004832633339086267,
      "loss": 0.5841,
      "num_input_tokens_seen": 13963168,
      "step": 21355
    },
    {
      "epoch": 11.19496855345912,
      "grad_norm": 0.15349890291690826,
      "learning_rate": 0.0004830347781214689,
      "loss": 0.3461,
      "num_input_tokens_seen": 13965632,
      "step": 21360
    },
    {
      "epoch": 11.197589098532495,
      "grad_norm": 0.13030380010604858,
      "learning_rate": 0.0004828062258832421,
      "loss": 0.4399,
      "num_input_tokens_seen": 13969184,
      "step": 21365
    },
    {
      "epoch": 11.20020964360587,
      "grad_norm": 0.12308566272258759,
      "learning_rate": 0.0004825776772417564,
      "loss": 0.4861,
      "num_input_tokens_seen": 13972800,
      "step": 21370
    },
    {
      "epoch": 11.202830188679245,
      "grad_norm": 0.1970680058002472,
      "learning_rate": 0.00048234913224482205,
      "loss": 0.6272,
      "num_input_tokens_seen": 13976128,
      "step": 21375
    },
    {
      "epoch": 11.20545073375262,
      "grad_norm": 0.07460775971412659,
      "learning_rate": 0.00048212059094024774,
      "loss": 0.4403,
      "num_input_tokens_seen": 13979424,
      "step": 21380
    },
    {
      "epoch": 11.208071278825996,
      "grad_norm": 0.10209716111421585,
      "learning_rate": 0.0004818920533758418,
      "loss": 0.3445,
      "num_input_tokens_seen": 13981856,
      "step": 21385
    },
    {
      "epoch": 11.21069182389937,
      "grad_norm": 0.10141172260046005,
      "learning_rate": 0.00048166351959941185,
      "loss": 0.3253,
      "num_input_tokens_seen": 13985248,
      "step": 21390
    },
    {
      "epoch": 11.213312368972746,
      "grad_norm": 0.0914306566119194,
      "learning_rate": 0.0004814349896587645,
      "loss": 0.4807,
      "num_input_tokens_seen": 13988576,
      "step": 21395
    },
    {
      "epoch": 11.215932914046121,
      "grad_norm": 0.23139961063861847,
      "learning_rate": 0.0004812064636017053,
      "loss": 0.4667,
      "num_input_tokens_seen": 13991232,
      "step": 21400
    },
    {
      "epoch": 11.218553459119496,
      "grad_norm": 0.1182672381401062,
      "learning_rate": 0.0004809779414760396,
      "loss": 0.4186,
      "num_input_tokens_seen": 13994592,
      "step": 21405
    },
    {
      "epoch": 11.221174004192871,
      "grad_norm": 0.1623513251543045,
      "learning_rate": 0.00048074942332957136,
      "loss": 0.4011,
      "num_input_tokens_seen": 13997280,
      "step": 21410
    },
    {
      "epoch": 11.223794549266247,
      "grad_norm": 0.15089689195156097,
      "learning_rate": 0.00048052090921010435,
      "loss": 0.4466,
      "num_input_tokens_seen": 14000384,
      "step": 21415
    },
    {
      "epoch": 11.226415094339623,
      "grad_norm": 0.12402233481407166,
      "learning_rate": 0.00048029239916544094,
      "loss": 0.4194,
      "num_input_tokens_seen": 14003872,
      "step": 21420
    },
    {
      "epoch": 11.229035639412999,
      "grad_norm": 0.12068384885787964,
      "learning_rate": 0.0004800638932433826,
      "loss": 0.3951,
      "num_input_tokens_seen": 14006976,
      "step": 21425
    },
    {
      "epoch": 11.231656184486374,
      "grad_norm": 0.12667907774448395,
      "learning_rate": 0.00047983539149173043,
      "loss": 0.7162,
      "num_input_tokens_seen": 14009472,
      "step": 21430
    },
    {
      "epoch": 11.234276729559749,
      "grad_norm": 0.19537879526615143,
      "learning_rate": 0.0004796068939582843,
      "loss": 0.4035,
      "num_input_tokens_seen": 14012480,
      "step": 21435
    },
    {
      "epoch": 11.236897274633124,
      "grad_norm": 0.11449180543422699,
      "learning_rate": 0.00047937840069084333,
      "loss": 0.3526,
      "num_input_tokens_seen": 14015072,
      "step": 21440
    },
    {
      "epoch": 11.2395178197065,
      "grad_norm": 0.10598793625831604,
      "learning_rate": 0.0004791499117372056,
      "loss": 0.4586,
      "num_input_tokens_seen": 14018496,
      "step": 21445
    },
    {
      "epoch": 11.242138364779874,
      "grad_norm": 0.1394406259059906,
      "learning_rate": 0.0004789214271451686,
      "loss": 0.5215,
      "num_input_tokens_seen": 14021600,
      "step": 21450
    },
    {
      "epoch": 11.24475890985325,
      "grad_norm": 0.13394173979759216,
      "learning_rate": 0.00047869294696252854,
      "loss": 0.446,
      "num_input_tokens_seen": 14024544,
      "step": 21455
    },
    {
      "epoch": 11.247379454926625,
      "grad_norm": 0.13081094622612,
      "learning_rate": 0.0004784644712370807,
      "loss": 0.4508,
      "num_input_tokens_seen": 14027968,
      "step": 21460
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.16320522129535675,
      "learning_rate": 0.00047823600001661984,
      "loss": 0.4624,
      "num_input_tokens_seen": 14030688,
      "step": 21465
    },
    {
      "epoch": 11.252620545073375,
      "grad_norm": 0.09167814999818802,
      "learning_rate": 0.0004780075333489396,
      "loss": 0.3978,
      "num_input_tokens_seen": 14033408,
      "step": 21470
    },
    {
      "epoch": 11.25524109014675,
      "grad_norm": 0.08872554451227188,
      "learning_rate": 0.00047777907128183233,
      "loss": 0.4083,
      "num_input_tokens_seen": 14036416,
      "step": 21475
    },
    {
      "epoch": 11.257861635220126,
      "grad_norm": 0.12872128188610077,
      "learning_rate": 0.0004775506138630901,
      "loss": 0.4179,
      "num_input_tokens_seen": 14039872,
      "step": 21480
    },
    {
      "epoch": 11.2604821802935,
      "grad_norm": 0.11885163933038712,
      "learning_rate": 0.0004773221611405032,
      "loss": 0.4772,
      "num_input_tokens_seen": 14042624,
      "step": 21485
    },
    {
      "epoch": 11.263102725366876,
      "grad_norm": 0.11520878970623016,
      "learning_rate": 0.0004770937131618614,
      "loss": 0.4768,
      "num_input_tokens_seen": 14045984,
      "step": 21490
    },
    {
      "epoch": 11.265723270440251,
      "grad_norm": 0.10396014153957367,
      "learning_rate": 0.0004768652699749535,
      "loss": 0.4418,
      "num_input_tokens_seen": 14049152,
      "step": 21495
    },
    {
      "epoch": 11.268343815513626,
      "grad_norm": 0.13192474842071533,
      "learning_rate": 0.00047663683162756717,
      "loss": 0.4246,
      "num_input_tokens_seen": 14052320,
      "step": 21500
    },
    {
      "epoch": 11.270964360587001,
      "grad_norm": 0.0921737477183342,
      "learning_rate": 0.00047640839816748926,
      "loss": 0.4323,
      "num_input_tokens_seen": 14055584,
      "step": 21505
    },
    {
      "epoch": 11.273584905660377,
      "grad_norm": 0.11917208135128021,
      "learning_rate": 0.00047617996964250525,
      "loss": 0.5474,
      "num_input_tokens_seen": 14058816,
      "step": 21510
    },
    {
      "epoch": 11.276205450733753,
      "grad_norm": 0.0753866583108902,
      "learning_rate": 0.0004759515461003997,
      "loss": 0.6066,
      "num_input_tokens_seen": 14062528,
      "step": 21515
    },
    {
      "epoch": 11.278825995807129,
      "grad_norm": 0.14631639420986176,
      "learning_rate": 0.00047572312758895654,
      "loss": 0.6198,
      "num_input_tokens_seen": 14065280,
      "step": 21520
    },
    {
      "epoch": 11.281446540880504,
      "grad_norm": 0.19873283803462982,
      "learning_rate": 0.0004754947141559579,
      "loss": 0.4002,
      "num_input_tokens_seen": 14068160,
      "step": 21525
    },
    {
      "epoch": 11.284067085953879,
      "grad_norm": 0.1442563235759735,
      "learning_rate": 0.0004752663058491856,
      "loss": 0.4228,
      "num_input_tokens_seen": 14071712,
      "step": 21530
    },
    {
      "epoch": 11.286687631027254,
      "grad_norm": 0.08351429551839828,
      "learning_rate": 0.0004750379027164201,
      "loss": 0.3679,
      "num_input_tokens_seen": 14074912,
      "step": 21535
    },
    {
      "epoch": 11.28930817610063,
      "grad_norm": 0.14503350853919983,
      "learning_rate": 0.00047480950480544037,
      "loss": 0.431,
      "num_input_tokens_seen": 14078912,
      "step": 21540
    },
    {
      "epoch": 11.291928721174004,
      "grad_norm": 0.0879521369934082,
      "learning_rate": 0.00047458111216402483,
      "loss": 0.3942,
      "num_input_tokens_seen": 14082304,
      "step": 21545
    },
    {
      "epoch": 11.29454926624738,
      "grad_norm": 0.16488051414489746,
      "learning_rate": 0.00047435272483995074,
      "loss": 0.4633,
      "num_input_tokens_seen": 14085056,
      "step": 21550
    },
    {
      "epoch": 11.297169811320755,
      "grad_norm": 0.10930223762989044,
      "learning_rate": 0.00047412434288099386,
      "loss": 0.513,
      "num_input_tokens_seen": 14088128,
      "step": 21555
    },
    {
      "epoch": 11.29979035639413,
      "grad_norm": 0.1207599863409996,
      "learning_rate": 0.0004738959663349294,
      "loss": 0.3991,
      "num_input_tokens_seen": 14090912,
      "step": 21560
    },
    {
      "epoch": 11.302410901467505,
      "grad_norm": 0.08392961323261261,
      "learning_rate": 0.0004736675952495311,
      "loss": 0.556,
      "num_input_tokens_seen": 14094464,
      "step": 21565
    },
    {
      "epoch": 11.30503144654088,
      "grad_norm": 0.12695910036563873,
      "learning_rate": 0.0004734392296725712,
      "loss": 0.4425,
      "num_input_tokens_seen": 14097280,
      "step": 21570
    },
    {
      "epoch": 11.307651991614255,
      "grad_norm": 0.11442772299051285,
      "learning_rate": 0.00047321086965182153,
      "loss": 0.4851,
      "num_input_tokens_seen": 14100224,
      "step": 21575
    },
    {
      "epoch": 11.31027253668763,
      "grad_norm": 0.07589133828878403,
      "learning_rate": 0.0004729825152350522,
      "loss": 0.4302,
      "num_input_tokens_seen": 14103744,
      "step": 21580
    },
    {
      "epoch": 11.312893081761006,
      "grad_norm": 0.13479365408420563,
      "learning_rate": 0.00047275416647003256,
      "loss": 0.3691,
      "num_input_tokens_seen": 14107008,
      "step": 21585
    },
    {
      "epoch": 11.315513626834381,
      "grad_norm": 0.09889407455921173,
      "learning_rate": 0.0004725258234045306,
      "loss": 0.4308,
      "num_input_tokens_seen": 14110176,
      "step": 21590
    },
    {
      "epoch": 11.318134171907756,
      "grad_norm": 0.14473438262939453,
      "learning_rate": 0.0004722974860863127,
      "loss": 0.6473,
      "num_input_tokens_seen": 14115968,
      "step": 21595
    },
    {
      "epoch": 11.320754716981131,
      "grad_norm": 0.06742064654827118,
      "learning_rate": 0.00047206915456314476,
      "loss": 0.3711,
      "num_input_tokens_seen": 14120864,
      "step": 21600
    },
    {
      "epoch": 11.323375262054507,
      "grad_norm": 0.07233785092830658,
      "learning_rate": 0.00047184082888279097,
      "loss": 0.5319,
      "num_input_tokens_seen": 14124576,
      "step": 21605
    },
    {
      "epoch": 11.325995807127883,
      "grad_norm": 0.08424606174230576,
      "learning_rate": 0.00047161250909301454,
      "loss": 0.4976,
      "num_input_tokens_seen": 14127648,
      "step": 21610
    },
    {
      "epoch": 11.328616352201259,
      "grad_norm": 0.11182598769664764,
      "learning_rate": 0.00047138419524157734,
      "loss": 0.3971,
      "num_input_tokens_seen": 14130400,
      "step": 21615
    },
    {
      "epoch": 11.331236897274634,
      "grad_norm": 0.07766224443912506,
      "learning_rate": 0.0004711558873762402,
      "loss": 0.4082,
      "num_input_tokens_seen": 14134080,
      "step": 21620
    },
    {
      "epoch": 11.333857442348009,
      "grad_norm": 0.17415645718574524,
      "learning_rate": 0.0004709275855447621,
      "loss": 0.4143,
      "num_input_tokens_seen": 14138080,
      "step": 21625
    },
    {
      "epoch": 11.336477987421384,
      "grad_norm": 0.08967652171850204,
      "learning_rate": 0.0004706992897949016,
      "loss": 0.3712,
      "num_input_tokens_seen": 14142432,
      "step": 21630
    },
    {
      "epoch": 11.33909853249476,
      "grad_norm": 0.12631186842918396,
      "learning_rate": 0.00047047100017441525,
      "loss": 0.4527,
      "num_input_tokens_seen": 14145440,
      "step": 21635
    },
    {
      "epoch": 11.341719077568134,
      "grad_norm": 0.16238771378993988,
      "learning_rate": 0.0004702427167310589,
      "loss": 0.4256,
      "num_input_tokens_seen": 14148672,
      "step": 21640
    },
    {
      "epoch": 11.34433962264151,
      "grad_norm": 0.08342371881008148,
      "learning_rate": 0.0004700144395125866,
      "loss": 0.3635,
      "num_input_tokens_seen": 14152000,
      "step": 21645
    },
    {
      "epoch": 11.346960167714885,
      "grad_norm": 0.13444103300571442,
      "learning_rate": 0.00046978616856675173,
      "loss": 0.4784,
      "num_input_tokens_seen": 14154912,
      "step": 21650
    },
    {
      "epoch": 11.34958071278826,
      "grad_norm": 0.10127994418144226,
      "learning_rate": 0.0004695579039413055,
      "loss": 0.4407,
      "num_input_tokens_seen": 14158208,
      "step": 21655
    },
    {
      "epoch": 11.352201257861635,
      "grad_norm": 0.15475785732269287,
      "learning_rate": 0.0004693296456839984,
      "loss": 0.4964,
      "num_input_tokens_seen": 14161920,
      "step": 21660
    },
    {
      "epoch": 11.35482180293501,
      "grad_norm": 0.12267367541790009,
      "learning_rate": 0.0004691013938425796,
      "loss": 0.4151,
      "num_input_tokens_seen": 14165120,
      "step": 21665
    },
    {
      "epoch": 11.357442348008385,
      "grad_norm": 0.12268754094839096,
      "learning_rate": 0.00046887314846479663,
      "loss": 0.4782,
      "num_input_tokens_seen": 14168000,
      "step": 21670
    },
    {
      "epoch": 11.36006289308176,
      "grad_norm": 0.11393480002880096,
      "learning_rate": 0.000468644909598396,
      "loss": 0.3716,
      "num_input_tokens_seen": 14171584,
      "step": 21675
    },
    {
      "epoch": 11.362683438155136,
      "grad_norm": 0.16298149526119232,
      "learning_rate": 0.00046841667729112264,
      "loss": 0.4564,
      "num_input_tokens_seen": 14174336,
      "step": 21680
    },
    {
      "epoch": 11.365303983228511,
      "grad_norm": 0.12833596765995026,
      "learning_rate": 0.00046818845159071987,
      "loss": 0.4553,
      "num_input_tokens_seen": 14177344,
      "step": 21685
    },
    {
      "epoch": 11.367924528301886,
      "grad_norm": 0.13610973954200745,
      "learning_rate": 0.0004679602325449302,
      "loss": 0.4765,
      "num_input_tokens_seen": 14180608,
      "step": 21690
    },
    {
      "epoch": 11.370545073375261,
      "grad_norm": 0.13609978556632996,
      "learning_rate": 0.00046773202020149423,
      "loss": 0.4941,
      "num_input_tokens_seen": 14183872,
      "step": 21695
    },
    {
      "epoch": 11.373165618448636,
      "grad_norm": 0.2276594340801239,
      "learning_rate": 0.0004675038146081516,
      "loss": 0.4961,
      "num_input_tokens_seen": 14186720,
      "step": 21700
    },
    {
      "epoch": 11.375786163522013,
      "grad_norm": 0.09903354942798615,
      "learning_rate": 0.0004672756158126403,
      "loss": 0.5483,
      "num_input_tokens_seen": 14190336,
      "step": 21705
    },
    {
      "epoch": 11.378406708595389,
      "grad_norm": 0.10387926548719406,
      "learning_rate": 0.0004670474238626968,
      "loss": 0.4586,
      "num_input_tokens_seen": 14193760,
      "step": 21710
    },
    {
      "epoch": 11.381027253668764,
      "grad_norm": 0.12706220149993896,
      "learning_rate": 0.00046681923880605614,
      "loss": 0.4453,
      "num_input_tokens_seen": 14196096,
      "step": 21715
    },
    {
      "epoch": 11.383647798742139,
      "grad_norm": 0.15553176403045654,
      "learning_rate": 0.0004665910606904523,
      "loss": 0.4767,
      "num_input_tokens_seen": 14199296,
      "step": 21720
    },
    {
      "epoch": 11.386268343815514,
      "grad_norm": 0.08582055568695068,
      "learning_rate": 0.0004663628895636173,
      "loss": 0.4223,
      "num_input_tokens_seen": 14202528,
      "step": 21725
    },
    {
      "epoch": 11.38888888888889,
      "grad_norm": 0.07756827026605606,
      "learning_rate": 0.0004661347254732822,
      "loss": 0.4605,
      "num_input_tokens_seen": 14205568,
      "step": 21730
    },
    {
      "epoch": 11.391509433962264,
      "grad_norm": 0.07648862153291702,
      "learning_rate": 0.0004659065684671762,
      "loss": 0.4409,
      "num_input_tokens_seen": 14209056,
      "step": 21735
    },
    {
      "epoch": 11.39412997903564,
      "grad_norm": 0.10581168532371521,
      "learning_rate": 0.00046567841859302696,
      "loss": 0.2342,
      "num_input_tokens_seen": 14214720,
      "step": 21740
    },
    {
      "epoch": 11.396750524109015,
      "grad_norm": 0.0931401178240776,
      "learning_rate": 0.0004654502758985611,
      "loss": 0.4445,
      "num_input_tokens_seen": 14217664,
      "step": 21745
    },
    {
      "epoch": 11.39937106918239,
      "grad_norm": 0.1000625491142273,
      "learning_rate": 0.00046522214043150323,
      "loss": 0.4852,
      "num_input_tokens_seen": 14221216,
      "step": 21750
    },
    {
      "epoch": 11.401991614255765,
      "grad_norm": 0.18340684473514557,
      "learning_rate": 0.00046499401223957696,
      "loss": 0.4588,
      "num_input_tokens_seen": 14224000,
      "step": 21755
    },
    {
      "epoch": 11.40461215932914,
      "grad_norm": 0.08539871126413345,
      "learning_rate": 0.0004647658913705038,
      "loss": 0.4455,
      "num_input_tokens_seen": 14227872,
      "step": 21760
    },
    {
      "epoch": 11.407232704402515,
      "grad_norm": 0.17656564712524414,
      "learning_rate": 0.00046453777787200444,
      "loss": 0.5376,
      "num_input_tokens_seen": 14231936,
      "step": 21765
    },
    {
      "epoch": 11.40985324947589,
      "grad_norm": 0.14242324233055115,
      "learning_rate": 0.0004643096717917973,
      "loss": 0.3408,
      "num_input_tokens_seen": 14235328,
      "step": 21770
    },
    {
      "epoch": 11.412473794549266,
      "grad_norm": 0.17280998826026917,
      "learning_rate": 0.0004640815731775995,
      "loss": 0.4294,
      "num_input_tokens_seen": 14238848,
      "step": 21775
    },
    {
      "epoch": 11.415094339622641,
      "grad_norm": 0.16530485451221466,
      "learning_rate": 0.0004638534820771267,
      "loss": 0.5533,
      "num_input_tokens_seen": 14242336,
      "step": 21780
    },
    {
      "epoch": 11.417714884696016,
      "grad_norm": 0.1601034551858902,
      "learning_rate": 0.0004636253985380934,
      "loss": 0.4731,
      "num_input_tokens_seen": 14245728,
      "step": 21785
    },
    {
      "epoch": 11.420335429769391,
      "grad_norm": 0.15559794008731842,
      "learning_rate": 0.00046339732260821173,
      "loss": 0.3053,
      "num_input_tokens_seen": 14248448,
      "step": 21790
    },
    {
      "epoch": 11.422955974842766,
      "grad_norm": 0.07893692702054977,
      "learning_rate": 0.0004631692543351924,
      "loss": 0.4073,
      "num_input_tokens_seen": 14251648,
      "step": 21795
    },
    {
      "epoch": 11.425576519916142,
      "grad_norm": 0.09473953396081924,
      "learning_rate": 0.00046294119376674486,
      "loss": 0.3377,
      "num_input_tokens_seen": 14254624,
      "step": 21800
    },
    {
      "epoch": 11.428197064989519,
      "grad_norm": 0.13471005856990814,
      "learning_rate": 0.0004627131409505768,
      "loss": 0.4732,
      "num_input_tokens_seen": 14257728,
      "step": 21805
    },
    {
      "epoch": 11.430817610062894,
      "grad_norm": 0.09792459011077881,
      "learning_rate": 0.0004624850959343944,
      "loss": 0.4945,
      "num_input_tokens_seen": 14262176,
      "step": 21810
    },
    {
      "epoch": 11.433438155136269,
      "grad_norm": 0.16152648627758026,
      "learning_rate": 0.00046225705876590175,
      "loss": 0.4321,
      "num_input_tokens_seen": 14265760,
      "step": 21815
    },
    {
      "epoch": 11.436058700209644,
      "grad_norm": 0.1855357587337494,
      "learning_rate": 0.00046202902949280206,
      "loss": 0.5021,
      "num_input_tokens_seen": 14268768,
      "step": 21820
    },
    {
      "epoch": 11.43867924528302,
      "grad_norm": 0.1255866140127182,
      "learning_rate": 0.00046180100816279614,
      "loss": 0.5517,
      "num_input_tokens_seen": 14272064,
      "step": 21825
    },
    {
      "epoch": 11.441299790356394,
      "grad_norm": 0.1258367896080017,
      "learning_rate": 0.0004615729948235833,
      "loss": 0.4818,
      "num_input_tokens_seen": 14275456,
      "step": 21830
    },
    {
      "epoch": 11.44392033542977,
      "grad_norm": 0.1298343688249588,
      "learning_rate": 0.00046134498952286174,
      "loss": 0.5041,
      "num_input_tokens_seen": 14279712,
      "step": 21835
    },
    {
      "epoch": 11.446540880503145,
      "grad_norm": 0.11963554471731186,
      "learning_rate": 0.00046111699230832727,
      "loss": 0.4246,
      "num_input_tokens_seen": 14283616,
      "step": 21840
    },
    {
      "epoch": 11.44916142557652,
      "grad_norm": 0.10605771839618683,
      "learning_rate": 0.00046088900322767434,
      "loss": 0.3036,
      "num_input_tokens_seen": 14286720,
      "step": 21845
    },
    {
      "epoch": 11.451781970649895,
      "grad_norm": 0.22597470879554749,
      "learning_rate": 0.0004606610223285961,
      "loss": 0.4298,
      "num_input_tokens_seen": 14291232,
      "step": 21850
    },
    {
      "epoch": 11.45440251572327,
      "grad_norm": 0.20725224912166595,
      "learning_rate": 0.00046043304965878284,
      "loss": 0.4513,
      "num_input_tokens_seen": 14294496,
      "step": 21855
    },
    {
      "epoch": 11.457023060796645,
      "grad_norm": 0.0870443657040596,
      "learning_rate": 0.00046020508526592425,
      "loss": 0.4303,
      "num_input_tokens_seen": 14297088,
      "step": 21860
    },
    {
      "epoch": 11.45964360587002,
      "grad_norm": 0.11927618831396103,
      "learning_rate": 0.0004599771291977079,
      "loss": 0.3829,
      "num_input_tokens_seen": 14301056,
      "step": 21865
    },
    {
      "epoch": 11.462264150943396,
      "grad_norm": 0.14858141541481018,
      "learning_rate": 0.0004597491815018194,
      "loss": 0.36,
      "num_input_tokens_seen": 14303968,
      "step": 21870
    },
    {
      "epoch": 11.464884696016771,
      "grad_norm": 0.0662708654999733,
      "learning_rate": 0.0004595212422259431,
      "loss": 0.4637,
      "num_input_tokens_seen": 14308256,
      "step": 21875
    },
    {
      "epoch": 11.467505241090146,
      "grad_norm": 0.11953944712877274,
      "learning_rate": 0.00045929331141776104,
      "loss": 0.5932,
      "num_input_tokens_seen": 14311424,
      "step": 21880
    },
    {
      "epoch": 11.470125786163521,
      "grad_norm": 0.1427881419658661,
      "learning_rate": 0.0004590653891249537,
      "loss": 0.4711,
      "num_input_tokens_seen": 14314752,
      "step": 21885
    },
    {
      "epoch": 11.472746331236896,
      "grad_norm": 0.07888767123222351,
      "learning_rate": 0.0004588374753952001,
      "loss": 0.4094,
      "num_input_tokens_seen": 14317760,
      "step": 21890
    },
    {
      "epoch": 11.475366876310272,
      "grad_norm": 0.11882061511278152,
      "learning_rate": 0.0004586095702761769,
      "loss": 0.5579,
      "num_input_tokens_seen": 14321440,
      "step": 21895
    },
    {
      "epoch": 11.477987421383649,
      "grad_norm": 0.1280032843351364,
      "learning_rate": 0.0004583816738155595,
      "loss": 0.5334,
      "num_input_tokens_seen": 14324512,
      "step": 21900
    },
    {
      "epoch": 11.480607966457024,
      "grad_norm": 0.10068246722221375,
      "learning_rate": 0.0004581537860610213,
      "loss": 0.5368,
      "num_input_tokens_seen": 14327648,
      "step": 21905
    },
    {
      "epoch": 11.483228511530399,
      "grad_norm": 0.09448833018541336,
      "learning_rate": 0.0004579259070602333,
      "loss": 0.5476,
      "num_input_tokens_seen": 14331040,
      "step": 21910
    },
    {
      "epoch": 11.485849056603774,
      "grad_norm": 0.13916486501693726,
      "learning_rate": 0.0004576980368608658,
      "loss": 0.4174,
      "num_input_tokens_seen": 14333920,
      "step": 21915
    },
    {
      "epoch": 11.48846960167715,
      "grad_norm": 0.14002138376235962,
      "learning_rate": 0.0004574701755105862,
      "loss": 0.4749,
      "num_input_tokens_seen": 14337056,
      "step": 21920
    },
    {
      "epoch": 11.491090146750524,
      "grad_norm": 0.13902439177036285,
      "learning_rate": 0.00045724232305706066,
      "loss": 0.3035,
      "num_input_tokens_seen": 14339584,
      "step": 21925
    },
    {
      "epoch": 11.4937106918239,
      "grad_norm": 0.045972660183906555,
      "learning_rate": 0.00045701447954795343,
      "loss": 0.3476,
      "num_input_tokens_seen": 14345024,
      "step": 21930
    },
    {
      "epoch": 11.496331236897275,
      "grad_norm": 0.10108993947505951,
      "learning_rate": 0.0004567866450309268,
      "loss": 0.4036,
      "num_input_tokens_seen": 14348288,
      "step": 21935
    },
    {
      "epoch": 11.49895178197065,
      "grad_norm": 0.3926270306110382,
      "learning_rate": 0.00045655881955364086,
      "loss": 0.5987,
      "num_input_tokens_seen": 14352000,
      "step": 21940
    },
    {
      "epoch": 11.501572327044025,
      "grad_norm": 0.12789574265480042,
      "learning_rate": 0.0004563310031637543,
      "loss": 0.358,
      "num_input_tokens_seen": 14354336,
      "step": 21945
    },
    {
      "epoch": 11.5041928721174,
      "grad_norm": 0.1273588389158249,
      "learning_rate": 0.00045610319590892365,
      "loss": 0.5651,
      "num_input_tokens_seen": 14357728,
      "step": 21950
    },
    {
      "epoch": 11.506813417190775,
      "grad_norm": 0.1336478590965271,
      "learning_rate": 0.00045587539783680366,
      "loss": 0.4661,
      "num_input_tokens_seen": 14360384,
      "step": 21955
    },
    {
      "epoch": 11.50943396226415,
      "grad_norm": 0.08220641314983368,
      "learning_rate": 0.00045564760899504715,
      "loss": 0.4695,
      "num_input_tokens_seen": 14364800,
      "step": 21960
    },
    {
      "epoch": 11.512054507337526,
      "grad_norm": 0.19690831005573273,
      "learning_rate": 0.00045541982943130466,
      "loss": 0.3246,
      "num_input_tokens_seen": 14367872,
      "step": 21965
    },
    {
      "epoch": 11.514675052410901,
      "grad_norm": 0.08977855741977692,
      "learning_rate": 0.00045519205919322534,
      "loss": 0.5028,
      "num_input_tokens_seen": 14371872,
      "step": 21970
    },
    {
      "epoch": 11.517295597484276,
      "grad_norm": 0.1906031370162964,
      "learning_rate": 0.00045496429832845594,
      "loss": 0.4597,
      "num_input_tokens_seen": 14374752,
      "step": 21975
    },
    {
      "epoch": 11.519916142557651,
      "grad_norm": 0.22394461929798126,
      "learning_rate": 0.0004547365468846416,
      "loss": 0.4477,
      "num_input_tokens_seen": 14377792,
      "step": 21980
    },
    {
      "epoch": 11.522536687631026,
      "grad_norm": 0.07489275187253952,
      "learning_rate": 0.0004545088049094252,
      "loss": 0.3303,
      "num_input_tokens_seen": 14382496,
      "step": 21985
    },
    {
      "epoch": 11.525157232704402,
      "grad_norm": 0.12205293774604797,
      "learning_rate": 0.00045428107245044805,
      "loss": 0.4366,
      "num_input_tokens_seen": 14389184,
      "step": 21990
    },
    {
      "epoch": 11.527777777777779,
      "grad_norm": 0.13958004117012024,
      "learning_rate": 0.0004540533495553488,
      "loss": 0.407,
      "num_input_tokens_seen": 14391904,
      "step": 21995
    },
    {
      "epoch": 11.530398322851154,
      "grad_norm": 0.10691375285387039,
      "learning_rate": 0.00045382563627176454,
      "loss": 0.3603,
      "num_input_tokens_seen": 14394880,
      "step": 22000
    },
    {
      "epoch": 11.533018867924529,
      "grad_norm": 0.12824636697769165,
      "learning_rate": 0.0004535979326473304,
      "loss": 0.3695,
      "num_input_tokens_seen": 14399168,
      "step": 22005
    },
    {
      "epoch": 11.535639412997904,
      "grad_norm": 0.19035233557224274,
      "learning_rate": 0.00045337023872967945,
      "loss": 0.6084,
      "num_input_tokens_seen": 14402848,
      "step": 22010
    },
    {
      "epoch": 11.53825995807128,
      "grad_norm": 0.09572001546621323,
      "learning_rate": 0.0004531425545664425,
      "loss": 0.4138,
      "num_input_tokens_seen": 14406272,
      "step": 22015
    },
    {
      "epoch": 11.540880503144654,
      "grad_norm": 0.14524903893470764,
      "learning_rate": 0.0004529148802052488,
      "loss": 0.3802,
      "num_input_tokens_seen": 14409120,
      "step": 22020
    },
    {
      "epoch": 11.54350104821803,
      "grad_norm": 0.10683827102184296,
      "learning_rate": 0.00045268721569372483,
      "loss": 0.3827,
      "num_input_tokens_seen": 14412224,
      "step": 22025
    },
    {
      "epoch": 11.546121593291405,
      "grad_norm": 0.16962000727653503,
      "learning_rate": 0.00045245956107949547,
      "loss": 0.5254,
      "num_input_tokens_seen": 14415616,
      "step": 22030
    },
    {
      "epoch": 11.54874213836478,
      "grad_norm": 0.18893273174762726,
      "learning_rate": 0.0004522319164101837,
      "loss": 0.6762,
      "num_input_tokens_seen": 14419392,
      "step": 22035
    },
    {
      "epoch": 11.551362683438155,
      "grad_norm": 0.12602262198925018,
      "learning_rate": 0.00045200428173340987,
      "loss": 0.3886,
      "num_input_tokens_seen": 14423040,
      "step": 22040
    },
    {
      "epoch": 11.55398322851153,
      "grad_norm": 0.10885249078273773,
      "learning_rate": 0.00045177665709679286,
      "loss": 0.5653,
      "num_input_tokens_seen": 14426656,
      "step": 22045
    },
    {
      "epoch": 11.556603773584905,
      "grad_norm": 0.2951076030731201,
      "learning_rate": 0.0004515490425479492,
      "loss": 0.5883,
      "num_input_tokens_seen": 14429792,
      "step": 22050
    },
    {
      "epoch": 11.55922431865828,
      "grad_norm": 0.19229662418365479,
      "learning_rate": 0.0004513214381344928,
      "loss": 0.4074,
      "num_input_tokens_seen": 14432992,
      "step": 22055
    },
    {
      "epoch": 11.561844863731656,
      "grad_norm": 0.11753396689891815,
      "learning_rate": 0.00045109384390403635,
      "loss": 0.4751,
      "num_input_tokens_seen": 14436448,
      "step": 22060
    },
    {
      "epoch": 11.564465408805031,
      "grad_norm": 0.1368018537759781,
      "learning_rate": 0.0004508662599041896,
      "loss": 0.4651,
      "num_input_tokens_seen": 14438880,
      "step": 22065
    },
    {
      "epoch": 11.567085953878406,
      "grad_norm": 0.14407522976398468,
      "learning_rate": 0.0004506386861825609,
      "loss": 0.4425,
      "num_input_tokens_seen": 14441248,
      "step": 22070
    },
    {
      "epoch": 11.569706498951781,
      "grad_norm": 0.11454205214977264,
      "learning_rate": 0.00045041112278675603,
      "loss": 0.3931,
      "num_input_tokens_seen": 14444576,
      "step": 22075
    },
    {
      "epoch": 11.572327044025156,
      "grad_norm": 0.13201002776622772,
      "learning_rate": 0.00045018356976437836,
      "loss": 0.4314,
      "num_input_tokens_seen": 14447968,
      "step": 22080
    },
    {
      "epoch": 11.574947589098532,
      "grad_norm": 0.08515582978725433,
      "learning_rate": 0.0004499560271630295,
      "loss": 0.6157,
      "num_input_tokens_seen": 14450816,
      "step": 22085
    },
    {
      "epoch": 11.577568134171909,
      "grad_norm": 0.12202168256044388,
      "learning_rate": 0.00044972849503030894,
      "loss": 0.3399,
      "num_input_tokens_seen": 14453728,
      "step": 22090
    },
    {
      "epoch": 11.580188679245284,
      "grad_norm": 0.10643745213747025,
      "learning_rate": 0.00044950097341381356,
      "loss": 0.5788,
      "num_input_tokens_seen": 14456512,
      "step": 22095
    },
    {
      "epoch": 11.582809224318659,
      "grad_norm": 0.1290534883737564,
      "learning_rate": 0.0004492734623611385,
      "loss": 0.5619,
      "num_input_tokens_seen": 14460160,
      "step": 22100
    },
    {
      "epoch": 11.585429769392034,
      "grad_norm": 0.10013322532176971,
      "learning_rate": 0.0004490459619198766,
      "loss": 0.5851,
      "num_input_tokens_seen": 14462848,
      "step": 22105
    },
    {
      "epoch": 11.58805031446541,
      "grad_norm": 0.08738003671169281,
      "learning_rate": 0.00044881847213761787,
      "loss": 0.4015,
      "num_input_tokens_seen": 14466592,
      "step": 22110
    },
    {
      "epoch": 11.590670859538784,
      "grad_norm": 0.13685177266597748,
      "learning_rate": 0.000448590993061951,
      "loss": 0.3872,
      "num_input_tokens_seen": 14468960,
      "step": 22115
    },
    {
      "epoch": 11.59329140461216,
      "grad_norm": 0.11762340366840363,
      "learning_rate": 0.00044836352474046177,
      "loss": 0.4003,
      "num_input_tokens_seen": 14472864,
      "step": 22120
    },
    {
      "epoch": 11.595911949685535,
      "grad_norm": 0.09410443902015686,
      "learning_rate": 0.00044813606722073415,
      "loss": 0.4605,
      "num_input_tokens_seen": 14476768,
      "step": 22125
    },
    {
      "epoch": 11.59853249475891,
      "grad_norm": 0.1082097738981247,
      "learning_rate": 0.00044790862055034945,
      "loss": 0.3962,
      "num_input_tokens_seen": 14479872,
      "step": 22130
    },
    {
      "epoch": 11.601153039832285,
      "grad_norm": 0.11553905159235,
      "learning_rate": 0.00044768118477688727,
      "loss": 0.4426,
      "num_input_tokens_seen": 14482400,
      "step": 22135
    },
    {
      "epoch": 11.60377358490566,
      "grad_norm": 0.12976042926311493,
      "learning_rate": 0.00044745375994792425,
      "loss": 0.4662,
      "num_input_tokens_seen": 14485696,
      "step": 22140
    },
    {
      "epoch": 11.606394129979035,
      "grad_norm": 0.09289663285017014,
      "learning_rate": 0.00044722634611103507,
      "loss": 0.5708,
      "num_input_tokens_seen": 14488800,
      "step": 22145
    },
    {
      "epoch": 11.60901467505241,
      "grad_norm": 0.12374056130647659,
      "learning_rate": 0.0004469989433137923,
      "loss": 0.4192,
      "num_input_tokens_seen": 14491520,
      "step": 22150
    },
    {
      "epoch": 11.611635220125786,
      "grad_norm": 0.12686894834041595,
      "learning_rate": 0.00044677155160376586,
      "loss": 0.3443,
      "num_input_tokens_seen": 14494176,
      "step": 22155
    },
    {
      "epoch": 11.614255765199161,
      "grad_norm": 0.2066948115825653,
      "learning_rate": 0.00044654417102852375,
      "loss": 0.5015,
      "num_input_tokens_seen": 14496640,
      "step": 22160
    },
    {
      "epoch": 11.616876310272536,
      "grad_norm": 0.17518296837806702,
      "learning_rate": 0.0004463168016356309,
      "loss": 0.4215,
      "num_input_tokens_seen": 14499232,
      "step": 22165
    },
    {
      "epoch": 11.619496855345911,
      "grad_norm": 0.17612063884735107,
      "learning_rate": 0.00044608944347265095,
      "loss": 0.4796,
      "num_input_tokens_seen": 14501600,
      "step": 22170
    },
    {
      "epoch": 11.622117400419286,
      "grad_norm": 0.0831158459186554,
      "learning_rate": 0.0004458620965871442,
      "loss": 0.4202,
      "num_input_tokens_seen": 14504544,
      "step": 22175
    },
    {
      "epoch": 11.624737945492662,
      "grad_norm": 0.259967565536499,
      "learning_rate": 0.00044563476102666935,
      "loss": 0.3647,
      "num_input_tokens_seen": 14507904,
      "step": 22180
    },
    {
      "epoch": 11.627358490566039,
      "grad_norm": 0.0718066394329071,
      "learning_rate": 0.0004454074368387821,
      "loss": 0.4061,
      "num_input_tokens_seen": 14511264,
      "step": 22185
    },
    {
      "epoch": 11.629979035639414,
      "grad_norm": 0.09487885236740112,
      "learning_rate": 0.0004451801240710365,
      "loss": 0.398,
      "num_input_tokens_seen": 14514752,
      "step": 22190
    },
    {
      "epoch": 11.632599580712789,
      "grad_norm": 0.10708307474851608,
      "learning_rate": 0.0004449528227709834,
      "loss": 0.4186,
      "num_input_tokens_seen": 14517312,
      "step": 22195
    },
    {
      "epoch": 11.635220125786164,
      "grad_norm": 0.11037353426218033,
      "learning_rate": 0.0004447255329861716,
      "loss": 0.4359,
      "num_input_tokens_seen": 14520800,
      "step": 22200
    },
    {
      "epoch": 11.63784067085954,
      "grad_norm": 0.11054949462413788,
      "learning_rate": 0.0004444982547641479,
      "loss": 0.3827,
      "num_input_tokens_seen": 14524000,
      "step": 22205
    },
    {
      "epoch": 11.640461215932914,
      "grad_norm": 0.07393690943717957,
      "learning_rate": 0.00044427098815245594,
      "loss": 0.4558,
      "num_input_tokens_seen": 14526944,
      "step": 22210
    },
    {
      "epoch": 11.64308176100629,
      "grad_norm": 0.1153232753276825,
      "learning_rate": 0.00044404373319863763,
      "loss": 0.3494,
      "num_input_tokens_seen": 14530368,
      "step": 22215
    },
    {
      "epoch": 11.645702306079665,
      "grad_norm": 0.12994013726711273,
      "learning_rate": 0.000443816489950232,
      "loss": 0.381,
      "num_input_tokens_seen": 14533824,
      "step": 22220
    },
    {
      "epoch": 11.64832285115304,
      "grad_norm": 0.24739591777324677,
      "learning_rate": 0.00044358925845477547,
      "loss": 0.3905,
      "num_input_tokens_seen": 14539232,
      "step": 22225
    },
    {
      "epoch": 11.650943396226415,
      "grad_norm": 0.09316948801279068,
      "learning_rate": 0.0004433620387598027,
      "loss": 0.3791,
      "num_input_tokens_seen": 14542784,
      "step": 22230
    },
    {
      "epoch": 11.65356394129979,
      "grad_norm": 0.12825818359851837,
      "learning_rate": 0.00044313483091284507,
      "loss": 0.4451,
      "num_input_tokens_seen": 14545696,
      "step": 22235
    },
    {
      "epoch": 11.656184486373165,
      "grad_norm": 0.09759993851184845,
      "learning_rate": 0.0004429076349614321,
      "loss": 0.2849,
      "num_input_tokens_seen": 14549344,
      "step": 22240
    },
    {
      "epoch": 11.65880503144654,
      "grad_norm": 0.1181270033121109,
      "learning_rate": 0.0004426804509530907,
      "loss": 0.4322,
      "num_input_tokens_seen": 14552096,
      "step": 22245
    },
    {
      "epoch": 11.661425576519916,
      "grad_norm": 0.10026056319475174,
      "learning_rate": 0.000442453278935345,
      "loss": 0.3388,
      "num_input_tokens_seen": 14556384,
      "step": 22250
    },
    {
      "epoch": 11.664046121593291,
      "grad_norm": 0.20467637479305267,
      "learning_rate": 0.0004422261189557167,
      "loss": 0.4188,
      "num_input_tokens_seen": 14559680,
      "step": 22255
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.11180558800697327,
      "learning_rate": 0.00044199897106172526,
      "loss": 0.3689,
      "num_input_tokens_seen": 14562592,
      "step": 22260
    },
    {
      "epoch": 11.669287211740041,
      "grad_norm": 0.20490071177482605,
      "learning_rate": 0.0004417718353008873,
      "loss": 0.5259,
      "num_input_tokens_seen": 14564960,
      "step": 22265
    },
    {
      "epoch": 11.671907756813416,
      "grad_norm": 0.13895076513290405,
      "learning_rate": 0.0004415447117207172,
      "loss": 0.4791,
      "num_input_tokens_seen": 14568384,
      "step": 22270
    },
    {
      "epoch": 11.674528301886792,
      "grad_norm": 0.10938160121440887,
      "learning_rate": 0.00044131760036872657,
      "loss": 0.4169,
      "num_input_tokens_seen": 14571680,
      "step": 22275
    },
    {
      "epoch": 11.677148846960169,
      "grad_norm": 0.14724484086036682,
      "learning_rate": 0.00044109050129242434,
      "loss": 0.4507,
      "num_input_tokens_seen": 14575136,
      "step": 22280
    },
    {
      "epoch": 11.679769392033544,
      "grad_norm": 0.1103871539235115,
      "learning_rate": 0.00044086341453931715,
      "loss": 0.3849,
      "num_input_tokens_seen": 14577888,
      "step": 22285
    },
    {
      "epoch": 11.682389937106919,
      "grad_norm": 0.08367785811424255,
      "learning_rate": 0.00044063634015690893,
      "loss": 0.4164,
      "num_input_tokens_seen": 14581248,
      "step": 22290
    },
    {
      "epoch": 11.685010482180294,
      "grad_norm": 0.17157916724681854,
      "learning_rate": 0.0004404092781927012,
      "loss": 0.5006,
      "num_input_tokens_seen": 14584928,
      "step": 22295
    },
    {
      "epoch": 11.68763102725367,
      "grad_norm": 0.19637668132781982,
      "learning_rate": 0.00044018222869419255,
      "loss": 0.6038,
      "num_input_tokens_seen": 14587552,
      "step": 22300
    },
    {
      "epoch": 11.690251572327044,
      "grad_norm": 0.18489299714565277,
      "learning_rate": 0.00043995519170887936,
      "loss": 0.4379,
      "num_input_tokens_seen": 14589760,
      "step": 22305
    },
    {
      "epoch": 11.69287211740042,
      "grad_norm": 0.1987314671278,
      "learning_rate": 0.00043972816728425504,
      "loss": 0.5197,
      "num_input_tokens_seen": 14592448,
      "step": 22310
    },
    {
      "epoch": 11.695492662473795,
      "grad_norm": 0.12369262427091599,
      "learning_rate": 0.0004395011554678103,
      "loss": 0.4442,
      "num_input_tokens_seen": 14595808,
      "step": 22315
    },
    {
      "epoch": 11.69811320754717,
      "grad_norm": 0.08673308789730072,
      "learning_rate": 0.00043927415630703364,
      "loss": 0.4139,
      "num_input_tokens_seen": 14598624,
      "step": 22320
    },
    {
      "epoch": 11.700733752620545,
      "grad_norm": 0.2970622479915619,
      "learning_rate": 0.0004390471698494108,
      "loss": 0.4024,
      "num_input_tokens_seen": 14601536,
      "step": 22325
    },
    {
      "epoch": 11.70335429769392,
      "grad_norm": 0.10649987310171127,
      "learning_rate": 0.0004388201961424248,
      "loss": 0.4544,
      "num_input_tokens_seen": 14604736,
      "step": 22330
    },
    {
      "epoch": 11.705974842767295,
      "grad_norm": 0.1550864428281784,
      "learning_rate": 0.0004385932352335555,
      "loss": 0.3802,
      "num_input_tokens_seen": 14607840,
      "step": 22335
    },
    {
      "epoch": 11.70859538784067,
      "grad_norm": 0.11412326246500015,
      "learning_rate": 0.000438366287170281,
      "loss": 0.4896,
      "num_input_tokens_seen": 14610816,
      "step": 22340
    },
    {
      "epoch": 11.711215932914046,
      "grad_norm": 0.12492398917675018,
      "learning_rate": 0.0004381393520000759,
      "loss": 0.5049,
      "num_input_tokens_seen": 14614464,
      "step": 22345
    },
    {
      "epoch": 11.713836477987421,
      "grad_norm": 0.09662952274084091,
      "learning_rate": 0.0004379124297704127,
      "loss": 0.3712,
      "num_input_tokens_seen": 14616704,
      "step": 22350
    },
    {
      "epoch": 11.716457023060796,
      "grad_norm": 0.08304166048765182,
      "learning_rate": 0.0004376855205287609,
      "loss": 0.4652,
      "num_input_tokens_seen": 14620832,
      "step": 22355
    },
    {
      "epoch": 11.719077568134171,
      "grad_norm": 0.09694238007068634,
      "learning_rate": 0.0004374586243225874,
      "loss": 0.4562,
      "num_input_tokens_seen": 14623328,
      "step": 22360
    },
    {
      "epoch": 11.721698113207546,
      "grad_norm": 0.10825050622224808,
      "learning_rate": 0.00043723174119935607,
      "loss": 0.4408,
      "num_input_tokens_seen": 14627520,
      "step": 22365
    },
    {
      "epoch": 11.724318658280922,
      "grad_norm": 0.20907597243785858,
      "learning_rate": 0.00043700487120652826,
      "loss": 0.3802,
      "num_input_tokens_seen": 14631712,
      "step": 22370
    },
    {
      "epoch": 11.726939203354299,
      "grad_norm": 0.10278850793838501,
      "learning_rate": 0.00043677801439156284,
      "loss": 0.4563,
      "num_input_tokens_seen": 14634912,
      "step": 22375
    },
    {
      "epoch": 11.729559748427674,
      "grad_norm": 0.13530206680297852,
      "learning_rate": 0.00043655117080191545,
      "loss": 0.5052,
      "num_input_tokens_seen": 14637440,
      "step": 22380
    },
    {
      "epoch": 11.732180293501049,
      "grad_norm": 0.05177827924489975,
      "learning_rate": 0.00043632434048503934,
      "loss": 0.4463,
      "num_input_tokens_seen": 14642336,
      "step": 22385
    },
    {
      "epoch": 11.734800838574424,
      "grad_norm": 0.1778799444437027,
      "learning_rate": 0.00043609752348838484,
      "loss": 0.4743,
      "num_input_tokens_seen": 14646016,
      "step": 22390
    },
    {
      "epoch": 11.7374213836478,
      "grad_norm": 0.13786502182483673,
      "learning_rate": 0.0004358707198593992,
      "loss": 0.371,
      "num_input_tokens_seen": 14648384,
      "step": 22395
    },
    {
      "epoch": 11.740041928721174,
      "grad_norm": 0.09797728806734085,
      "learning_rate": 0.0004356439296455273,
      "loss": 0.5122,
      "num_input_tokens_seen": 14651552,
      "step": 22400
    },
    {
      "epoch": 11.74266247379455,
      "grad_norm": 0.09094731509685516,
      "learning_rate": 0.0004354171528942113,
      "loss": 0.5582,
      "num_input_tokens_seen": 14654304,
      "step": 22405
    },
    {
      "epoch": 11.745283018867925,
      "grad_norm": 0.13734565675258636,
      "learning_rate": 0.00043519038965288994,
      "loss": 0.4248,
      "num_input_tokens_seen": 14657472,
      "step": 22410
    },
    {
      "epoch": 11.7479035639413,
      "grad_norm": 0.09904108196496964,
      "learning_rate": 0.0004349636399689998,
      "loss": 0.5824,
      "num_input_tokens_seen": 14660992,
      "step": 22415
    },
    {
      "epoch": 11.750524109014675,
      "grad_norm": 0.09349826723337173,
      "learning_rate": 0.00043473690388997434,
      "loss": 0.4543,
      "num_input_tokens_seen": 14665344,
      "step": 22420
    },
    {
      "epoch": 11.75314465408805,
      "grad_norm": 0.14098608493804932,
      "learning_rate": 0.0004345101814632438,
      "loss": 0.5155,
      "num_input_tokens_seen": 14668384,
      "step": 22425
    },
    {
      "epoch": 11.755765199161425,
      "grad_norm": 0.15431667864322662,
      "learning_rate": 0.0004342834727362362,
      "loss": 0.4956,
      "num_input_tokens_seen": 14671488,
      "step": 22430
    },
    {
      "epoch": 11.7583857442348,
      "grad_norm": 0.18646764755249023,
      "learning_rate": 0.00043405677775637633,
      "loss": 0.5055,
      "num_input_tokens_seen": 14674592,
      "step": 22435
    },
    {
      "epoch": 11.761006289308176,
      "grad_norm": 0.10850773006677628,
      "learning_rate": 0.0004338300965710863,
      "loss": 0.5503,
      "num_input_tokens_seen": 14678176,
      "step": 22440
    },
    {
      "epoch": 11.76362683438155,
      "grad_norm": 0.12396769225597382,
      "learning_rate": 0.0004336034292277853,
      "loss": 0.356,
      "num_input_tokens_seen": 14681184,
      "step": 22445
    },
    {
      "epoch": 11.766247379454926,
      "grad_norm": 0.06999997049570084,
      "learning_rate": 0.00043337677577388916,
      "loss": 0.3518,
      "num_input_tokens_seen": 14684192,
      "step": 22450
    },
    {
      "epoch": 11.768867924528301,
      "grad_norm": 0.0998142659664154,
      "learning_rate": 0.0004331501362568116,
      "loss": 0.4235,
      "num_input_tokens_seen": 14687040,
      "step": 22455
    },
    {
      "epoch": 11.771488469601676,
      "grad_norm": 0.07285162061452866,
      "learning_rate": 0.00043292351072396273,
      "loss": 0.5666,
      "num_input_tokens_seen": 14690592,
      "step": 22460
    },
    {
      "epoch": 11.774109014675052,
      "grad_norm": 0.10993105918169022,
      "learning_rate": 0.0004326968992227503,
      "loss": 0.417,
      "num_input_tokens_seen": 14693792,
      "step": 22465
    },
    {
      "epoch": 11.776729559748428,
      "grad_norm": 0.1819915771484375,
      "learning_rate": 0.0004324703018005786,
      "loss": 0.6165,
      "num_input_tokens_seen": 14696544,
      "step": 22470
    },
    {
      "epoch": 11.779350104821804,
      "grad_norm": 0.11780880391597748,
      "learning_rate": 0.00043224371850484955,
      "loss": 0.4635,
      "num_input_tokens_seen": 14700416,
      "step": 22475
    },
    {
      "epoch": 11.781970649895179,
      "grad_norm": 0.1289174109697342,
      "learning_rate": 0.0004320171493829614,
      "loss": 0.5306,
      "num_input_tokens_seen": 14703648,
      "step": 22480
    },
    {
      "epoch": 11.784591194968554,
      "grad_norm": 0.16119177639484406,
      "learning_rate": 0.00043179059448231004,
      "loss": 0.3983,
      "num_input_tokens_seen": 14706304,
      "step": 22485
    },
    {
      "epoch": 11.78721174004193,
      "grad_norm": 0.1220158115029335,
      "learning_rate": 0.0004315640538502881,
      "loss": 0.4548,
      "num_input_tokens_seen": 14708672,
      "step": 22490
    },
    {
      "epoch": 11.789832285115304,
      "grad_norm": 0.11696162074804306,
      "learning_rate": 0.00043133752753428547,
      "loss": 0.5814,
      "num_input_tokens_seen": 14711904,
      "step": 22495
    },
    {
      "epoch": 11.79245283018868,
      "grad_norm": 0.2552691400051117,
      "learning_rate": 0.0004311110155816886,
      "loss": 0.4473,
      "num_input_tokens_seen": 14714080,
      "step": 22500
    },
    {
      "epoch": 11.795073375262055,
      "grad_norm": 0.16458193957805634,
      "learning_rate": 0.00043088451803988153,
      "loss": 0.3625,
      "num_input_tokens_seen": 14717152,
      "step": 22505
    },
    {
      "epoch": 11.79769392033543,
      "grad_norm": 0.12914136052131653,
      "learning_rate": 0.00043065803495624465,
      "loss": 0.3926,
      "num_input_tokens_seen": 14720064,
      "step": 22510
    },
    {
      "epoch": 11.800314465408805,
      "grad_norm": 0.14703510701656342,
      "learning_rate": 0.00043043156637815575,
      "loss": 0.4969,
      "num_input_tokens_seen": 14722848,
      "step": 22515
    },
    {
      "epoch": 11.80293501048218,
      "grad_norm": 0.13334082067012787,
      "learning_rate": 0.00043020511235298956,
      "loss": 0.3781,
      "num_input_tokens_seen": 14725696,
      "step": 22520
    },
    {
      "epoch": 11.805555555555555,
      "grad_norm": 0.09790940582752228,
      "learning_rate": 0.00042997867292811744,
      "loss": 0.4379,
      "num_input_tokens_seen": 14728800,
      "step": 22525
    },
    {
      "epoch": 11.80817610062893,
      "grad_norm": 0.08529206365346909,
      "learning_rate": 0.00042975224815090834,
      "loss": 0.3412,
      "num_input_tokens_seen": 14732608,
      "step": 22530
    },
    {
      "epoch": 11.810796645702306,
      "grad_norm": 0.09767217934131622,
      "learning_rate": 0.0004295258380687274,
      "loss": 0.432,
      "num_input_tokens_seen": 14736640,
      "step": 22535
    },
    {
      "epoch": 11.81341719077568,
      "grad_norm": 0.10747537016868591,
      "learning_rate": 0.000429299442728937,
      "loss": 0.3522,
      "num_input_tokens_seen": 14739296,
      "step": 22540
    },
    {
      "epoch": 11.816037735849056,
      "grad_norm": 0.13452666997909546,
      "learning_rate": 0.0004290730621788967,
      "loss": 0.3379,
      "num_input_tokens_seen": 14742048,
      "step": 22545
    },
    {
      "epoch": 11.818658280922431,
      "grad_norm": 0.1759294867515564,
      "learning_rate": 0.0004288466964659625,
      "loss": 0.3712,
      "num_input_tokens_seen": 14745056,
      "step": 22550
    },
    {
      "epoch": 11.821278825995806,
      "grad_norm": 0.10101907700300217,
      "learning_rate": 0.0004286203456374877,
      "loss": 0.6161,
      "num_input_tokens_seen": 14748064,
      "step": 22555
    },
    {
      "epoch": 11.823899371069182,
      "grad_norm": 0.13580766320228577,
      "learning_rate": 0.0004283940097408224,
      "loss": 0.5073,
      "num_input_tokens_seen": 14751264,
      "step": 22560
    },
    {
      "epoch": 11.826519916142558,
      "grad_norm": 0.09386041760444641,
      "learning_rate": 0.00042816768882331324,
      "loss": 0.5542,
      "num_input_tokens_seen": 14755168,
      "step": 22565
    },
    {
      "epoch": 11.829140461215934,
      "grad_norm": 0.31486189365386963,
      "learning_rate": 0.000427941382932304,
      "loss": 0.5868,
      "num_input_tokens_seen": 14757408,
      "step": 22570
    },
    {
      "epoch": 11.831761006289309,
      "grad_norm": 0.10737096518278122,
      "learning_rate": 0.0004277150921151354,
      "loss": 0.4893,
      "num_input_tokens_seen": 14760288,
      "step": 22575
    },
    {
      "epoch": 11.834381551362684,
      "grad_norm": 0.11040913313627243,
      "learning_rate": 0.0004274888164191448,
      "loss": 0.4411,
      "num_input_tokens_seen": 14763616,
      "step": 22580
    },
    {
      "epoch": 11.83700209643606,
      "grad_norm": 0.16054128110408783,
      "learning_rate": 0.00042726255589166666,
      "loss": 0.4038,
      "num_input_tokens_seen": 14768544,
      "step": 22585
    },
    {
      "epoch": 11.839622641509434,
      "grad_norm": 0.12895962595939636,
      "learning_rate": 0.0004270363105800321,
      "loss": 0.5221,
      "num_input_tokens_seen": 14771456,
      "step": 22590
    },
    {
      "epoch": 11.84224318658281,
      "grad_norm": 0.09239719063043594,
      "learning_rate": 0.0004268100805315688,
      "loss": 0.556,
      "num_input_tokens_seen": 14774880,
      "step": 22595
    },
    {
      "epoch": 11.844863731656185,
      "grad_norm": 0.080685093998909,
      "learning_rate": 0.00042658386579360165,
      "loss": 0.4117,
      "num_input_tokens_seen": 14778432,
      "step": 22600
    },
    {
      "epoch": 11.84748427672956,
      "grad_norm": 0.12053043395280838,
      "learning_rate": 0.00042635766641345213,
      "loss": 0.4347,
      "num_input_tokens_seen": 14781984,
      "step": 22605
    },
    {
      "epoch": 11.850104821802935,
      "grad_norm": 0.16812458634376526,
      "learning_rate": 0.0004261314824384388,
      "loss": 0.5357,
      "num_input_tokens_seen": 14785280,
      "step": 22610
    },
    {
      "epoch": 11.85272536687631,
      "grad_norm": 0.13224488496780396,
      "learning_rate": 0.00042590531391587666,
      "loss": 0.5143,
      "num_input_tokens_seen": 14789568,
      "step": 22615
    },
    {
      "epoch": 11.855345911949685,
      "grad_norm": 0.19751128554344177,
      "learning_rate": 0.00042567916089307733,
      "loss": 0.3423,
      "num_input_tokens_seen": 14792608,
      "step": 22620
    },
    {
      "epoch": 11.85796645702306,
      "grad_norm": 0.029679514467716217,
      "learning_rate": 0.00042545302341734977,
      "loss": 0.3074,
      "num_input_tokens_seen": 14797760,
      "step": 22625
    },
    {
      "epoch": 11.860587002096436,
      "grad_norm": 0.13581307232379913,
      "learning_rate": 0.0004252269015359991,
      "loss": 0.4791,
      "num_input_tokens_seen": 14800768,
      "step": 22630
    },
    {
      "epoch": 11.86320754716981,
      "grad_norm": 0.06480710208415985,
      "learning_rate": 0.00042500079529632763,
      "loss": 0.4233,
      "num_input_tokens_seen": 14804000,
      "step": 22635
    },
    {
      "epoch": 11.865828092243186,
      "grad_norm": 0.09096471220254898,
      "learning_rate": 0.0004247747047456342,
      "loss": 0.3285,
      "num_input_tokens_seen": 14807392,
      "step": 22640
    },
    {
      "epoch": 11.868448637316561,
      "grad_norm": 0.09848224371671677,
      "learning_rate": 0.0004245486299312144,
      "loss": 0.4148,
      "num_input_tokens_seen": 14810816,
      "step": 22645
    },
    {
      "epoch": 11.871069182389936,
      "grad_norm": 0.13801424205303192,
      "learning_rate": 0.0004243225709003602,
      "loss": 0.3983,
      "num_input_tokens_seen": 14813056,
      "step": 22650
    },
    {
      "epoch": 11.873689727463312,
      "grad_norm": 0.07250192761421204,
      "learning_rate": 0.000424096527700361,
      "loss": 0.4953,
      "num_input_tokens_seen": 14816736,
      "step": 22655
    },
    {
      "epoch": 11.876310272536688,
      "grad_norm": 0.09483906626701355,
      "learning_rate": 0.0004238705003785021,
      "loss": 0.515,
      "num_input_tokens_seen": 14820160,
      "step": 22660
    },
    {
      "epoch": 11.878930817610064,
      "grad_norm": 0.09655062109231949,
      "learning_rate": 0.0004236444889820661,
      "loss": 0.4445,
      "num_input_tokens_seen": 14822944,
      "step": 22665
    },
    {
      "epoch": 11.881551362683439,
      "grad_norm": 0.1369490772485733,
      "learning_rate": 0.0004234184935583318,
      "loss": 0.405,
      "num_input_tokens_seen": 14826464,
      "step": 22670
    },
    {
      "epoch": 11.884171907756814,
      "grad_norm": 0.2259613573551178,
      "learning_rate": 0.00042319251415457517,
      "loss": 0.4245,
      "num_input_tokens_seen": 14830080,
      "step": 22675
    },
    {
      "epoch": 11.88679245283019,
      "grad_norm": 0.11579952389001846,
      "learning_rate": 0.0004229665508180681,
      "loss": 0.4775,
      "num_input_tokens_seen": 14833280,
      "step": 22680
    },
    {
      "epoch": 11.889412997903564,
      "grad_norm": 0.1456448882818222,
      "learning_rate": 0.0004227406035960798,
      "loss": 0.5556,
      "num_input_tokens_seen": 14836768,
      "step": 22685
    },
    {
      "epoch": 11.89203354297694,
      "grad_norm": 0.15630482137203217,
      "learning_rate": 0.0004225146725358758,
      "loss": 0.492,
      "num_input_tokens_seen": 14839456,
      "step": 22690
    },
    {
      "epoch": 11.894654088050315,
      "grad_norm": 0.1397923231124878,
      "learning_rate": 0.0004222887576847183,
      "loss": 0.4334,
      "num_input_tokens_seen": 14842272,
      "step": 22695
    },
    {
      "epoch": 11.89727463312369,
      "grad_norm": 0.09811999648809433,
      "learning_rate": 0.00042206285908986626,
      "loss": 0.5898,
      "num_input_tokens_seen": 14846304,
      "step": 22700
    },
    {
      "epoch": 11.899895178197065,
      "grad_norm": 0.14442051947116852,
      "learning_rate": 0.00042183697679857484,
      "loss": 0.4335,
      "num_input_tokens_seen": 14849184,
      "step": 22705
    },
    {
      "epoch": 11.90251572327044,
      "grad_norm": 0.1414310187101364,
      "learning_rate": 0.00042161111085809604,
      "loss": 0.4202,
      "num_input_tokens_seen": 14852704,
      "step": 22710
    },
    {
      "epoch": 11.905136268343815,
      "grad_norm": 0.0961943119764328,
      "learning_rate": 0.00042138526131567855,
      "loss": 0.3968,
      "num_input_tokens_seen": 14856288,
      "step": 22715
    },
    {
      "epoch": 11.90775681341719,
      "grad_norm": 0.17710545659065247,
      "learning_rate": 0.0004211594282185677,
      "loss": 0.4342,
      "num_input_tokens_seen": 14859232,
      "step": 22720
    },
    {
      "epoch": 11.910377358490566,
      "grad_norm": 0.10877732187509537,
      "learning_rate": 0.0004209336116140048,
      "loss": 0.4281,
      "num_input_tokens_seen": 14862624,
      "step": 22725
    },
    {
      "epoch": 11.91299790356394,
      "grad_norm": 0.23576374351978302,
      "learning_rate": 0.00042070781154922857,
      "loss": 0.4751,
      "num_input_tokens_seen": 14866368,
      "step": 22730
    },
    {
      "epoch": 11.915618448637316,
      "grad_norm": 0.11429870873689651,
      "learning_rate": 0.0004204820280714734,
      "loss": 0.343,
      "num_input_tokens_seen": 14869024,
      "step": 22735
    },
    {
      "epoch": 11.918238993710691,
      "grad_norm": 0.11841695010662079,
      "learning_rate": 0.00042025626122797066,
      "loss": 0.3466,
      "num_input_tokens_seen": 14871936,
      "step": 22740
    },
    {
      "epoch": 11.920859538784066,
      "grad_norm": 0.12878581881523132,
      "learning_rate": 0.0004200305110659484,
      "loss": 0.5582,
      "num_input_tokens_seen": 14874400,
      "step": 22745
    },
    {
      "epoch": 11.923480083857442,
      "grad_norm": 0.1268278807401657,
      "learning_rate": 0.0004198047776326308,
      "loss": 0.3986,
      "num_input_tokens_seen": 14876864,
      "step": 22750
    },
    {
      "epoch": 11.926100628930818,
      "grad_norm": 0.14223352074623108,
      "learning_rate": 0.00041957906097523897,
      "loss": 0.3883,
      "num_input_tokens_seen": 14879872,
      "step": 22755
    },
    {
      "epoch": 11.928721174004194,
      "grad_norm": 0.10979549586772919,
      "learning_rate": 0.00041935336114099013,
      "loss": 0.4571,
      "num_input_tokens_seen": 14883424,
      "step": 22760
    },
    {
      "epoch": 11.931341719077569,
      "grad_norm": 0.1740250438451767,
      "learning_rate": 0.0004191276781770979,
      "loss": 0.4067,
      "num_input_tokens_seen": 14887392,
      "step": 22765
    },
    {
      "epoch": 11.933962264150944,
      "grad_norm": 0.12208835035562515,
      "learning_rate": 0.00041890201213077286,
      "loss": 0.5989,
      "num_input_tokens_seen": 14890688,
      "step": 22770
    },
    {
      "epoch": 11.93658280922432,
      "grad_norm": 0.10672707110643387,
      "learning_rate": 0.00041867636304922153,
      "loss": 0.3214,
      "num_input_tokens_seen": 14894464,
      "step": 22775
    },
    {
      "epoch": 11.939203354297694,
      "grad_norm": 0.16733302175998688,
      "learning_rate": 0.00041845073097964737,
      "loss": 0.4169,
      "num_input_tokens_seen": 14897024,
      "step": 22780
    },
    {
      "epoch": 11.94182389937107,
      "grad_norm": 0.09440145641565323,
      "learning_rate": 0.0004182251159692498,
      "loss": 0.435,
      "num_input_tokens_seen": 14900480,
      "step": 22785
    },
    {
      "epoch": 11.944444444444445,
      "grad_norm": 0.1860678493976593,
      "learning_rate": 0.0004179995180652253,
      "loss": 0.4955,
      "num_input_tokens_seen": 14903136,
      "step": 22790
    },
    {
      "epoch": 11.94706498951782,
      "grad_norm": 0.11372982710599899,
      "learning_rate": 0.00041777393731476587,
      "loss": 0.4047,
      "num_input_tokens_seen": 14907040,
      "step": 22795
    },
    {
      "epoch": 11.949685534591195,
      "grad_norm": 0.1318424493074417,
      "learning_rate": 0.0004175483737650608,
      "loss": 0.5838,
      "num_input_tokens_seen": 14910304,
      "step": 22800
    },
    {
      "epoch": 11.95230607966457,
      "grad_norm": 0.11305032670497894,
      "learning_rate": 0.0004173228274632951,
      "loss": 0.4777,
      "num_input_tokens_seen": 14913312,
      "step": 22805
    },
    {
      "epoch": 11.954926624737945,
      "grad_norm": 0.13665561378002167,
      "learning_rate": 0.00041709729845665084,
      "loss": 0.5604,
      "num_input_tokens_seen": 14916512,
      "step": 22810
    },
    {
      "epoch": 11.95754716981132,
      "grad_norm": 0.08660341799259186,
      "learning_rate": 0.0004168717867923061,
      "loss": 0.4352,
      "num_input_tokens_seen": 14920416,
      "step": 22815
    },
    {
      "epoch": 11.960167714884696,
      "grad_norm": 0.1201525554060936,
      "learning_rate": 0.00041664629251743487,
      "loss": 0.5064,
      "num_input_tokens_seen": 14923840,
      "step": 22820
    },
    {
      "epoch": 11.96278825995807,
      "grad_norm": 0.11484698951244354,
      "learning_rate": 0.0004164208156792084,
      "loss": 0.4714,
      "num_input_tokens_seen": 14927520,
      "step": 22825
    },
    {
      "epoch": 11.965408805031446,
      "grad_norm": 0.19246070086956024,
      "learning_rate": 0.00041619535632479374,
      "loss": 0.3834,
      "num_input_tokens_seen": 14930240,
      "step": 22830
    },
    {
      "epoch": 11.968029350104821,
      "grad_norm": 0.2403256744146347,
      "learning_rate": 0.00041596991450135445,
      "loss": 0.4379,
      "num_input_tokens_seen": 14932928,
      "step": 22835
    },
    {
      "epoch": 11.970649895178196,
      "grad_norm": 0.1563226282596588,
      "learning_rate": 0.0004157444902560504,
      "loss": 0.4257,
      "num_input_tokens_seen": 14935616,
      "step": 22840
    },
    {
      "epoch": 11.973270440251572,
      "grad_norm": 0.1370743215084076,
      "learning_rate": 0.00041551908363603786,
      "loss": 0.3878,
      "num_input_tokens_seen": 14938080,
      "step": 22845
    },
    {
      "epoch": 11.975890985324948,
      "grad_norm": 0.263100266456604,
      "learning_rate": 0.00041529369468846914,
      "loss": 0.5687,
      "num_input_tokens_seen": 14940320,
      "step": 22850
    },
    {
      "epoch": 11.978511530398324,
      "grad_norm": 0.1439748853445053,
      "learning_rate": 0.00041506832346049303,
      "loss": 0.4908,
      "num_input_tokens_seen": 14944000,
      "step": 22855
    },
    {
      "epoch": 11.981132075471699,
      "grad_norm": 0.08444903790950775,
      "learning_rate": 0.00041484296999925476,
      "loss": 0.3578,
      "num_input_tokens_seen": 14947168,
      "step": 22860
    },
    {
      "epoch": 11.983752620545074,
      "grad_norm": 0.11866063624620438,
      "learning_rate": 0.00041461763435189555,
      "loss": 0.4353,
      "num_input_tokens_seen": 14950592,
      "step": 22865
    },
    {
      "epoch": 11.98637316561845,
      "grad_norm": 0.14254221320152283,
      "learning_rate": 0.00041439231656555315,
      "loss": 0.4159,
      "num_input_tokens_seen": 14954176,
      "step": 22870
    },
    {
      "epoch": 11.988993710691824,
      "grad_norm": 0.17311666905879974,
      "learning_rate": 0.0004141670166873617,
      "loss": 0.4764,
      "num_input_tokens_seen": 14957248,
      "step": 22875
    },
    {
      "epoch": 11.9916142557652,
      "grad_norm": 0.11593123525381088,
      "learning_rate": 0.00041394173476445097,
      "loss": 0.4973,
      "num_input_tokens_seen": 14960640,
      "step": 22880
    },
    {
      "epoch": 11.994234800838575,
      "grad_norm": 0.16837841272354126,
      "learning_rate": 0.00041371647084394744,
      "loss": 0.3971,
      "num_input_tokens_seen": 14963392,
      "step": 22885
    },
    {
      "epoch": 11.99685534591195,
      "grad_norm": 0.08897370845079422,
      "learning_rate": 0.00041349122497297394,
      "loss": 0.4293,
      "num_input_tokens_seen": 14966528,
      "step": 22890
    },
    {
      "epoch": 11.999475890985325,
      "grad_norm": 0.1435755342245102,
      "learning_rate": 0.0004132659971986491,
      "loss": 0.4563,
      "num_input_tokens_seen": 14970464,
      "step": 22895
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.4780086278915405,
      "eval_runtime": 13.6167,
      "eval_samples_per_second": 62.277,
      "eval_steps_per_second": 15.569,
      "num_input_tokens_seen": 14970528,
      "step": 22896
    },
    {
      "epoch": 12.0020964360587,
      "grad_norm": 0.14649926126003265,
      "learning_rate": 0.00041304078756808837,
      "loss": 0.3725,
      "num_input_tokens_seen": 14973600,
      "step": 22900
    },
    {
      "epoch": 12.004716981132075,
      "grad_norm": 0.10352397710084915,
      "learning_rate": 0.0004128155961284027,
      "loss": 0.5138,
      "num_input_tokens_seen": 14977536,
      "step": 22905
    },
    {
      "epoch": 12.00733752620545,
      "grad_norm": 0.06630110740661621,
      "learning_rate": 0.0004125904229266996,
      "loss": 0.3465,
      "num_input_tokens_seen": 14980640,
      "step": 22910
    },
    {
      "epoch": 12.009958071278826,
      "grad_norm": 0.1269039809703827,
      "learning_rate": 0.0004123652680100828,
      "loss": 0.4011,
      "num_input_tokens_seen": 14983456,
      "step": 22915
    },
    {
      "epoch": 12.0125786163522,
      "grad_norm": 0.1458076387643814,
      "learning_rate": 0.0004121401314256521,
      "loss": 0.4549,
      "num_input_tokens_seen": 14987328,
      "step": 22920
    },
    {
      "epoch": 12.015199161425576,
      "grad_norm": 0.19603604078292847,
      "learning_rate": 0.00041191501322050363,
      "loss": 0.3912,
      "num_input_tokens_seen": 14990432,
      "step": 22925
    },
    {
      "epoch": 12.017819706498951,
      "grad_norm": 0.1067381352186203,
      "learning_rate": 0.0004116899134417296,
      "loss": 0.4824,
      "num_input_tokens_seen": 14993824,
      "step": 22930
    },
    {
      "epoch": 12.020440251572326,
      "grad_norm": 0.09734626859426498,
      "learning_rate": 0.00041146483213641793,
      "loss": 0.3925,
      "num_input_tokens_seen": 14996608,
      "step": 22935
    },
    {
      "epoch": 12.023060796645701,
      "grad_norm": 0.10114658623933792,
      "learning_rate": 0.00041123976935165355,
      "loss": 0.382,
      "num_input_tokens_seen": 15000128,
      "step": 22940
    },
    {
      "epoch": 12.025681341719078,
      "grad_norm": 0.16478581726551056,
      "learning_rate": 0.0004110147251345165,
      "loss": 0.4585,
      "num_input_tokens_seen": 15003104,
      "step": 22945
    },
    {
      "epoch": 12.028301886792454,
      "grad_norm": 0.15837372839450836,
      "learning_rate": 0.0004107896995320839,
      "loss": 0.3726,
      "num_input_tokens_seen": 15005632,
      "step": 22950
    },
    {
      "epoch": 12.030922431865829,
      "grad_norm": 0.14666321873664856,
      "learning_rate": 0.0004105646925914284,
      "loss": 0.3668,
      "num_input_tokens_seen": 15009024,
      "step": 22955
    },
    {
      "epoch": 12.033542976939204,
      "grad_norm": 0.11169084906578064,
      "learning_rate": 0.00041033970435961904,
      "loss": 0.4116,
      "num_input_tokens_seen": 15011680,
      "step": 22960
    },
    {
      "epoch": 12.036163522012579,
      "grad_norm": 0.11274373531341553,
      "learning_rate": 0.00041011473488372044,
      "loss": 0.4804,
      "num_input_tokens_seen": 15014656,
      "step": 22965
    },
    {
      "epoch": 12.038784067085954,
      "grad_norm": 0.1850191205739975,
      "learning_rate": 0.0004098897842107939,
      "loss": 0.3439,
      "num_input_tokens_seen": 15017952,
      "step": 22970
    },
    {
      "epoch": 12.04140461215933,
      "grad_norm": 0.15858575701713562,
      "learning_rate": 0.00040966485238789634,
      "loss": 0.5058,
      "num_input_tokens_seen": 15020736,
      "step": 22975
    },
    {
      "epoch": 12.044025157232705,
      "grad_norm": 0.18373529613018036,
      "learning_rate": 0.00040943993946208126,
      "loss": 0.5743,
      "num_input_tokens_seen": 15024544,
      "step": 22980
    },
    {
      "epoch": 12.04664570230608,
      "grad_norm": 0.11050812155008316,
      "learning_rate": 0.00040921504548039765,
      "loss": 0.4396,
      "num_input_tokens_seen": 15027424,
      "step": 22985
    },
    {
      "epoch": 12.049266247379455,
      "grad_norm": 0.09212742000818253,
      "learning_rate": 0.00040899017048989073,
      "loss": 0.3955,
      "num_input_tokens_seen": 15030976,
      "step": 22990
    },
    {
      "epoch": 12.05188679245283,
      "grad_norm": 0.07371246069669724,
      "learning_rate": 0.00040876531453760186,
      "loss": 0.407,
      "num_input_tokens_seen": 15034464,
      "step": 22995
    },
    {
      "epoch": 12.054507337526205,
      "grad_norm": 0.0710068792104721,
      "learning_rate": 0.00040854047767056824,
      "loss": 0.5152,
      "num_input_tokens_seen": 15039104,
      "step": 23000
    },
    {
      "epoch": 12.05712788259958,
      "grad_norm": 0.1054450124502182,
      "learning_rate": 0.00040831565993582335,
      "loss": 0.3851,
      "num_input_tokens_seen": 15041920,
      "step": 23005
    },
    {
      "epoch": 12.059748427672956,
      "grad_norm": 0.1072920709848404,
      "learning_rate": 0.0004080908613803964,
      "loss": 0.4917,
      "num_input_tokens_seen": 15045344,
      "step": 23010
    },
    {
      "epoch": 12.06236897274633,
      "grad_norm": 0.10260254144668579,
      "learning_rate": 0.0004078660820513128,
      "loss": 0.4911,
      "num_input_tokens_seen": 15048352,
      "step": 23015
    },
    {
      "epoch": 12.064989517819706,
      "grad_norm": 0.14421622455120087,
      "learning_rate": 0.0004076413219955937,
      "loss": 0.3621,
      "num_input_tokens_seen": 15051680,
      "step": 23020
    },
    {
      "epoch": 12.067610062893081,
      "grad_norm": 0.3378351628780365,
      "learning_rate": 0.00040741658126025614,
      "loss": 0.4776,
      "num_input_tokens_seen": 15054304,
      "step": 23025
    },
    {
      "epoch": 12.070230607966456,
      "grad_norm": 0.11789194494485855,
      "learning_rate": 0.0004071918598923136,
      "loss": 0.3811,
      "num_input_tokens_seen": 15056640,
      "step": 23030
    },
    {
      "epoch": 12.072851153039831,
      "grad_norm": 0.11714360117912292,
      "learning_rate": 0.0004069671579387753,
      "loss": 0.4546,
      "num_input_tokens_seen": 15059456,
      "step": 23035
    },
    {
      "epoch": 12.075471698113208,
      "grad_norm": 0.08986549079418182,
      "learning_rate": 0.000406742475446646,
      "loss": 0.5328,
      "num_input_tokens_seen": 15062720,
      "step": 23040
    },
    {
      "epoch": 12.078092243186584,
      "grad_norm": 0.09282186627388,
      "learning_rate": 0.0004065178124629272,
      "loss": 0.3864,
      "num_input_tokens_seen": 15065568,
      "step": 23045
    },
    {
      "epoch": 12.080712788259959,
      "grad_norm": 0.16547439992427826,
      "learning_rate": 0.0004062931690346153,
      "loss": 0.3558,
      "num_input_tokens_seen": 15068224,
      "step": 23050
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.09206432104110718,
      "learning_rate": 0.0004060685452087034,
      "loss": 0.5058,
      "num_input_tokens_seen": 15072032,
      "step": 23055
    },
    {
      "epoch": 12.085953878406709,
      "grad_norm": 0.13298577070236206,
      "learning_rate": 0.00040584394103218026,
      "loss": 0.3932,
      "num_input_tokens_seen": 15075104,
      "step": 23060
    },
    {
      "epoch": 12.088574423480084,
      "grad_norm": 0.12283095717430115,
      "learning_rate": 0.0004056193565520304,
      "loss": 0.5076,
      "num_input_tokens_seen": 15078336,
      "step": 23065
    },
    {
      "epoch": 12.09119496855346,
      "grad_norm": 0.18415819108486176,
      "learning_rate": 0.0004053947918152344,
      "loss": 0.3032,
      "num_input_tokens_seen": 15080736,
      "step": 23070
    },
    {
      "epoch": 12.093815513626835,
      "grad_norm": 0.132379949092865,
      "learning_rate": 0.0004051702468687688,
      "loss": 0.4334,
      "num_input_tokens_seen": 15083392,
      "step": 23075
    },
    {
      "epoch": 12.09643605870021,
      "grad_norm": 0.12270131707191467,
      "learning_rate": 0.0004049457217596055,
      "loss": 0.3195,
      "num_input_tokens_seen": 15086784,
      "step": 23080
    },
    {
      "epoch": 12.099056603773585,
      "grad_norm": 0.14870117604732513,
      "learning_rate": 0.0004047212165347129,
      "loss": 0.478,
      "num_input_tokens_seen": 15089504,
      "step": 23085
    },
    {
      "epoch": 12.10167714884696,
      "grad_norm": 0.10563294589519501,
      "learning_rate": 0.00040449673124105464,
      "loss": 0.4931,
      "num_input_tokens_seen": 15092512,
      "step": 23090
    },
    {
      "epoch": 12.104297693920335,
      "grad_norm": 0.09077169746160507,
      "learning_rate": 0.00040427226592559064,
      "loss": 0.4625,
      "num_input_tokens_seen": 15095808,
      "step": 23095
    },
    {
      "epoch": 12.10691823899371,
      "grad_norm": 0.11525054275989532,
      "learning_rate": 0.00040404782063527684,
      "loss": 0.5232,
      "num_input_tokens_seen": 15098720,
      "step": 23100
    },
    {
      "epoch": 12.109538784067086,
      "grad_norm": 0.12678955495357513,
      "learning_rate": 0.00040382339541706393,
      "loss": 0.6144,
      "num_input_tokens_seen": 15102176,
      "step": 23105
    },
    {
      "epoch": 12.11215932914046,
      "grad_norm": 0.1947745829820633,
      "learning_rate": 0.0004035989903178995,
      "loss": 0.4485,
      "num_input_tokens_seen": 15104480,
      "step": 23110
    },
    {
      "epoch": 12.114779874213836,
      "grad_norm": 0.21108050644397736,
      "learning_rate": 0.0004033746053847266,
      "loss": 0.4321,
      "num_input_tokens_seen": 15107264,
      "step": 23115
    },
    {
      "epoch": 12.117400419287211,
      "grad_norm": 0.07712670415639877,
      "learning_rate": 0.00040315024066448374,
      "loss": 0.284,
      "num_input_tokens_seen": 15111104,
      "step": 23120
    },
    {
      "epoch": 12.120020964360586,
      "grad_norm": 0.12434329837560654,
      "learning_rate": 0.00040292589620410577,
      "loss": 0.3375,
      "num_input_tokens_seen": 15114240,
      "step": 23125
    },
    {
      "epoch": 12.122641509433961,
      "grad_norm": 0.14000754058361053,
      "learning_rate": 0.0004027015720505229,
      "loss": 0.5168,
      "num_input_tokens_seen": 15117600,
      "step": 23130
    },
    {
      "epoch": 12.125262054507338,
      "grad_norm": 0.08971383422613144,
      "learning_rate": 0.0004024772682506609,
      "loss": 0.3319,
      "num_input_tokens_seen": 15120416,
      "step": 23135
    },
    {
      "epoch": 12.127882599580714,
      "grad_norm": 0.09582234174013138,
      "learning_rate": 0.0004022529848514419,
      "loss": 0.3702,
      "num_input_tokens_seen": 15124064,
      "step": 23140
    },
    {
      "epoch": 12.130503144654089,
      "grad_norm": 0.1322818398475647,
      "learning_rate": 0.00040202872189978324,
      "loss": 0.3766,
      "num_input_tokens_seen": 15127168,
      "step": 23145
    },
    {
      "epoch": 12.133123689727464,
      "grad_norm": 0.15720400214195251,
      "learning_rate": 0.0004018044794425983,
      "loss": 0.3761,
      "num_input_tokens_seen": 15130208,
      "step": 23150
    },
    {
      "epoch": 12.135744234800839,
      "grad_norm": 0.13200297951698303,
      "learning_rate": 0.00040158025752679596,
      "loss": 0.5675,
      "num_input_tokens_seen": 15133760,
      "step": 23155
    },
    {
      "epoch": 12.138364779874214,
      "grad_norm": 0.15329457819461823,
      "learning_rate": 0.0004013560561992811,
      "loss": 0.5754,
      "num_input_tokens_seen": 15136992,
      "step": 23160
    },
    {
      "epoch": 12.14098532494759,
      "grad_norm": 0.20679530501365662,
      "learning_rate": 0.0004011318755069537,
      "loss": 0.3932,
      "num_input_tokens_seen": 15139296,
      "step": 23165
    },
    {
      "epoch": 12.143605870020965,
      "grad_norm": 0.07104635238647461,
      "learning_rate": 0.00040090771549670994,
      "loss": 0.4048,
      "num_input_tokens_seen": 15142656,
      "step": 23170
    },
    {
      "epoch": 12.14622641509434,
      "grad_norm": 0.1287824809551239,
      "learning_rate": 0.00040068357621544167,
      "loss": 0.4782,
      "num_input_tokens_seen": 15145824,
      "step": 23175
    },
    {
      "epoch": 12.148846960167715,
      "grad_norm": 0.13911962509155273,
      "learning_rate": 0.00040045945771003625,
      "loss": 0.3327,
      "num_input_tokens_seen": 15148608,
      "step": 23180
    },
    {
      "epoch": 12.15146750524109,
      "grad_norm": 0.15191258490085602,
      "learning_rate": 0.0004002353600273767,
      "loss": 0.4255,
      "num_input_tokens_seen": 15151200,
      "step": 23185
    },
    {
      "epoch": 12.154088050314465,
      "grad_norm": 0.11408741027116776,
      "learning_rate": 0.0004000112832143415,
      "loss": 0.4554,
      "num_input_tokens_seen": 15154464,
      "step": 23190
    },
    {
      "epoch": 12.15670859538784,
      "grad_norm": 0.21493852138519287,
      "learning_rate": 0.00039978722731780523,
      "loss": 0.5516,
      "num_input_tokens_seen": 15158272,
      "step": 23195
    },
    {
      "epoch": 12.159329140461216,
      "grad_norm": 0.1461048424243927,
      "learning_rate": 0.00039956319238463754,
      "loss": 0.3556,
      "num_input_tokens_seen": 15161152,
      "step": 23200
    },
    {
      "epoch": 12.16194968553459,
      "grad_norm": 0.12552227079868317,
      "learning_rate": 0.00039933917846170436,
      "loss": 0.4056,
      "num_input_tokens_seen": 15163616,
      "step": 23205
    },
    {
      "epoch": 12.164570230607966,
      "grad_norm": 0.17640674114227295,
      "learning_rate": 0.0003991151855958665,
      "loss": 0.4809,
      "num_input_tokens_seen": 15167264,
      "step": 23210
    },
    {
      "epoch": 12.167190775681341,
      "grad_norm": 0.10519582033157349,
      "learning_rate": 0.00039889121383398113,
      "loss": 0.366,
      "num_input_tokens_seen": 15170816,
      "step": 23215
    },
    {
      "epoch": 12.169811320754716,
      "grad_norm": 0.15121226012706757,
      "learning_rate": 0.00039866726322290014,
      "loss": 0.46,
      "num_input_tokens_seen": 15173280,
      "step": 23220
    },
    {
      "epoch": 12.172431865828091,
      "grad_norm": 0.11326705664396286,
      "learning_rate": 0.0003984433338094715,
      "loss": 0.4421,
      "num_input_tokens_seen": 15176544,
      "step": 23225
    },
    {
      "epoch": 12.175052410901468,
      "grad_norm": 0.13185274600982666,
      "learning_rate": 0.000398219425640539,
      "loss": 0.3498,
      "num_input_tokens_seen": 15179488,
      "step": 23230
    },
    {
      "epoch": 12.177672955974844,
      "grad_norm": 0.9565303325653076,
      "learning_rate": 0.0003979955387629413,
      "loss": 0.3814,
      "num_input_tokens_seen": 15182016,
      "step": 23235
    },
    {
      "epoch": 12.180293501048219,
      "grad_norm": 0.07089319080114365,
      "learning_rate": 0.0003977716732235133,
      "loss": 0.4947,
      "num_input_tokens_seen": 15185760,
      "step": 23240
    },
    {
      "epoch": 12.182914046121594,
      "grad_norm": 0.14219443500041962,
      "learning_rate": 0.000397547829069085,
      "loss": 0.3981,
      "num_input_tokens_seen": 15188992,
      "step": 23245
    },
    {
      "epoch": 12.185534591194969,
      "grad_norm": 0.10060098767280579,
      "learning_rate": 0.000397324006346482,
      "loss": 0.4698,
      "num_input_tokens_seen": 15192768,
      "step": 23250
    },
    {
      "epoch": 12.188155136268344,
      "grad_norm": 0.1411694884300232,
      "learning_rate": 0.0003971002051025253,
      "loss": 0.5142,
      "num_input_tokens_seen": 15196256,
      "step": 23255
    },
    {
      "epoch": 12.19077568134172,
      "grad_norm": 0.10639694333076477,
      "learning_rate": 0.000396876425384032,
      "loss": 0.4216,
      "num_input_tokens_seen": 15202848,
      "step": 23260
    },
    {
      "epoch": 12.193396226415095,
      "grad_norm": 0.23763379454612732,
      "learning_rate": 0.00039665266723781377,
      "loss": 0.4309,
      "num_input_tokens_seen": 15206240,
      "step": 23265
    },
    {
      "epoch": 12.19601677148847,
      "grad_norm": 0.15507477521896362,
      "learning_rate": 0.00039642893071067877,
      "loss": 0.3118,
      "num_input_tokens_seen": 15208864,
      "step": 23270
    },
    {
      "epoch": 12.198637316561845,
      "grad_norm": 0.20082159340381622,
      "learning_rate": 0.0003962052158494298,
      "loss": 0.3796,
      "num_input_tokens_seen": 15211968,
      "step": 23275
    },
    {
      "epoch": 12.20125786163522,
      "grad_norm": 0.19855649769306183,
      "learning_rate": 0.00039598152270086534,
      "loss": 0.3526,
      "num_input_tokens_seen": 15214656,
      "step": 23280
    },
    {
      "epoch": 12.203878406708595,
      "grad_norm": 0.12234359979629517,
      "learning_rate": 0.00039575785131177975,
      "loss": 0.4873,
      "num_input_tokens_seen": 15218048,
      "step": 23285
    },
    {
      "epoch": 12.20649895178197,
      "grad_norm": 0.13003426790237427,
      "learning_rate": 0.0003955342017289624,
      "loss": 0.5666,
      "num_input_tokens_seen": 15222112,
      "step": 23290
    },
    {
      "epoch": 12.209119496855346,
      "grad_norm": 0.15471723675727844,
      "learning_rate": 0.0003953105739991982,
      "loss": 0.4302,
      "num_input_tokens_seen": 15225312,
      "step": 23295
    },
    {
      "epoch": 12.21174004192872,
      "grad_norm": 0.13385580480098724,
      "learning_rate": 0.0003950869681692678,
      "loss": 0.542,
      "num_input_tokens_seen": 15228288,
      "step": 23300
    },
    {
      "epoch": 12.214360587002096,
      "grad_norm": 0.09563390910625458,
      "learning_rate": 0.0003948633842859465,
      "loss": 0.3279,
      "num_input_tokens_seen": 15232352,
      "step": 23305
    },
    {
      "epoch": 12.216981132075471,
      "grad_norm": 0.07340744882822037,
      "learning_rate": 0.00039463982239600575,
      "loss": 0.3934,
      "num_input_tokens_seen": 15237984,
      "step": 23310
    },
    {
      "epoch": 12.219601677148846,
      "grad_norm": 0.0980762243270874,
      "learning_rate": 0.00039441628254621215,
      "loss": 0.3143,
      "num_input_tokens_seen": 15241184,
      "step": 23315
    },
    {
      "epoch": 12.222222222222221,
      "grad_norm": 0.14561434090137482,
      "learning_rate": 0.00039419276478332773,
      "loss": 0.4536,
      "num_input_tokens_seen": 15243744,
      "step": 23320
    },
    {
      "epoch": 12.224842767295598,
      "grad_norm": 0.3185625970363617,
      "learning_rate": 0.0003939692691541097,
      "loss": 0.6367,
      "num_input_tokens_seen": 15246432,
      "step": 23325
    },
    {
      "epoch": 12.227463312368974,
      "grad_norm": 0.17450708150863647,
      "learning_rate": 0.00039374579570531114,
      "loss": 0.3932,
      "num_input_tokens_seen": 15249440,
      "step": 23330
    },
    {
      "epoch": 12.230083857442349,
      "grad_norm": 0.12600921094417572,
      "learning_rate": 0.0003935223444836797,
      "loss": 0.4493,
      "num_input_tokens_seen": 15253120,
      "step": 23335
    },
    {
      "epoch": 12.232704402515724,
      "grad_norm": 0.2194271832704544,
      "learning_rate": 0.0003932989155359591,
      "loss": 0.3721,
      "num_input_tokens_seen": 15256224,
      "step": 23340
    },
    {
      "epoch": 12.235324947589099,
      "grad_norm": 0.1466730684041977,
      "learning_rate": 0.000393075508908888,
      "loss": 0.5614,
      "num_input_tokens_seen": 15258720,
      "step": 23345
    },
    {
      "epoch": 12.237945492662474,
      "grad_norm": 0.11415458470582962,
      "learning_rate": 0.00039285212464920064,
      "loss": 0.4662,
      "num_input_tokens_seen": 15261760,
      "step": 23350
    },
    {
      "epoch": 12.24056603773585,
      "grad_norm": 0.10230052471160889,
      "learning_rate": 0.0003926287628036265,
      "loss": 0.5269,
      "num_input_tokens_seen": 15265472,
      "step": 23355
    },
    {
      "epoch": 12.243186582809225,
      "grad_norm": 0.0821588784456253,
      "learning_rate": 0.00039240542341889003,
      "loss": 0.3657,
      "num_input_tokens_seen": 15268896,
      "step": 23360
    },
    {
      "epoch": 12.2458071278826,
      "grad_norm": 0.3977131247520447,
      "learning_rate": 0.0003921821065417116,
      "loss": 0.4498,
      "num_input_tokens_seen": 15272320,
      "step": 23365
    },
    {
      "epoch": 12.248427672955975,
      "grad_norm": 0.21616561710834503,
      "learning_rate": 0.0003919588122188063,
      "loss": 0.518,
      "num_input_tokens_seen": 15275776,
      "step": 23370
    },
    {
      "epoch": 12.25104821802935,
      "grad_norm": 0.12883548438549042,
      "learning_rate": 0.000391735540496885,
      "loss": 0.3706,
      "num_input_tokens_seen": 15278912,
      "step": 23375
    },
    {
      "epoch": 12.253668763102725,
      "grad_norm": 0.15450507402420044,
      "learning_rate": 0.00039151229142265337,
      "loss": 0.4905,
      "num_input_tokens_seen": 15281536,
      "step": 23380
    },
    {
      "epoch": 12.2562893081761,
      "grad_norm": 0.14037194848060608,
      "learning_rate": 0.00039128906504281295,
      "loss": 0.4597,
      "num_input_tokens_seen": 15284544,
      "step": 23385
    },
    {
      "epoch": 12.258909853249476,
      "grad_norm": 0.09125814586877823,
      "learning_rate": 0.00039106586140405964,
      "loss": 0.3669,
      "num_input_tokens_seen": 15287968,
      "step": 23390
    },
    {
      "epoch": 12.26153039832285,
      "grad_norm": 0.21474526822566986,
      "learning_rate": 0.00039084268055308537,
      "loss": 0.379,
      "num_input_tokens_seen": 15291136,
      "step": 23395
    },
    {
      "epoch": 12.264150943396226,
      "grad_norm": 0.11678799986839294,
      "learning_rate": 0.00039061952253657703,
      "loss": 0.4545,
      "num_input_tokens_seen": 15293824,
      "step": 23400
    },
    {
      "epoch": 12.266771488469601,
      "grad_norm": 0.1862090826034546,
      "learning_rate": 0.0003903963874012166,
      "loss": 0.3387,
      "num_input_tokens_seen": 15296928,
      "step": 23405
    },
    {
      "epoch": 12.269392033542976,
      "grad_norm": 0.17836855351924896,
      "learning_rate": 0.0003901732751936815,
      "loss": 0.3639,
      "num_input_tokens_seen": 15299904,
      "step": 23410
    },
    {
      "epoch": 12.272012578616351,
      "grad_norm": 0.12928073108196259,
      "learning_rate": 0.00038995018596064447,
      "loss": 0.4619,
      "num_input_tokens_seen": 15302624,
      "step": 23415
    },
    {
      "epoch": 12.274633123689728,
      "grad_norm": 0.1150236651301384,
      "learning_rate": 0.00038972711974877294,
      "loss": 0.4448,
      "num_input_tokens_seen": 15305408,
      "step": 23420
    },
    {
      "epoch": 12.277253668763104,
      "grad_norm": 0.20577719807624817,
      "learning_rate": 0.0003895040766047298,
      "loss": 0.5241,
      "num_input_tokens_seen": 15308288,
      "step": 23425
    },
    {
      "epoch": 12.279874213836479,
      "grad_norm": 0.13741114735603333,
      "learning_rate": 0.0003892810565751733,
      "loss": 0.4021,
      "num_input_tokens_seen": 15311200,
      "step": 23430
    },
    {
      "epoch": 12.282494758909854,
      "grad_norm": 0.08637987822294235,
      "learning_rate": 0.0003890580597067566,
      "loss": 0.5315,
      "num_input_tokens_seen": 15314688,
      "step": 23435
    },
    {
      "epoch": 12.285115303983229,
      "grad_norm": 0.27072688937187195,
      "learning_rate": 0.0003888350860461281,
      "loss": 0.4461,
      "num_input_tokens_seen": 15317632,
      "step": 23440
    },
    {
      "epoch": 12.287735849056604,
      "grad_norm": 0.12206969410181046,
      "learning_rate": 0.0003886121356399315,
      "loss": 0.3394,
      "num_input_tokens_seen": 15320288,
      "step": 23445
    },
    {
      "epoch": 12.29035639412998,
      "grad_norm": 0.12624269723892212,
      "learning_rate": 0.0003883892085348052,
      "loss": 0.4227,
      "num_input_tokens_seen": 15323520,
      "step": 23450
    },
    {
      "epoch": 12.292976939203355,
      "grad_norm": 0.16269715130329132,
      "learning_rate": 0.0003881663047773832,
      "loss": 0.5101,
      "num_input_tokens_seen": 15327008,
      "step": 23455
    },
    {
      "epoch": 12.29559748427673,
      "grad_norm": 0.1808641254901886,
      "learning_rate": 0.00038794342441429426,
      "loss": 0.4351,
      "num_input_tokens_seen": 15329952,
      "step": 23460
    },
    {
      "epoch": 12.298218029350105,
      "grad_norm": 0.14859136939048767,
      "learning_rate": 0.00038772056749216267,
      "loss": 0.4716,
      "num_input_tokens_seen": 15333056,
      "step": 23465
    },
    {
      "epoch": 12.30083857442348,
      "grad_norm": 0.1316424012184143,
      "learning_rate": 0.00038749773405760744,
      "loss": 0.4265,
      "num_input_tokens_seen": 15336736,
      "step": 23470
    },
    {
      "epoch": 12.303459119496855,
      "grad_norm": 0.1759399026632309,
      "learning_rate": 0.00038727492415724265,
      "loss": 0.3849,
      "num_input_tokens_seen": 15339712,
      "step": 23475
    },
    {
      "epoch": 12.30607966457023,
      "grad_norm": 0.08318138867616653,
      "learning_rate": 0.00038705213783767767,
      "loss": 0.5477,
      "num_input_tokens_seen": 15343232,
      "step": 23480
    },
    {
      "epoch": 12.308700209643606,
      "grad_norm": 0.19158156216144562,
      "learning_rate": 0.00038682937514551686,
      "loss": 0.4786,
      "num_input_tokens_seen": 15346816,
      "step": 23485
    },
    {
      "epoch": 12.31132075471698,
      "grad_norm": 0.08805789798498154,
      "learning_rate": 0.0003866066361273596,
      "loss": 0.5297,
      "num_input_tokens_seen": 15349760,
      "step": 23490
    },
    {
      "epoch": 12.313941299790356,
      "grad_norm": 0.10537548363208771,
      "learning_rate": 0.00038638392082980056,
      "loss": 0.4431,
      "num_input_tokens_seen": 15353184,
      "step": 23495
    },
    {
      "epoch": 12.316561844863731,
      "grad_norm": 0.10422496497631073,
      "learning_rate": 0.0003861612292994292,
      "loss": 0.3508,
      "num_input_tokens_seen": 15356512,
      "step": 23500
    },
    {
      "epoch": 12.319182389937106,
      "grad_norm": 0.09056958556175232,
      "learning_rate": 0.0003859385615828297,
      "loss": 0.3607,
      "num_input_tokens_seen": 15359104,
      "step": 23505
    },
    {
      "epoch": 12.321802935010481,
      "grad_norm": 0.11474976688623428,
      "learning_rate": 0.00038571591772658186,
      "loss": 0.4968,
      "num_input_tokens_seen": 15362528,
      "step": 23510
    },
    {
      "epoch": 12.324423480083858,
      "grad_norm": 0.10757701098918915,
      "learning_rate": 0.0003854932977772602,
      "loss": 0.5996,
      "num_input_tokens_seen": 15366240,
      "step": 23515
    },
    {
      "epoch": 12.327044025157234,
      "grad_norm": 0.2692157030105591,
      "learning_rate": 0.00038527070178143435,
      "loss": 0.4915,
      "num_input_tokens_seen": 15368704,
      "step": 23520
    },
    {
      "epoch": 12.329664570230609,
      "grad_norm": 0.10828348994255066,
      "learning_rate": 0.00038504812978566873,
      "loss": 0.4057,
      "num_input_tokens_seen": 15373312,
      "step": 23525
    },
    {
      "epoch": 12.332285115303984,
      "grad_norm": 0.149141326546669,
      "learning_rate": 0.00038482558183652307,
      "loss": 0.4549,
      "num_input_tokens_seen": 15377632,
      "step": 23530
    },
    {
      "epoch": 12.334905660377359,
      "grad_norm": 0.13601920008659363,
      "learning_rate": 0.00038460305798055164,
      "loss": 0.4628,
      "num_input_tokens_seen": 15380864,
      "step": 23535
    },
    {
      "epoch": 12.337526205450734,
      "grad_norm": 0.10239015519618988,
      "learning_rate": 0.00038438055826430385,
      "loss": 0.4217,
      "num_input_tokens_seen": 15384480,
      "step": 23540
    },
    {
      "epoch": 12.34014675052411,
      "grad_norm": 0.11140313744544983,
      "learning_rate": 0.0003841580827343243,
      "loss": 0.4007,
      "num_input_tokens_seen": 15387968,
      "step": 23545
    },
    {
      "epoch": 12.342767295597485,
      "grad_norm": 0.19711464643478394,
      "learning_rate": 0.00038393563143715215,
      "loss": 0.3896,
      "num_input_tokens_seen": 15390528,
      "step": 23550
    },
    {
      "epoch": 12.34538784067086,
      "grad_norm": 0.1494218409061432,
      "learning_rate": 0.00038371320441932195,
      "loss": 0.411,
      "num_input_tokens_seen": 15394368,
      "step": 23555
    },
    {
      "epoch": 12.348008385744235,
      "grad_norm": 0.13679741322994232,
      "learning_rate": 0.00038349080172736267,
      "loss": 0.4143,
      "num_input_tokens_seen": 15397600,
      "step": 23560
    },
    {
      "epoch": 12.35062893081761,
      "grad_norm": 0.16716624796390533,
      "learning_rate": 0.00038326842340779833,
      "loss": 0.3968,
      "num_input_tokens_seen": 15400288,
      "step": 23565
    },
    {
      "epoch": 12.353249475890985,
      "grad_norm": 0.09334436804056168,
      "learning_rate": 0.00038304606950714803,
      "loss": 0.5584,
      "num_input_tokens_seen": 15404032,
      "step": 23570
    },
    {
      "epoch": 12.35587002096436,
      "grad_norm": 0.14125525951385498,
      "learning_rate": 0.0003828237400719259,
      "loss": 0.5926,
      "num_input_tokens_seen": 15407392,
      "step": 23575
    },
    {
      "epoch": 12.358490566037736,
      "grad_norm": 0.2542252540588379,
      "learning_rate": 0.00038260143514864037,
      "loss": 0.4232,
      "num_input_tokens_seen": 15410208,
      "step": 23580
    },
    {
      "epoch": 12.36111111111111,
      "grad_norm": 0.1846686750650406,
      "learning_rate": 0.0003823791547837955,
      "loss": 0.5095,
      "num_input_tokens_seen": 15412992,
      "step": 23585
    },
    {
      "epoch": 12.363731656184486,
      "grad_norm": 0.0914519876241684,
      "learning_rate": 0.0003821568990238894,
      "loss": 0.4949,
      "num_input_tokens_seen": 15417056,
      "step": 23590
    },
    {
      "epoch": 12.366352201257861,
      "grad_norm": 0.21211811900138855,
      "learning_rate": 0.0003819346679154155,
      "loss": 0.4215,
      "num_input_tokens_seen": 15420032,
      "step": 23595
    },
    {
      "epoch": 12.368972746331236,
      "grad_norm": 0.08964625000953674,
      "learning_rate": 0.0003817124615048623,
      "loss": 0.5264,
      "num_input_tokens_seen": 15423776,
      "step": 23600
    },
    {
      "epoch": 12.371593291404611,
      "grad_norm": 0.12026732414960861,
      "learning_rate": 0.00038149027983871243,
      "loss": 0.4842,
      "num_input_tokens_seen": 15426880,
      "step": 23605
    },
    {
      "epoch": 12.374213836477987,
      "grad_norm": 0.08088786900043488,
      "learning_rate": 0.00038126812296344415,
      "loss": 0.4293,
      "num_input_tokens_seen": 15430688,
      "step": 23610
    },
    {
      "epoch": 12.376834381551364,
      "grad_norm": 0.13460083305835724,
      "learning_rate": 0.0003810459909255301,
      "loss": 0.3673,
      "num_input_tokens_seen": 15433728,
      "step": 23615
    },
    {
      "epoch": 12.379454926624739,
      "grad_norm": 0.1567474603652954,
      "learning_rate": 0.0003808238837714374,
      "loss": 0.4768,
      "num_input_tokens_seen": 15437568,
      "step": 23620
    },
    {
      "epoch": 12.382075471698114,
      "grad_norm": 0.12417983263731003,
      "learning_rate": 0.0003806018015476287,
      "loss": 0.4595,
      "num_input_tokens_seen": 15440384,
      "step": 23625
    },
    {
      "epoch": 12.384696016771489,
      "grad_norm": 0.09598775953054428,
      "learning_rate": 0.0003803797443005609,
      "loss": 0.4161,
      "num_input_tokens_seen": 15444032,
      "step": 23630
    },
    {
      "epoch": 12.387316561844864,
      "grad_norm": 0.23687027394771576,
      "learning_rate": 0.0003801577120766859,
      "loss": 0.37,
      "num_input_tokens_seen": 15446400,
      "step": 23635
    },
    {
      "epoch": 12.38993710691824,
      "grad_norm": 0.14508165419101715,
      "learning_rate": 0.0003799357049224505,
      "loss": 0.4383,
      "num_input_tokens_seen": 15450880,
      "step": 23640
    },
    {
      "epoch": 12.392557651991615,
      "grad_norm": 0.12360844016075134,
      "learning_rate": 0.0003797137228842956,
      "loss": 0.4738,
      "num_input_tokens_seen": 15453856,
      "step": 23645
    },
    {
      "epoch": 12.39517819706499,
      "grad_norm": 0.2029763162136078,
      "learning_rate": 0.0003794917660086576,
      "loss": 0.3716,
      "num_input_tokens_seen": 15456320,
      "step": 23650
    },
    {
      "epoch": 12.397798742138365,
      "grad_norm": 0.13038986921310425,
      "learning_rate": 0.0003792698343419674,
      "loss": 0.4844,
      "num_input_tokens_seen": 15459616,
      "step": 23655
    },
    {
      "epoch": 12.40041928721174,
      "grad_norm": 0.1294015347957611,
      "learning_rate": 0.0003790479279306505,
      "loss": 0.4869,
      "num_input_tokens_seen": 15463520,
      "step": 23660
    },
    {
      "epoch": 12.403039832285115,
      "grad_norm": 0.12701918184757233,
      "learning_rate": 0.0003788260468211271,
      "loss": 0.4091,
      "num_input_tokens_seen": 15466976,
      "step": 23665
    },
    {
      "epoch": 12.40566037735849,
      "grad_norm": 0.1556922346353531,
      "learning_rate": 0.0003786041910598125,
      "loss": 0.5988,
      "num_input_tokens_seen": 15470784,
      "step": 23670
    },
    {
      "epoch": 12.408280922431866,
      "grad_norm": 0.12176065891981125,
      "learning_rate": 0.0003783823606931159,
      "loss": 0.3581,
      "num_input_tokens_seen": 15474816,
      "step": 23675
    },
    {
      "epoch": 12.41090146750524,
      "grad_norm": 0.19773080945014954,
      "learning_rate": 0.0003781605557674421,
      "loss": 0.4691,
      "num_input_tokens_seen": 15478016,
      "step": 23680
    },
    {
      "epoch": 12.413522012578616,
      "grad_norm": 0.09779714792966843,
      "learning_rate": 0.0003779387763291899,
      "loss": 0.3617,
      "num_input_tokens_seen": 15481536,
      "step": 23685
    },
    {
      "epoch": 12.416142557651991,
      "grad_norm": 0.07668370008468628,
      "learning_rate": 0.0003777170224247533,
      "loss": 0.3386,
      "num_input_tokens_seen": 15485504,
      "step": 23690
    },
    {
      "epoch": 12.418763102725366,
      "grad_norm": 0.13208945095539093,
      "learning_rate": 0.0003774952941005204,
      "loss": 0.5275,
      "num_input_tokens_seen": 15489120,
      "step": 23695
    },
    {
      "epoch": 12.421383647798741,
      "grad_norm": 0.18263275921344757,
      "learning_rate": 0.00037727359140287455,
      "loss": 0.5475,
      "num_input_tokens_seen": 15491840,
      "step": 23700
    },
    {
      "epoch": 12.424004192872117,
      "grad_norm": 0.15617439150810242,
      "learning_rate": 0.00037705191437819316,
      "loss": 0.3645,
      "num_input_tokens_seen": 15494880,
      "step": 23705
    },
    {
      "epoch": 12.426624737945493,
      "grad_norm": 0.14408612251281738,
      "learning_rate": 0.00037683026307284853,
      "loss": 0.3835,
      "num_input_tokens_seen": 15497312,
      "step": 23710
    },
    {
      "epoch": 12.429245283018869,
      "grad_norm": 0.13078290224075317,
      "learning_rate": 0.0003766086375332077,
      "loss": 0.3623,
      "num_input_tokens_seen": 15500416,
      "step": 23715
    },
    {
      "epoch": 12.431865828092244,
      "grad_norm": 0.1776067614555359,
      "learning_rate": 0.0003763870378056321,
      "loss": 0.522,
      "num_input_tokens_seen": 15503520,
      "step": 23720
    },
    {
      "epoch": 12.434486373165619,
      "grad_norm": 0.14437606930732727,
      "learning_rate": 0.00037616546393647824,
      "loss": 0.3129,
      "num_input_tokens_seen": 15506656,
      "step": 23725
    },
    {
      "epoch": 12.437106918238994,
      "grad_norm": 0.11764592677354813,
      "learning_rate": 0.0003759439159720962,
      "loss": 0.475,
      "num_input_tokens_seen": 15509792,
      "step": 23730
    },
    {
      "epoch": 12.43972746331237,
      "grad_norm": 0.14373008906841278,
      "learning_rate": 0.0003757223939588318,
      "loss": 0.3998,
      "num_input_tokens_seen": 15512768,
      "step": 23735
    },
    {
      "epoch": 12.442348008385745,
      "grad_norm": 0.15070582926273346,
      "learning_rate": 0.00037550089794302464,
      "loss": 0.5102,
      "num_input_tokens_seen": 15515712,
      "step": 23740
    },
    {
      "epoch": 12.44496855345912,
      "grad_norm": 0.15973807871341705,
      "learning_rate": 0.0003752794279710094,
      "loss": 0.5475,
      "num_input_tokens_seen": 15518528,
      "step": 23745
    },
    {
      "epoch": 12.447589098532495,
      "grad_norm": 0.13036906719207764,
      "learning_rate": 0.0003750579840891148,
      "loss": 0.5054,
      "num_input_tokens_seen": 15521472,
      "step": 23750
    },
    {
      "epoch": 12.45020964360587,
      "grad_norm": 0.3764064610004425,
      "learning_rate": 0.0003748365663436647,
      "loss": 0.3384,
      "num_input_tokens_seen": 15524320,
      "step": 23755
    },
    {
      "epoch": 12.452830188679245,
      "grad_norm": 0.14795821905136108,
      "learning_rate": 0.0003746151747809769,
      "loss": 0.4724,
      "num_input_tokens_seen": 15527168,
      "step": 23760
    },
    {
      "epoch": 12.45545073375262,
      "grad_norm": 0.14534872770309448,
      "learning_rate": 0.000374393809447364,
      "loss": 0.3558,
      "num_input_tokens_seen": 15532064,
      "step": 23765
    },
    {
      "epoch": 12.458071278825996,
      "grad_norm": 0.10290840268135071,
      "learning_rate": 0.0003741724703891333,
      "loss": 0.4645,
      "num_input_tokens_seen": 15534944,
      "step": 23770
    },
    {
      "epoch": 12.46069182389937,
      "grad_norm": 0.11616714298725128,
      "learning_rate": 0.00037395115765258616,
      "loss": 0.4457,
      "num_input_tokens_seen": 15538368,
      "step": 23775
    },
    {
      "epoch": 12.463312368972746,
      "grad_norm": 0.10365507751703262,
      "learning_rate": 0.0003737298712840188,
      "loss": 0.3941,
      "num_input_tokens_seen": 15541280,
      "step": 23780
    },
    {
      "epoch": 12.465932914046121,
      "grad_norm": 0.11855606734752655,
      "learning_rate": 0.000373508611329722,
      "loss": 0.4,
      "num_input_tokens_seen": 15544736,
      "step": 23785
    },
    {
      "epoch": 12.468553459119496,
      "grad_norm": 0.1375870704650879,
      "learning_rate": 0.00037328737783598036,
      "loss": 0.5307,
      "num_input_tokens_seen": 15549568,
      "step": 23790
    },
    {
      "epoch": 12.471174004192871,
      "grad_norm": 0.1748102903366089,
      "learning_rate": 0.0003730661708490738,
      "loss": 0.3807,
      "num_input_tokens_seen": 15553184,
      "step": 23795
    },
    {
      "epoch": 12.473794549266247,
      "grad_norm": 0.08014249056577682,
      "learning_rate": 0.0003728449904152761,
      "loss": 0.4181,
      "num_input_tokens_seen": 15557120,
      "step": 23800
    },
    {
      "epoch": 12.476415094339623,
      "grad_norm": 0.17264416813850403,
      "learning_rate": 0.00037262383658085563,
      "loss": 0.4047,
      "num_input_tokens_seen": 15561632,
      "step": 23805
    },
    {
      "epoch": 12.479035639412999,
      "grad_norm": 0.11381256580352783,
      "learning_rate": 0.00037240270939207555,
      "loss": 0.2835,
      "num_input_tokens_seen": 15568736,
      "step": 23810
    },
    {
      "epoch": 12.481656184486374,
      "grad_norm": 0.10988340526819229,
      "learning_rate": 0.000372181608895193,
      "loss": 0.5151,
      "num_input_tokens_seen": 15572352,
      "step": 23815
    },
    {
      "epoch": 12.484276729559749,
      "grad_norm": 0.17177362740039825,
      "learning_rate": 0.00037196053513645957,
      "loss": 0.373,
      "num_input_tokens_seen": 15574688,
      "step": 23820
    },
    {
      "epoch": 12.486897274633124,
      "grad_norm": 0.10708466172218323,
      "learning_rate": 0.00037173948816212146,
      "loss": 0.4671,
      "num_input_tokens_seen": 15577376,
      "step": 23825
    },
    {
      "epoch": 12.4895178197065,
      "grad_norm": 0.12948670983314514,
      "learning_rate": 0.00037151846801841904,
      "loss": 0.4699,
      "num_input_tokens_seen": 15581280,
      "step": 23830
    },
    {
      "epoch": 12.492138364779874,
      "grad_norm": 0.13509991765022278,
      "learning_rate": 0.00037129747475158736,
      "loss": 0.469,
      "num_input_tokens_seen": 15584544,
      "step": 23835
    },
    {
      "epoch": 12.49475890985325,
      "grad_norm": 0.11667358875274658,
      "learning_rate": 0.0003710765084078558,
      "loss": 0.4273,
      "num_input_tokens_seen": 15587520,
      "step": 23840
    },
    {
      "epoch": 12.497379454926625,
      "grad_norm": 0.19346670806407928,
      "learning_rate": 0.0003708555690334477,
      "loss": 0.7299,
      "num_input_tokens_seen": 15590624,
      "step": 23845
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.0907559022307396,
      "learning_rate": 0.00037063465667458125,
      "loss": 0.4886,
      "num_input_tokens_seen": 15594560,
      "step": 23850
    },
    {
      "epoch": 12.502620545073375,
      "grad_norm": 0.07308530807495117,
      "learning_rate": 0.0003704137713774686,
      "loss": 0.5736,
      "num_input_tokens_seen": 15598048,
      "step": 23855
    },
    {
      "epoch": 12.50524109014675,
      "grad_norm": 0.08915090560913086,
      "learning_rate": 0.0003701929131883167,
      "loss": 0.496,
      "num_input_tokens_seen": 15602048,
      "step": 23860
    },
    {
      "epoch": 12.507861635220126,
      "grad_norm": 0.14971084892749786,
      "learning_rate": 0.0003699720821533264,
      "loss": 0.5268,
      "num_input_tokens_seen": 15605152,
      "step": 23865
    },
    {
      "epoch": 12.5104821802935,
      "grad_norm": 0.20426374673843384,
      "learning_rate": 0.00036975127831869326,
      "loss": 0.46,
      "num_input_tokens_seen": 15607808,
      "step": 23870
    },
    {
      "epoch": 12.513102725366876,
      "grad_norm": 0.031448643654584885,
      "learning_rate": 0.0003695305017306066,
      "loss": 0.4459,
      "num_input_tokens_seen": 15613344,
      "step": 23875
    },
    {
      "epoch": 12.515723270440251,
      "grad_norm": 0.1070709228515625,
      "learning_rate": 0.00036930975243525046,
      "loss": 0.5377,
      "num_input_tokens_seen": 15616128,
      "step": 23880
    },
    {
      "epoch": 12.518343815513626,
      "grad_norm": 0.11904694139957428,
      "learning_rate": 0.00036908903047880304,
      "loss": 0.5037,
      "num_input_tokens_seen": 15619328,
      "step": 23885
    },
    {
      "epoch": 12.520964360587001,
      "grad_norm": 0.08709929138422012,
      "learning_rate": 0.00036886833590743707,
      "loss": 0.4589,
      "num_input_tokens_seen": 15622624,
      "step": 23890
    },
    {
      "epoch": 12.523584905660378,
      "grad_norm": 0.06350112706422806,
      "learning_rate": 0.00036864766876731913,
      "loss": 0.3376,
      "num_input_tokens_seen": 15626560,
      "step": 23895
    },
    {
      "epoch": 12.526205450733752,
      "grad_norm": 0.11729566007852554,
      "learning_rate": 0.00036842702910461054,
      "loss": 0.5324,
      "num_input_tokens_seen": 15629888,
      "step": 23900
    },
    {
      "epoch": 12.528825995807129,
      "grad_norm": 0.14286774396896362,
      "learning_rate": 0.0003682064169654663,
      "loss": 0.6573,
      "num_input_tokens_seen": 15633312,
      "step": 23905
    },
    {
      "epoch": 12.531446540880504,
      "grad_norm": 0.12500572204589844,
      "learning_rate": 0.00036798583239603587,
      "loss": 0.4564,
      "num_input_tokens_seen": 15636096,
      "step": 23910
    },
    {
      "epoch": 12.534067085953879,
      "grad_norm": 0.3938511312007904,
      "learning_rate": 0.0003677652754424634,
      "loss": 0.4403,
      "num_input_tokens_seen": 15638496,
      "step": 23915
    },
    {
      "epoch": 12.536687631027254,
      "grad_norm": 0.0905742421746254,
      "learning_rate": 0.0003675447461508865,
      "loss": 0.3584,
      "num_input_tokens_seen": 15642848,
      "step": 23920
    },
    {
      "epoch": 12.53930817610063,
      "grad_norm": 0.10617299377918243,
      "learning_rate": 0.00036732424456743784,
      "loss": 0.3845,
      "num_input_tokens_seen": 15646080,
      "step": 23925
    },
    {
      "epoch": 12.541928721174004,
      "grad_norm": 0.12728597223758698,
      "learning_rate": 0.0003671037707382435,
      "loss": 0.3835,
      "num_input_tokens_seen": 15648928,
      "step": 23930
    },
    {
      "epoch": 12.54454926624738,
      "grad_norm": 0.13444633781909943,
      "learning_rate": 0.000366883324709424,
      "loss": 0.4572,
      "num_input_tokens_seen": 15652608,
      "step": 23935
    },
    {
      "epoch": 12.547169811320755,
      "grad_norm": 0.0923650711774826,
      "learning_rate": 0.00036666290652709446,
      "loss": 0.3957,
      "num_input_tokens_seen": 15656576,
      "step": 23940
    },
    {
      "epoch": 12.54979035639413,
      "grad_norm": 0.11539868265390396,
      "learning_rate": 0.0003664425162373635,
      "loss": 0.4842,
      "num_input_tokens_seen": 15659264,
      "step": 23945
    },
    {
      "epoch": 12.552410901467505,
      "grad_norm": 0.23977571725845337,
      "learning_rate": 0.0003662221538863346,
      "loss": 0.4058,
      "num_input_tokens_seen": 15662272,
      "step": 23950
    },
    {
      "epoch": 12.55503144654088,
      "grad_norm": 0.14941567182540894,
      "learning_rate": 0.0003660018195201049,
      "loss": 0.3662,
      "num_input_tokens_seen": 15665184,
      "step": 23955
    },
    {
      "epoch": 12.557651991614255,
      "grad_norm": 0.16543053090572357,
      "learning_rate": 0.0003657815131847657,
      "loss": 0.3637,
      "num_input_tokens_seen": 15668832,
      "step": 23960
    },
    {
      "epoch": 12.56027253668763,
      "grad_norm": 0.0990821048617363,
      "learning_rate": 0.0003655612349264027,
      "loss": 0.5399,
      "num_input_tokens_seen": 15672160,
      "step": 23965
    },
    {
      "epoch": 12.562893081761006,
      "grad_norm": 0.07457621395587921,
      "learning_rate": 0.0003653409847910957,
      "loss": 0.3944,
      "num_input_tokens_seen": 15675296,
      "step": 23970
    },
    {
      "epoch": 12.565513626834381,
      "grad_norm": 0.14739292860031128,
      "learning_rate": 0.0003651207628249182,
      "loss": 0.4344,
      "num_input_tokens_seen": 15678784,
      "step": 23975
    },
    {
      "epoch": 12.568134171907756,
      "grad_norm": 0.13368777930736542,
      "learning_rate": 0.0003649005690739386,
      "loss": 0.4651,
      "num_input_tokens_seen": 15680992,
      "step": 23980
    },
    {
      "epoch": 12.570754716981131,
      "grad_norm": 0.14666056632995605,
      "learning_rate": 0.0003646804035842187,
      "loss": 0.4334,
      "num_input_tokens_seen": 15683872,
      "step": 23985
    },
    {
      "epoch": 12.573375262054507,
      "grad_norm": 0.15192413330078125,
      "learning_rate": 0.0003644602664018143,
      "loss": 0.4582,
      "num_input_tokens_seen": 15686432,
      "step": 23990
    },
    {
      "epoch": 12.575995807127882,
      "grad_norm": 0.10483434051275253,
      "learning_rate": 0.000364240157572776,
      "loss": 0.3701,
      "num_input_tokens_seen": 15691296,
      "step": 23995
    },
    {
      "epoch": 12.578616352201259,
      "grad_norm": 0.09343208372592926,
      "learning_rate": 0.0003640200771431478,
      "loss": 0.5632,
      "num_input_tokens_seen": 15695712,
      "step": 24000
    },
    {
      "epoch": 12.581236897274634,
      "grad_norm": 0.07825356721878052,
      "learning_rate": 0.0003638000251589683,
      "loss": 0.3517,
      "num_input_tokens_seen": 15699264,
      "step": 24005
    },
    {
      "epoch": 12.583857442348009,
      "grad_norm": 0.10020241886377335,
      "learning_rate": 0.0003635800016662696,
      "loss": 0.4496,
      "num_input_tokens_seen": 15701952,
      "step": 24010
    },
    {
      "epoch": 12.586477987421384,
      "grad_norm": 0.11603041738271713,
      "learning_rate": 0.00036336000671107816,
      "loss": 0.3641,
      "num_input_tokens_seen": 15704768,
      "step": 24015
    },
    {
      "epoch": 12.58909853249476,
      "grad_norm": 0.13877323269844055,
      "learning_rate": 0.00036314004033941445,
      "loss": 0.5259,
      "num_input_tokens_seen": 15708352,
      "step": 24020
    },
    {
      "epoch": 12.591719077568134,
      "grad_norm": 0.12736663222312927,
      "learning_rate": 0.00036292010259729283,
      "loss": 0.4477,
      "num_input_tokens_seen": 15711424,
      "step": 24025
    },
    {
      "epoch": 12.59433962264151,
      "grad_norm": 0.12266093492507935,
      "learning_rate": 0.000362700193530722,
      "loss": 0.4364,
      "num_input_tokens_seen": 15714848,
      "step": 24030
    },
    {
      "epoch": 12.596960167714885,
      "grad_norm": 0.20884975790977478,
      "learning_rate": 0.0003624803131857042,
      "loss": 0.4656,
      "num_input_tokens_seen": 15717664,
      "step": 24035
    },
    {
      "epoch": 12.59958071278826,
      "grad_norm": 0.10865171253681183,
      "learning_rate": 0.0003622604616082361,
      "loss": 0.4743,
      "num_input_tokens_seen": 15720448,
      "step": 24040
    },
    {
      "epoch": 12.602201257861635,
      "grad_norm": 0.17983953654766083,
      "learning_rate": 0.0003620406388443078,
      "loss": 0.4148,
      "num_input_tokens_seen": 15723552,
      "step": 24045
    },
    {
      "epoch": 12.60482180293501,
      "grad_norm": 0.14242449402809143,
      "learning_rate": 0.00036182084493990407,
      "loss": 0.3544,
      "num_input_tokens_seen": 15727616,
      "step": 24050
    },
    {
      "epoch": 12.607442348008385,
      "grad_norm": 0.20176763832569122,
      "learning_rate": 0.0003616010799410031,
      "loss": 0.4436,
      "num_input_tokens_seen": 15730240,
      "step": 24055
    },
    {
      "epoch": 12.61006289308176,
      "grad_norm": 0.13598425686359406,
      "learning_rate": 0.0003613813438935773,
      "loss": 0.5106,
      "num_input_tokens_seen": 15734048,
      "step": 24060
    },
    {
      "epoch": 12.612683438155136,
      "grad_norm": 0.12409955263137817,
      "learning_rate": 0.0003611616368435928,
      "loss": 0.4397,
      "num_input_tokens_seen": 15736896,
      "step": 24065
    },
    {
      "epoch": 12.615303983228511,
      "grad_norm": 0.13918836414813995,
      "learning_rate": 0.0003609419588370102,
      "loss": 0.4865,
      "num_input_tokens_seen": 15739872,
      "step": 24070
    },
    {
      "epoch": 12.617924528301886,
      "grad_norm": 0.06632006913423538,
      "learning_rate": 0.00036072230991978326,
      "loss": 0.4439,
      "num_input_tokens_seen": 15743200,
      "step": 24075
    },
    {
      "epoch": 12.620545073375261,
      "grad_norm": 0.11861833184957504,
      "learning_rate": 0.00036050269013785996,
      "loss": 0.4339,
      "num_input_tokens_seen": 15748224,
      "step": 24080
    },
    {
      "epoch": 12.623165618448636,
      "grad_norm": 0.14732754230499268,
      "learning_rate": 0.0003602830995371825,
      "loss": 0.4034,
      "num_input_tokens_seen": 15751168,
      "step": 24085
    },
    {
      "epoch": 12.625786163522012,
      "grad_norm": 0.10543603450059891,
      "learning_rate": 0.0003600635381636866,
      "loss": 0.3949,
      "num_input_tokens_seen": 15754592,
      "step": 24090
    },
    {
      "epoch": 12.628406708595389,
      "grad_norm": 0.13110868632793427,
      "learning_rate": 0.0003598440060633022,
      "loss": 0.4026,
      "num_input_tokens_seen": 15758368,
      "step": 24095
    },
    {
      "epoch": 12.631027253668764,
      "grad_norm": 0.1403789222240448,
      "learning_rate": 0.00035962450328195264,
      "loss": 0.3958,
      "num_input_tokens_seen": 15761504,
      "step": 24100
    },
    {
      "epoch": 12.633647798742139,
      "grad_norm": 0.11867847293615341,
      "learning_rate": 0.00035940502986555543,
      "loss": 0.4743,
      "num_input_tokens_seen": 15764224,
      "step": 24105
    },
    {
      "epoch": 12.636268343815514,
      "grad_norm": 0.1851571500301361,
      "learning_rate": 0.00035918558586002205,
      "loss": 0.4394,
      "num_input_tokens_seen": 15767072,
      "step": 24110
    },
    {
      "epoch": 12.63888888888889,
      "grad_norm": 0.3268505930900574,
      "learning_rate": 0.0003589661713112575,
      "loss": 0.6596,
      "num_input_tokens_seen": 15769920,
      "step": 24115
    },
    {
      "epoch": 12.641509433962264,
      "grad_norm": 0.23699158430099487,
      "learning_rate": 0.000358746786265161,
      "loss": 0.4939,
      "num_input_tokens_seen": 15773472,
      "step": 24120
    },
    {
      "epoch": 12.64412997903564,
      "grad_norm": 0.1503186821937561,
      "learning_rate": 0.0003585274307676254,
      "loss": 0.435,
      "num_input_tokens_seen": 15776064,
      "step": 24125
    },
    {
      "epoch": 12.646750524109015,
      "grad_norm": 0.08818665891885757,
      "learning_rate": 0.00035830810486453725,
      "loss": 0.4358,
      "num_input_tokens_seen": 15779552,
      "step": 24130
    },
    {
      "epoch": 12.64937106918239,
      "grad_norm": 0.11312220990657806,
      "learning_rate": 0.00035808880860177696,
      "loss": 0.2434,
      "num_input_tokens_seen": 15782272,
      "step": 24135
    },
    {
      "epoch": 12.651991614255765,
      "grad_norm": 0.20220082998275757,
      "learning_rate": 0.00035786954202521895,
      "loss": 0.5419,
      "num_input_tokens_seen": 15785024,
      "step": 24140
    },
    {
      "epoch": 12.65461215932914,
      "grad_norm": 0.1079675555229187,
      "learning_rate": 0.00035765030518073116,
      "loss": 0.6426,
      "num_input_tokens_seen": 15788128,
      "step": 24145
    },
    {
      "epoch": 12.657232704402515,
      "grad_norm": 0.16971957683563232,
      "learning_rate": 0.0003574310981141756,
      "loss": 0.4177,
      "num_input_tokens_seen": 15790944,
      "step": 24150
    },
    {
      "epoch": 12.65985324947589,
      "grad_norm": 0.12935151159763336,
      "learning_rate": 0.00035721192087140796,
      "loss": 0.5068,
      "num_input_tokens_seen": 15793920,
      "step": 24155
    },
    {
      "epoch": 12.662473794549266,
      "grad_norm": 0.07263213396072388,
      "learning_rate": 0.00035699277349827724,
      "loss": 0.2712,
      "num_input_tokens_seen": 15799552,
      "step": 24160
    },
    {
      "epoch": 12.665094339622641,
      "grad_norm": 0.12226533889770508,
      "learning_rate": 0.0003567736560406269,
      "loss": 0.4274,
      "num_input_tokens_seen": 15802656,
      "step": 24165
    },
    {
      "epoch": 12.667714884696016,
      "grad_norm": 0.14718882739543915,
      "learning_rate": 0.0003565545685442936,
      "loss": 0.4932,
      "num_input_tokens_seen": 15806112,
      "step": 24170
    },
    {
      "epoch": 12.670335429769391,
      "grad_norm": 0.14374832808971405,
      "learning_rate": 0.00035633551105510806,
      "loss": 0.437,
      "num_input_tokens_seen": 15808928,
      "step": 24175
    },
    {
      "epoch": 12.672955974842766,
      "grad_norm": 0.1765395700931549,
      "learning_rate": 0.00035611648361889457,
      "loss": 0.4468,
      "num_input_tokens_seen": 15812320,
      "step": 24180
    },
    {
      "epoch": 12.675576519916142,
      "grad_norm": 0.0708654597401619,
      "learning_rate": 0.00035589748628147145,
      "loss": 0.4011,
      "num_input_tokens_seen": 15816608,
      "step": 24185
    },
    {
      "epoch": 12.678197064989519,
      "grad_norm": 0.10164614021778107,
      "learning_rate": 0.00035567851908865,
      "loss": 0.4413,
      "num_input_tokens_seen": 15819680,
      "step": 24190
    },
    {
      "epoch": 12.680817610062894,
      "grad_norm": 0.15735983848571777,
      "learning_rate": 0.0003554595820862358,
      "loss": 0.479,
      "num_input_tokens_seen": 15822848,
      "step": 24195
    },
    {
      "epoch": 12.683438155136269,
      "grad_norm": 0.0920502170920372,
      "learning_rate": 0.00035524067532002803,
      "loss": 0.5661,
      "num_input_tokens_seen": 15825312,
      "step": 24200
    },
    {
      "epoch": 12.686058700209644,
      "grad_norm": 0.08116842061281204,
      "learning_rate": 0.00035502179883581956,
      "loss": 0.3293,
      "num_input_tokens_seen": 15828672,
      "step": 24205
    },
    {
      "epoch": 12.68867924528302,
      "grad_norm": 0.11352487653493881,
      "learning_rate": 0.0003548029526793969,
      "loss": 0.4582,
      "num_input_tokens_seen": 15831648,
      "step": 24210
    },
    {
      "epoch": 12.691299790356394,
      "grad_norm": 0.13815684616565704,
      "learning_rate": 0.0003545841368965398,
      "loss": 0.484,
      "num_input_tokens_seen": 15835456,
      "step": 24215
    },
    {
      "epoch": 12.69392033542977,
      "grad_norm": 0.08399195969104767,
      "learning_rate": 0.00035436535153302235,
      "loss": 0.3412,
      "num_input_tokens_seen": 15839008,
      "step": 24220
    },
    {
      "epoch": 12.696540880503145,
      "grad_norm": 0.18834377825260162,
      "learning_rate": 0.0003541465966346118,
      "loss": 0.5478,
      "num_input_tokens_seen": 15842048,
      "step": 24225
    },
    {
      "epoch": 12.69916142557652,
      "grad_norm": 0.15495923161506653,
      "learning_rate": 0.00035392787224706936,
      "loss": 0.4571,
      "num_input_tokens_seen": 15844992,
      "step": 24230
    },
    {
      "epoch": 12.701781970649895,
      "grad_norm": 0.16242627799510956,
      "learning_rate": 0.0003537091784161495,
      "loss": 0.3076,
      "num_input_tokens_seen": 15847008,
      "step": 24235
    },
    {
      "epoch": 12.70440251572327,
      "grad_norm": 0.14799411594867706,
      "learning_rate": 0.0003534905151876007,
      "loss": 0.5566,
      "num_input_tokens_seen": 15849760,
      "step": 24240
    },
    {
      "epoch": 12.707023060796645,
      "grad_norm": 0.13638734817504883,
      "learning_rate": 0.0003532718826071646,
      "loss": 0.3595,
      "num_input_tokens_seen": 15852608,
      "step": 24245
    },
    {
      "epoch": 12.70964360587002,
      "grad_norm": 0.2063172161579132,
      "learning_rate": 0.00035305328072057654,
      "loss": 0.3982,
      "num_input_tokens_seen": 15855904,
      "step": 24250
    },
    {
      "epoch": 12.712264150943396,
      "grad_norm": 0.12112853676080704,
      "learning_rate": 0.00035283470957356576,
      "loss": 0.396,
      "num_input_tokens_seen": 15860224,
      "step": 24255
    },
    {
      "epoch": 12.714884696016771,
      "grad_norm": 0.11610538512468338,
      "learning_rate": 0.0003526161692118548,
      "loss": 0.4078,
      "num_input_tokens_seen": 15863136,
      "step": 24260
    },
    {
      "epoch": 12.717505241090146,
      "grad_norm": 0.13335585594177246,
      "learning_rate": 0.0003523976596811597,
      "loss": 0.4826,
      "num_input_tokens_seen": 15866400,
      "step": 24265
    },
    {
      "epoch": 12.720125786163521,
      "grad_norm": 0.20890596508979797,
      "learning_rate": 0.0003521791810271906,
      "loss": 0.4363,
      "num_input_tokens_seen": 15868896,
      "step": 24270
    },
    {
      "epoch": 12.722746331236896,
      "grad_norm": 0.18360386788845062,
      "learning_rate": 0.0003519607332956501,
      "loss": 0.5141,
      "num_input_tokens_seen": 15871232,
      "step": 24275
    },
    {
      "epoch": 12.725366876310272,
      "grad_norm": 0.19205456972122192,
      "learning_rate": 0.0003517423165322353,
      "loss": 0.3402,
      "num_input_tokens_seen": 15876800,
      "step": 24280
    },
    {
      "epoch": 12.727987421383649,
      "grad_norm": 0.21371299028396606,
      "learning_rate": 0.0003515239307826366,
      "loss": 0.2726,
      "num_input_tokens_seen": 15879520,
      "step": 24285
    },
    {
      "epoch": 12.730607966457024,
      "grad_norm": 0.11605287343263626,
      "learning_rate": 0.00035130557609253744,
      "loss": 0.4483,
      "num_input_tokens_seen": 15882432,
      "step": 24290
    },
    {
      "epoch": 12.733228511530399,
      "grad_norm": 0.08406239748001099,
      "learning_rate": 0.00035108725250761566,
      "loss": 0.4863,
      "num_input_tokens_seen": 15887648,
      "step": 24295
    },
    {
      "epoch": 12.735849056603774,
      "grad_norm": 0.24646928906440735,
      "learning_rate": 0.0003508689600735416,
      "loss": 0.4047,
      "num_input_tokens_seen": 15892704,
      "step": 24300
    },
    {
      "epoch": 12.73846960167715,
      "grad_norm": 0.10042106360197067,
      "learning_rate": 0.0003506506988359797,
      "loss": 0.4079,
      "num_input_tokens_seen": 15895840,
      "step": 24305
    },
    {
      "epoch": 12.741090146750524,
      "grad_norm": 0.16870342195034027,
      "learning_rate": 0.0003504324688405878,
      "loss": 0.6034,
      "num_input_tokens_seen": 15899488,
      "step": 24310
    },
    {
      "epoch": 12.7437106918239,
      "grad_norm": 0.12275625765323639,
      "learning_rate": 0.000350214270133017,
      "loss": 0.3959,
      "num_input_tokens_seen": 15902816,
      "step": 24315
    },
    {
      "epoch": 12.746331236897275,
      "grad_norm": 0.12275803089141846,
      "learning_rate": 0.00034999610275891204,
      "loss": 0.4727,
      "num_input_tokens_seen": 15905568,
      "step": 24320
    },
    {
      "epoch": 12.74895178197065,
      "grad_norm": 0.10432600229978561,
      "learning_rate": 0.0003497779667639113,
      "loss": 0.4205,
      "num_input_tokens_seen": 15909120,
      "step": 24325
    },
    {
      "epoch": 12.751572327044025,
      "grad_norm": 0.10920552909374237,
      "learning_rate": 0.0003495598621936458,
      "loss": 0.4233,
      "num_input_tokens_seen": 15911872,
      "step": 24330
    },
    {
      "epoch": 12.7541928721174,
      "grad_norm": 0.18965816497802734,
      "learning_rate": 0.00034934178909374084,
      "loss": 0.4156,
      "num_input_tokens_seen": 15914784,
      "step": 24335
    },
    {
      "epoch": 12.756813417190775,
      "grad_norm": 0.10230687260627747,
      "learning_rate": 0.0003491237475098148,
      "loss": 0.4407,
      "num_input_tokens_seen": 15918944,
      "step": 24340
    },
    {
      "epoch": 12.75943396226415,
      "grad_norm": 0.16194911301136017,
      "learning_rate": 0.00034890573748747945,
      "loss": 0.5068,
      "num_input_tokens_seen": 15921312,
      "step": 24345
    },
    {
      "epoch": 12.762054507337526,
      "grad_norm": 0.1497873067855835,
      "learning_rate": 0.00034868775907234017,
      "loss": 0.4236,
      "num_input_tokens_seen": 15924320,
      "step": 24350
    },
    {
      "epoch": 12.764675052410901,
      "grad_norm": 0.13699141144752502,
      "learning_rate": 0.0003484698123099956,
      "loss": 0.3828,
      "num_input_tokens_seen": 15927936,
      "step": 24355
    },
    {
      "epoch": 12.767295597484276,
      "grad_norm": 0.15519419312477112,
      "learning_rate": 0.00034825189724603723,
      "loss": 0.6853,
      "num_input_tokens_seen": 15931104,
      "step": 24360
    },
    {
      "epoch": 12.769916142557651,
      "grad_norm": 0.23487718403339386,
      "learning_rate": 0.0003480340139260509,
      "loss": 0.506,
      "num_input_tokens_seen": 15935008,
      "step": 24365
    },
    {
      "epoch": 12.772536687631026,
      "grad_norm": 0.19857129454612732,
      "learning_rate": 0.000347816162395615,
      "loss": 0.4409,
      "num_input_tokens_seen": 15937824,
      "step": 24370
    },
    {
      "epoch": 12.775157232704402,
      "grad_norm": 0.11266409605741501,
      "learning_rate": 0.00034759834270030185,
      "loss": 0.3879,
      "num_input_tokens_seen": 15941056,
      "step": 24375
    },
    {
      "epoch": 12.777777777777779,
      "grad_norm": 0.14270542562007904,
      "learning_rate": 0.0003473805548856768,
      "loss": 0.4761,
      "num_input_tokens_seen": 15944640,
      "step": 24380
    },
    {
      "epoch": 12.780398322851154,
      "grad_norm": 0.14870481193065643,
      "learning_rate": 0.00034716279899729826,
      "loss": 0.3679,
      "num_input_tokens_seen": 15948384,
      "step": 24385
    },
    {
      "epoch": 12.783018867924529,
      "grad_norm": 0.11926468461751938,
      "learning_rate": 0.00034694507508071864,
      "loss": 0.3765,
      "num_input_tokens_seen": 15951232,
      "step": 24390
    },
    {
      "epoch": 12.785639412997904,
      "grad_norm": 0.13838744163513184,
      "learning_rate": 0.00034672738318148303,
      "loss": 0.4068,
      "num_input_tokens_seen": 15954816,
      "step": 24395
    },
    {
      "epoch": 12.78825995807128,
      "grad_norm": 0.10205365717411041,
      "learning_rate": 0.00034650972334513043,
      "loss": 0.6075,
      "num_input_tokens_seen": 15958336,
      "step": 24400
    },
    {
      "epoch": 12.790880503144654,
      "grad_norm": 0.08625409752130508,
      "learning_rate": 0.00034629209561719244,
      "loss": 0.4643,
      "num_input_tokens_seen": 15961984,
      "step": 24405
    },
    {
      "epoch": 12.79350104821803,
      "grad_norm": 0.12836140394210815,
      "learning_rate": 0.0003460745000431946,
      "loss": 0.3732,
      "num_input_tokens_seen": 15965056,
      "step": 24410
    },
    {
      "epoch": 12.796121593291405,
      "grad_norm": 0.1202898696064949,
      "learning_rate": 0.00034585693666865525,
      "loss": 0.4501,
      "num_input_tokens_seen": 15967904,
      "step": 24415
    },
    {
      "epoch": 12.79874213836478,
      "grad_norm": 0.07531220465898514,
      "learning_rate": 0.00034563940553908605,
      "loss": 0.3985,
      "num_input_tokens_seen": 15971424,
      "step": 24420
    },
    {
      "epoch": 12.801362683438155,
      "grad_norm": 0.1718614399433136,
      "learning_rate": 0.00034542190669999216,
      "loss": 0.6903,
      "num_input_tokens_seen": 15974272,
      "step": 24425
    },
    {
      "epoch": 12.80398322851153,
      "grad_norm": 0.14969143271446228,
      "learning_rate": 0.000345204440196872,
      "loss": 0.3913,
      "num_input_tokens_seen": 15977600,
      "step": 24430
    },
    {
      "epoch": 12.806603773584905,
      "grad_norm": 0.15073902904987335,
      "learning_rate": 0.00034498700607521693,
      "loss": 0.4602,
      "num_input_tokens_seen": 15980640,
      "step": 24435
    },
    {
      "epoch": 12.80922431865828,
      "grad_norm": 0.10122238099575043,
      "learning_rate": 0.00034476960438051187,
      "loss": 0.3901,
      "num_input_tokens_seen": 15983520,
      "step": 24440
    },
    {
      "epoch": 12.811844863731656,
      "grad_norm": 0.14189043641090393,
      "learning_rate": 0.00034455223515823444,
      "loss": 0.4666,
      "num_input_tokens_seen": 15986592,
      "step": 24445
    },
    {
      "epoch": 12.814465408805031,
      "grad_norm": 0.14927400648593903,
      "learning_rate": 0.0003443348984538559,
      "loss": 0.4786,
      "num_input_tokens_seen": 15989600,
      "step": 24450
    },
    {
      "epoch": 12.817085953878406,
      "grad_norm": 0.11204292625188828,
      "learning_rate": 0.0003441175943128407,
      "loss": 0.4295,
      "num_input_tokens_seen": 15992416,
      "step": 24455
    },
    {
      "epoch": 12.819706498951781,
      "grad_norm": 0.202671080827713,
      "learning_rate": 0.0003439003227806464,
      "loss": 0.3543,
      "num_input_tokens_seen": 15994816,
      "step": 24460
    },
    {
      "epoch": 12.822327044025156,
      "grad_norm": 0.20386944711208344,
      "learning_rate": 0.00034368308390272386,
      "loss": 0.4928,
      "num_input_tokens_seen": 15997536,
      "step": 24465
    },
    {
      "epoch": 12.824947589098532,
      "grad_norm": 0.09629049152135849,
      "learning_rate": 0.0003434658777245167,
      "loss": 0.4286,
      "num_input_tokens_seen": 16001344,
      "step": 24470
    },
    {
      "epoch": 12.827568134171909,
      "grad_norm": 0.12114089727401733,
      "learning_rate": 0.000343248704291462,
      "loss": 0.3257,
      "num_input_tokens_seen": 16005440,
      "step": 24475
    },
    {
      "epoch": 12.830188679245284,
      "grad_norm": 0.07065300643444061,
      "learning_rate": 0.00034303156364899016,
      "loss": 0.398,
      "num_input_tokens_seen": 16008992,
      "step": 24480
    },
    {
      "epoch": 12.832809224318659,
      "grad_norm": 0.09923822432756424,
      "learning_rate": 0.00034281445584252425,
      "loss": 0.4109,
      "num_input_tokens_seen": 16011712,
      "step": 24485
    },
    {
      "epoch": 12.835429769392034,
      "grad_norm": 0.1024087518453598,
      "learning_rate": 0.00034259738091748103,
      "loss": 0.3996,
      "num_input_tokens_seen": 16014528,
      "step": 24490
    },
    {
      "epoch": 12.83805031446541,
      "grad_norm": 0.12187456339597702,
      "learning_rate": 0.00034238033891927013,
      "loss": 0.346,
      "num_input_tokens_seen": 16016736,
      "step": 24495
    },
    {
      "epoch": 12.840670859538784,
      "grad_norm": 0.16837206482887268,
      "learning_rate": 0.00034216332989329387,
      "loss": 0.3213,
      "num_input_tokens_seen": 16020128,
      "step": 24500
    },
    {
      "epoch": 12.84329140461216,
      "grad_norm": 0.12914301455020905,
      "learning_rate": 0.00034194635388494835,
      "loss": 0.3821,
      "num_input_tokens_seen": 16023008,
      "step": 24505
    },
    {
      "epoch": 12.845911949685535,
      "grad_norm": 0.10715338587760925,
      "learning_rate": 0.00034172941093962237,
      "loss": 0.378,
      "num_input_tokens_seen": 16026656,
      "step": 24510
    },
    {
      "epoch": 12.84853249475891,
      "grad_norm": 0.18691250681877136,
      "learning_rate": 0.00034151250110269805,
      "loss": 0.3881,
      "num_input_tokens_seen": 16029472,
      "step": 24515
    },
    {
      "epoch": 12.851153039832285,
      "grad_norm": 0.1093665212392807,
      "learning_rate": 0.00034129562441955044,
      "loss": 0.4531,
      "num_input_tokens_seen": 16033504,
      "step": 24520
    },
    {
      "epoch": 12.85377358490566,
      "grad_norm": 0.1845484972000122,
      "learning_rate": 0.00034107878093554765,
      "loss": 0.3866,
      "num_input_tokens_seen": 16036480,
      "step": 24525
    },
    {
      "epoch": 12.856394129979035,
      "grad_norm": 0.24565549194812775,
      "learning_rate": 0.00034086197069605064,
      "loss": 0.5189,
      "num_input_tokens_seen": 16039072,
      "step": 24530
    },
    {
      "epoch": 12.85901467505241,
      "grad_norm": 0.12348531186580658,
      "learning_rate": 0.0003406451937464139,
      "loss": 0.3995,
      "num_input_tokens_seen": 16042144,
      "step": 24535
    },
    {
      "epoch": 12.861635220125786,
      "grad_norm": 0.11903940886259079,
      "learning_rate": 0.0003404284501319845,
      "loss": 0.4654,
      "num_input_tokens_seen": 16044672,
      "step": 24540
    },
    {
      "epoch": 12.864255765199161,
      "grad_norm": 0.12413635104894638,
      "learning_rate": 0.00034021173989810306,
      "loss": 0.4266,
      "num_input_tokens_seen": 16046912,
      "step": 24545
    },
    {
      "epoch": 12.866876310272536,
      "grad_norm": 0.10633567720651627,
      "learning_rate": 0.0003399950630901025,
      "loss": 0.407,
      "num_input_tokens_seen": 16049920,
      "step": 24550
    },
    {
      "epoch": 12.869496855345911,
      "grad_norm": 0.09508208185434341,
      "learning_rate": 0.0003397784197533095,
      "loss": 0.3797,
      "num_input_tokens_seen": 16053952,
      "step": 24555
    },
    {
      "epoch": 12.872117400419286,
      "grad_norm": 0.12545688450336456,
      "learning_rate": 0.0003395618099330431,
      "loss": 0.4201,
      "num_input_tokens_seen": 16056352,
      "step": 24560
    },
    {
      "epoch": 12.874737945492662,
      "grad_norm": 0.12341924011707306,
      "learning_rate": 0.0003393452336746156,
      "loss": 0.4488,
      "num_input_tokens_seen": 16060608,
      "step": 24565
    },
    {
      "epoch": 12.877358490566039,
      "grad_norm": 0.07114923745393753,
      "learning_rate": 0.00033912869102333237,
      "loss": 0.4549,
      "num_input_tokens_seen": 16063904,
      "step": 24570
    },
    {
      "epoch": 12.879979035639414,
      "grad_norm": 0.11786326766014099,
      "learning_rate": 0.00033891218202449164,
      "loss": 0.3389,
      "num_input_tokens_seen": 16067136,
      "step": 24575
    },
    {
      "epoch": 12.882599580712789,
      "grad_norm": 0.1413474678993225,
      "learning_rate": 0.00033869570672338486,
      "loss": 0.3906,
      "num_input_tokens_seen": 16069696,
      "step": 24580
    },
    {
      "epoch": 12.885220125786164,
      "grad_norm": 0.11877268552780151,
      "learning_rate": 0.00033847926516529574,
      "loss": 0.4492,
      "num_input_tokens_seen": 16072800,
      "step": 24585
    },
    {
      "epoch": 12.88784067085954,
      "grad_norm": 0.1484621912240982,
      "learning_rate": 0.0003382628573955018,
      "loss": 0.4757,
      "num_input_tokens_seen": 16075424,
      "step": 24590
    },
    {
      "epoch": 12.890461215932914,
      "grad_norm": 0.14379285275936127,
      "learning_rate": 0.00033804648345927267,
      "loss": 0.3973,
      "num_input_tokens_seen": 16078400,
      "step": 24595
    },
    {
      "epoch": 12.89308176100629,
      "grad_norm": 0.14865659177303314,
      "learning_rate": 0.00033783014340187166,
      "loss": 0.4333,
      "num_input_tokens_seen": 16086432,
      "step": 24600
    },
    {
      "epoch": 12.895702306079665,
      "grad_norm": 0.1327085942029953,
      "learning_rate": 0.0003376138372685545,
      "loss": 0.5068,
      "num_input_tokens_seen": 16089472,
      "step": 24605
    },
    {
      "epoch": 12.89832285115304,
      "grad_norm": 0.1260068416595459,
      "learning_rate": 0.00033739756510457015,
      "loss": 0.4888,
      "num_input_tokens_seen": 16092800,
      "step": 24610
    },
    {
      "epoch": 12.900943396226415,
      "grad_norm": 0.08130205422639847,
      "learning_rate": 0.00033718132695516003,
      "loss": 0.3529,
      "num_input_tokens_seen": 16100992,
      "step": 24615
    },
    {
      "epoch": 12.90356394129979,
      "grad_norm": 0.1467762440443039,
      "learning_rate": 0.00033696512286555865,
      "loss": 0.431,
      "num_input_tokens_seen": 16104320,
      "step": 24620
    },
    {
      "epoch": 12.906184486373165,
      "grad_norm": 0.14181366562843323,
      "learning_rate": 0.0003367489528809936,
      "loss": 0.4854,
      "num_input_tokens_seen": 16108064,
      "step": 24625
    },
    {
      "epoch": 12.90880503144654,
      "grad_norm": 0.1168268695473671,
      "learning_rate": 0.00033653281704668515,
      "loss": 0.4426,
      "num_input_tokens_seen": 16111008,
      "step": 24630
    },
    {
      "epoch": 12.911425576519916,
      "grad_norm": 0.11092853546142578,
      "learning_rate": 0.0003363167154078465,
      "loss": 0.4895,
      "num_input_tokens_seen": 16114080,
      "step": 24635
    },
    {
      "epoch": 12.914046121593291,
      "grad_norm": 0.13784725964069366,
      "learning_rate": 0.0003361006480096837,
      "loss": 0.4751,
      "num_input_tokens_seen": 16116832,
      "step": 24640
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.12669464945793152,
      "learning_rate": 0.0003358846148973953,
      "loss": 0.3542,
      "num_input_tokens_seen": 16119872,
      "step": 24645
    },
    {
      "epoch": 12.919287211740041,
      "grad_norm": 0.1589825302362442,
      "learning_rate": 0.0003356686161161732,
      "loss": 0.5086,
      "num_input_tokens_seen": 16123200,
      "step": 24650
    },
    {
      "epoch": 12.921907756813416,
      "grad_norm": 0.2075832188129425,
      "learning_rate": 0.00033545265171120163,
      "loss": 0.4191,
      "num_input_tokens_seen": 16126048,
      "step": 24655
    },
    {
      "epoch": 12.924528301886792,
      "grad_norm": 0.12694063782691956,
      "learning_rate": 0.0003352367217276582,
      "loss": 0.5236,
      "num_input_tokens_seen": 16129088,
      "step": 24660
    },
    {
      "epoch": 12.927148846960169,
      "grad_norm": 0.17375001311302185,
      "learning_rate": 0.0003350208262107131,
      "loss": 0.5518,
      "num_input_tokens_seen": 16131584,
      "step": 24665
    },
    {
      "epoch": 12.929769392033544,
      "grad_norm": 0.16410546004772186,
      "learning_rate": 0.00033480496520552874,
      "loss": 0.4817,
      "num_input_tokens_seen": 16133984,
      "step": 24670
    },
    {
      "epoch": 12.932389937106919,
      "grad_norm": 0.12996359169483185,
      "learning_rate": 0.00033458913875726093,
      "loss": 0.4504,
      "num_input_tokens_seen": 16136480,
      "step": 24675
    },
    {
      "epoch": 12.935010482180294,
      "grad_norm": 0.1146225780248642,
      "learning_rate": 0.00033437334691105837,
      "loss": 0.3538,
      "num_input_tokens_seen": 16139616,
      "step": 24680
    },
    {
      "epoch": 12.93763102725367,
      "grad_norm": 0.142524853348732,
      "learning_rate": 0.0003341575897120619,
      "loss": 0.5418,
      "num_input_tokens_seen": 16143008,
      "step": 24685
    },
    {
      "epoch": 12.940251572327044,
      "grad_norm": 0.10942281037569046,
      "learning_rate": 0.00033394186720540577,
      "loss": 0.5092,
      "num_input_tokens_seen": 16146304,
      "step": 24690
    },
    {
      "epoch": 12.94287211740042,
      "grad_norm": 0.23506367206573486,
      "learning_rate": 0.00033372617943621665,
      "loss": 0.4447,
      "num_input_tokens_seen": 16149184,
      "step": 24695
    },
    {
      "epoch": 12.945492662473795,
      "grad_norm": 0.0807410478591919,
      "learning_rate": 0.00033351052644961353,
      "loss": 0.5319,
      "num_input_tokens_seen": 16151968,
      "step": 24700
    },
    {
      "epoch": 12.94811320754717,
      "grad_norm": 0.16570952534675598,
      "learning_rate": 0.00033329490829070907,
      "loss": 0.4576,
      "num_input_tokens_seen": 16154848,
      "step": 24705
    },
    {
      "epoch": 12.950733752620545,
      "grad_norm": 0.10274536907672882,
      "learning_rate": 0.0003330793250046078,
      "loss": 0.4207,
      "num_input_tokens_seen": 16158336,
      "step": 24710
    },
    {
      "epoch": 12.95335429769392,
      "grad_norm": 0.180319145321846,
      "learning_rate": 0.0003328637766364075,
      "loss": 0.5558,
      "num_input_tokens_seen": 16161856,
      "step": 24715
    },
    {
      "epoch": 12.955974842767295,
      "grad_norm": 0.11376353353261948,
      "learning_rate": 0.00033264826323119824,
      "loss": 0.4385,
      "num_input_tokens_seen": 16165696,
      "step": 24720
    },
    {
      "epoch": 12.95859538784067,
      "grad_norm": 0.1826203465461731,
      "learning_rate": 0.00033243278483406326,
      "loss": 0.3933,
      "num_input_tokens_seen": 16169440,
      "step": 24725
    },
    {
      "epoch": 12.961215932914046,
      "grad_norm": 0.07787343114614487,
      "learning_rate": 0.00033221734149007785,
      "loss": 0.406,
      "num_input_tokens_seen": 16173088,
      "step": 24730
    },
    {
      "epoch": 12.963836477987421,
      "grad_norm": 0.12786681950092316,
      "learning_rate": 0.0003320019332443104,
      "loss": 0.4472,
      "num_input_tokens_seen": 16176352,
      "step": 24735
    },
    {
      "epoch": 12.966457023060796,
      "grad_norm": 0.19359682500362396,
      "learning_rate": 0.00033178656014182185,
      "loss": 0.3084,
      "num_input_tokens_seen": 16180128,
      "step": 24740
    },
    {
      "epoch": 12.969077568134171,
      "grad_norm": 0.10970471054315567,
      "learning_rate": 0.00033157122222766597,
      "loss": 0.5416,
      "num_input_tokens_seen": 16182880,
      "step": 24745
    },
    {
      "epoch": 12.971698113207546,
      "grad_norm": 0.07527279853820801,
      "learning_rate": 0.0003313559195468889,
      "loss": 0.4191,
      "num_input_tokens_seen": 16186880,
      "step": 24750
    },
    {
      "epoch": 12.974318658280922,
      "grad_norm": 0.1592235267162323,
      "learning_rate": 0.0003311406521445293,
      "loss": 0.4793,
      "num_input_tokens_seen": 16189600,
      "step": 24755
    },
    {
      "epoch": 12.976939203354299,
      "grad_norm": 0.1688377857208252,
      "learning_rate": 0.000330925420065619,
      "loss": 0.5835,
      "num_input_tokens_seen": 16194976,
      "step": 24760
    },
    {
      "epoch": 12.979559748427674,
      "grad_norm": 0.12256243824958801,
      "learning_rate": 0.0003307102233551817,
      "loss": 0.5416,
      "num_input_tokens_seen": 16197536,
      "step": 24765
    },
    {
      "epoch": 12.982180293501049,
      "grad_norm": 0.16577383875846863,
      "learning_rate": 0.0003304950620582344,
      "loss": 0.5004,
      "num_input_tokens_seen": 16201440,
      "step": 24770
    },
    {
      "epoch": 12.984800838574424,
      "grad_norm": 0.15055719017982483,
      "learning_rate": 0.0003302799362197864,
      "loss": 0.4489,
      "num_input_tokens_seen": 16204448,
      "step": 24775
    },
    {
      "epoch": 12.9874213836478,
      "grad_norm": 0.09432625025510788,
      "learning_rate": 0.00033006484588483947,
      "loss": 0.3534,
      "num_input_tokens_seen": 16207584,
      "step": 24780
    },
    {
      "epoch": 12.990041928721174,
      "grad_norm": 0.13711337745189667,
      "learning_rate": 0.00032984979109838803,
      "loss": 0.4973,
      "num_input_tokens_seen": 16209920,
      "step": 24785
    },
    {
      "epoch": 12.99266247379455,
      "grad_norm": 0.09712254256010056,
      "learning_rate": 0.000329634771905419,
      "loss": 0.3773,
      "num_input_tokens_seen": 16212736,
      "step": 24790
    },
    {
      "epoch": 12.995283018867925,
      "grad_norm": 0.10490438342094421,
      "learning_rate": 0.0003294197883509122,
      "loss": 0.489,
      "num_input_tokens_seen": 16216480,
      "step": 24795
    },
    {
      "epoch": 12.9979035639413,
      "grad_norm": 0.24407026171684265,
      "learning_rate": 0.00032920484047983947,
      "loss": 0.5769,
      "num_input_tokens_seen": 16218976,
      "step": 24800
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.47803300619125366,
      "eval_runtime": 13.7086,
      "eval_samples_per_second": 61.859,
      "eval_steps_per_second": 15.465,
      "num_input_tokens_seen": 16220808,
      "step": 24804
    },
    {
      "epoch": 13.000524109014675,
      "grad_norm": 0.18126918375492096,
      "learning_rate": 0.0003289899283371657,
      "loss": 0.4122,
      "num_input_tokens_seen": 16221160,
      "step": 24805
    },
    {
      "epoch": 13.00314465408805,
      "grad_norm": 0.17602166533470154,
      "learning_rate": 0.00032877505196784795,
      "loss": 0.5473,
      "num_input_tokens_seen": 16223848,
      "step": 24810
    },
    {
      "epoch": 13.005765199161425,
      "grad_norm": 0.05587286129593849,
      "learning_rate": 0.0003285602114168358,
      "loss": 0.3876,
      "num_input_tokens_seen": 16226856,
      "step": 24815
    },
    {
      "epoch": 13.0083857442348,
      "grad_norm": 0.14759162068367004,
      "learning_rate": 0.00032834540672907144,
      "loss": 0.3697,
      "num_input_tokens_seen": 16229736,
      "step": 24820
    },
    {
      "epoch": 13.011006289308176,
      "grad_norm": 0.16197146475315094,
      "learning_rate": 0.00032813063794948983,
      "loss": 0.3541,
      "num_input_tokens_seen": 16233064,
      "step": 24825
    },
    {
      "epoch": 13.01362683438155,
      "grad_norm": 0.08390381187200546,
      "learning_rate": 0.00032791590512301784,
      "loss": 0.3667,
      "num_input_tokens_seen": 16236456,
      "step": 24830
    },
    {
      "epoch": 13.016247379454926,
      "grad_norm": 0.21147926151752472,
      "learning_rate": 0.00032770120829457534,
      "loss": 0.6547,
      "num_input_tokens_seen": 16239272,
      "step": 24835
    },
    {
      "epoch": 13.018867924528301,
      "grad_norm": 0.17673559486865997,
      "learning_rate": 0.00032748654750907447,
      "loss": 0.3169,
      "num_input_tokens_seen": 16242152,
      "step": 24840
    },
    {
      "epoch": 13.021488469601676,
      "grad_norm": 0.10661476105451584,
      "learning_rate": 0.0003272719228114196,
      "loss": 0.4577,
      "num_input_tokens_seen": 16245832,
      "step": 24845
    },
    {
      "epoch": 13.024109014675052,
      "grad_norm": 0.09761543571949005,
      "learning_rate": 0.0003270573342465079,
      "loss": 0.358,
      "num_input_tokens_seen": 16249064,
      "step": 24850
    },
    {
      "epoch": 13.026729559748428,
      "grad_norm": 0.17364796996116638,
      "learning_rate": 0.00032684278185922877,
      "loss": 0.4576,
      "num_input_tokens_seen": 16251944,
      "step": 24855
    },
    {
      "epoch": 13.029350104821804,
      "grad_norm": 0.11226765066385269,
      "learning_rate": 0.0003266282656944643,
      "loss": 0.5002,
      "num_input_tokens_seen": 16255368,
      "step": 24860
    },
    {
      "epoch": 13.031970649895179,
      "grad_norm": 0.14143623411655426,
      "learning_rate": 0.0003264137857970888,
      "loss": 0.4547,
      "num_input_tokens_seen": 16258152,
      "step": 24865
    },
    {
      "epoch": 13.034591194968554,
      "grad_norm": 0.10347617417573929,
      "learning_rate": 0.0003261993422119688,
      "loss": 0.4317,
      "num_input_tokens_seen": 16261672,
      "step": 24870
    },
    {
      "epoch": 13.03721174004193,
      "grad_norm": 0.13900046050548553,
      "learning_rate": 0.00032598493498396365,
      "loss": 0.4537,
      "num_input_tokens_seen": 16265416,
      "step": 24875
    },
    {
      "epoch": 13.039832285115304,
      "grad_norm": 0.12347179651260376,
      "learning_rate": 0.0003257705641579247,
      "loss": 0.4117,
      "num_input_tokens_seen": 16268008,
      "step": 24880
    },
    {
      "epoch": 13.04245283018868,
      "grad_norm": 0.12850910425186157,
      "learning_rate": 0.00032555622977869614,
      "loss": 0.3053,
      "num_input_tokens_seen": 16271912,
      "step": 24885
    },
    {
      "epoch": 13.045073375262055,
      "grad_norm": 0.07557787001132965,
      "learning_rate": 0.00032534193189111407,
      "loss": 0.4414,
      "num_input_tokens_seen": 16275304,
      "step": 24890
    },
    {
      "epoch": 13.04769392033543,
      "grad_norm": 0.06360656768083572,
      "learning_rate": 0.0003251276705400074,
      "loss": 0.3992,
      "num_input_tokens_seen": 16279240,
      "step": 24895
    },
    {
      "epoch": 13.050314465408805,
      "grad_norm": 0.13977916538715363,
      "learning_rate": 0.0003249134457701968,
      "loss": 0.6339,
      "num_input_tokens_seen": 16282376,
      "step": 24900
    },
    {
      "epoch": 13.05293501048218,
      "grad_norm": 0.11755577474832535,
      "learning_rate": 0.000324699257626496,
      "loss": 0.3808,
      "num_input_tokens_seen": 16285000,
      "step": 24905
    },
    {
      "epoch": 13.055555555555555,
      "grad_norm": 0.10741358995437622,
      "learning_rate": 0.00032448510615371045,
      "loss": 0.4515,
      "num_input_tokens_seen": 16287976,
      "step": 24910
    },
    {
      "epoch": 13.05817610062893,
      "grad_norm": 0.08748102188110352,
      "learning_rate": 0.0003242709913966384,
      "loss": 0.3497,
      "num_input_tokens_seen": 16291080,
      "step": 24915
    },
    {
      "epoch": 13.060796645702306,
      "grad_norm": 0.18249015510082245,
      "learning_rate": 0.00032405691340007,
      "loss": 0.4101,
      "num_input_tokens_seen": 16294504,
      "step": 24920
    },
    {
      "epoch": 13.06341719077568,
      "grad_norm": 0.1064138188958168,
      "learning_rate": 0.0003238428722087884,
      "loss": 0.4119,
      "num_input_tokens_seen": 16298696,
      "step": 24925
    },
    {
      "epoch": 13.066037735849056,
      "grad_norm": 0.12518802285194397,
      "learning_rate": 0.00032362886786756797,
      "loss": 0.4375,
      "num_input_tokens_seen": 16302536,
      "step": 24930
    },
    {
      "epoch": 13.068658280922431,
      "grad_norm": 0.05224989354610443,
      "learning_rate": 0.00032341490042117615,
      "loss": 0.3776,
      "num_input_tokens_seen": 16305992,
      "step": 24935
    },
    {
      "epoch": 13.071278825995806,
      "grad_norm": 0.1725224107503891,
      "learning_rate": 0.00032320096991437277,
      "loss": 0.4754,
      "num_input_tokens_seen": 16309768,
      "step": 24940
    },
    {
      "epoch": 13.073899371069182,
      "grad_norm": 0.1265401691198349,
      "learning_rate": 0.0003229870763919093,
      "loss": 0.3796,
      "num_input_tokens_seen": 16313160,
      "step": 24945
    },
    {
      "epoch": 13.076519916142558,
      "grad_norm": 0.1788078248500824,
      "learning_rate": 0.00032277321989853015,
      "loss": 0.3482,
      "num_input_tokens_seen": 16315688,
      "step": 24950
    },
    {
      "epoch": 13.079140461215934,
      "grad_norm": 0.22371827065944672,
      "learning_rate": 0.00032255940047897137,
      "loss": 0.4273,
      "num_input_tokens_seen": 16319208,
      "step": 24955
    },
    {
      "epoch": 13.081761006289309,
      "grad_norm": 0.10633785277605057,
      "learning_rate": 0.0003223456181779616,
      "loss": 0.4237,
      "num_input_tokens_seen": 16322600,
      "step": 24960
    },
    {
      "epoch": 13.084381551362684,
      "grad_norm": 0.11677438020706177,
      "learning_rate": 0.0003221318730402218,
      "loss": 0.4291,
      "num_input_tokens_seen": 16326568,
      "step": 24965
    },
    {
      "epoch": 13.08700209643606,
      "grad_norm": 0.11542364209890366,
      "learning_rate": 0.00032191816511046483,
      "loss": 0.6558,
      "num_input_tokens_seen": 16331336,
      "step": 24970
    },
    {
      "epoch": 13.089622641509434,
      "grad_norm": 0.20780225098133087,
      "learning_rate": 0.0003217044944333961,
      "loss": 0.4624,
      "num_input_tokens_seen": 16334824,
      "step": 24975
    },
    {
      "epoch": 13.09224318658281,
      "grad_norm": 0.2363346517086029,
      "learning_rate": 0.00032149086105371315,
      "loss": 0.3587,
      "num_input_tokens_seen": 16337992,
      "step": 24980
    },
    {
      "epoch": 13.094863731656185,
      "grad_norm": 0.13030081987380981,
      "learning_rate": 0.00032127726501610554,
      "loss": 0.5635,
      "num_input_tokens_seen": 16340680,
      "step": 24985
    },
    {
      "epoch": 13.09748427672956,
      "grad_norm": 0.12740683555603027,
      "learning_rate": 0.00032106370636525493,
      "loss": 0.3872,
      "num_input_tokens_seen": 16343464,
      "step": 24990
    },
    {
      "epoch": 13.100104821802935,
      "grad_norm": 0.15228284895420074,
      "learning_rate": 0.00032085018514583564,
      "loss": 0.4553,
      "num_input_tokens_seen": 16346376,
      "step": 24995
    },
    {
      "epoch": 13.10272536687631,
      "grad_norm": 0.08917195349931717,
      "learning_rate": 0.00032063670140251366,
      "loss": 0.2826,
      "num_input_tokens_seen": 16349032,
      "step": 25000
    },
    {
      "epoch": 13.105345911949685,
      "grad_norm": 0.1384463757276535,
      "learning_rate": 0.0003204232551799476,
      "loss": 0.5064,
      "num_input_tokens_seen": 16352104,
      "step": 25005
    },
    {
      "epoch": 13.10796645702306,
      "grad_norm": 0.14718641340732574,
      "learning_rate": 0.00032020984652278797,
      "loss": 0.489,
      "num_input_tokens_seen": 16355496,
      "step": 25010
    },
    {
      "epoch": 13.110587002096436,
      "grad_norm": 0.08580156415700912,
      "learning_rate": 0.000319996475475677,
      "loss": 0.4716,
      "num_input_tokens_seen": 16359080,
      "step": 25015
    },
    {
      "epoch": 13.11320754716981,
      "grad_norm": 0.13894140720367432,
      "learning_rate": 0.0003197831420832499,
      "loss": 0.4466,
      "num_input_tokens_seen": 16362408,
      "step": 25020
    },
    {
      "epoch": 13.115828092243186,
      "grad_norm": 0.13493777811527252,
      "learning_rate": 0.0003195698463901334,
      "loss": 0.4109,
      "num_input_tokens_seen": 16365384,
      "step": 25025
    },
    {
      "epoch": 13.118448637316561,
      "grad_norm": 0.10348790884017944,
      "learning_rate": 0.0003193565884409466,
      "loss": 0.3504,
      "num_input_tokens_seen": 16368840,
      "step": 25030
    },
    {
      "epoch": 13.121069182389936,
      "grad_norm": 0.11632826179265976,
      "learning_rate": 0.0003191433682803008,
      "loss": 0.4093,
      "num_input_tokens_seen": 16372296,
      "step": 25035
    },
    {
      "epoch": 13.123689727463312,
      "grad_norm": 0.1664232313632965,
      "learning_rate": 0.00031893018595279877,
      "loss": 0.3151,
      "num_input_tokens_seen": 16375400,
      "step": 25040
    },
    {
      "epoch": 13.126310272536688,
      "grad_norm": 0.10883905738592148,
      "learning_rate": 0.00031871704150303624,
      "loss": 0.4739,
      "num_input_tokens_seen": 16378728,
      "step": 25045
    },
    {
      "epoch": 13.128930817610064,
      "grad_norm": 0.13125886023044586,
      "learning_rate": 0.00031850393497560034,
      "loss": 0.4499,
      "num_input_tokens_seen": 16381672,
      "step": 25050
    },
    {
      "epoch": 13.131551362683439,
      "grad_norm": 0.1758691668510437,
      "learning_rate": 0.00031829086641507054,
      "loss": 0.5455,
      "num_input_tokens_seen": 16384744,
      "step": 25055
    },
    {
      "epoch": 13.134171907756814,
      "grad_norm": 0.11952804774045944,
      "learning_rate": 0.00031807783586601865,
      "loss": 0.5599,
      "num_input_tokens_seen": 16387816,
      "step": 25060
    },
    {
      "epoch": 13.13679245283019,
      "grad_norm": 0.1166754886507988,
      "learning_rate": 0.00031786484337300805,
      "loss": 0.4085,
      "num_input_tokens_seen": 16390600,
      "step": 25065
    },
    {
      "epoch": 13.139412997903564,
      "grad_norm": 0.08402027189731598,
      "learning_rate": 0.0003176518889805941,
      "loss": 0.4176,
      "num_input_tokens_seen": 16394280,
      "step": 25070
    },
    {
      "epoch": 13.14203354297694,
      "grad_norm": 0.12832367420196533,
      "learning_rate": 0.0003174389727333248,
      "loss": 0.4208,
      "num_input_tokens_seen": 16396904,
      "step": 25075
    },
    {
      "epoch": 13.144654088050315,
      "grad_norm": 0.19141347706317902,
      "learning_rate": 0.00031722609467573946,
      "loss": 0.4856,
      "num_input_tokens_seen": 16400136,
      "step": 25080
    },
    {
      "epoch": 13.14727463312369,
      "grad_norm": 0.116109699010849,
      "learning_rate": 0.0003170132548523701,
      "loss": 0.3665,
      "num_input_tokens_seen": 16402568,
      "step": 25085
    },
    {
      "epoch": 13.149895178197065,
      "grad_norm": 0.09827630966901779,
      "learning_rate": 0.00031680045330774003,
      "loss": 0.5171,
      "num_input_tokens_seen": 16405832,
      "step": 25090
    },
    {
      "epoch": 13.15251572327044,
      "grad_norm": 0.19750520586967468,
      "learning_rate": 0.00031658769008636534,
      "loss": 0.7076,
      "num_input_tokens_seen": 16409288,
      "step": 25095
    },
    {
      "epoch": 13.155136268343815,
      "grad_norm": 0.17367593944072723,
      "learning_rate": 0.0003163749652327532,
      "loss": 0.375,
      "num_input_tokens_seen": 16412584,
      "step": 25100
    },
    {
      "epoch": 13.15775681341719,
      "grad_norm": 0.10766996443271637,
      "learning_rate": 0.00031616227879140347,
      "loss": 0.3813,
      "num_input_tokens_seen": 16415080,
      "step": 25105
    },
    {
      "epoch": 13.160377358490566,
      "grad_norm": 0.1268349140882492,
      "learning_rate": 0.0003159496308068077,
      "loss": 0.3997,
      "num_input_tokens_seen": 16418184,
      "step": 25110
    },
    {
      "epoch": 13.16299790356394,
      "grad_norm": 0.13106846809387207,
      "learning_rate": 0.00031573702132344926,
      "loss": 0.5938,
      "num_input_tokens_seen": 16421672,
      "step": 25115
    },
    {
      "epoch": 13.165618448637316,
      "grad_norm": 0.09750307351350784,
      "learning_rate": 0.00031552445038580414,
      "loss": 0.3974,
      "num_input_tokens_seen": 16425448,
      "step": 25120
    },
    {
      "epoch": 13.168238993710691,
      "grad_norm": 0.0974697545170784,
      "learning_rate": 0.0003153119180383391,
      "loss": 0.4894,
      "num_input_tokens_seen": 16428872,
      "step": 25125
    },
    {
      "epoch": 13.170859538784066,
      "grad_norm": 0.1476745754480362,
      "learning_rate": 0.0003150994243255138,
      "loss": 0.5953,
      "num_input_tokens_seen": 16431560,
      "step": 25130
    },
    {
      "epoch": 13.173480083857442,
      "grad_norm": 0.14714032411575317,
      "learning_rate": 0.00031488696929177944,
      "loss": 0.4577,
      "num_input_tokens_seen": 16435048,
      "step": 25135
    },
    {
      "epoch": 13.176100628930818,
      "grad_norm": 0.13402844965457916,
      "learning_rate": 0.00031467455298157934,
      "loss": 0.381,
      "num_input_tokens_seen": 16438248,
      "step": 25140
    },
    {
      "epoch": 13.178721174004194,
      "grad_norm": 0.12181034684181213,
      "learning_rate": 0.0003144621754393483,
      "loss": 0.4711,
      "num_input_tokens_seen": 16441384,
      "step": 25145
    },
    {
      "epoch": 13.181341719077569,
      "grad_norm": 0.09458077698945999,
      "learning_rate": 0.0003142498367095137,
      "loss": 0.5633,
      "num_input_tokens_seen": 16445992,
      "step": 25150
    },
    {
      "epoch": 13.183962264150944,
      "grad_norm": 0.059543319046497345,
      "learning_rate": 0.00031403753683649396,
      "loss": 0.3961,
      "num_input_tokens_seen": 16449416,
      "step": 25155
    },
    {
      "epoch": 13.18658280922432,
      "grad_norm": 0.1366700977087021,
      "learning_rate": 0.0003138252758646999,
      "loss": 0.3601,
      "num_input_tokens_seen": 16454472,
      "step": 25160
    },
    {
      "epoch": 13.189203354297694,
      "grad_norm": 0.14258041977882385,
      "learning_rate": 0.00031361305383853413,
      "loss": 0.4371,
      "num_input_tokens_seen": 16456808,
      "step": 25165
    },
    {
      "epoch": 13.19182389937107,
      "grad_norm": 0.2709374725818634,
      "learning_rate": 0.00031340087080239105,
      "loss": 0.4956,
      "num_input_tokens_seen": 16459752,
      "step": 25170
    },
    {
      "epoch": 13.194444444444445,
      "grad_norm": 0.15262222290039062,
      "learning_rate": 0.0003131887268006571,
      "loss": 0.4326,
      "num_input_tokens_seen": 16462760,
      "step": 25175
    },
    {
      "epoch": 13.19706498951782,
      "grad_norm": 0.12356458604335785,
      "learning_rate": 0.00031297662187771026,
      "loss": 0.4557,
      "num_input_tokens_seen": 16466536,
      "step": 25180
    },
    {
      "epoch": 13.199685534591195,
      "grad_norm": 0.12549243867397308,
      "learning_rate": 0.0003127645560779203,
      "loss": 0.6409,
      "num_input_tokens_seen": 16469384,
      "step": 25185
    },
    {
      "epoch": 13.20230607966457,
      "grad_norm": 0.13773736357688904,
      "learning_rate": 0.0003125525294456492,
      "loss": 0.4608,
      "num_input_tokens_seen": 16472488,
      "step": 25190
    },
    {
      "epoch": 13.204926624737945,
      "grad_norm": 0.1078074648976326,
      "learning_rate": 0.0003123405420252503,
      "loss": 0.4747,
      "num_input_tokens_seen": 16475528,
      "step": 25195
    },
    {
      "epoch": 13.20754716981132,
      "grad_norm": 0.09838856011629105,
      "learning_rate": 0.00031212859386106927,
      "loss": 0.3396,
      "num_input_tokens_seen": 16478216,
      "step": 25200
    },
    {
      "epoch": 13.210167714884696,
      "grad_norm": 0.13254882395267487,
      "learning_rate": 0.00031191668499744286,
      "loss": 0.5007,
      "num_input_tokens_seen": 16481480,
      "step": 25205
    },
    {
      "epoch": 13.21278825995807,
      "grad_norm": 0.1236400157213211,
      "learning_rate": 0.00031170481547870046,
      "loss": 0.3952,
      "num_input_tokens_seen": 16485768,
      "step": 25210
    },
    {
      "epoch": 13.215408805031446,
      "grad_norm": 0.10070578008890152,
      "learning_rate": 0.00031149298534916215,
      "loss": 0.3832,
      "num_input_tokens_seen": 16490152,
      "step": 25215
    },
    {
      "epoch": 13.218029350104821,
      "grad_norm": 0.27323076128959656,
      "learning_rate": 0.00031128119465314094,
      "loss": 0.407,
      "num_input_tokens_seen": 16493096,
      "step": 25220
    },
    {
      "epoch": 13.220649895178196,
      "grad_norm": 0.3211202621459961,
      "learning_rate": 0.0003110694434349406,
      "loss": 0.4336,
      "num_input_tokens_seen": 16495848,
      "step": 25225
    },
    {
      "epoch": 13.223270440251572,
      "grad_norm": 0.12174274772405624,
      "learning_rate": 0.0003108577317388574,
      "loss": 0.4882,
      "num_input_tokens_seen": 16502888,
      "step": 25230
    },
    {
      "epoch": 13.225890985324948,
      "grad_norm": 0.17290106415748596,
      "learning_rate": 0.00031064605960917896,
      "loss": 0.4081,
      "num_input_tokens_seen": 16505928,
      "step": 25235
    },
    {
      "epoch": 13.228511530398324,
      "grad_norm": 0.13642728328704834,
      "learning_rate": 0.00031043442709018446,
      "loss": 0.5526,
      "num_input_tokens_seen": 16508648,
      "step": 25240
    },
    {
      "epoch": 13.231132075471699,
      "grad_norm": 0.14484703540802002,
      "learning_rate": 0.0003102228342261451,
      "loss": 0.4712,
      "num_input_tokens_seen": 16512968,
      "step": 25245
    },
    {
      "epoch": 13.233752620545074,
      "grad_norm": 0.08395861834287643,
      "learning_rate": 0.0003100112810613237,
      "loss": 0.5496,
      "num_input_tokens_seen": 16516552,
      "step": 25250
    },
    {
      "epoch": 13.23637316561845,
      "grad_norm": 0.10309209674596786,
      "learning_rate": 0.00030979976763997484,
      "loss": 0.3516,
      "num_input_tokens_seen": 16519528,
      "step": 25255
    },
    {
      "epoch": 13.238993710691824,
      "grad_norm": 0.16212999820709229,
      "learning_rate": 0.0003095882940063447,
      "loss": 0.4181,
      "num_input_tokens_seen": 16522504,
      "step": 25260
    },
    {
      "epoch": 13.2416142557652,
      "grad_norm": 0.19833524525165558,
      "learning_rate": 0.0003093768602046712,
      "loss": 0.5824,
      "num_input_tokens_seen": 16525384,
      "step": 25265
    },
    {
      "epoch": 13.244234800838575,
      "grad_norm": 0.12187814712524414,
      "learning_rate": 0.00030916546627918375,
      "loss": 0.519,
      "num_input_tokens_seen": 16528840,
      "step": 25270
    },
    {
      "epoch": 13.24685534591195,
      "grad_norm": 0.16075849533081055,
      "learning_rate": 0.00030895411227410354,
      "loss": 0.4512,
      "num_input_tokens_seen": 16532648,
      "step": 25275
    },
    {
      "epoch": 13.249475890985325,
      "grad_norm": 0.14552433788776398,
      "learning_rate": 0.0003087427982336435,
      "loss": 0.3979,
      "num_input_tokens_seen": 16535720,
      "step": 25280
    },
    {
      "epoch": 13.2520964360587,
      "grad_norm": 0.24345368146896362,
      "learning_rate": 0.00030853152420200804,
      "loss": 0.3876,
      "num_input_tokens_seen": 16538312,
      "step": 25285
    },
    {
      "epoch": 13.254716981132075,
      "grad_norm": 0.17993886768817902,
      "learning_rate": 0.0003083202902233932,
      "loss": 0.5523,
      "num_input_tokens_seen": 16541640,
      "step": 25290
    },
    {
      "epoch": 13.25733752620545,
      "grad_norm": 0.07761713117361069,
      "learning_rate": 0.00030810909634198727,
      "loss": 0.3819,
      "num_input_tokens_seen": 16545640,
      "step": 25295
    },
    {
      "epoch": 13.259958071278826,
      "grad_norm": 0.13949677348136902,
      "learning_rate": 0.00030789794260196893,
      "loss": 0.4453,
      "num_input_tokens_seen": 16548488,
      "step": 25300
    },
    {
      "epoch": 13.2625786163522,
      "grad_norm": 0.1342521607875824,
      "learning_rate": 0.00030768682904750935,
      "loss": 0.4115,
      "num_input_tokens_seen": 16551592,
      "step": 25305
    },
    {
      "epoch": 13.265199161425576,
      "grad_norm": 0.09694752842187881,
      "learning_rate": 0.00030747575572277107,
      "loss": 0.488,
      "num_input_tokens_seen": 16554600,
      "step": 25310
    },
    {
      "epoch": 13.267819706498951,
      "grad_norm": 0.13067200779914856,
      "learning_rate": 0.0003072647226719083,
      "loss": 0.4562,
      "num_input_tokens_seen": 16557192,
      "step": 25315
    },
    {
      "epoch": 13.270440251572326,
      "grad_norm": 0.1875298023223877,
      "learning_rate": 0.0003070537299390669,
      "loss": 0.5701,
      "num_input_tokens_seen": 16560040,
      "step": 25320
    },
    {
      "epoch": 13.273060796645701,
      "grad_norm": 0.101908378303051,
      "learning_rate": 0.0003068427775683838,
      "loss": 0.383,
      "num_input_tokens_seen": 16563304,
      "step": 25325
    },
    {
      "epoch": 13.275681341719078,
      "grad_norm": 0.20142914354801178,
      "learning_rate": 0.00030663186560398793,
      "loss": 0.4052,
      "num_input_tokens_seen": 16566312,
      "step": 25330
    },
    {
      "epoch": 13.278301886792454,
      "grad_norm": 0.2503809928894043,
      "learning_rate": 0.0003064209940899998,
      "loss": 0.4677,
      "num_input_tokens_seen": 16569736,
      "step": 25335
    },
    {
      "epoch": 13.280922431865829,
      "grad_norm": 0.12187221646308899,
      "learning_rate": 0.00030621016307053105,
      "loss": 0.4613,
      "num_input_tokens_seen": 16572680,
      "step": 25340
    },
    {
      "epoch": 13.283542976939204,
      "grad_norm": 0.10845956951379776,
      "learning_rate": 0.0003059993725896855,
      "loss": 0.4106,
      "num_input_tokens_seen": 16576168,
      "step": 25345
    },
    {
      "epoch": 13.286163522012579,
      "grad_norm": 0.3172178864479065,
      "learning_rate": 0.0003057886226915581,
      "loss": 0.433,
      "num_input_tokens_seen": 16578504,
      "step": 25350
    },
    {
      "epoch": 13.288784067085954,
      "grad_norm": 0.1722022294998169,
      "learning_rate": 0.00030557791342023476,
      "loss": 0.4735,
      "num_input_tokens_seen": 16582472,
      "step": 25355
    },
    {
      "epoch": 13.29140461215933,
      "grad_norm": 0.12512560188770294,
      "learning_rate": 0.0003053672448197941,
      "loss": 0.5069,
      "num_input_tokens_seen": 16585128,
      "step": 25360
    },
    {
      "epoch": 13.294025157232705,
      "grad_norm": 0.14596812427043915,
      "learning_rate": 0.0003051566169343052,
      "loss": 0.4759,
      "num_input_tokens_seen": 16587592,
      "step": 25365
    },
    {
      "epoch": 13.29664570230608,
      "grad_norm": 0.1254398673772812,
      "learning_rate": 0.00030494602980782917,
      "loss": 0.4572,
      "num_input_tokens_seen": 16594600,
      "step": 25370
    },
    {
      "epoch": 13.299266247379455,
      "grad_norm": 0.15357191860675812,
      "learning_rate": 0.00030473548348441845,
      "loss": 0.3214,
      "num_input_tokens_seen": 16598120,
      "step": 25375
    },
    {
      "epoch": 13.30188679245283,
      "grad_norm": 0.08228346705436707,
      "learning_rate": 0.000304524978008117,
      "loss": 0.5372,
      "num_input_tokens_seen": 16601768,
      "step": 25380
    },
    {
      "epoch": 13.304507337526205,
      "grad_norm": 0.11633089929819107,
      "learning_rate": 0.0003043145134229599,
      "loss": 0.342,
      "num_input_tokens_seen": 16604776,
      "step": 25385
    },
    {
      "epoch": 13.30712788259958,
      "grad_norm": 0.11631885170936584,
      "learning_rate": 0.0003041040897729742,
      "loss": 0.3948,
      "num_input_tokens_seen": 16607688,
      "step": 25390
    },
    {
      "epoch": 13.309748427672956,
      "grad_norm": 0.08829765766859055,
      "learning_rate": 0.0003038937071021778,
      "loss": 0.3818,
      "num_input_tokens_seen": 16610920,
      "step": 25395
    },
    {
      "epoch": 13.31236897274633,
      "grad_norm": 0.18487884104251862,
      "learning_rate": 0.0003036833654545808,
      "loss": 0.349,
      "num_input_tokens_seen": 16614024,
      "step": 25400
    },
    {
      "epoch": 13.314989517819706,
      "grad_norm": 0.12583035230636597,
      "learning_rate": 0.0003034730648741841,
      "loss": 0.4652,
      "num_input_tokens_seen": 16616936,
      "step": 25405
    },
    {
      "epoch": 13.317610062893081,
      "grad_norm": 0.1684396117925644,
      "learning_rate": 0.00030326280540497996,
      "loss": 0.4138,
      "num_input_tokens_seen": 16619432,
      "step": 25410
    },
    {
      "epoch": 13.320230607966456,
      "grad_norm": 0.12709927558898926,
      "learning_rate": 0.0003030525870909525,
      "loss": 0.3873,
      "num_input_tokens_seen": 16622152,
      "step": 25415
    },
    {
      "epoch": 13.322851153039831,
      "grad_norm": 0.16137079894542694,
      "learning_rate": 0.0003028424099760768,
      "loss": 0.4532,
      "num_input_tokens_seen": 16624808,
      "step": 25420
    },
    {
      "epoch": 13.325471698113208,
      "grad_norm": 0.10140812397003174,
      "learning_rate": 0.0003026322741043198,
      "loss": 0.5543,
      "num_input_tokens_seen": 16628744,
      "step": 25425
    },
    {
      "epoch": 13.328092243186584,
      "grad_norm": 0.1426914483308792,
      "learning_rate": 0.0003024221795196393,
      "loss": 0.4996,
      "num_input_tokens_seen": 16631368,
      "step": 25430
    },
    {
      "epoch": 13.330712788259959,
      "grad_norm": 0.20821009576320648,
      "learning_rate": 0.0003022121262659849,
      "loss": 0.4635,
      "num_input_tokens_seen": 16634536,
      "step": 25435
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.12099749594926834,
      "learning_rate": 0.00030200211438729705,
      "loss": 0.4759,
      "num_input_tokens_seen": 16637544,
      "step": 25440
    },
    {
      "epoch": 13.335953878406709,
      "grad_norm": 0.16401644051074982,
      "learning_rate": 0.000301792143927508,
      "loss": 0.4504,
      "num_input_tokens_seen": 16641096,
      "step": 25445
    },
    {
      "epoch": 13.338574423480084,
      "grad_norm": 0.12253092229366302,
      "learning_rate": 0.0003015822149305411,
      "loss": 0.4996,
      "num_input_tokens_seen": 16643688,
      "step": 25450
    },
    {
      "epoch": 13.34119496855346,
      "grad_norm": 0.14166629314422607,
      "learning_rate": 0.0003013723274403113,
      "loss": 0.4805,
      "num_input_tokens_seen": 16646888,
      "step": 25455
    },
    {
      "epoch": 13.343815513626835,
      "grad_norm": 0.09963272511959076,
      "learning_rate": 0.00030116248150072444,
      "loss": 0.36,
      "num_input_tokens_seen": 16650312,
      "step": 25460
    },
    {
      "epoch": 13.34643605870021,
      "grad_norm": 0.12445884197950363,
      "learning_rate": 0.00030095267715567816,
      "loss": 0.3928,
      "num_input_tokens_seen": 16653896,
      "step": 25465
    },
    {
      "epoch": 13.349056603773585,
      "grad_norm": 0.17201073467731476,
      "learning_rate": 0.00030074291444906085,
      "loss": 0.3752,
      "num_input_tokens_seen": 16657320,
      "step": 25470
    },
    {
      "epoch": 13.35167714884696,
      "grad_norm": 0.10755840688943863,
      "learning_rate": 0.00030053319342475247,
      "loss": 0.3974,
      "num_input_tokens_seen": 16660456,
      "step": 25475
    },
    {
      "epoch": 13.354297693920335,
      "grad_norm": 0.11208834499120712,
      "learning_rate": 0.00030032351412662465,
      "loss": 0.4491,
      "num_input_tokens_seen": 16664424,
      "step": 25480
    },
    {
      "epoch": 13.35691823899371,
      "grad_norm": 0.14748182892799377,
      "learning_rate": 0.0003001138765985394,
      "loss": 0.544,
      "num_input_tokens_seen": 16667656,
      "step": 25485
    },
    {
      "epoch": 13.359538784067086,
      "grad_norm": 0.11573217064142227,
      "learning_rate": 0.00029990428088435097,
      "loss": 0.4212,
      "num_input_tokens_seen": 16671688,
      "step": 25490
    },
    {
      "epoch": 13.36215932914046,
      "grad_norm": 0.13027380406856537,
      "learning_rate": 0.000299694727027904,
      "loss": 0.46,
      "num_input_tokens_seen": 16674856,
      "step": 25495
    },
    {
      "epoch": 13.364779874213836,
      "grad_norm": 0.1264377385377884,
      "learning_rate": 0.00029948521507303495,
      "loss": 0.3882,
      "num_input_tokens_seen": 16677864,
      "step": 25500
    },
    {
      "epoch": 13.367400419287211,
      "grad_norm": 0.1810106337070465,
      "learning_rate": 0.0002992757450635714,
      "loss": 0.359,
      "num_input_tokens_seen": 16680808,
      "step": 25505
    },
    {
      "epoch": 13.370020964360586,
      "grad_norm": 0.3112204968929291,
      "learning_rate": 0.00029906631704333187,
      "loss": 0.3767,
      "num_input_tokens_seen": 16683208,
      "step": 25510
    },
    {
      "epoch": 13.372641509433961,
      "grad_norm": 0.10558881610631943,
      "learning_rate": 0.0002988569310561264,
      "loss": 0.4176,
      "num_input_tokens_seen": 16686952,
      "step": 25515
    },
    {
      "epoch": 13.375262054507338,
      "grad_norm": 0.21533448994159698,
      "learning_rate": 0.0002986475871457566,
      "loss": 0.5282,
      "num_input_tokens_seen": 16689576,
      "step": 25520
    },
    {
      "epoch": 13.377882599580714,
      "grad_norm": 0.07977025210857391,
      "learning_rate": 0.000298438285356014,
      "loss": 0.4334,
      "num_input_tokens_seen": 16693320,
      "step": 25525
    },
    {
      "epoch": 13.380503144654089,
      "grad_norm": 0.12303576618432999,
      "learning_rate": 0.00029822902573068257,
      "loss": 0.4024,
      "num_input_tokens_seen": 16698344,
      "step": 25530
    },
    {
      "epoch": 13.383123689727464,
      "grad_norm": 0.1139405220746994,
      "learning_rate": 0.0002980198083135372,
      "loss": 0.415,
      "num_input_tokens_seen": 16701576,
      "step": 25535
    },
    {
      "epoch": 13.385744234800839,
      "grad_norm": 0.238622784614563,
      "learning_rate": 0.0002978106331483435,
      "loss": 0.4291,
      "num_input_tokens_seen": 16704904,
      "step": 25540
    },
    {
      "epoch": 13.388364779874214,
      "grad_norm": 0.11106658726930618,
      "learning_rate": 0.00029760150027885874,
      "loss": 0.467,
      "num_input_tokens_seen": 16707304,
      "step": 25545
    },
    {
      "epoch": 13.39098532494759,
      "grad_norm": 0.10193350166082382,
      "learning_rate": 0.0002973924097488311,
      "loss": 0.5085,
      "num_input_tokens_seen": 16710120,
      "step": 25550
    },
    {
      "epoch": 13.393605870020965,
      "grad_norm": 0.11407484114170074,
      "learning_rate": 0.00029718336160199977,
      "loss": 0.3697,
      "num_input_tokens_seen": 16713736,
      "step": 25555
    },
    {
      "epoch": 13.39622641509434,
      "grad_norm": 0.12410526722669601,
      "learning_rate": 0.00029697435588209537,
      "loss": 0.393,
      "num_input_tokens_seen": 16716616,
      "step": 25560
    },
    {
      "epoch": 13.398846960167715,
      "grad_norm": 0.16379815340042114,
      "learning_rate": 0.00029676539263283943,
      "loss": 0.6337,
      "num_input_tokens_seen": 16719432,
      "step": 25565
    },
    {
      "epoch": 13.40146750524109,
      "grad_norm": 0.10974182933568954,
      "learning_rate": 0.0002965564718979448,
      "loss": 0.448,
      "num_input_tokens_seen": 16723176,
      "step": 25570
    },
    {
      "epoch": 13.404088050314465,
      "grad_norm": 0.3007996082305908,
      "learning_rate": 0.0002963475937211151,
      "loss": 0.5037,
      "num_input_tokens_seen": 16725608,
      "step": 25575
    },
    {
      "epoch": 13.40670859538784,
      "grad_norm": 0.15875694155693054,
      "learning_rate": 0.0002961387581460456,
      "loss": 0.4251,
      "num_input_tokens_seen": 16729320,
      "step": 25580
    },
    {
      "epoch": 13.409329140461216,
      "grad_norm": 0.15000784397125244,
      "learning_rate": 0.0002959299652164221,
      "loss": 0.4981,
      "num_input_tokens_seen": 16731976,
      "step": 25585
    },
    {
      "epoch": 13.41194968553459,
      "grad_norm": 0.09388462454080582,
      "learning_rate": 0.00029572121497592154,
      "loss": 0.5266,
      "num_input_tokens_seen": 16734792,
      "step": 25590
    },
    {
      "epoch": 13.414570230607966,
      "grad_norm": 0.10005974769592285,
      "learning_rate": 0.00029551250746821236,
      "loss": 0.5736,
      "num_input_tokens_seen": 16737608,
      "step": 25595
    },
    {
      "epoch": 13.417190775681341,
      "grad_norm": 0.14816540479660034,
      "learning_rate": 0.0002953038427369537,
      "loss": 0.3684,
      "num_input_tokens_seen": 16741000,
      "step": 25600
    },
    {
      "epoch": 13.419811320754716,
      "grad_norm": 0.19368208944797516,
      "learning_rate": 0.000295095220825796,
      "loss": 0.4049,
      "num_input_tokens_seen": 16743944,
      "step": 25605
    },
    {
      "epoch": 13.422431865828091,
      "grad_norm": 0.11203459650278091,
      "learning_rate": 0.00029488664177838023,
      "loss": 0.4154,
      "num_input_tokens_seen": 16747176,
      "step": 25610
    },
    {
      "epoch": 13.425052410901468,
      "grad_norm": 0.1447603851556778,
      "learning_rate": 0.0002946781056383391,
      "loss": 0.4804,
      "num_input_tokens_seen": 16749928,
      "step": 25615
    },
    {
      "epoch": 13.427672955974844,
      "grad_norm": 0.11075357347726822,
      "learning_rate": 0.0002944696124492956,
      "loss": 0.3845,
      "num_input_tokens_seen": 16753128,
      "step": 25620
    },
    {
      "epoch": 13.430293501048219,
      "grad_norm": 0.09326858073472977,
      "learning_rate": 0.0002942611622548645,
      "loss": 0.2823,
      "num_input_tokens_seen": 16756104,
      "step": 25625
    },
    {
      "epoch": 13.432914046121594,
      "grad_norm": 0.15604418516159058,
      "learning_rate": 0.00029405275509865103,
      "loss": 0.4682,
      "num_input_tokens_seen": 16758824,
      "step": 25630
    },
    {
      "epoch": 13.435534591194969,
      "grad_norm": 0.1883341670036316,
      "learning_rate": 0.00029384439102425174,
      "loss": 0.4225,
      "num_input_tokens_seen": 16761224,
      "step": 25635
    },
    {
      "epoch": 13.438155136268344,
      "grad_norm": 0.12217783182859421,
      "learning_rate": 0.0002936360700752539,
      "loss": 0.455,
      "num_input_tokens_seen": 16764072,
      "step": 25640
    },
    {
      "epoch": 13.44077568134172,
      "grad_norm": 0.15386702120304108,
      "learning_rate": 0.00029342779229523573,
      "loss": 0.3484,
      "num_input_tokens_seen": 16767560,
      "step": 25645
    },
    {
      "epoch": 13.443396226415095,
      "grad_norm": 0.13538235425949097,
      "learning_rate": 0.00029321955772776675,
      "loss": 0.3409,
      "num_input_tokens_seen": 16770504,
      "step": 25650
    },
    {
      "epoch": 13.44601677148847,
      "grad_norm": 0.160312220454216,
      "learning_rate": 0.00029301136641640723,
      "loss": 0.4557,
      "num_input_tokens_seen": 16773224,
      "step": 25655
    },
    {
      "epoch": 13.448637316561845,
      "grad_norm": 0.1520628035068512,
      "learning_rate": 0.0002928032184047085,
      "loss": 0.425,
      "num_input_tokens_seen": 16775880,
      "step": 25660
    },
    {
      "epoch": 13.45125786163522,
      "grad_norm": 0.0713890939950943,
      "learning_rate": 0.0002925951137362126,
      "loss": 0.456,
      "num_input_tokens_seen": 16778920,
      "step": 25665
    },
    {
      "epoch": 13.453878406708595,
      "grad_norm": 0.13524991273880005,
      "learning_rate": 0.00029238705245445264,
      "loss": 0.3787,
      "num_input_tokens_seen": 16781544,
      "step": 25670
    },
    {
      "epoch": 13.45649895178197,
      "grad_norm": 0.26105478405952454,
      "learning_rate": 0.0002921790346029527,
      "loss": 0.4526,
      "num_input_tokens_seen": 16784264,
      "step": 25675
    },
    {
      "epoch": 13.459119496855346,
      "grad_norm": 0.09264497458934784,
      "learning_rate": 0.0002919710602252279,
      "loss": 0.4247,
      "num_input_tokens_seen": 16787176,
      "step": 25680
    },
    {
      "epoch": 13.46174004192872,
      "grad_norm": 0.1340656876564026,
      "learning_rate": 0.0002917631293647838,
      "loss": 0.4181,
      "num_input_tokens_seen": 16790376,
      "step": 25685
    },
    {
      "epoch": 13.464360587002096,
      "grad_norm": 0.15221716463565826,
      "learning_rate": 0.0002915552420651176,
      "loss": 0.3992,
      "num_input_tokens_seen": 16793608,
      "step": 25690
    },
    {
      "epoch": 13.466981132075471,
      "grad_norm": 0.18101799488067627,
      "learning_rate": 0.00029134739836971657,
      "loss": 0.5999,
      "num_input_tokens_seen": 16796552,
      "step": 25695
    },
    {
      "epoch": 13.469601677148846,
      "grad_norm": 0.14058591425418854,
      "learning_rate": 0.0002911395983220595,
      "loss": 0.4821,
      "num_input_tokens_seen": 16799432,
      "step": 25700
    },
    {
      "epoch": 13.472222222222221,
      "grad_norm": 0.24979405105113983,
      "learning_rate": 0.0002909318419656154,
      "loss": 0.4592,
      "num_input_tokens_seen": 16802184,
      "step": 25705
    },
    {
      "epoch": 13.474842767295598,
      "grad_norm": 0.2701696753501892,
      "learning_rate": 0.00029072412934384484,
      "loss": 0.2819,
      "num_input_tokens_seen": 16807208,
      "step": 25710
    },
    {
      "epoch": 13.477463312368974,
      "grad_norm": 0.15969617664813995,
      "learning_rate": 0.00029051646050019884,
      "loss": 0.4436,
      "num_input_tokens_seen": 16810856,
      "step": 25715
    },
    {
      "epoch": 13.480083857442349,
      "grad_norm": 0.13694792985916138,
      "learning_rate": 0.00029030883547811966,
      "loss": 0.4036,
      "num_input_tokens_seen": 16813736,
      "step": 25720
    },
    {
      "epoch": 13.482704402515724,
      "grad_norm": 0.14782539010047913,
      "learning_rate": 0.0002901012543210397,
      "loss": 0.3882,
      "num_input_tokens_seen": 16817928,
      "step": 25725
    },
    {
      "epoch": 13.485324947589099,
      "grad_norm": 0.13798974454402924,
      "learning_rate": 0.00028989371707238264,
      "loss": 0.35,
      "num_input_tokens_seen": 16820872,
      "step": 25730
    },
    {
      "epoch": 13.487945492662474,
      "grad_norm": 0.17576944828033447,
      "learning_rate": 0.00028968622377556285,
      "loss": 0.4648,
      "num_input_tokens_seen": 16823464,
      "step": 25735
    },
    {
      "epoch": 13.49056603773585,
      "grad_norm": 0.10893731564283371,
      "learning_rate": 0.00028947877447398567,
      "loss": 0.4217,
      "num_input_tokens_seen": 16826632,
      "step": 25740
    },
    {
      "epoch": 13.493186582809225,
      "grad_norm": 0.16144341230392456,
      "learning_rate": 0.00028927136921104733,
      "loss": 0.4337,
      "num_input_tokens_seen": 16829640,
      "step": 25745
    },
    {
      "epoch": 13.4958071278826,
      "grad_norm": 0.1325090080499649,
      "learning_rate": 0.00028906400803013446,
      "loss": 0.4137,
      "num_input_tokens_seen": 16832456,
      "step": 25750
    },
    {
      "epoch": 13.498427672955975,
      "grad_norm": 0.14369334280490875,
      "learning_rate": 0.00028885669097462435,
      "loss": 0.451,
      "num_input_tokens_seen": 16835208,
      "step": 25755
    },
    {
      "epoch": 13.50104821802935,
      "grad_norm": 0.11439663916826248,
      "learning_rate": 0.0002886494180878857,
      "loss": 0.437,
      "num_input_tokens_seen": 16838632,
      "step": 25760
    },
    {
      "epoch": 13.503668763102725,
      "grad_norm": 0.14452411234378815,
      "learning_rate": 0.00028844218941327757,
      "loss": 0.481,
      "num_input_tokens_seen": 16842088,
      "step": 25765
    },
    {
      "epoch": 13.5062893081761,
      "grad_norm": 0.23002789914608002,
      "learning_rate": 0.0002882350049941498,
      "loss": 0.3704,
      "num_input_tokens_seen": 16844488,
      "step": 25770
    },
    {
      "epoch": 13.508909853249476,
      "grad_norm": 0.2987518608570099,
      "learning_rate": 0.0002880278648738432,
      "loss": 0.5326,
      "num_input_tokens_seen": 16848712,
      "step": 25775
    },
    {
      "epoch": 13.51153039832285,
      "grad_norm": 0.1444922387599945,
      "learning_rate": 0.0002878207690956891,
      "loss": 0.3804,
      "num_input_tokens_seen": 16852232,
      "step": 25780
    },
    {
      "epoch": 13.514150943396226,
      "grad_norm": 0.09462761133909225,
      "learning_rate": 0.00028761371770300915,
      "loss": 0.4357,
      "num_input_tokens_seen": 16855368,
      "step": 25785
    },
    {
      "epoch": 13.516771488469601,
      "grad_norm": 0.21650995314121246,
      "learning_rate": 0.0002874067107391164,
      "loss": 0.447,
      "num_input_tokens_seen": 16858536,
      "step": 25790
    },
    {
      "epoch": 13.519392033542976,
      "grad_norm": 0.13482901453971863,
      "learning_rate": 0.00028719974824731445,
      "loss": 0.3961,
      "num_input_tokens_seen": 16862152,
      "step": 25795
    },
    {
      "epoch": 13.522012578616351,
      "grad_norm": 0.19126193225383759,
      "learning_rate": 0.0002869928302708975,
      "loss": 0.4274,
      "num_input_tokens_seen": 16864904,
      "step": 25800
    },
    {
      "epoch": 13.524633123689728,
      "grad_norm": 0.16179931163787842,
      "learning_rate": 0.00028678595685315044,
      "loss": 0.5108,
      "num_input_tokens_seen": 16868136,
      "step": 25805
    },
    {
      "epoch": 13.527253668763104,
      "grad_norm": 0.10623165220022202,
      "learning_rate": 0.00028657912803734854,
      "loss": 0.4518,
      "num_input_tokens_seen": 16871432,
      "step": 25810
    },
    {
      "epoch": 13.529874213836479,
      "grad_norm": 0.12207372486591339,
      "learning_rate": 0.00028637234386675816,
      "loss": 0.4421,
      "num_input_tokens_seen": 16874120,
      "step": 25815
    },
    {
      "epoch": 13.532494758909854,
      "grad_norm": 0.07632239162921906,
      "learning_rate": 0.00028616560438463626,
      "loss": 0.464,
      "num_input_tokens_seen": 16878088,
      "step": 25820
    },
    {
      "epoch": 13.535115303983229,
      "grad_norm": 0.11786960065364838,
      "learning_rate": 0.00028595890963423057,
      "loss": 0.4241,
      "num_input_tokens_seen": 16880776,
      "step": 25825
    },
    {
      "epoch": 13.537735849056604,
      "grad_norm": 0.0965094268321991,
      "learning_rate": 0.0002857522596587789,
      "loss": 0.3842,
      "num_input_tokens_seen": 16884360,
      "step": 25830
    },
    {
      "epoch": 13.54035639412998,
      "grad_norm": 0.10176748037338257,
      "learning_rate": 0.00028554565450151045,
      "loss": 0.6945,
      "num_input_tokens_seen": 16887080,
      "step": 25835
    },
    {
      "epoch": 13.542976939203355,
      "grad_norm": 0.13400773704051971,
      "learning_rate": 0.00028533909420564417,
      "loss": 0.4056,
      "num_input_tokens_seen": 16890536,
      "step": 25840
    },
    {
      "epoch": 13.54559748427673,
      "grad_norm": 0.07759060710668564,
      "learning_rate": 0.00028513257881439047,
      "loss": 0.3571,
      "num_input_tokens_seen": 16893992,
      "step": 25845
    },
    {
      "epoch": 13.548218029350105,
      "grad_norm": 0.1195516586303711,
      "learning_rate": 0.00028492610837095003,
      "loss": 0.4438,
      "num_input_tokens_seen": 16896904,
      "step": 25850
    },
    {
      "epoch": 13.55083857442348,
      "grad_norm": 0.14294810593128204,
      "learning_rate": 0.00028471968291851407,
      "loss": 0.3898,
      "num_input_tokens_seen": 16899880,
      "step": 25855
    },
    {
      "epoch": 13.553459119496855,
      "grad_norm": 0.14629702270030975,
      "learning_rate": 0.0002845133025002645,
      "loss": 0.3367,
      "num_input_tokens_seen": 16903528,
      "step": 25860
    },
    {
      "epoch": 13.55607966457023,
      "grad_norm": 0.21475397050380707,
      "learning_rate": 0.0002843069671593734,
      "loss": 0.3882,
      "num_input_tokens_seen": 16905736,
      "step": 25865
    },
    {
      "epoch": 13.558700209643606,
      "grad_norm": 0.11423411220312119,
      "learning_rate": 0.000284100676939004,
      "loss": 0.3744,
      "num_input_tokens_seen": 16909256,
      "step": 25870
    },
    {
      "epoch": 13.56132075471698,
      "grad_norm": 0.1079162210226059,
      "learning_rate": 0.0002838944318823099,
      "loss": 0.3881,
      "num_input_tokens_seen": 16911976,
      "step": 25875
    },
    {
      "epoch": 13.563941299790356,
      "grad_norm": 0.11284861713647842,
      "learning_rate": 0.0002836882320324354,
      "loss": 0.3177,
      "num_input_tokens_seen": 16915592,
      "step": 25880
    },
    {
      "epoch": 13.566561844863731,
      "grad_norm": 0.08309268206357956,
      "learning_rate": 0.00028348207743251477,
      "loss": 0.4575,
      "num_input_tokens_seen": 16919080,
      "step": 25885
    },
    {
      "epoch": 13.569182389937106,
      "grad_norm": 0.134335458278656,
      "learning_rate": 0.0002832759681256735,
      "loss": 0.5448,
      "num_input_tokens_seen": 16922632,
      "step": 25890
    },
    {
      "epoch": 13.571802935010481,
      "grad_norm": 0.2512226104736328,
      "learning_rate": 0.000283069904155027,
      "loss": 0.4852,
      "num_input_tokens_seen": 16925736,
      "step": 25895
    },
    {
      "epoch": 13.574423480083858,
      "grad_norm": 0.15679754316806793,
      "learning_rate": 0.0002828638855636817,
      "loss": 0.3522,
      "num_input_tokens_seen": 16929448,
      "step": 25900
    },
    {
      "epoch": 13.577044025157234,
      "grad_norm": 0.1464151293039322,
      "learning_rate": 0.0002826579123947345,
      "loss": 0.52,
      "num_input_tokens_seen": 16932584,
      "step": 25905
    },
    {
      "epoch": 13.579664570230609,
      "grad_norm": 0.15472659468650818,
      "learning_rate": 0.0002824519846912723,
      "loss": 0.6875,
      "num_input_tokens_seen": 16936072,
      "step": 25910
    },
    {
      "epoch": 13.582285115303984,
      "grad_norm": 0.15111123025417328,
      "learning_rate": 0.00028224610249637293,
      "loss": 0.3277,
      "num_input_tokens_seen": 16939464,
      "step": 25915
    },
    {
      "epoch": 13.584905660377359,
      "grad_norm": 0.11254766583442688,
      "learning_rate": 0.00028204026585310483,
      "loss": 0.4314,
      "num_input_tokens_seen": 16943912,
      "step": 25920
    },
    {
      "epoch": 13.587526205450734,
      "grad_norm": 0.09295778721570969,
      "learning_rate": 0.0002818344748045264,
      "loss": 0.5186,
      "num_input_tokens_seen": 16947464,
      "step": 25925
    },
    {
      "epoch": 13.59014675052411,
      "grad_norm": 0.13652516901493073,
      "learning_rate": 0.0002816287293936868,
      "loss": 0.3891,
      "num_input_tokens_seen": 16950504,
      "step": 25930
    },
    {
      "epoch": 13.592767295597485,
      "grad_norm": 0.08293139189481735,
      "learning_rate": 0.0002814230296636259,
      "loss": 0.4608,
      "num_input_tokens_seen": 16953672,
      "step": 25935
    },
    {
      "epoch": 13.59538784067086,
      "grad_norm": 0.12328986823558807,
      "learning_rate": 0.0002812173756573734,
      "loss": 0.3986,
      "num_input_tokens_seen": 16956520,
      "step": 25940
    },
    {
      "epoch": 13.598008385744235,
      "grad_norm": 0.1596067249774933,
      "learning_rate": 0.00028101176741794984,
      "loss": 0.4217,
      "num_input_tokens_seen": 16958888,
      "step": 25945
    },
    {
      "epoch": 13.60062893081761,
      "grad_norm": 0.21109521389007568,
      "learning_rate": 0.0002808062049883664,
      "loss": 0.4273,
      "num_input_tokens_seen": 16962216,
      "step": 25950
    },
    {
      "epoch": 13.603249475890985,
      "grad_norm": 0.09838833659887314,
      "learning_rate": 0.00028060068841162403,
      "loss": 0.5544,
      "num_input_tokens_seen": 16966152,
      "step": 25955
    },
    {
      "epoch": 13.60587002096436,
      "grad_norm": 0.14780700206756592,
      "learning_rate": 0.00028039521773071477,
      "loss": 0.4383,
      "num_input_tokens_seen": 16969096,
      "step": 25960
    },
    {
      "epoch": 13.608490566037736,
      "grad_norm": 0.09157636761665344,
      "learning_rate": 0.0002801897929886204,
      "loss": 0.3315,
      "num_input_tokens_seen": 16971592,
      "step": 25965
    },
    {
      "epoch": 13.61111111111111,
      "grad_norm": 0.1796695441007614,
      "learning_rate": 0.0002799844142283135,
      "loss": 0.3966,
      "num_input_tokens_seen": 16974056,
      "step": 25970
    },
    {
      "epoch": 13.613731656184486,
      "grad_norm": 0.17430946230888367,
      "learning_rate": 0.00027977908149275733,
      "loss": 0.3773,
      "num_input_tokens_seen": 16976008,
      "step": 25975
    },
    {
      "epoch": 13.616352201257861,
      "grad_norm": 0.10589853674173355,
      "learning_rate": 0.00027957379482490476,
      "loss": 0.4591,
      "num_input_tokens_seen": 16979080,
      "step": 25980
    },
    {
      "epoch": 13.618972746331236,
      "grad_norm": 0.09926614165306091,
      "learning_rate": 0.0002793685542676997,
      "loss": 0.5576,
      "num_input_tokens_seen": 16982216,
      "step": 25985
    },
    {
      "epoch": 13.621593291404611,
      "grad_norm": 0.2854280471801758,
      "learning_rate": 0.0002791633598640758,
      "loss": 0.5063,
      "num_input_tokens_seen": 16985288,
      "step": 25990
    },
    {
      "epoch": 13.624213836477988,
      "grad_norm": 0.1254844218492508,
      "learning_rate": 0.0002789582116569576,
      "loss": 0.3796,
      "num_input_tokens_seen": 16988264,
      "step": 25995
    },
    {
      "epoch": 13.626834381551364,
      "grad_norm": 0.20455631613731384,
      "learning_rate": 0.0002787531096892597,
      "loss": 0.4022,
      "num_input_tokens_seen": 16990920,
      "step": 26000
    },
    {
      "epoch": 13.629454926624739,
      "grad_norm": 0.10142666101455688,
      "learning_rate": 0.0002785480540038874,
      "loss": 0.4309,
      "num_input_tokens_seen": 16993768,
      "step": 26005
    },
    {
      "epoch": 13.632075471698114,
      "grad_norm": 0.13700911402702332,
      "learning_rate": 0.0002783430446437355,
      "loss": 0.4281,
      "num_input_tokens_seen": 16996584,
      "step": 26010
    },
    {
      "epoch": 13.634696016771489,
      "grad_norm": 0.12009987980127335,
      "learning_rate": 0.00027813808165169006,
      "loss": 0.4693,
      "num_input_tokens_seen": 17000040,
      "step": 26015
    },
    {
      "epoch": 13.637316561844864,
      "grad_norm": 0.14381766319274902,
      "learning_rate": 0.00027793316507062667,
      "loss": 0.358,
      "num_input_tokens_seen": 17002696,
      "step": 26020
    },
    {
      "epoch": 13.63993710691824,
      "grad_norm": 0.07400830835103989,
      "learning_rate": 0.00027772829494341163,
      "loss": 0.4679,
      "num_input_tokens_seen": 17005992,
      "step": 26025
    },
    {
      "epoch": 13.642557651991615,
      "grad_norm": 0.12477900087833405,
      "learning_rate": 0.00027752347131290147,
      "loss": 0.3559,
      "num_input_tokens_seen": 17008904,
      "step": 26030
    },
    {
      "epoch": 13.64517819706499,
      "grad_norm": 0.250904381275177,
      "learning_rate": 0.0002773186942219431,
      "loss": 0.3437,
      "num_input_tokens_seen": 17011880,
      "step": 26035
    },
    {
      "epoch": 13.647798742138365,
      "grad_norm": 0.09064862877130508,
      "learning_rate": 0.0002771139637133735,
      "loss": 0.4155,
      "num_input_tokens_seen": 17015208,
      "step": 26040
    },
    {
      "epoch": 13.65041928721174,
      "grad_norm": 0.09193027019500732,
      "learning_rate": 0.00027690927983001966,
      "loss": 0.5197,
      "num_input_tokens_seen": 17018664,
      "step": 26045
    },
    {
      "epoch": 13.653039832285115,
      "grad_norm": 0.10541850328445435,
      "learning_rate": 0.00027670464261469937,
      "loss": 0.5121,
      "num_input_tokens_seen": 17022280,
      "step": 26050
    },
    {
      "epoch": 13.65566037735849,
      "grad_norm": 0.23220042884349823,
      "learning_rate": 0.0002765000521102203,
      "loss": 0.4997,
      "num_input_tokens_seen": 17026344,
      "step": 26055
    },
    {
      "epoch": 13.658280922431866,
      "grad_norm": 0.08857102692127228,
      "learning_rate": 0.0002762955083593807,
      "loss": 0.3721,
      "num_input_tokens_seen": 17030024,
      "step": 26060
    },
    {
      "epoch": 13.66090146750524,
      "grad_norm": 0.13216055929660797,
      "learning_rate": 0.0002760910114049686,
      "loss": 0.5415,
      "num_input_tokens_seen": 17033992,
      "step": 26065
    },
    {
      "epoch": 13.663522012578616,
      "grad_norm": 0.08790231496095657,
      "learning_rate": 0.0002758865612897623,
      "loss": 0.3736,
      "num_input_tokens_seen": 17040936,
      "step": 26070
    },
    {
      "epoch": 13.666142557651991,
      "grad_norm": 0.09407943487167358,
      "learning_rate": 0.00027568215805653045,
      "loss": 0.3533,
      "num_input_tokens_seen": 17043432,
      "step": 26075
    },
    {
      "epoch": 13.668763102725366,
      "grad_norm": 0.24039220809936523,
      "learning_rate": 0.00027547780174803205,
      "loss": 0.3455,
      "num_input_tokens_seen": 17046184,
      "step": 26080
    },
    {
      "epoch": 13.671383647798741,
      "grad_norm": 0.11721596121788025,
      "learning_rate": 0.0002752734924070161,
      "loss": 0.3695,
      "num_input_tokens_seen": 17049160,
      "step": 26085
    },
    {
      "epoch": 13.674004192872118,
      "grad_norm": 0.18534982204437256,
      "learning_rate": 0.00027506923007622177,
      "loss": 0.3978,
      "num_input_tokens_seen": 17052584,
      "step": 26090
    },
    {
      "epoch": 13.676624737945493,
      "grad_norm": 0.09234385192394257,
      "learning_rate": 0.00027486501479837846,
      "loss": 0.4669,
      "num_input_tokens_seen": 17055624,
      "step": 26095
    },
    {
      "epoch": 13.679245283018869,
      "grad_norm": 0.11845716834068298,
      "learning_rate": 0.0002746608466162053,
      "loss": 0.5112,
      "num_input_tokens_seen": 17058280,
      "step": 26100
    },
    {
      "epoch": 13.681865828092244,
      "grad_norm": 0.09620542824268341,
      "learning_rate": 0.0002744567255724123,
      "loss": 0.3263,
      "num_input_tokens_seen": 17061256,
      "step": 26105
    },
    {
      "epoch": 13.684486373165619,
      "grad_norm": 0.20347686111927032,
      "learning_rate": 0.0002742526517096992,
      "loss": 0.3758,
      "num_input_tokens_seen": 17065160,
      "step": 26110
    },
    {
      "epoch": 13.687106918238994,
      "grad_norm": 0.20021548867225647,
      "learning_rate": 0.000274048625070756,
      "loss": 0.5047,
      "num_input_tokens_seen": 17067816,
      "step": 26115
    },
    {
      "epoch": 13.68972746331237,
      "grad_norm": 0.08072242140769958,
      "learning_rate": 0.0002738446456982627,
      "loss": 0.3797,
      "num_input_tokens_seen": 17070952,
      "step": 26120
    },
    {
      "epoch": 13.692348008385745,
      "grad_norm": 0.1667119413614273,
      "learning_rate": 0.0002736407136348892,
      "loss": 0.4105,
      "num_input_tokens_seen": 17073928,
      "step": 26125
    },
    {
      "epoch": 13.69496855345912,
      "grad_norm": 0.07969702780246735,
      "learning_rate": 0.0002734368289232959,
      "loss": 0.4253,
      "num_input_tokens_seen": 17077192,
      "step": 26130
    },
    {
      "epoch": 13.697589098532495,
      "grad_norm": 0.1470375806093216,
      "learning_rate": 0.00027323299160613335,
      "loss": 0.4514,
      "num_input_tokens_seen": 17080360,
      "step": 26135
    },
    {
      "epoch": 13.70020964360587,
      "grad_norm": 0.11926347017288208,
      "learning_rate": 0.00027302920172604173,
      "loss": 0.4513,
      "num_input_tokens_seen": 17083304,
      "step": 26140
    },
    {
      "epoch": 13.702830188679245,
      "grad_norm": 0.133085235953331,
      "learning_rate": 0.00027282545932565214,
      "loss": 0.4656,
      "num_input_tokens_seen": 17086952,
      "step": 26145
    },
    {
      "epoch": 13.70545073375262,
      "grad_norm": 0.09034755825996399,
      "learning_rate": 0.00027262176444758435,
      "loss": 0.4184,
      "num_input_tokens_seen": 17091656,
      "step": 26150
    },
    {
      "epoch": 13.708071278825996,
      "grad_norm": 0.10544927418231964,
      "learning_rate": 0.00027241811713444935,
      "loss": 0.5021,
      "num_input_tokens_seen": 17094888,
      "step": 26155
    },
    {
      "epoch": 13.71069182389937,
      "grad_norm": 0.15438316762447357,
      "learning_rate": 0.0002722145174288478,
      "loss": 0.4606,
      "num_input_tokens_seen": 17098856,
      "step": 26160
    },
    {
      "epoch": 13.713312368972746,
      "grad_norm": 0.10753923654556274,
      "learning_rate": 0.0002720109653733706,
      "loss": 0.3394,
      "num_input_tokens_seen": 17101992,
      "step": 26165
    },
    {
      "epoch": 13.715932914046121,
      "grad_norm": 0.16324563324451447,
      "learning_rate": 0.00027180746101059856,
      "loss": 0.5714,
      "num_input_tokens_seen": 17104520,
      "step": 26170
    },
    {
      "epoch": 13.718553459119496,
      "grad_norm": 0.17637920379638672,
      "learning_rate": 0.0002716040043831023,
      "loss": 0.416,
      "num_input_tokens_seen": 17107944,
      "step": 26175
    },
    {
      "epoch": 13.721174004192871,
      "grad_norm": 0.16131968796253204,
      "learning_rate": 0.0002714005955334424,
      "loss": 0.4696,
      "num_input_tokens_seen": 17111016,
      "step": 26180
    },
    {
      "epoch": 13.723794549266248,
      "grad_norm": 0.1282753348350525,
      "learning_rate": 0.00027119723450417,
      "loss": 0.4748,
      "num_input_tokens_seen": 17113544,
      "step": 26185
    },
    {
      "epoch": 13.726415094339622,
      "grad_norm": 0.1614886373281479,
      "learning_rate": 0.0002709939213378258,
      "loss": 0.3435,
      "num_input_tokens_seen": 17116168,
      "step": 26190
    },
    {
      "epoch": 13.729035639412999,
      "grad_norm": 0.12952820956707,
      "learning_rate": 0.0002707906560769408,
      "loss": 0.3958,
      "num_input_tokens_seen": 17120264,
      "step": 26195
    },
    {
      "epoch": 13.731656184486374,
      "grad_norm": 0.23753394186496735,
      "learning_rate": 0.0002705874387640354,
      "loss": 0.4717,
      "num_input_tokens_seen": 17123080,
      "step": 26200
    },
    {
      "epoch": 13.734276729559749,
      "grad_norm": 0.1621050238609314,
      "learning_rate": 0.00027038426944162074,
      "loss": 0.4333,
      "num_input_tokens_seen": 17125960,
      "step": 26205
    },
    {
      "epoch": 13.736897274633124,
      "grad_norm": 0.17883102595806122,
      "learning_rate": 0.0002701811481521971,
      "loss": 0.4977,
      "num_input_tokens_seen": 17129544,
      "step": 26210
    },
    {
      "epoch": 13.7395178197065,
      "grad_norm": 0.16653431951999664,
      "learning_rate": 0.0002699780749382554,
      "loss": 0.4908,
      "num_input_tokens_seen": 17133384,
      "step": 26215
    },
    {
      "epoch": 13.742138364779874,
      "grad_norm": 0.14725813269615173,
      "learning_rate": 0.0002697750498422761,
      "loss": 0.5428,
      "num_input_tokens_seen": 17136008,
      "step": 26220
    },
    {
      "epoch": 13.74475890985325,
      "grad_norm": 0.16226384043693542,
      "learning_rate": 0.0002695720729067301,
      "loss": 0.5209,
      "num_input_tokens_seen": 17139144,
      "step": 26225
    },
    {
      "epoch": 13.747379454926625,
      "grad_norm": 0.11966497451066971,
      "learning_rate": 0.00026936914417407756,
      "loss": 0.2993,
      "num_input_tokens_seen": 17142280,
      "step": 26230
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.07496818155050278,
      "learning_rate": 0.0002691662636867687,
      "loss": 0.4309,
      "num_input_tokens_seen": 17146664,
      "step": 26235
    },
    {
      "epoch": 13.752620545073375,
      "grad_norm": 0.09460548311471939,
      "learning_rate": 0.000268963431487244,
      "loss": 0.5042,
      "num_input_tokens_seen": 17149384,
      "step": 26240
    },
    {
      "epoch": 13.75524109014675,
      "grad_norm": 0.153224915266037,
      "learning_rate": 0.0002687606476179336,
      "loss": 0.5254,
      "num_input_tokens_seen": 17152328,
      "step": 26245
    },
    {
      "epoch": 13.757861635220126,
      "grad_norm": 0.10247504711151123,
      "learning_rate": 0.0002685579121212578,
      "loss": 0.4339,
      "num_input_tokens_seen": 17155624,
      "step": 26250
    },
    {
      "epoch": 13.7604821802935,
      "grad_norm": 0.15076126158237457,
      "learning_rate": 0.00026835522503962616,
      "loss": 0.3973,
      "num_input_tokens_seen": 17158376,
      "step": 26255
    },
    {
      "epoch": 13.763102725366876,
      "grad_norm": 0.11057716608047485,
      "learning_rate": 0.00026815258641543896,
      "loss": 0.3891,
      "num_input_tokens_seen": 17161320,
      "step": 26260
    },
    {
      "epoch": 13.765723270440251,
      "grad_norm": 0.10675033926963806,
      "learning_rate": 0.0002679499962910853,
      "loss": 0.5102,
      "num_input_tokens_seen": 17165288,
      "step": 26265
    },
    {
      "epoch": 13.768343815513626,
      "grad_norm": 0.07991653680801392,
      "learning_rate": 0.0002677474547089451,
      "loss": 0.3915,
      "num_input_tokens_seen": 17168456,
      "step": 26270
    },
    {
      "epoch": 13.770964360587001,
      "grad_norm": 0.14071087539196014,
      "learning_rate": 0.000267544961711388,
      "loss": 0.4278,
      "num_input_tokens_seen": 17171496,
      "step": 26275
    },
    {
      "epoch": 13.773584905660378,
      "grad_norm": 0.11367051303386688,
      "learning_rate": 0.0002673425173407726,
      "loss": 0.3883,
      "num_input_tokens_seen": 17174824,
      "step": 26280
    },
    {
      "epoch": 13.776205450733752,
      "grad_norm": 0.1652383804321289,
      "learning_rate": 0.00026714012163944826,
      "loss": 0.55,
      "num_input_tokens_seen": 17177064,
      "step": 26285
    },
    {
      "epoch": 13.778825995807129,
      "grad_norm": 0.1899329423904419,
      "learning_rate": 0.0002669377746497541,
      "loss": 0.384,
      "num_input_tokens_seen": 17179752,
      "step": 26290
    },
    {
      "epoch": 13.781446540880504,
      "grad_norm": 0.07326476275920868,
      "learning_rate": 0.0002667354764140184,
      "loss": 0.527,
      "num_input_tokens_seen": 17184232,
      "step": 26295
    },
    {
      "epoch": 13.784067085953879,
      "grad_norm": 0.11027980595827103,
      "learning_rate": 0.00026653322697455987,
      "loss": 0.3694,
      "num_input_tokens_seen": 17187624,
      "step": 26300
    },
    {
      "epoch": 13.786687631027254,
      "grad_norm": 0.1972055435180664,
      "learning_rate": 0.00026633102637368684,
      "loss": 0.3796,
      "num_input_tokens_seen": 17190088,
      "step": 26305
    },
    {
      "epoch": 13.78930817610063,
      "grad_norm": 0.0669156163930893,
      "learning_rate": 0.00026612887465369704,
      "loss": 0.456,
      "num_input_tokens_seen": 17194216,
      "step": 26310
    },
    {
      "epoch": 13.791928721174004,
      "grad_norm": 0.112747423350811,
      "learning_rate": 0.0002659267718568786,
      "loss": 0.4607,
      "num_input_tokens_seen": 17197544,
      "step": 26315
    },
    {
      "epoch": 13.79454926624738,
      "grad_norm": 0.21769903600215912,
      "learning_rate": 0.0002657247180255091,
      "loss": 0.5154,
      "num_input_tokens_seen": 17200488,
      "step": 26320
    },
    {
      "epoch": 13.797169811320755,
      "grad_norm": 0.22065262496471405,
      "learning_rate": 0.0002655227132018558,
      "loss": 0.4518,
      "num_input_tokens_seen": 17202824,
      "step": 26325
    },
    {
      "epoch": 13.79979035639413,
      "grad_norm": 0.25266483426094055,
      "learning_rate": 0.00026532075742817594,
      "loss": 0.3362,
      "num_input_tokens_seen": 17206632,
      "step": 26330
    },
    {
      "epoch": 13.802410901467505,
      "grad_norm": 0.032902274280786514,
      "learning_rate": 0.0002651188507467161,
      "loss": 0.3043,
      "num_input_tokens_seen": 17212648,
      "step": 26335
    },
    {
      "epoch": 13.80503144654088,
      "grad_norm": 0.10116544365882874,
      "learning_rate": 0.00026491699319971303,
      "loss": 0.435,
      "num_input_tokens_seen": 17215176,
      "step": 26340
    },
    {
      "epoch": 13.807651991614255,
      "grad_norm": 0.19915853440761566,
      "learning_rate": 0.00026471518482939317,
      "loss": 0.4395,
      "num_input_tokens_seen": 17217672,
      "step": 26345
    },
    {
      "epoch": 13.81027253668763,
      "grad_norm": 0.0830618366599083,
      "learning_rate": 0.0002645134256779722,
      "loss": 0.3554,
      "num_input_tokens_seen": 17221096,
      "step": 26350
    },
    {
      "epoch": 13.812893081761006,
      "grad_norm": 0.15476016700267792,
      "learning_rate": 0.00026431171578765624,
      "loss": 0.3886,
      "num_input_tokens_seen": 17223784,
      "step": 26355
    },
    {
      "epoch": 13.815513626834381,
      "grad_norm": 0.1330273598432541,
      "learning_rate": 0.0002641100552006402,
      "loss": 0.5003,
      "num_input_tokens_seen": 17227496,
      "step": 26360
    },
    {
      "epoch": 13.818134171907756,
      "grad_norm": 0.14475353062152863,
      "learning_rate": 0.0002639084439591095,
      "loss": 0.4133,
      "num_input_tokens_seen": 17230728,
      "step": 26365
    },
    {
      "epoch": 13.820754716981131,
      "grad_norm": 0.15363498032093048,
      "learning_rate": 0.00026370688210523873,
      "loss": 0.4525,
      "num_input_tokens_seen": 17233800,
      "step": 26370
    },
    {
      "epoch": 13.823375262054507,
      "grad_norm": 0.146806538105011,
      "learning_rate": 0.00026350536968119275,
      "loss": 0.4067,
      "num_input_tokens_seen": 17236744,
      "step": 26375
    },
    {
      "epoch": 13.825995807127882,
      "grad_norm": 0.08404456079006195,
      "learning_rate": 0.0002633039067291252,
      "loss": 0.4026,
      "num_input_tokens_seen": 17241224,
      "step": 26380
    },
    {
      "epoch": 13.828616352201259,
      "grad_norm": 0.16732549667358398,
      "learning_rate": 0.00026310249329118007,
      "loss": 0.4783,
      "num_input_tokens_seen": 17244808,
      "step": 26385
    },
    {
      "epoch": 13.831236897274634,
      "grad_norm": 0.2307179719209671,
      "learning_rate": 0.0002629011294094905,
      "loss": 0.3804,
      "num_input_tokens_seen": 17248168,
      "step": 26390
    },
    {
      "epoch": 13.833857442348009,
      "grad_norm": 0.07910644263029099,
      "learning_rate": 0.0002626998151261798,
      "loss": 0.4743,
      "num_input_tokens_seen": 17252136,
      "step": 26395
    },
    {
      "epoch": 13.836477987421384,
      "grad_norm": 0.10376455634832382,
      "learning_rate": 0.0002624985504833604,
      "loss": 0.4855,
      "num_input_tokens_seen": 17255880,
      "step": 26400
    },
    {
      "epoch": 13.83909853249476,
      "grad_norm": 0.31328141689300537,
      "learning_rate": 0.0002622973355231349,
      "loss": 0.6351,
      "num_input_tokens_seen": 17258728,
      "step": 26405
    },
    {
      "epoch": 13.841719077568134,
      "grad_norm": 0.09517501294612885,
      "learning_rate": 0.00026209617028759497,
      "loss": 0.4489,
      "num_input_tokens_seen": 17261992,
      "step": 26410
    },
    {
      "epoch": 13.84433962264151,
      "grad_norm": 0.14646120369434357,
      "learning_rate": 0.00026189505481882184,
      "loss": 0.3688,
      "num_input_tokens_seen": 17265896,
      "step": 26415
    },
    {
      "epoch": 13.846960167714885,
      "grad_norm": 0.1161050945520401,
      "learning_rate": 0.00026169398915888687,
      "loss": 0.4628,
      "num_input_tokens_seen": 17269032,
      "step": 26420
    },
    {
      "epoch": 13.84958071278826,
      "grad_norm": 0.12302573025226593,
      "learning_rate": 0.0002614929733498506,
      "loss": 0.4637,
      "num_input_tokens_seen": 17272456,
      "step": 26425
    },
    {
      "epoch": 13.852201257861635,
      "grad_norm": 0.13614018261432648,
      "learning_rate": 0.0002612920074337634,
      "loss": 0.4719,
      "num_input_tokens_seen": 17275496,
      "step": 26430
    },
    {
      "epoch": 13.85482180293501,
      "grad_norm": 0.1790839284658432,
      "learning_rate": 0.00026109109145266496,
      "loss": 0.3418,
      "num_input_tokens_seen": 17277672,
      "step": 26435
    },
    {
      "epoch": 13.857442348008385,
      "grad_norm": 0.08842216432094574,
      "learning_rate": 0.00026089022544858445,
      "loss": 0.4736,
      "num_input_tokens_seen": 17281768,
      "step": 26440
    },
    {
      "epoch": 13.86006289308176,
      "grad_norm": 0.12463341653347015,
      "learning_rate": 0.00026068940946354075,
      "loss": 0.4455,
      "num_input_tokens_seen": 17284616,
      "step": 26445
    },
    {
      "epoch": 13.862683438155136,
      "grad_norm": 0.13205929100513458,
      "learning_rate": 0.0002604886435395425,
      "loss": 0.5351,
      "num_input_tokens_seen": 17287848,
      "step": 26450
    },
    {
      "epoch": 13.865303983228511,
      "grad_norm": 0.09945791214704514,
      "learning_rate": 0.00026028792771858744,
      "loss": 0.3736,
      "num_input_tokens_seen": 17294312,
      "step": 26455
    },
    {
      "epoch": 13.867924528301886,
      "grad_norm": 0.1899750977754593,
      "learning_rate": 0.00026008726204266333,
      "loss": 0.5681,
      "num_input_tokens_seen": 17297672,
      "step": 26460
    },
    {
      "epoch": 13.870545073375261,
      "grad_norm": 0.1372029334306717,
      "learning_rate": 0.00025988664655374693,
      "loss": 0.4544,
      "num_input_tokens_seen": 17301032,
      "step": 26465
    },
    {
      "epoch": 13.873165618448636,
      "grad_norm": 0.09880053251981735,
      "learning_rate": 0.00025968608129380455,
      "loss": 0.395,
      "num_input_tokens_seen": 17304200,
      "step": 26470
    },
    {
      "epoch": 13.875786163522012,
      "grad_norm": 0.17447324097156525,
      "learning_rate": 0.00025948556630479234,
      "loss": 0.4669,
      "num_input_tokens_seen": 17307208,
      "step": 26475
    },
    {
      "epoch": 13.878406708595389,
      "grad_norm": 0.10536332428455353,
      "learning_rate": 0.0002592851016286557,
      "loss": 0.4048,
      "num_input_tokens_seen": 17310056,
      "step": 26480
    },
    {
      "epoch": 13.881027253668764,
      "grad_norm": 0.06405973434448242,
      "learning_rate": 0.0002590846873073298,
      "loss": 0.4053,
      "num_input_tokens_seen": 17313960,
      "step": 26485
    },
    {
      "epoch": 13.883647798742139,
      "grad_norm": 0.0929570123553276,
      "learning_rate": 0.0002588843233827387,
      "loss": 0.3715,
      "num_input_tokens_seen": 17316712,
      "step": 26490
    },
    {
      "epoch": 13.886268343815514,
      "grad_norm": 0.13666869699954987,
      "learning_rate": 0.0002586840098967963,
      "loss": 0.4106,
      "num_input_tokens_seen": 17321096,
      "step": 26495
    },
    {
      "epoch": 13.88888888888889,
      "grad_norm": 0.1426595151424408,
      "learning_rate": 0.00025848374689140587,
      "loss": 0.5435,
      "num_input_tokens_seen": 17324168,
      "step": 26500
    },
    {
      "epoch": 13.891509433962264,
      "grad_norm": 0.13583222031593323,
      "learning_rate": 0.0002582835344084602,
      "loss": 0.3909,
      "num_input_tokens_seen": 17327016,
      "step": 26505
    },
    {
      "epoch": 13.89412997903564,
      "grad_norm": 0.16355550289154053,
      "learning_rate": 0.00025808337248984175,
      "loss": 0.5041,
      "num_input_tokens_seen": 17330088,
      "step": 26510
    },
    {
      "epoch": 13.896750524109015,
      "grad_norm": 0.20856860280036926,
      "learning_rate": 0.00025788326117742185,
      "loss": 0.3765,
      "num_input_tokens_seen": 17332328,
      "step": 26515
    },
    {
      "epoch": 13.89937106918239,
      "grad_norm": 0.20031391084194183,
      "learning_rate": 0.00025768320051306127,
      "loss": 0.4382,
      "num_input_tokens_seen": 17336584,
      "step": 26520
    },
    {
      "epoch": 13.901991614255765,
      "grad_norm": 0.20045891404151917,
      "learning_rate": 0.00025748319053861063,
      "loss": 0.4554,
      "num_input_tokens_seen": 17339240,
      "step": 26525
    },
    {
      "epoch": 13.90461215932914,
      "grad_norm": 0.09939177334308624,
      "learning_rate": 0.0002572832312959098,
      "loss": 0.4339,
      "num_input_tokens_seen": 17343688,
      "step": 26530
    },
    {
      "epoch": 13.907232704402515,
      "grad_norm": 0.1116214394569397,
      "learning_rate": 0.0002570833228267879,
      "loss": 0.3833,
      "num_input_tokens_seen": 17347336,
      "step": 26535
    },
    {
      "epoch": 13.90985324947589,
      "grad_norm": 0.10630164295434952,
      "learning_rate": 0.00025688346517306366,
      "loss": 0.4159,
      "num_input_tokens_seen": 17350952,
      "step": 26540
    },
    {
      "epoch": 13.912473794549266,
      "grad_norm": 0.14954699575901031,
      "learning_rate": 0.00025668365837654497,
      "loss": 0.521,
      "num_input_tokens_seen": 17354376,
      "step": 26545
    },
    {
      "epoch": 13.915094339622641,
      "grad_norm": 0.22060523927211761,
      "learning_rate": 0.0002564839024790288,
      "loss": 0.5086,
      "num_input_tokens_seen": 17358216,
      "step": 26550
    },
    {
      "epoch": 13.917714884696016,
      "grad_norm": 0.19590720534324646,
      "learning_rate": 0.000256284197522302,
      "loss": 0.417,
      "num_input_tokens_seen": 17361224,
      "step": 26555
    },
    {
      "epoch": 13.920335429769391,
      "grad_norm": 0.11885291337966919,
      "learning_rate": 0.00025608454354814075,
      "loss": 0.4356,
      "num_input_tokens_seen": 17364488,
      "step": 26560
    },
    {
      "epoch": 13.922955974842766,
      "grad_norm": 0.14831101894378662,
      "learning_rate": 0.0002558849405983104,
      "loss": 0.456,
      "num_input_tokens_seen": 17368936,
      "step": 26565
    },
    {
      "epoch": 13.925576519916142,
      "grad_norm": 0.1423884928226471,
      "learning_rate": 0.00025568538871456527,
      "loss": 0.475,
      "num_input_tokens_seen": 17371912,
      "step": 26570
    },
    {
      "epoch": 13.928197064989519,
      "grad_norm": 0.14603275060653687,
      "learning_rate": 0.00025548588793864976,
      "loss": 0.3713,
      "num_input_tokens_seen": 17374856,
      "step": 26575
    },
    {
      "epoch": 13.930817610062894,
      "grad_norm": 0.20188255608081818,
      "learning_rate": 0.0002552864383122967,
      "loss": 0.2929,
      "num_input_tokens_seen": 17377832,
      "step": 26580
    },
    {
      "epoch": 13.933438155136269,
      "grad_norm": 0.2510436773300171,
      "learning_rate": 0.0002550870398772289,
      "loss": 0.4405,
      "num_input_tokens_seen": 17381064,
      "step": 26585
    },
    {
      "epoch": 13.936058700209644,
      "grad_norm": 0.08756051957607269,
      "learning_rate": 0.0002548876926751584,
      "loss": 0.4051,
      "num_input_tokens_seen": 17384968,
      "step": 26590
    },
    {
      "epoch": 13.93867924528302,
      "grad_norm": 0.13610535860061646,
      "learning_rate": 0.0002546883967477861,
      "loss": 0.4969,
      "num_input_tokens_seen": 17388104,
      "step": 26595
    },
    {
      "epoch": 13.941299790356394,
      "grad_norm": 0.17129135131835938,
      "learning_rate": 0.00025448915213680245,
      "loss": 0.4987,
      "num_input_tokens_seen": 17391880,
      "step": 26600
    },
    {
      "epoch": 13.94392033542977,
      "grad_norm": 0.09946776181459427,
      "learning_rate": 0.0002542899588838875,
      "loss": 0.4157,
      "num_input_tokens_seen": 17395240,
      "step": 26605
    },
    {
      "epoch": 13.946540880503145,
      "grad_norm": 0.17396284639835358,
      "learning_rate": 0.0002540908170307097,
      "loss": 0.3457,
      "num_input_tokens_seen": 17400680,
      "step": 26610
    },
    {
      "epoch": 13.94916142557652,
      "grad_norm": 0.17384208738803864,
      "learning_rate": 0.00025389172661892753,
      "loss": 0.735,
      "num_input_tokens_seen": 17403080,
      "step": 26615
    },
    {
      "epoch": 13.951781970649895,
      "grad_norm": 0.1170530840754509,
      "learning_rate": 0.00025369268769018856,
      "loss": 0.4737,
      "num_input_tokens_seen": 17406600,
      "step": 26620
    },
    {
      "epoch": 13.95440251572327,
      "grad_norm": 0.10463961213827133,
      "learning_rate": 0.00025349370028612914,
      "loss": 0.54,
      "num_input_tokens_seen": 17409320,
      "step": 26625
    },
    {
      "epoch": 13.957023060796645,
      "grad_norm": 0.2481846660375595,
      "learning_rate": 0.0002532947644483755,
      "loss": 0.4384,
      "num_input_tokens_seen": 17412616,
      "step": 26630
    },
    {
      "epoch": 13.95964360587002,
      "grad_norm": 0.1678875982761383,
      "learning_rate": 0.00025309588021854237,
      "loss": 0.3211,
      "num_input_tokens_seen": 17415912,
      "step": 26635
    },
    {
      "epoch": 13.962264150943396,
      "grad_norm": 0.19002853333950043,
      "learning_rate": 0.0002528970476382343,
      "loss": 0.4535,
      "num_input_tokens_seen": 17419656,
      "step": 26640
    },
    {
      "epoch": 13.964884696016771,
      "grad_norm": 0.13761746883392334,
      "learning_rate": 0.00025269826674904493,
      "loss": 0.3687,
      "num_input_tokens_seen": 17421768,
      "step": 26645
    },
    {
      "epoch": 13.967505241090146,
      "grad_norm": 0.12724673748016357,
      "learning_rate": 0.0002524995375925566,
      "loss": 0.3279,
      "num_input_tokens_seen": 17424968,
      "step": 26650
    },
    {
      "epoch": 13.970125786163521,
      "grad_norm": 0.10379251837730408,
      "learning_rate": 0.0002523008602103414,
      "loss": 0.3702,
      "num_input_tokens_seen": 17427912,
      "step": 26655
    },
    {
      "epoch": 13.972746331236896,
      "grad_norm": 0.12209106236696243,
      "learning_rate": 0.00025210223464396055,
      "loss": 0.3862,
      "num_input_tokens_seen": 17431272,
      "step": 26660
    },
    {
      "epoch": 13.975366876310272,
      "grad_norm": 0.15178486704826355,
      "learning_rate": 0.00025190366093496376,
      "loss": 0.4502,
      "num_input_tokens_seen": 17434728,
      "step": 26665
    },
    {
      "epoch": 13.977987421383649,
      "grad_norm": 0.19643326103687286,
      "learning_rate": 0.0002517051391248909,
      "loss": 0.3615,
      "num_input_tokens_seen": 17438216,
      "step": 26670
    },
    {
      "epoch": 13.980607966457024,
      "grad_norm": 0.12220802903175354,
      "learning_rate": 0.0002515066692552701,
      "loss": 0.4653,
      "num_input_tokens_seen": 17441384,
      "step": 26675
    },
    {
      "epoch": 13.983228511530399,
      "grad_norm": 0.2912258505821228,
      "learning_rate": 0.00025130825136761916,
      "loss": 0.3786,
      "num_input_tokens_seen": 17444168,
      "step": 26680
    },
    {
      "epoch": 13.985849056603774,
      "grad_norm": 0.14541158080101013,
      "learning_rate": 0.0002511098855034447,
      "loss": 0.4462,
      "num_input_tokens_seen": 17448168,
      "step": 26685
    },
    {
      "epoch": 13.98846960167715,
      "grad_norm": 0.18412567675113678,
      "learning_rate": 0.00025091157170424296,
      "loss": 0.4416,
      "num_input_tokens_seen": 17450824,
      "step": 26690
    },
    {
      "epoch": 13.991090146750524,
      "grad_norm": 0.09516285359859467,
      "learning_rate": 0.0002507133100114984,
      "loss": 0.3625,
      "num_input_tokens_seen": 17453832,
      "step": 26695
    },
    {
      "epoch": 13.9937106918239,
      "grad_norm": 0.0734645202755928,
      "learning_rate": 0.0002505151004666857,
      "loss": 0.3876,
      "num_input_tokens_seen": 17457704,
      "step": 26700
    },
    {
      "epoch": 13.996331236897275,
      "grad_norm": 0.13184596598148346,
      "learning_rate": 0.0002503169431112674,
      "loss": 0.4572,
      "num_input_tokens_seen": 17460680,
      "step": 26705
    },
    {
      "epoch": 13.99895178197065,
      "grad_norm": 0.11262434720993042,
      "learning_rate": 0.0002501188379866961,
      "loss": 0.3753,
      "num_input_tokens_seen": 17464072,
      "step": 26710
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.48069360852241516,
      "eval_runtime": 13.7203,
      "eval_samples_per_second": 61.806,
      "eval_steps_per_second": 15.452,
      "num_input_tokens_seen": 17464792,
      "step": 26712
    },
    {
      "epoch": 14.001572327044025,
      "grad_norm": 0.09335305541753769,
      "learning_rate": 0.0002499207851344133,
      "loss": 0.4228,
      "num_input_tokens_seen": 17466744,
      "step": 26715
    },
    {
      "epoch": 14.0041928721174,
      "grad_norm": 0.08211878687143326,
      "learning_rate": 0.00024972278459584903,
      "loss": 0.3698,
      "num_input_tokens_seen": 17470072,
      "step": 26720
    },
    {
      "epoch": 14.006813417190775,
      "grad_norm": 0.12132690101861954,
      "learning_rate": 0.00024952483641242304,
      "loss": 0.332,
      "num_input_tokens_seen": 17473432,
      "step": 26725
    },
    {
      "epoch": 14.00943396226415,
      "grad_norm": 0.10080315172672272,
      "learning_rate": 0.0002493269406255435,
      "loss": 0.3586,
      "num_input_tokens_seen": 17476568,
      "step": 26730
    },
    {
      "epoch": 14.012054507337526,
      "grad_norm": 0.08531127125024796,
      "learning_rate": 0.0002491290972766082,
      "loss": 0.3917,
      "num_input_tokens_seen": 17479608,
      "step": 26735
    },
    {
      "epoch": 14.014675052410901,
      "grad_norm": 0.12598435580730438,
      "learning_rate": 0.0002489313064070037,
      "loss": 0.4895,
      "num_input_tokens_seen": 17482904,
      "step": 26740
    },
    {
      "epoch": 14.017295597484276,
      "grad_norm": 0.13090744614601135,
      "learning_rate": 0.00024873356805810566,
      "loss": 0.446,
      "num_input_tokens_seen": 17485432,
      "step": 26745
    },
    {
      "epoch": 14.019916142557651,
      "grad_norm": 0.1931869387626648,
      "learning_rate": 0.00024853588227127864,
      "loss": 0.2844,
      "num_input_tokens_seen": 17487864,
      "step": 26750
    },
    {
      "epoch": 14.022536687631026,
      "grad_norm": 0.20465606451034546,
      "learning_rate": 0.000248338249087876,
      "loss": 0.3812,
      "num_input_tokens_seen": 17490424,
      "step": 26755
    },
    {
      "epoch": 14.025157232704403,
      "grad_norm": 0.1785784363746643,
      "learning_rate": 0.0002481406685492405,
      "loss": 0.3715,
      "num_input_tokens_seen": 17492888,
      "step": 26760
    },
    {
      "epoch": 14.027777777777779,
      "grad_norm": 0.1678558588027954,
      "learning_rate": 0.00024794314069670383,
      "loss": 0.5603,
      "num_input_tokens_seen": 17495448,
      "step": 26765
    },
    {
      "epoch": 14.030398322851154,
      "grad_norm": 0.1624384969472885,
      "learning_rate": 0.0002477456655715865,
      "loss": 0.3389,
      "num_input_tokens_seen": 17499160,
      "step": 26770
    },
    {
      "epoch": 14.033018867924529,
      "grad_norm": 0.09704811871051788,
      "learning_rate": 0.0002475482432151982,
      "loss": 0.455,
      "num_input_tokens_seen": 17501880,
      "step": 26775
    },
    {
      "epoch": 14.035639412997904,
      "grad_norm": 0.21976137161254883,
      "learning_rate": 0.00024735087366883733,
      "loss": 0.5239,
      "num_input_tokens_seen": 17504696,
      "step": 26780
    },
    {
      "epoch": 14.03825995807128,
      "grad_norm": 0.14818517863750458,
      "learning_rate": 0.00024715355697379115,
      "loss": 0.4274,
      "num_input_tokens_seen": 17507672,
      "step": 26785
    },
    {
      "epoch": 14.040880503144654,
      "grad_norm": 0.11170920729637146,
      "learning_rate": 0.0002469562931713362,
      "loss": 0.3851,
      "num_input_tokens_seen": 17510296,
      "step": 26790
    },
    {
      "epoch": 14.04350104821803,
      "grad_norm": 0.12584258615970612,
      "learning_rate": 0.00024675908230273785,
      "loss": 0.4311,
      "num_input_tokens_seen": 17512920,
      "step": 26795
    },
    {
      "epoch": 14.046121593291405,
      "grad_norm": 0.09272569417953491,
      "learning_rate": 0.00024656192440925055,
      "loss": 0.4586,
      "num_input_tokens_seen": 17516888,
      "step": 26800
    },
    {
      "epoch": 14.04874213836478,
      "grad_norm": 0.17127692699432373,
      "learning_rate": 0.0002463648195321173,
      "loss": 0.3817,
      "num_input_tokens_seen": 17520792,
      "step": 26805
    },
    {
      "epoch": 14.051362683438155,
      "grad_norm": 0.18405939638614655,
      "learning_rate": 0.00024616776771257,
      "loss": 0.385,
      "num_input_tokens_seen": 17523896,
      "step": 26810
    },
    {
      "epoch": 14.05398322851153,
      "grad_norm": 0.18389387428760529,
      "learning_rate": 0.00024597076899182977,
      "loss": 0.4271,
      "num_input_tokens_seen": 17527352,
      "step": 26815
    },
    {
      "epoch": 14.056603773584905,
      "grad_norm": 0.1354011744260788,
      "learning_rate": 0.0002457738234111066,
      "loss": 0.418,
      "num_input_tokens_seen": 17530872,
      "step": 26820
    },
    {
      "epoch": 14.05922431865828,
      "grad_norm": 0.12110453844070435,
      "learning_rate": 0.00024557693101159937,
      "loss": 0.4515,
      "num_input_tokens_seen": 17533528,
      "step": 26825
    },
    {
      "epoch": 14.061844863731656,
      "grad_norm": 0.11433031409978867,
      "learning_rate": 0.00024538009183449553,
      "loss": 0.2982,
      "num_input_tokens_seen": 17537368,
      "step": 26830
    },
    {
      "epoch": 14.064465408805031,
      "grad_norm": 0.17744193971157074,
      "learning_rate": 0.0002451833059209715,
      "loss": 0.4248,
      "num_input_tokens_seen": 17541080,
      "step": 26835
    },
    {
      "epoch": 14.067085953878406,
      "grad_norm": 0.12264171987771988,
      "learning_rate": 0.00024498657331219274,
      "loss": 0.3595,
      "num_input_tokens_seen": 17545112,
      "step": 26840
    },
    {
      "epoch": 14.069706498951781,
      "grad_norm": 0.14066928625106812,
      "learning_rate": 0.0002447898940493135,
      "loss": 0.4907,
      "num_input_tokens_seen": 17547960,
      "step": 26845
    },
    {
      "epoch": 14.072327044025156,
      "grad_norm": 0.10251865535974503,
      "learning_rate": 0.00024459326817347684,
      "loss": 0.4572,
      "num_input_tokens_seen": 17551416,
      "step": 26850
    },
    {
      "epoch": 14.074947589098532,
      "grad_norm": 0.15828277170658112,
      "learning_rate": 0.0002443966957258148,
      "loss": 0.4283,
      "num_input_tokens_seen": 17555096,
      "step": 26855
    },
    {
      "epoch": 14.077568134171909,
      "grad_norm": 0.16424739360809326,
      "learning_rate": 0.000244200176747448,
      "loss": 0.4725,
      "num_input_tokens_seen": 17559448,
      "step": 26860
    },
    {
      "epoch": 14.080188679245284,
      "grad_norm": 0.13535656034946442,
      "learning_rate": 0.00024400371127948568,
      "loss": 0.405,
      "num_input_tokens_seen": 17562584,
      "step": 26865
    },
    {
      "epoch": 14.082809224318659,
      "grad_norm": 0.11887559294700623,
      "learning_rate": 0.00024380729936302636,
      "loss": 0.3765,
      "num_input_tokens_seen": 17566776,
      "step": 26870
    },
    {
      "epoch": 14.085429769392034,
      "grad_norm": 0.23247142136096954,
      "learning_rate": 0.00024361094103915725,
      "loss": 0.501,
      "num_input_tokens_seen": 17569368,
      "step": 26875
    },
    {
      "epoch": 14.08805031446541,
      "grad_norm": 0.17289979755878448,
      "learning_rate": 0.00024341463634895444,
      "loss": 0.4262,
      "num_input_tokens_seen": 17571928,
      "step": 26880
    },
    {
      "epoch": 14.090670859538784,
      "grad_norm": 0.1437940150499344,
      "learning_rate": 0.0002432183853334824,
      "loss": 0.4507,
      "num_input_tokens_seen": 17574392,
      "step": 26885
    },
    {
      "epoch": 14.09329140461216,
      "grad_norm": 0.42180100083351135,
      "learning_rate": 0.00024302218803379445,
      "loss": 0.3904,
      "num_input_tokens_seen": 17578104,
      "step": 26890
    },
    {
      "epoch": 14.095911949685535,
      "grad_norm": 0.1112988293170929,
      "learning_rate": 0.000242826044490933,
      "loss": 0.4084,
      "num_input_tokens_seen": 17581368,
      "step": 26895
    },
    {
      "epoch": 14.09853249475891,
      "grad_norm": 0.103521928191185,
      "learning_rate": 0.00024262995474592903,
      "loss": 0.336,
      "num_input_tokens_seen": 17584024,
      "step": 26900
    },
    {
      "epoch": 14.101153039832285,
      "grad_norm": 0.20652912557125092,
      "learning_rate": 0.0002424339188398025,
      "loss": 0.3625,
      "num_input_tokens_seen": 17586168,
      "step": 26905
    },
    {
      "epoch": 14.10377358490566,
      "grad_norm": 0.1468111276626587,
      "learning_rate": 0.00024223793681356148,
      "loss": 0.422,
      "num_input_tokens_seen": 17591096,
      "step": 26910
    },
    {
      "epoch": 14.106394129979035,
      "grad_norm": 0.24892865121364594,
      "learning_rate": 0.00024204200870820358,
      "loss": 0.5484,
      "num_input_tokens_seen": 17594264,
      "step": 26915
    },
    {
      "epoch": 14.10901467505241,
      "grad_norm": 0.12525486946105957,
      "learning_rate": 0.0002418461345647143,
      "loss": 0.3313,
      "num_input_tokens_seen": 17597944,
      "step": 26920
    },
    {
      "epoch": 14.111635220125786,
      "grad_norm": 0.15519680082798004,
      "learning_rate": 0.00024165031442406853,
      "loss": 0.4364,
      "num_input_tokens_seen": 17600728,
      "step": 26925
    },
    {
      "epoch": 14.114255765199161,
      "grad_norm": 0.18890076875686646,
      "learning_rate": 0.00024145454832722956,
      "loss": 0.5194,
      "num_input_tokens_seen": 17603576,
      "step": 26930
    },
    {
      "epoch": 14.116876310272536,
      "grad_norm": 0.18468040227890015,
      "learning_rate": 0.00024125883631514967,
      "loss": 0.4852,
      "num_input_tokens_seen": 17606392,
      "step": 26935
    },
    {
      "epoch": 14.119496855345911,
      "grad_norm": 0.0791141614317894,
      "learning_rate": 0.00024106317842876907,
      "loss": 0.439,
      "num_input_tokens_seen": 17609944,
      "step": 26940
    },
    {
      "epoch": 14.122117400419286,
      "grad_norm": 0.14525872468948364,
      "learning_rate": 0.0002408675747090177,
      "loss": 0.5457,
      "num_input_tokens_seen": 17614424,
      "step": 26945
    },
    {
      "epoch": 14.124737945492662,
      "grad_norm": 0.12794721126556396,
      "learning_rate": 0.00024067202519681313,
      "loss": 0.4548,
      "num_input_tokens_seen": 17617368,
      "step": 26950
    },
    {
      "epoch": 14.127358490566039,
      "grad_norm": 0.18388527631759644,
      "learning_rate": 0.00024047652993306235,
      "loss": 0.3652,
      "num_input_tokens_seen": 17620792,
      "step": 26955
    },
    {
      "epoch": 14.129979035639414,
      "grad_norm": 0.1586955189704895,
      "learning_rate": 0.00024028108895866084,
      "loss": 0.4769,
      "num_input_tokens_seen": 17624152,
      "step": 26960
    },
    {
      "epoch": 14.132599580712789,
      "grad_norm": 0.1376364827156067,
      "learning_rate": 0.00024008570231449239,
      "loss": 0.3433,
      "num_input_tokens_seen": 17627064,
      "step": 26965
    },
    {
      "epoch": 14.135220125786164,
      "grad_norm": 0.20819807052612305,
      "learning_rate": 0.00023989037004142966,
      "loss": 0.443,
      "num_input_tokens_seen": 17629720,
      "step": 26970
    },
    {
      "epoch": 14.13784067085954,
      "grad_norm": 0.09080333262681961,
      "learning_rate": 0.0002396950921803343,
      "loss": 0.4548,
      "num_input_tokens_seen": 17633048,
      "step": 26975
    },
    {
      "epoch": 14.140461215932914,
      "grad_norm": 0.11628495901823044,
      "learning_rate": 0.0002394998687720557,
      "loss": 0.4898,
      "num_input_tokens_seen": 17636472,
      "step": 26980
    },
    {
      "epoch": 14.14308176100629,
      "grad_norm": 0.24032774567604065,
      "learning_rate": 0.0002393046998574328,
      "loss": 0.5013,
      "num_input_tokens_seen": 17640120,
      "step": 26985
    },
    {
      "epoch": 14.145702306079665,
      "grad_norm": 0.10729274153709412,
      "learning_rate": 0.0002391095854772924,
      "loss": 0.5561,
      "num_input_tokens_seen": 17643704,
      "step": 26990
    },
    {
      "epoch": 14.14832285115304,
      "grad_norm": 0.13631223142147064,
      "learning_rate": 0.00023891452567245027,
      "loss": 0.5319,
      "num_input_tokens_seen": 17646968,
      "step": 26995
    },
    {
      "epoch": 14.150943396226415,
      "grad_norm": 0.14226338267326355,
      "learning_rate": 0.00023871952048371093,
      "loss": 0.4356,
      "num_input_tokens_seen": 17650552,
      "step": 27000
    },
    {
      "epoch": 14.15356394129979,
      "grad_norm": 0.1490689516067505,
      "learning_rate": 0.00023852456995186684,
      "loss": 0.4108,
      "num_input_tokens_seen": 17653528,
      "step": 27005
    },
    {
      "epoch": 14.156184486373165,
      "grad_norm": 0.10158134251832962,
      "learning_rate": 0.0002383296741176997,
      "loss": 0.4076,
      "num_input_tokens_seen": 17656536,
      "step": 27010
    },
    {
      "epoch": 14.15880503144654,
      "grad_norm": 0.17391514778137207,
      "learning_rate": 0.00023813483302197964,
      "loss": 0.3857,
      "num_input_tokens_seen": 17662200,
      "step": 27015
    },
    {
      "epoch": 14.161425576519916,
      "grad_norm": 0.2085501104593277,
      "learning_rate": 0.00023794004670546476,
      "loss": 0.3803,
      "num_input_tokens_seen": 17665592,
      "step": 27020
    },
    {
      "epoch": 14.164046121593291,
      "grad_norm": 0.09946309030056,
      "learning_rate": 0.00023774531520890242,
      "loss": 0.4991,
      "num_input_tokens_seen": 17668376,
      "step": 27025
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.08157321810722351,
      "learning_rate": 0.00023755063857302833,
      "loss": 0.3751,
      "num_input_tokens_seen": 17672760,
      "step": 27030
    },
    {
      "epoch": 14.169287211740041,
      "grad_norm": 0.193463996052742,
      "learning_rate": 0.00023735601683856628,
      "loss": 0.4161,
      "num_input_tokens_seen": 17675480,
      "step": 27035
    },
    {
      "epoch": 14.171907756813416,
      "grad_norm": 0.22832229733467102,
      "learning_rate": 0.0002371614500462293,
      "loss": 0.4054,
      "num_input_tokens_seen": 17678360,
      "step": 27040
    },
    {
      "epoch": 14.174528301886792,
      "grad_norm": 0.10759568214416504,
      "learning_rate": 0.00023696693823671816,
      "loss": 0.3524,
      "num_input_tokens_seen": 17682040,
      "step": 27045
    },
    {
      "epoch": 14.177148846960169,
      "grad_norm": 0.1349603235721588,
      "learning_rate": 0.00023677248145072272,
      "loss": 0.5333,
      "num_input_tokens_seen": 17685432,
      "step": 27050
    },
    {
      "epoch": 14.179769392033544,
      "grad_norm": 0.0976264551281929,
      "learning_rate": 0.0002365780797289211,
      "loss": 0.4367,
      "num_input_tokens_seen": 17688728,
      "step": 27055
    },
    {
      "epoch": 14.182389937106919,
      "grad_norm": 0.2303876280784607,
      "learning_rate": 0.00023638373311198014,
      "loss": 0.4924,
      "num_input_tokens_seen": 17692216,
      "step": 27060
    },
    {
      "epoch": 14.185010482180294,
      "grad_norm": 0.08803490549325943,
      "learning_rate": 0.00023618944164055468,
      "loss": 0.3379,
      "num_input_tokens_seen": 17696184,
      "step": 27065
    },
    {
      "epoch": 14.18763102725367,
      "grad_norm": 0.16974855959415436,
      "learning_rate": 0.00023599520535528813,
      "loss": 0.3767,
      "num_input_tokens_seen": 17698808,
      "step": 27070
    },
    {
      "epoch": 14.190251572327044,
      "grad_norm": 0.18214747309684753,
      "learning_rate": 0.00023580102429681266,
      "loss": 0.5328,
      "num_input_tokens_seen": 17702648,
      "step": 27075
    },
    {
      "epoch": 14.19287211740042,
      "grad_norm": 0.1607612818479538,
      "learning_rate": 0.00023560689850574885,
      "loss": 0.3552,
      "num_input_tokens_seen": 17705464,
      "step": 27080
    },
    {
      "epoch": 14.195492662473795,
      "grad_norm": 0.14487159252166748,
      "learning_rate": 0.00023541282802270563,
      "loss": 0.5047,
      "num_input_tokens_seen": 17707864,
      "step": 27085
    },
    {
      "epoch": 14.19811320754717,
      "grad_norm": 0.11862394213676453,
      "learning_rate": 0.00023521881288828005,
      "loss": 0.4916,
      "num_input_tokens_seen": 17711736,
      "step": 27090
    },
    {
      "epoch": 14.200733752620545,
      "grad_norm": 0.11697036772966385,
      "learning_rate": 0.00023502485314305828,
      "loss": 0.353,
      "num_input_tokens_seen": 17715992,
      "step": 27095
    },
    {
      "epoch": 14.20335429769392,
      "grad_norm": 0.13676591217517853,
      "learning_rate": 0.00023483094882761397,
      "loss": 0.2783,
      "num_input_tokens_seen": 17718616,
      "step": 27100
    },
    {
      "epoch": 14.205974842767295,
      "grad_norm": 0.13787665963172913,
      "learning_rate": 0.00023463709998250998,
      "loss": 0.3437,
      "num_input_tokens_seen": 17721880,
      "step": 27105
    },
    {
      "epoch": 14.20859538784067,
      "grad_norm": 0.1234888881444931,
      "learning_rate": 0.00023444330664829728,
      "loss": 0.5291,
      "num_input_tokens_seen": 17724376,
      "step": 27110
    },
    {
      "epoch": 14.211215932914046,
      "grad_norm": 0.13333749771118164,
      "learning_rate": 0.00023424956886551536,
      "loss": 0.4521,
      "num_input_tokens_seen": 17727448,
      "step": 27115
    },
    {
      "epoch": 14.213836477987421,
      "grad_norm": 0.12915143370628357,
      "learning_rate": 0.0002340558866746918,
      "loss": 0.4157,
      "num_input_tokens_seen": 17730808,
      "step": 27120
    },
    {
      "epoch": 14.216457023060796,
      "grad_norm": 0.1301470249891281,
      "learning_rate": 0.0002338622601163425,
      "loss": 0.4312,
      "num_input_tokens_seen": 17733464,
      "step": 27125
    },
    {
      "epoch": 14.219077568134171,
      "grad_norm": 0.11158093065023422,
      "learning_rate": 0.00023366868923097213,
      "loss": 0.3216,
      "num_input_tokens_seen": 17736600,
      "step": 27130
    },
    {
      "epoch": 14.221698113207546,
      "grad_norm": 0.12701299786567688,
      "learning_rate": 0.0002334751740590735,
      "loss": 0.4209,
      "num_input_tokens_seen": 17739608,
      "step": 27135
    },
    {
      "epoch": 14.224318658280922,
      "grad_norm": 0.1095385029911995,
      "learning_rate": 0.00023328171464112796,
      "loss": 0.4273,
      "num_input_tokens_seen": 17742840,
      "step": 27140
    },
    {
      "epoch": 14.226939203354299,
      "grad_norm": 0.2899405062198639,
      "learning_rate": 0.00023308831101760485,
      "loss": 0.35,
      "num_input_tokens_seen": 17744824,
      "step": 27145
    },
    {
      "epoch": 14.229559748427674,
      "grad_norm": 0.17028705775737762,
      "learning_rate": 0.00023289496322896174,
      "loss": 0.4426,
      "num_input_tokens_seen": 17747544,
      "step": 27150
    },
    {
      "epoch": 14.232180293501049,
      "grad_norm": 0.1505006104707718,
      "learning_rate": 0.00023270167131564512,
      "loss": 0.3541,
      "num_input_tokens_seen": 17750840,
      "step": 27155
    },
    {
      "epoch": 14.234800838574424,
      "grad_norm": 0.171783909201622,
      "learning_rate": 0.0002325084353180893,
      "loss": 0.5792,
      "num_input_tokens_seen": 17753432,
      "step": 27160
    },
    {
      "epoch": 14.2374213836478,
      "grad_norm": 0.17256806790828705,
      "learning_rate": 0.00023231525527671716,
      "loss": 0.4314,
      "num_input_tokens_seen": 17756536,
      "step": 27165
    },
    {
      "epoch": 14.240041928721174,
      "grad_norm": 0.07213485985994339,
      "learning_rate": 0.00023212213123193986,
      "loss": 0.3015,
      "num_input_tokens_seen": 17759896,
      "step": 27170
    },
    {
      "epoch": 14.24266247379455,
      "grad_norm": 0.18920311331748962,
      "learning_rate": 0.0002319290632241566,
      "loss": 0.5028,
      "num_input_tokens_seen": 17763352,
      "step": 27175
    },
    {
      "epoch": 14.245283018867925,
      "grad_norm": 0.12717361748218536,
      "learning_rate": 0.0002317360512937548,
      "loss": 0.4095,
      "num_input_tokens_seen": 17765816,
      "step": 27180
    },
    {
      "epoch": 14.2479035639413,
      "grad_norm": 0.14121100306510925,
      "learning_rate": 0.00023154309548111058,
      "loss": 0.3426,
      "num_input_tokens_seen": 17768056,
      "step": 27185
    },
    {
      "epoch": 14.250524109014675,
      "grad_norm": 0.2599097788333893,
      "learning_rate": 0.000231350195826588,
      "loss": 0.3921,
      "num_input_tokens_seen": 17771896,
      "step": 27190
    },
    {
      "epoch": 14.25314465408805,
      "grad_norm": 0.13130433857440948,
      "learning_rate": 0.00023115735237053982,
      "loss": 0.351,
      "num_input_tokens_seen": 17775096,
      "step": 27195
    },
    {
      "epoch": 14.255765199161425,
      "grad_norm": 0.12731622159481049,
      "learning_rate": 0.00023096456515330632,
      "loss": 0.3973,
      "num_input_tokens_seen": 17778392,
      "step": 27200
    },
    {
      "epoch": 14.2583857442348,
      "grad_norm": 0.1671060025691986,
      "learning_rate": 0.0002307718342152163,
      "loss": 0.3773,
      "num_input_tokens_seen": 17781176,
      "step": 27205
    },
    {
      "epoch": 14.261006289308176,
      "grad_norm": 0.13772167265415192,
      "learning_rate": 0.0002305791595965871,
      "loss": 0.6472,
      "num_input_tokens_seen": 17785272,
      "step": 27210
    },
    {
      "epoch": 14.26362683438155,
      "grad_norm": 0.1393265277147293,
      "learning_rate": 0.00023038654133772395,
      "loss": 0.4962,
      "num_input_tokens_seen": 17788280,
      "step": 27215
    },
    {
      "epoch": 14.266247379454926,
      "grad_norm": 0.12850245833396912,
      "learning_rate": 0.00023019397947892062,
      "loss": 0.3995,
      "num_input_tokens_seen": 17791064,
      "step": 27220
    },
    {
      "epoch": 14.268867924528301,
      "grad_norm": 0.11303853988647461,
      "learning_rate": 0.00023000147406045853,
      "loss": 0.304,
      "num_input_tokens_seen": 17793656,
      "step": 27225
    },
    {
      "epoch": 14.271488469601676,
      "grad_norm": 0.127716064453125,
      "learning_rate": 0.00022980902512260786,
      "loss": 0.4465,
      "num_input_tokens_seen": 17796536,
      "step": 27230
    },
    {
      "epoch": 14.274109014675052,
      "grad_norm": 0.14441196620464325,
      "learning_rate": 0.00022961663270562656,
      "loss": 0.5004,
      "num_input_tokens_seen": 17801304,
      "step": 27235
    },
    {
      "epoch": 14.276729559748428,
      "grad_norm": 0.201657235622406,
      "learning_rate": 0.0002294242968497609,
      "loss": 0.3936,
      "num_input_tokens_seen": 17804472,
      "step": 27240
    },
    {
      "epoch": 14.279350104821804,
      "grad_norm": 0.1917683184146881,
      "learning_rate": 0.00022923201759524552,
      "loss": 0.3806,
      "num_input_tokens_seen": 17807928,
      "step": 27245
    },
    {
      "epoch": 14.281970649895179,
      "grad_norm": 0.33951836824417114,
      "learning_rate": 0.00022903979498230316,
      "loss": 0.5524,
      "num_input_tokens_seen": 17810680,
      "step": 27250
    },
    {
      "epoch": 14.284591194968554,
      "grad_norm": 0.09479459375143051,
      "learning_rate": 0.00022884762905114436,
      "loss": 0.3946,
      "num_input_tokens_seen": 17814008,
      "step": 27255
    },
    {
      "epoch": 14.28721174004193,
      "grad_norm": 0.17910149693489075,
      "learning_rate": 0.00022865551984196792,
      "loss": 0.4544,
      "num_input_tokens_seen": 17816440,
      "step": 27260
    },
    {
      "epoch": 14.289832285115304,
      "grad_norm": 0.13905741274356842,
      "learning_rate": 0.0002284634673949611,
      "loss": 0.368,
      "num_input_tokens_seen": 17819256,
      "step": 27265
    },
    {
      "epoch": 14.29245283018868,
      "grad_norm": 0.1412188857793808,
      "learning_rate": 0.00022827147175029906,
      "loss": 0.3486,
      "num_input_tokens_seen": 17822232,
      "step": 27270
    },
    {
      "epoch": 14.295073375262055,
      "grad_norm": 0.18744142353534698,
      "learning_rate": 0.0002280795329481452,
      "loss": 0.4559,
      "num_input_tokens_seen": 17825432,
      "step": 27275
    },
    {
      "epoch": 14.29769392033543,
      "grad_norm": 0.2884891629219055,
      "learning_rate": 0.00022788765102865066,
      "loss": 0.512,
      "num_input_tokens_seen": 17828952,
      "step": 27280
    },
    {
      "epoch": 14.300314465408805,
      "grad_norm": 0.1600673496723175,
      "learning_rate": 0.00022769582603195533,
      "loss": 0.4657,
      "num_input_tokens_seen": 17831672,
      "step": 27285
    },
    {
      "epoch": 14.30293501048218,
      "grad_norm": 0.09116876870393753,
      "learning_rate": 0.00022750405799818634,
      "loss": 0.4407,
      "num_input_tokens_seen": 17835384,
      "step": 27290
    },
    {
      "epoch": 14.305555555555555,
      "grad_norm": 0.14424243569374084,
      "learning_rate": 0.00022731234696745967,
      "loss": 0.5129,
      "num_input_tokens_seen": 17838552,
      "step": 27295
    },
    {
      "epoch": 14.30817610062893,
      "grad_norm": 0.1993035227060318,
      "learning_rate": 0.0002271206929798792,
      "loss": 0.3691,
      "num_input_tokens_seen": 17841080,
      "step": 27300
    },
    {
      "epoch": 14.310796645702306,
      "grad_norm": 0.13358323276042938,
      "learning_rate": 0.00022692909607553642,
      "loss": 0.4212,
      "num_input_tokens_seen": 17847224,
      "step": 27305
    },
    {
      "epoch": 14.31341719077568,
      "grad_norm": 0.11459460854530334,
      "learning_rate": 0.00022673755629451132,
      "loss": 0.3728,
      "num_input_tokens_seen": 17850840,
      "step": 27310
    },
    {
      "epoch": 14.316037735849056,
      "grad_norm": 0.16298650205135345,
      "learning_rate": 0.00022654607367687213,
      "loss": 0.4795,
      "num_input_tokens_seen": 17853176,
      "step": 27315
    },
    {
      "epoch": 14.318658280922431,
      "grad_norm": 0.09203888475894928,
      "learning_rate": 0.00022635464826267442,
      "loss": 0.3924,
      "num_input_tokens_seen": 17856280,
      "step": 27320
    },
    {
      "epoch": 14.321278825995806,
      "grad_norm": 0.09057654440402985,
      "learning_rate": 0.00022616328009196236,
      "loss": 0.3854,
      "num_input_tokens_seen": 17859064,
      "step": 27325
    },
    {
      "epoch": 14.323899371069182,
      "grad_norm": 0.1524067372083664,
      "learning_rate": 0.0002259719692047682,
      "loss": 0.517,
      "num_input_tokens_seen": 17861880,
      "step": 27330
    },
    {
      "epoch": 14.326519916142558,
      "grad_norm": 0.15848323702812195,
      "learning_rate": 0.00022578071564111163,
      "loss": 0.5663,
      "num_input_tokens_seen": 17868120,
      "step": 27335
    },
    {
      "epoch": 14.329140461215934,
      "grad_norm": 0.16778810322284698,
      "learning_rate": 0.00022558951944100087,
      "loss": 0.5607,
      "num_input_tokens_seen": 17871896,
      "step": 27340
    },
    {
      "epoch": 14.331761006289309,
      "grad_norm": 0.10783553868532181,
      "learning_rate": 0.00022539838064443223,
      "loss": 0.3716,
      "num_input_tokens_seen": 17875512,
      "step": 27345
    },
    {
      "epoch": 14.334381551362684,
      "grad_norm": 0.1639513522386551,
      "learning_rate": 0.00022520729929138933,
      "loss": 0.4807,
      "num_input_tokens_seen": 17879000,
      "step": 27350
    },
    {
      "epoch": 14.33700209643606,
      "grad_norm": 0.23345665633678436,
      "learning_rate": 0.0002250162754218446,
      "loss": 0.532,
      "num_input_tokens_seen": 17881368,
      "step": 27355
    },
    {
      "epoch": 14.339622641509434,
      "grad_norm": 0.11389883607625961,
      "learning_rate": 0.00022482530907575767,
      "loss": 0.5548,
      "num_input_tokens_seen": 17884408,
      "step": 27360
    },
    {
      "epoch": 14.34224318658281,
      "grad_norm": 0.22146402299404144,
      "learning_rate": 0.00022463440029307674,
      "loss": 0.6129,
      "num_input_tokens_seen": 17887224,
      "step": 27365
    },
    {
      "epoch": 14.344863731656185,
      "grad_norm": 0.1906002312898636,
      "learning_rate": 0.00022444354911373794,
      "loss": 0.369,
      "num_input_tokens_seen": 17889720,
      "step": 27370
    },
    {
      "epoch": 14.34748427672956,
      "grad_norm": 0.06702195852994919,
      "learning_rate": 0.00022425275557766473,
      "loss": 0.3321,
      "num_input_tokens_seen": 17892888,
      "step": 27375
    },
    {
      "epoch": 14.350104821802935,
      "grad_norm": 0.29687684774398804,
      "learning_rate": 0.00022406201972476937,
      "loss": 0.3926,
      "num_input_tokens_seen": 17896056,
      "step": 27380
    },
    {
      "epoch": 14.35272536687631,
      "grad_norm": 0.12848718464374542,
      "learning_rate": 0.00022387134159495122,
      "loss": 0.43,
      "num_input_tokens_seen": 17898840,
      "step": 27385
    },
    {
      "epoch": 14.355345911949685,
      "grad_norm": 0.21908821165561676,
      "learning_rate": 0.00022368072122809813,
      "loss": 0.4652,
      "num_input_tokens_seen": 17901560,
      "step": 27390
    },
    {
      "epoch": 14.35796645702306,
      "grad_norm": 0.12982140481472015,
      "learning_rate": 0.0002234901586640858,
      "loss": 0.4001,
      "num_input_tokens_seen": 17905432,
      "step": 27395
    },
    {
      "epoch": 14.360587002096436,
      "grad_norm": 0.14013966917991638,
      "learning_rate": 0.00022329965394277785,
      "loss": 0.3953,
      "num_input_tokens_seen": 17908088,
      "step": 27400
    },
    {
      "epoch": 14.36320754716981,
      "grad_norm": 0.2464943677186966,
      "learning_rate": 0.00022310920710402532,
      "loss": 0.4206,
      "num_input_tokens_seen": 17910616,
      "step": 27405
    },
    {
      "epoch": 14.365828092243186,
      "grad_norm": 0.18134626746177673,
      "learning_rate": 0.00022291881818766796,
      "loss": 0.3827,
      "num_input_tokens_seen": 17913400,
      "step": 27410
    },
    {
      "epoch": 14.368448637316561,
      "grad_norm": 0.11449455469846725,
      "learning_rate": 0.00022272848723353252,
      "loss": 0.5046,
      "num_input_tokens_seen": 17916600,
      "step": 27415
    },
    {
      "epoch": 14.371069182389936,
      "grad_norm": 0.2903648614883423,
      "learning_rate": 0.00022253821428143422,
      "loss": 0.4155,
      "num_input_tokens_seen": 17919160,
      "step": 27420
    },
    {
      "epoch": 14.373689727463312,
      "grad_norm": 0.15466050803661346,
      "learning_rate": 0.0002223479993711761,
      "loss": 0.3695,
      "num_input_tokens_seen": 17921912,
      "step": 27425
    },
    {
      "epoch": 14.376310272536688,
      "grad_norm": 0.08617263287305832,
      "learning_rate": 0.00022215784254254906,
      "loss": 0.4794,
      "num_input_tokens_seen": 17926040,
      "step": 27430
    },
    {
      "epoch": 14.378930817610064,
      "grad_norm": 0.08587781339883804,
      "learning_rate": 0.00022196774383533157,
      "loss": 0.4157,
      "num_input_tokens_seen": 17929656,
      "step": 27435
    },
    {
      "epoch": 14.381551362683439,
      "grad_norm": 0.09691955149173737,
      "learning_rate": 0.0002217777032892899,
      "loss": 0.3469,
      "num_input_tokens_seen": 17935704,
      "step": 27440
    },
    {
      "epoch": 14.384171907756814,
      "grad_norm": 0.17396613955497742,
      "learning_rate": 0.00022158772094417863,
      "loss": 0.4801,
      "num_input_tokens_seen": 17938328,
      "step": 27445
    },
    {
      "epoch": 14.38679245283019,
      "grad_norm": 0.15325355529785156,
      "learning_rate": 0.00022139779683973983,
      "loss": 0.3958,
      "num_input_tokens_seen": 17941240,
      "step": 27450
    },
    {
      "epoch": 14.389412997903564,
      "grad_norm": 0.12999847531318665,
      "learning_rate": 0.00022120793101570364,
      "loss": 0.5441,
      "num_input_tokens_seen": 17944728,
      "step": 27455
    },
    {
      "epoch": 14.39203354297694,
      "grad_norm": 0.19593442976474762,
      "learning_rate": 0.00022101812351178762,
      "loss": 0.4762,
      "num_input_tokens_seen": 17948536,
      "step": 27460
    },
    {
      "epoch": 14.394654088050315,
      "grad_norm": 0.12370855361223221,
      "learning_rate": 0.00022082837436769725,
      "loss": 0.5421,
      "num_input_tokens_seen": 17951448,
      "step": 27465
    },
    {
      "epoch": 14.39727463312369,
      "grad_norm": 0.11443820595741272,
      "learning_rate": 0.00022063868362312596,
      "loss": 0.4724,
      "num_input_tokens_seen": 17954776,
      "step": 27470
    },
    {
      "epoch": 14.399895178197065,
      "grad_norm": 0.17160312831401825,
      "learning_rate": 0.00022044905131775495,
      "loss": 0.3436,
      "num_input_tokens_seen": 17958712,
      "step": 27475
    },
    {
      "epoch": 14.40251572327044,
      "grad_norm": 0.10692848265171051,
      "learning_rate": 0.00022025947749125313,
      "loss": 0.3568,
      "num_input_tokens_seen": 17961464,
      "step": 27480
    },
    {
      "epoch": 14.405136268343815,
      "grad_norm": 0.13165095448493958,
      "learning_rate": 0.0002200699621832773,
      "loss": 0.4302,
      "num_input_tokens_seen": 17965176,
      "step": 27485
    },
    {
      "epoch": 14.40775681341719,
      "grad_norm": 0.15729112923145294,
      "learning_rate": 0.0002198805054334718,
      "loss": 0.4557,
      "num_input_tokens_seen": 17968440,
      "step": 27490
    },
    {
      "epoch": 14.410377358490566,
      "grad_norm": 0.31356021761894226,
      "learning_rate": 0.00021969110728146862,
      "loss": 0.4229,
      "num_input_tokens_seen": 17971416,
      "step": 27495
    },
    {
      "epoch": 14.41299790356394,
      "grad_norm": 0.1664947122335434,
      "learning_rate": 0.00021950176776688784,
      "loss": 0.5612,
      "num_input_tokens_seen": 17974360,
      "step": 27500
    },
    {
      "epoch": 14.415618448637316,
      "grad_norm": 0.07685565203428268,
      "learning_rate": 0.0002193124869293372,
      "loss": 0.4162,
      "num_input_tokens_seen": 17977912,
      "step": 27505
    },
    {
      "epoch": 14.418238993710691,
      "grad_norm": 0.08971615880727768,
      "learning_rate": 0.00021912326480841223,
      "loss": 0.3205,
      "num_input_tokens_seen": 17980792,
      "step": 27510
    },
    {
      "epoch": 14.420859538784066,
      "grad_norm": 0.29728904366493225,
      "learning_rate": 0.0002189341014436958,
      "loss": 0.363,
      "num_input_tokens_seen": 17983416,
      "step": 27515
    },
    {
      "epoch": 14.423480083857442,
      "grad_norm": 0.16433537006378174,
      "learning_rate": 0.00021874499687475857,
      "loss": 0.4284,
      "num_input_tokens_seen": 17986328,
      "step": 27520
    },
    {
      "epoch": 14.426100628930818,
      "grad_norm": 0.20743198692798615,
      "learning_rate": 0.00021855595114115935,
      "loss": 0.4079,
      "num_input_tokens_seen": 17990584,
      "step": 27525
    },
    {
      "epoch": 14.428721174004194,
      "grad_norm": 0.09357912093400955,
      "learning_rate": 0.00021836696428244418,
      "loss": 0.4244,
      "num_input_tokens_seen": 17993848,
      "step": 27530
    },
    {
      "epoch": 14.431341719077569,
      "grad_norm": 0.16143594682216644,
      "learning_rate": 0.0002181780363381473,
      "loss": 0.4414,
      "num_input_tokens_seen": 17997208,
      "step": 27535
    },
    {
      "epoch": 14.433962264150944,
      "grad_norm": 0.2640508711338043,
      "learning_rate": 0.00021798916734779,
      "loss": 0.4822,
      "num_input_tokens_seen": 18000056,
      "step": 27540
    },
    {
      "epoch": 14.43658280922432,
      "grad_norm": 0.1227826178073883,
      "learning_rate": 0.00021780035735088132,
      "loss": 0.572,
      "num_input_tokens_seen": 18002968,
      "step": 27545
    },
    {
      "epoch": 14.439203354297694,
      "grad_norm": 0.0950084999203682,
      "learning_rate": 0.0002176116063869184,
      "loss": 0.3851,
      "num_input_tokens_seen": 18006104,
      "step": 27550
    },
    {
      "epoch": 14.44182389937107,
      "grad_norm": 0.13466741144657135,
      "learning_rate": 0.00021742291449538582,
      "loss": 0.4164,
      "num_input_tokens_seen": 18010040,
      "step": 27555
    },
    {
      "epoch": 14.444444444444445,
      "grad_norm": 0.10384004563093185,
      "learning_rate": 0.00021723428171575566,
      "loss": 0.3671,
      "num_input_tokens_seen": 18013720,
      "step": 27560
    },
    {
      "epoch": 14.44706498951782,
      "grad_norm": 0.10236867517232895,
      "learning_rate": 0.00021704570808748802,
      "loss": 0.3253,
      "num_input_tokens_seen": 18016696,
      "step": 27565
    },
    {
      "epoch": 14.449685534591195,
      "grad_norm": 0.09397030621767044,
      "learning_rate": 0.00021685719365003008,
      "loss": 0.5264,
      "num_input_tokens_seen": 18020024,
      "step": 27570
    },
    {
      "epoch": 14.45230607966457,
      "grad_norm": 0.28669118881225586,
      "learning_rate": 0.00021666873844281682,
      "loss": 0.3643,
      "num_input_tokens_seen": 18023352,
      "step": 27575
    },
    {
      "epoch": 14.454926624737945,
      "grad_norm": 0.17313018441200256,
      "learning_rate": 0.0002164803425052711,
      "loss": 0.4476,
      "num_input_tokens_seen": 18026648,
      "step": 27580
    },
    {
      "epoch": 14.45754716981132,
      "grad_norm": 0.14453870058059692,
      "learning_rate": 0.0002162920058768031,
      "loss": 0.3552,
      "num_input_tokens_seen": 18029624,
      "step": 27585
    },
    {
      "epoch": 14.460167714884696,
      "grad_norm": 0.12546293437480927,
      "learning_rate": 0.000216103728596811,
      "loss": 0.5551,
      "num_input_tokens_seen": 18032376,
      "step": 27590
    },
    {
      "epoch": 14.46278825995807,
      "grad_norm": 0.19093947112560272,
      "learning_rate": 0.00021591551070467975,
      "loss": 0.3875,
      "num_input_tokens_seen": 18035448,
      "step": 27595
    },
    {
      "epoch": 14.465408805031446,
      "grad_norm": 0.11524812132120132,
      "learning_rate": 0.0002157273522397829,
      "loss": 0.4638,
      "num_input_tokens_seen": 18039576,
      "step": 27600
    },
    {
      "epoch": 14.468029350104821,
      "grad_norm": 0.22413930296897888,
      "learning_rate": 0.0002155392532414806,
      "loss": 0.3615,
      "num_input_tokens_seen": 18044952,
      "step": 27605
    },
    {
      "epoch": 14.470649895178196,
      "grad_norm": 0.1750333309173584,
      "learning_rate": 0.00021535121374912126,
      "loss": 0.4482,
      "num_input_tokens_seen": 18048472,
      "step": 27610
    },
    {
      "epoch": 14.473270440251572,
      "grad_norm": 0.08327939361333847,
      "learning_rate": 0.00021516323380204073,
      "loss": 0.4465,
      "num_input_tokens_seen": 18052088,
      "step": 27615
    },
    {
      "epoch": 14.475890985324948,
      "grad_norm": 0.18999817967414856,
      "learning_rate": 0.00021497531343956188,
      "loss": 0.4294,
      "num_input_tokens_seen": 18055000,
      "step": 27620
    },
    {
      "epoch": 14.478511530398324,
      "grad_norm": 0.10276463627815247,
      "learning_rate": 0.00021478745270099591,
      "loss": 0.4057,
      "num_input_tokens_seen": 18058712,
      "step": 27625
    },
    {
      "epoch": 14.481132075471699,
      "grad_norm": 0.21475368738174438,
      "learning_rate": 0.0002145996516256408,
      "loss": 0.3137,
      "num_input_tokens_seen": 18062616,
      "step": 27630
    },
    {
      "epoch": 14.483752620545074,
      "grad_norm": 0.23681695759296417,
      "learning_rate": 0.00021441191025278256,
      "loss": 0.4008,
      "num_input_tokens_seen": 18066360,
      "step": 27635
    },
    {
      "epoch": 14.48637316561845,
      "grad_norm": 0.1936974674463272,
      "learning_rate": 0.00021422422862169455,
      "loss": 0.4442,
      "num_input_tokens_seen": 18069848,
      "step": 27640
    },
    {
      "epoch": 14.488993710691824,
      "grad_norm": 0.10494768619537354,
      "learning_rate": 0.00021403660677163773,
      "loss": 0.4245,
      "num_input_tokens_seen": 18072504,
      "step": 27645
    },
    {
      "epoch": 14.4916142557652,
      "grad_norm": 0.13465984165668488,
      "learning_rate": 0.00021384904474186018,
      "loss": 0.3584,
      "num_input_tokens_seen": 18075960,
      "step": 27650
    },
    {
      "epoch": 14.494234800838575,
      "grad_norm": 0.09076397866010666,
      "learning_rate": 0.00021366154257159808,
      "loss": 0.3998,
      "num_input_tokens_seen": 18079608,
      "step": 27655
    },
    {
      "epoch": 14.49685534591195,
      "grad_norm": 0.1109199970960617,
      "learning_rate": 0.00021347410030007435,
      "loss": 0.5381,
      "num_input_tokens_seen": 18082232,
      "step": 27660
    },
    {
      "epoch": 14.499475890985325,
      "grad_norm": 0.12367519736289978,
      "learning_rate": 0.0002132867179665,
      "loss": 0.3702,
      "num_input_tokens_seen": 18085432,
      "step": 27665
    },
    {
      "epoch": 14.5020964360587,
      "grad_norm": 0.1260131150484085,
      "learning_rate": 0.00021309939561007341,
      "loss": 0.3916,
      "num_input_tokens_seen": 18089176,
      "step": 27670
    },
    {
      "epoch": 14.504716981132075,
      "grad_norm": 0.18604567646980286,
      "learning_rate": 0.00021291213326997998,
      "loss": 0.5165,
      "num_input_tokens_seen": 18092600,
      "step": 27675
    },
    {
      "epoch": 14.50733752620545,
      "grad_norm": 0.1810758411884308,
      "learning_rate": 0.00021272493098539296,
      "loss": 0.5848,
      "num_input_tokens_seen": 18096056,
      "step": 27680
    },
    {
      "epoch": 14.509958071278826,
      "grad_norm": 0.08052660524845123,
      "learning_rate": 0.0002125377887954732,
      "loss": 0.4715,
      "num_input_tokens_seen": 18099192,
      "step": 27685
    },
    {
      "epoch": 14.5125786163522,
      "grad_norm": 0.05519555136561394,
      "learning_rate": 0.00021235070673936824,
      "loss": 0.4808,
      "num_input_tokens_seen": 18106744,
      "step": 27690
    },
    {
      "epoch": 14.515199161425576,
      "grad_norm": 0.1411474198102951,
      "learning_rate": 0.00021216368485621394,
      "loss": 0.4212,
      "num_input_tokens_seen": 18109592,
      "step": 27695
    },
    {
      "epoch": 14.517819706498951,
      "grad_norm": 0.20636749267578125,
      "learning_rate": 0.00021197672318513282,
      "loss": 0.4314,
      "num_input_tokens_seen": 18112632,
      "step": 27700
    },
    {
      "epoch": 14.520440251572326,
      "grad_norm": 0.14088217914104462,
      "learning_rate": 0.00021178982176523525,
      "loss": 0.4706,
      "num_input_tokens_seen": 18116824,
      "step": 27705
    },
    {
      "epoch": 14.523060796645701,
      "grad_norm": 0.2070697396993637,
      "learning_rate": 0.0002116029806356189,
      "loss": 0.5602,
      "num_input_tokens_seen": 18120504,
      "step": 27710
    },
    {
      "epoch": 14.525681341719078,
      "grad_norm": 0.2335069179534912,
      "learning_rate": 0.00021141619983536893,
      "loss": 0.34,
      "num_input_tokens_seen": 18123768,
      "step": 27715
    },
    {
      "epoch": 14.528301886792454,
      "grad_norm": 0.17401710152626038,
      "learning_rate": 0.00021122947940355747,
      "loss": 0.3719,
      "num_input_tokens_seen": 18126584,
      "step": 27720
    },
    {
      "epoch": 14.530922431865829,
      "grad_norm": 0.10213977098464966,
      "learning_rate": 0.00021104281937924462,
      "loss": 0.3724,
      "num_input_tokens_seen": 18131480,
      "step": 27725
    },
    {
      "epoch": 14.533542976939204,
      "grad_norm": 0.12901842594146729,
      "learning_rate": 0.00021085621980147716,
      "loss": 0.5499,
      "num_input_tokens_seen": 18135224,
      "step": 27730
    },
    {
      "epoch": 14.536163522012579,
      "grad_norm": 0.211541086435318,
      "learning_rate": 0.00021066968070928982,
      "loss": 0.3402,
      "num_input_tokens_seen": 18138232,
      "step": 27735
    },
    {
      "epoch": 14.538784067085954,
      "grad_norm": 0.11246582865715027,
      "learning_rate": 0.00021048320214170463,
      "loss": 0.5203,
      "num_input_tokens_seen": 18142040,
      "step": 27740
    },
    {
      "epoch": 14.54140461215933,
      "grad_norm": 0.12102068215608597,
      "learning_rate": 0.00021029678413773034,
      "loss": 0.4166,
      "num_input_tokens_seen": 18144888,
      "step": 27745
    },
    {
      "epoch": 14.544025157232705,
      "grad_norm": 0.22182175517082214,
      "learning_rate": 0.0002101104267363639,
      "loss": 0.4907,
      "num_input_tokens_seen": 18147672,
      "step": 27750
    },
    {
      "epoch": 14.54664570230608,
      "grad_norm": 0.13523156940937042,
      "learning_rate": 0.00020992412997658877,
      "loss": 0.2765,
      "num_input_tokens_seen": 18150808,
      "step": 27755
    },
    {
      "epoch": 14.549266247379455,
      "grad_norm": 0.09844452887773514,
      "learning_rate": 0.0002097378938973763,
      "loss": 0.3902,
      "num_input_tokens_seen": 18153400,
      "step": 27760
    },
    {
      "epoch": 14.55188679245283,
      "grad_norm": 0.10624254494905472,
      "learning_rate": 0.0002095517185376849,
      "loss": 0.3396,
      "num_input_tokens_seen": 18157432,
      "step": 27765
    },
    {
      "epoch": 14.554507337526205,
      "grad_norm": 0.16011115908622742,
      "learning_rate": 0.0002093656039364606,
      "loss": 0.5524,
      "num_input_tokens_seen": 18160472,
      "step": 27770
    },
    {
      "epoch": 14.55712788259958,
      "grad_norm": 0.14480175077915192,
      "learning_rate": 0.00020917955013263618,
      "loss": 0.4175,
      "num_input_tokens_seen": 18163608,
      "step": 27775
    },
    {
      "epoch": 14.559748427672956,
      "grad_norm": 0.12316247075796127,
      "learning_rate": 0.00020899355716513186,
      "loss": 0.3946,
      "num_input_tokens_seen": 18167736,
      "step": 27780
    },
    {
      "epoch": 14.56236897274633,
      "grad_norm": 0.20162434875965118,
      "learning_rate": 0.00020880762507285544,
      "loss": 0.3666,
      "num_input_tokens_seen": 18171160,
      "step": 27785
    },
    {
      "epoch": 14.564989517819706,
      "grad_norm": 0.11330581456422806,
      "learning_rate": 0.00020862175389470172,
      "loss": 0.5365,
      "num_input_tokens_seen": 18174168,
      "step": 27790
    },
    {
      "epoch": 14.567610062893081,
      "grad_norm": 0.09533191472291946,
      "learning_rate": 0.00020843594366955288,
      "loss": 0.5691,
      "num_input_tokens_seen": 18177080,
      "step": 27795
    },
    {
      "epoch": 14.570230607966456,
      "grad_norm": 0.08297531306743622,
      "learning_rate": 0.0002082501944362784,
      "loss": 0.4618,
      "num_input_tokens_seen": 18181976,
      "step": 27800
    },
    {
      "epoch": 14.572851153039831,
      "grad_norm": 0.10226690024137497,
      "learning_rate": 0.00020806450623373486,
      "loss": 0.4744,
      "num_input_tokens_seen": 18186168,
      "step": 27805
    },
    {
      "epoch": 14.575471698113208,
      "grad_norm": 0.147009938955307,
      "learning_rate": 0.00020787887910076586,
      "loss": 0.3789,
      "num_input_tokens_seen": 18189656,
      "step": 27810
    },
    {
      "epoch": 14.578092243186584,
      "grad_norm": 0.18925118446350098,
      "learning_rate": 0.00020769331307620258,
      "loss": 0.3322,
      "num_input_tokens_seen": 18191768,
      "step": 27815
    },
    {
      "epoch": 14.580712788259959,
      "grad_norm": 0.07649271190166473,
      "learning_rate": 0.0002075078081988635,
      "loss": 0.362,
      "num_input_tokens_seen": 18194296,
      "step": 27820
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.17118431627750397,
      "learning_rate": 0.00020732236450755415,
      "loss": 0.4772,
      "num_input_tokens_seen": 18197528,
      "step": 27825
    },
    {
      "epoch": 14.585953878406709,
      "grad_norm": 0.11512596160173416,
      "learning_rate": 0.00020713698204106708,
      "loss": 0.3108,
      "num_input_tokens_seen": 18200600,
      "step": 27830
    },
    {
      "epoch": 14.588574423480084,
      "grad_norm": 0.1813942939043045,
      "learning_rate": 0.00020695166083818206,
      "loss": 0.463,
      "num_input_tokens_seen": 18203864,
      "step": 27835
    },
    {
      "epoch": 14.59119496855346,
      "grad_norm": 0.14571252465248108,
      "learning_rate": 0.0002067664009376663,
      "loss": 0.4548,
      "num_input_tokens_seen": 18207192,
      "step": 27840
    },
    {
      "epoch": 14.593815513626835,
      "grad_norm": 0.10680894553661346,
      "learning_rate": 0.0002065812023782741,
      "loss": 0.4425,
      "num_input_tokens_seen": 18211352,
      "step": 27845
    },
    {
      "epoch": 14.59643605870021,
      "grad_norm": 0.15802070498466492,
      "learning_rate": 0.00020639606519874703,
      "loss": 0.4208,
      "num_input_tokens_seen": 18214200,
      "step": 27850
    },
    {
      "epoch": 14.599056603773585,
      "grad_norm": 0.13254931569099426,
      "learning_rate": 0.00020621098943781352,
      "loss": 0.3839,
      "num_input_tokens_seen": 18216920,
      "step": 27855
    },
    {
      "epoch": 14.60167714884696,
      "grad_norm": 0.21975407004356384,
      "learning_rate": 0.0002060259751341891,
      "loss": 0.5404,
      "num_input_tokens_seen": 18220184,
      "step": 27860
    },
    {
      "epoch": 14.604297693920335,
      "grad_norm": 0.09630629420280457,
      "learning_rate": 0.00020584102232657688,
      "loss": 0.3374,
      "num_input_tokens_seen": 18224280,
      "step": 27865
    },
    {
      "epoch": 14.60691823899371,
      "grad_norm": 0.17348164319992065,
      "learning_rate": 0.0002056561310536668,
      "loss": 0.3516,
      "num_input_tokens_seen": 18226744,
      "step": 27870
    },
    {
      "epoch": 14.609538784067086,
      "grad_norm": 0.12718161940574646,
      "learning_rate": 0.0002054713013541361,
      "loss": 0.509,
      "num_input_tokens_seen": 18230232,
      "step": 27875
    },
    {
      "epoch": 14.61215932914046,
      "grad_norm": 0.11501476913690567,
      "learning_rate": 0.00020528653326664915,
      "loss": 0.4329,
      "num_input_tokens_seen": 18234040,
      "step": 27880
    },
    {
      "epoch": 14.614779874213836,
      "grad_norm": 0.13245916366577148,
      "learning_rate": 0.00020510182682985717,
      "loss": 0.1987,
      "num_input_tokens_seen": 18236632,
      "step": 27885
    },
    {
      "epoch": 14.617400419287211,
      "grad_norm": 0.13613863289356232,
      "learning_rate": 0.00020491718208239847,
      "loss": 0.4055,
      "num_input_tokens_seen": 18239640,
      "step": 27890
    },
    {
      "epoch": 14.620020964360586,
      "grad_norm": 0.11237449944019318,
      "learning_rate": 0.00020473259906289877,
      "loss": 0.4354,
      "num_input_tokens_seen": 18242648,
      "step": 27895
    },
    {
      "epoch": 14.622641509433961,
      "grad_norm": 0.11560150980949402,
      "learning_rate": 0.00020454807780997077,
      "loss": 0.3924,
      "num_input_tokens_seen": 18246584,
      "step": 27900
    },
    {
      "epoch": 14.625262054507338,
      "grad_norm": 0.205221027135849,
      "learning_rate": 0.0002043636183622144,
      "loss": 0.5309,
      "num_input_tokens_seen": 18249400,
      "step": 27905
    },
    {
      "epoch": 14.627882599580714,
      "grad_norm": 0.1173519492149353,
      "learning_rate": 0.00020417922075821626,
      "loss": 0.5519,
      "num_input_tokens_seen": 18252952,
      "step": 27910
    },
    {
      "epoch": 14.630503144654089,
      "grad_norm": 0.09613403677940369,
      "learning_rate": 0.00020399488503655005,
      "loss": 0.5025,
      "num_input_tokens_seen": 18257176,
      "step": 27915
    },
    {
      "epoch": 14.633123689727464,
      "grad_norm": 0.09840984642505646,
      "learning_rate": 0.00020381061123577688,
      "loss": 0.422,
      "num_input_tokens_seen": 18260280,
      "step": 27920
    },
    {
      "epoch": 14.635744234800839,
      "grad_norm": 0.132644921541214,
      "learning_rate": 0.00020362639939444473,
      "loss": 0.4398,
      "num_input_tokens_seen": 18263480,
      "step": 27925
    },
    {
      "epoch": 14.638364779874214,
      "grad_norm": 0.14928169548511505,
      "learning_rate": 0.0002034422495510888,
      "loss": 0.3119,
      "num_input_tokens_seen": 18267128,
      "step": 27930
    },
    {
      "epoch": 14.64098532494759,
      "grad_norm": 0.1018650159239769,
      "learning_rate": 0.00020325816174423077,
      "loss": 0.5214,
      "num_input_tokens_seen": 18270968,
      "step": 27935
    },
    {
      "epoch": 14.643605870020965,
      "grad_norm": 0.1357564777135849,
      "learning_rate": 0.00020307413601238012,
      "loss": 0.4691,
      "num_input_tokens_seen": 18273720,
      "step": 27940
    },
    {
      "epoch": 14.64622641509434,
      "grad_norm": 0.1406550109386444,
      "learning_rate": 0.00020289017239403246,
      "loss": 0.4081,
      "num_input_tokens_seen": 18276920,
      "step": 27945
    },
    {
      "epoch": 14.648846960167715,
      "grad_norm": 0.10706418752670288,
      "learning_rate": 0.0002027062709276712,
      "loss": 0.5628,
      "num_input_tokens_seen": 18280952,
      "step": 27950
    },
    {
      "epoch": 14.65146750524109,
      "grad_norm": 0.13442012667655945,
      "learning_rate": 0.00020252243165176632,
      "loss": 0.61,
      "num_input_tokens_seen": 18284120,
      "step": 27955
    },
    {
      "epoch": 14.654088050314465,
      "grad_norm": 0.12328661978244781,
      "learning_rate": 0.00020233865460477508,
      "loss": 0.4883,
      "num_input_tokens_seen": 18288120,
      "step": 27960
    },
    {
      "epoch": 14.65670859538784,
      "grad_norm": 0.13397148251533508,
      "learning_rate": 0.00020215493982514128,
      "loss": 0.4535,
      "num_input_tokens_seen": 18291224,
      "step": 27965
    },
    {
      "epoch": 14.659329140461216,
      "grad_norm": 0.09835739433765411,
      "learning_rate": 0.00020197128735129622,
      "loss": 0.3332,
      "num_input_tokens_seen": 18294520,
      "step": 27970
    },
    {
      "epoch": 14.66194968553459,
      "grad_norm": 0.15943056344985962,
      "learning_rate": 0.0002017876972216575,
      "loss": 0.3447,
      "num_input_tokens_seen": 18298296,
      "step": 27975
    },
    {
      "epoch": 14.664570230607966,
      "grad_norm": 0.13182419538497925,
      "learning_rate": 0.00020160416947463046,
      "loss": 0.4344,
      "num_input_tokens_seen": 18301016,
      "step": 27980
    },
    {
      "epoch": 14.667190775681341,
      "grad_norm": 0.09658799320459366,
      "learning_rate": 0.00020142070414860702,
      "loss": 0.44,
      "num_input_tokens_seen": 18304728,
      "step": 27985
    },
    {
      "epoch": 14.669811320754716,
      "grad_norm": 0.1353376805782318,
      "learning_rate": 0.0002012373012819657,
      "loss": 0.4718,
      "num_input_tokens_seen": 18307736,
      "step": 27990
    },
    {
      "epoch": 14.672431865828091,
      "grad_norm": 0.10491807013750076,
      "learning_rate": 0.00020105396091307247,
      "loss": 0.37,
      "num_input_tokens_seen": 18310744,
      "step": 27995
    },
    {
      "epoch": 14.675052410901468,
      "grad_norm": 0.2684951722621918,
      "learning_rate": 0.0002008706830802803,
      "loss": 0.4825,
      "num_input_tokens_seen": 18313336,
      "step": 28000
    },
    {
      "epoch": 14.677672955974844,
      "grad_norm": 0.20512071251869202,
      "learning_rate": 0.00020068746782192837,
      "loss": 0.5306,
      "num_input_tokens_seen": 18316120,
      "step": 28005
    },
    {
      "epoch": 14.680293501048219,
      "grad_norm": 0.09861105680465698,
      "learning_rate": 0.00020050431517634366,
      "loss": 0.4691,
      "num_input_tokens_seen": 18319480,
      "step": 28010
    },
    {
      "epoch": 14.682914046121594,
      "grad_norm": 0.1255187839269638,
      "learning_rate": 0.00020032122518183915,
      "loss": 0.3219,
      "num_input_tokens_seen": 18323288,
      "step": 28015
    },
    {
      "epoch": 14.685534591194969,
      "grad_norm": 0.13338127732276917,
      "learning_rate": 0.00020013819787671538,
      "loss": 0.3901,
      "num_input_tokens_seen": 18325752,
      "step": 28020
    },
    {
      "epoch": 14.688155136268344,
      "grad_norm": 0.10725836455821991,
      "learning_rate": 0.00019995523329925985,
      "loss": 0.3733,
      "num_input_tokens_seen": 18330424,
      "step": 28025
    },
    {
      "epoch": 14.69077568134172,
      "grad_norm": 0.1969892978668213,
      "learning_rate": 0.00019977233148774627,
      "loss": 0.415,
      "num_input_tokens_seen": 18333336,
      "step": 28030
    },
    {
      "epoch": 14.693396226415095,
      "grad_norm": 0.1292296051979065,
      "learning_rate": 0.00019958949248043573,
      "loss": 0.3946,
      "num_input_tokens_seen": 18336760,
      "step": 28035
    },
    {
      "epoch": 14.69601677148847,
      "grad_norm": 0.347491592168808,
      "learning_rate": 0.00019940671631557628,
      "loss": 0.3966,
      "num_input_tokens_seen": 18339288,
      "step": 28040
    },
    {
      "epoch": 14.698637316561845,
      "grad_norm": 0.10694840550422668,
      "learning_rate": 0.0001992240030314022,
      "loss": 0.563,
      "num_input_tokens_seen": 18343064,
      "step": 28045
    },
    {
      "epoch": 14.70125786163522,
      "grad_norm": 0.13008558750152588,
      "learning_rate": 0.00019904135266613532,
      "loss": 0.4533,
      "num_input_tokens_seen": 18346584,
      "step": 28050
    },
    {
      "epoch": 14.703878406708595,
      "grad_norm": 0.1746038943529129,
      "learning_rate": 0.00019885876525798407,
      "loss": 0.3496,
      "num_input_tokens_seen": 18349752,
      "step": 28055
    },
    {
      "epoch": 14.70649895178197,
      "grad_norm": 0.2375251054763794,
      "learning_rate": 0.0001986762408451434,
      "loss": 0.3589,
      "num_input_tokens_seen": 18352632,
      "step": 28060
    },
    {
      "epoch": 14.709119496855346,
      "grad_norm": 0.1368187516927719,
      "learning_rate": 0.00019849377946579562,
      "loss": 0.4533,
      "num_input_tokens_seen": 18356280,
      "step": 28065
    },
    {
      "epoch": 14.71174004192872,
      "grad_norm": 0.12005575746297836,
      "learning_rate": 0.00019831138115810926,
      "loss": 0.3488,
      "num_input_tokens_seen": 18359512,
      "step": 28070
    },
    {
      "epoch": 14.714360587002096,
      "grad_norm": 0.22227871417999268,
      "learning_rate": 0.00019812904596024005,
      "loss": 0.4969,
      "num_input_tokens_seen": 18362072,
      "step": 28075
    },
    {
      "epoch": 14.716981132075471,
      "grad_norm": 0.1496330052614212,
      "learning_rate": 0.00019794677391033055,
      "loss": 0.4612,
      "num_input_tokens_seen": 18365400,
      "step": 28080
    },
    {
      "epoch": 14.719601677148846,
      "grad_norm": 0.08348765224218369,
      "learning_rate": 0.00019776456504651014,
      "loss": 0.4481,
      "num_input_tokens_seen": 18369176,
      "step": 28085
    },
    {
      "epoch": 14.722222222222221,
      "grad_norm": 0.2050401121377945,
      "learning_rate": 0.0001975824194068946,
      "loss": 0.3393,
      "num_input_tokens_seen": 18372472,
      "step": 28090
    },
    {
      "epoch": 14.724842767295598,
      "grad_norm": 0.13086210191249847,
      "learning_rate": 0.00019740033702958653,
      "loss": 0.4486,
      "num_input_tokens_seen": 18375608,
      "step": 28095
    },
    {
      "epoch": 14.727463312368974,
      "grad_norm": 0.162398099899292,
      "learning_rate": 0.0001972183179526758,
      "loss": 0.5237,
      "num_input_tokens_seen": 18378424,
      "step": 28100
    },
    {
      "epoch": 14.730083857442349,
      "grad_norm": 0.13353459537029266,
      "learning_rate": 0.0001970363622142386,
      "loss": 0.5369,
      "num_input_tokens_seen": 18383544,
      "step": 28105
    },
    {
      "epoch": 14.732704402515724,
      "grad_norm": 0.1300240159034729,
      "learning_rate": 0.00019685446985233824,
      "loss": 0.4812,
      "num_input_tokens_seen": 18386488,
      "step": 28110
    },
    {
      "epoch": 14.735324947589099,
      "grad_norm": 0.09376552700996399,
      "learning_rate": 0.00019667264090502412,
      "loss": 0.3055,
      "num_input_tokens_seen": 18389272,
      "step": 28115
    },
    {
      "epoch": 14.737945492662474,
      "grad_norm": 0.15449409186840057,
      "learning_rate": 0.0001964908754103331,
      "loss": 0.3862,
      "num_input_tokens_seen": 18393240,
      "step": 28120
    },
    {
      "epoch": 14.74056603773585,
      "grad_norm": 0.1924377679824829,
      "learning_rate": 0.00019630917340628822,
      "loss": 0.4443,
      "num_input_tokens_seen": 18396504,
      "step": 28125
    },
    {
      "epoch": 14.743186582809225,
      "grad_norm": 0.22916103899478912,
      "learning_rate": 0.00019612753493089959,
      "loss": 0.3579,
      "num_input_tokens_seen": 18399096,
      "step": 28130
    },
    {
      "epoch": 14.7458071278826,
      "grad_norm": 0.16388143599033356,
      "learning_rate": 0.00019594596002216387,
      "loss": 0.4494,
      "num_input_tokens_seen": 18402936,
      "step": 28135
    },
    {
      "epoch": 14.748427672955975,
      "grad_norm": 0.18709279596805573,
      "learning_rate": 0.00019576444871806465,
      "loss": 0.4232,
      "num_input_tokens_seen": 18406008,
      "step": 28140
    },
    {
      "epoch": 14.75104821802935,
      "grad_norm": 0.09581387042999268,
      "learning_rate": 0.0001955830010565719,
      "loss": 0.4842,
      "num_input_tokens_seen": 18409752,
      "step": 28145
    },
    {
      "epoch": 14.753668763102725,
      "grad_norm": 0.24257062375545502,
      "learning_rate": 0.00019540161707564213,
      "loss": 0.3669,
      "num_input_tokens_seen": 18412408,
      "step": 28150
    },
    {
      "epoch": 14.7562893081761,
      "grad_norm": 0.24290794134140015,
      "learning_rate": 0.000195220296813219,
      "loss": 0.5983,
      "num_input_tokens_seen": 18415672,
      "step": 28155
    },
    {
      "epoch": 14.758909853249476,
      "grad_norm": 0.11184640228748322,
      "learning_rate": 0.00019503904030723274,
      "loss": 0.5634,
      "num_input_tokens_seen": 18418904,
      "step": 28160
    },
    {
      "epoch": 14.76153039832285,
      "grad_norm": 0.12330008298158646,
      "learning_rate": 0.00019485784759560004,
      "loss": 0.3993,
      "num_input_tokens_seen": 18421816,
      "step": 28165
    },
    {
      "epoch": 14.764150943396226,
      "grad_norm": 0.12420620024204254,
      "learning_rate": 0.0001946767187162247,
      "loss": 0.6427,
      "num_input_tokens_seen": 18424696,
      "step": 28170
    },
    {
      "epoch": 14.766771488469601,
      "grad_norm": 0.2230578511953354,
      "learning_rate": 0.00019449565370699618,
      "loss": 0.4123,
      "num_input_tokens_seen": 18427864,
      "step": 28175
    },
    {
      "epoch": 14.769392033542976,
      "grad_norm": 0.20061001181602478,
      "learning_rate": 0.00019431465260579152,
      "loss": 0.594,
      "num_input_tokens_seen": 18430872,
      "step": 28180
    },
    {
      "epoch": 14.772012578616351,
      "grad_norm": 0.2287467122077942,
      "learning_rate": 0.00019413371545047404,
      "loss": 0.399,
      "num_input_tokens_seen": 18433400,
      "step": 28185
    },
    {
      "epoch": 14.774633123689728,
      "grad_norm": 0.13504861295223236,
      "learning_rate": 0.00019395284227889382,
      "loss": 0.5224,
      "num_input_tokens_seen": 18436536,
      "step": 28190
    },
    {
      "epoch": 14.777253668763104,
      "grad_norm": 0.08566537499427795,
      "learning_rate": 0.00019377203312888764,
      "loss": 0.3462,
      "num_input_tokens_seen": 18439896,
      "step": 28195
    },
    {
      "epoch": 14.779874213836479,
      "grad_norm": 0.10560204088687897,
      "learning_rate": 0.0001935912880382784,
      "loss": 0.4,
      "num_input_tokens_seen": 18445112,
      "step": 28200
    },
    {
      "epoch": 14.782494758909854,
      "grad_norm": 0.237108051776886,
      "learning_rate": 0.00019341060704487596,
      "loss": 0.3537,
      "num_input_tokens_seen": 18448056,
      "step": 28205
    },
    {
      "epoch": 14.785115303983229,
      "grad_norm": 0.2944784164428711,
      "learning_rate": 0.00019322999018647668,
      "loss": 0.3937,
      "num_input_tokens_seen": 18451320,
      "step": 28210
    },
    {
      "epoch": 14.787735849056604,
      "grad_norm": 0.1068592220544815,
      "learning_rate": 0.00019304943750086362,
      "loss": 0.3217,
      "num_input_tokens_seen": 18454168,
      "step": 28215
    },
    {
      "epoch": 14.79035639412998,
      "grad_norm": 0.12854143977165222,
      "learning_rate": 0.0001928689490258066,
      "loss": 0.4652,
      "num_input_tokens_seen": 18457144,
      "step": 28220
    },
    {
      "epoch": 14.792976939203355,
      "grad_norm": 0.11866942793130875,
      "learning_rate": 0.00019268852479906146,
      "loss": 0.4237,
      "num_input_tokens_seen": 18460088,
      "step": 28225
    },
    {
      "epoch": 14.79559748427673,
      "grad_norm": 0.2037779837846756,
      "learning_rate": 0.0001925081648583708,
      "loss": 0.5006,
      "num_input_tokens_seen": 18463800,
      "step": 28230
    },
    {
      "epoch": 14.798218029350105,
      "grad_norm": 0.10966048389673233,
      "learning_rate": 0.00019232786924146394,
      "loss": 0.5208,
      "num_input_tokens_seen": 18466744,
      "step": 28235
    },
    {
      "epoch": 14.80083857442348,
      "grad_norm": 0.2492489516735077,
      "learning_rate": 0.00019214763798605677,
      "loss": 0.583,
      "num_input_tokens_seen": 18469848,
      "step": 28240
    },
    {
      "epoch": 14.803459119496855,
      "grad_norm": 0.13492529094219208,
      "learning_rate": 0.00019196747112985158,
      "loss": 0.5199,
      "num_input_tokens_seen": 18473496,
      "step": 28245
    },
    {
      "epoch": 14.80607966457023,
      "grad_norm": 0.14241454005241394,
      "learning_rate": 0.00019178736871053737,
      "loss": 0.4424,
      "num_input_tokens_seen": 18477048,
      "step": 28250
    },
    {
      "epoch": 14.808700209643606,
      "grad_norm": 0.16857284307479858,
      "learning_rate": 0.00019160733076578935,
      "loss": 0.4625,
      "num_input_tokens_seen": 18479640,
      "step": 28255
    },
    {
      "epoch": 14.81132075471698,
      "grad_norm": 0.14116959273815155,
      "learning_rate": 0.0001914273573332692,
      "loss": 0.4901,
      "num_input_tokens_seen": 18482808,
      "step": 28260
    },
    {
      "epoch": 14.813941299790356,
      "grad_norm": 0.18686993420124054,
      "learning_rate": 0.00019124744845062553,
      "loss": 0.5155,
      "num_input_tokens_seen": 18485496,
      "step": 28265
    },
    {
      "epoch": 14.816561844863731,
      "grad_norm": 0.10435354709625244,
      "learning_rate": 0.00019106760415549324,
      "loss": 0.3767,
      "num_input_tokens_seen": 18488568,
      "step": 28270
    },
    {
      "epoch": 14.819182389937106,
      "grad_norm": 0.12968239188194275,
      "learning_rate": 0.0001908878244854938,
      "loss": 0.4289,
      "num_input_tokens_seen": 18491256,
      "step": 28275
    },
    {
      "epoch": 14.821802935010481,
      "grad_norm": 0.17400908470153809,
      "learning_rate": 0.00019070810947823498,
      "loss": 0.3897,
      "num_input_tokens_seen": 18494424,
      "step": 28280
    },
    {
      "epoch": 14.824423480083858,
      "grad_norm": 0.1029086783528328,
      "learning_rate": 0.0001905284591713109,
      "loss": 0.4485,
      "num_input_tokens_seen": 18497496,
      "step": 28285
    },
    {
      "epoch": 14.827044025157234,
      "grad_norm": 0.15975619852542877,
      "learning_rate": 0.00019034887360230246,
      "loss": 0.4213,
      "num_input_tokens_seen": 18501304,
      "step": 28290
    },
    {
      "epoch": 14.829664570230609,
      "grad_norm": 0.2141622006893158,
      "learning_rate": 0.000190169352808777,
      "loss": 0.4505,
      "num_input_tokens_seen": 18505048,
      "step": 28295
    },
    {
      "epoch": 14.832285115303984,
      "grad_norm": 0.1375766396522522,
      "learning_rate": 0.00018998989682828844,
      "loss": 0.4552,
      "num_input_tokens_seen": 18508216,
      "step": 28300
    },
    {
      "epoch": 14.834905660377359,
      "grad_norm": 0.09581076353788376,
      "learning_rate": 0.00018981050569837643,
      "loss": 0.437,
      "num_input_tokens_seen": 18511192,
      "step": 28305
    },
    {
      "epoch": 14.837526205450734,
      "grad_norm": 0.21335910260677338,
      "learning_rate": 0.000189631179456568,
      "loss": 0.4166,
      "num_input_tokens_seen": 18514296,
      "step": 28310
    },
    {
      "epoch": 14.84014675052411,
      "grad_norm": 0.10607288777828217,
      "learning_rate": 0.00018945191814037578,
      "loss": 0.5849,
      "num_input_tokens_seen": 18517560,
      "step": 28315
    },
    {
      "epoch": 14.842767295597485,
      "grad_norm": 0.1934627890586853,
      "learning_rate": 0.00018927272178729938,
      "loss": 0.4809,
      "num_input_tokens_seen": 18520888,
      "step": 28320
    },
    {
      "epoch": 14.84538784067086,
      "grad_norm": 0.12624764442443848,
      "learning_rate": 0.00018909359043482477,
      "loss": 0.4664,
      "num_input_tokens_seen": 18525016,
      "step": 28325
    },
    {
      "epoch": 14.848008385744235,
      "grad_norm": 0.10299497097730637,
      "learning_rate": 0.00018891452412042386,
      "loss": 0.5249,
      "num_input_tokens_seen": 18529112,
      "step": 28330
    },
    {
      "epoch": 14.85062893081761,
      "grad_norm": 0.06834617257118225,
      "learning_rate": 0.00018873552288155542,
      "loss": 0.4479,
      "num_input_tokens_seen": 18532344,
      "step": 28335
    },
    {
      "epoch": 14.853249475890985,
      "grad_norm": 0.12282443046569824,
      "learning_rate": 0.00018855658675566471,
      "loss": 0.4286,
      "num_input_tokens_seen": 18535608,
      "step": 28340
    },
    {
      "epoch": 14.85587002096436,
      "grad_norm": 0.20428451895713806,
      "learning_rate": 0.00018837771578018275,
      "loss": 0.4219,
      "num_input_tokens_seen": 18538200,
      "step": 28345
    },
    {
      "epoch": 14.858490566037736,
      "grad_norm": 0.18261907994747162,
      "learning_rate": 0.00018819890999252747,
      "loss": 0.3005,
      "num_input_tokens_seen": 18540600,
      "step": 28350
    },
    {
      "epoch": 14.86111111111111,
      "grad_norm": 0.15161633491516113,
      "learning_rate": 0.0001880201694301032,
      "loss": 0.4155,
      "num_input_tokens_seen": 18543192,
      "step": 28355
    },
    {
      "epoch": 14.863731656184486,
      "grad_norm": 0.2157551646232605,
      "learning_rate": 0.00018784149413030005,
      "loss": 0.4387,
      "num_input_tokens_seen": 18546488,
      "step": 28360
    },
    {
      "epoch": 14.866352201257861,
      "grad_norm": 0.1553848832845688,
      "learning_rate": 0.00018766288413049503,
      "loss": 0.4836,
      "num_input_tokens_seen": 18549752,
      "step": 28365
    },
    {
      "epoch": 14.868972746331236,
      "grad_norm": 0.19935522973537445,
      "learning_rate": 0.00018748433946805148,
      "loss": 0.4159,
      "num_input_tokens_seen": 18552696,
      "step": 28370
    },
    {
      "epoch": 14.871593291404611,
      "grad_norm": 0.18318335711956024,
      "learning_rate": 0.00018730586018031854,
      "loss": 0.4885,
      "num_input_tokens_seen": 18555416,
      "step": 28375
    },
    {
      "epoch": 14.874213836477988,
      "grad_norm": 0.1405477374792099,
      "learning_rate": 0.00018712744630463248,
      "loss": 0.6291,
      "num_input_tokens_seen": 18558712,
      "step": 28380
    },
    {
      "epoch": 14.876834381551364,
      "grad_norm": 0.10779721289873123,
      "learning_rate": 0.000186949097878315,
      "loss": 0.4068,
      "num_input_tokens_seen": 18562072,
      "step": 28385
    },
    {
      "epoch": 14.879454926624739,
      "grad_norm": 0.1374182403087616,
      "learning_rate": 0.0001867708149386748,
      "loss": 0.5066,
      "num_input_tokens_seen": 18565208,
      "step": 28390
    },
    {
      "epoch": 14.882075471698114,
      "grad_norm": 0.14421023428440094,
      "learning_rate": 0.0001865925975230068,
      "loss": 0.474,
      "num_input_tokens_seen": 18568568,
      "step": 28395
    },
    {
      "epoch": 14.884696016771489,
      "grad_norm": 0.17734014987945557,
      "learning_rate": 0.0001864144456685916,
      "loss": 0.3826,
      "num_input_tokens_seen": 18571384,
      "step": 28400
    },
    {
      "epoch": 14.887316561844864,
      "grad_norm": 0.1549159735441208,
      "learning_rate": 0.00018623635941269706,
      "loss": 0.3076,
      "num_input_tokens_seen": 18574680,
      "step": 28405
    },
    {
      "epoch": 14.88993710691824,
      "grad_norm": 0.1442069262266159,
      "learning_rate": 0.00018605833879257628,
      "loss": 0.3586,
      "num_input_tokens_seen": 18577464,
      "step": 28410
    },
    {
      "epoch": 14.892557651991615,
      "grad_norm": 0.10784169286489487,
      "learning_rate": 0.0001858803838454694,
      "loss": 0.3557,
      "num_input_tokens_seen": 18580024,
      "step": 28415
    },
    {
      "epoch": 14.89517819706499,
      "grad_norm": 0.20909294486045837,
      "learning_rate": 0.0001857024946086026,
      "loss": 0.4116,
      "num_input_tokens_seen": 18582840,
      "step": 28420
    },
    {
      "epoch": 14.897798742138365,
      "grad_norm": 0.15460039675235748,
      "learning_rate": 0.00018552467111918836,
      "loss": 0.608,
      "num_input_tokens_seen": 18585880,
      "step": 28425
    },
    {
      "epoch": 14.90041928721174,
      "grad_norm": 0.13344235718250275,
      "learning_rate": 0.00018534691341442507,
      "loss": 0.4326,
      "num_input_tokens_seen": 18588920,
      "step": 28430
    },
    {
      "epoch": 14.903039832285115,
      "grad_norm": 0.19304561614990234,
      "learning_rate": 0.0001851692215314979,
      "loss": 0.3763,
      "num_input_tokens_seen": 18591736,
      "step": 28435
    },
    {
      "epoch": 14.90566037735849,
      "grad_norm": 0.22201396524906158,
      "learning_rate": 0.0001849915955075776,
      "loss": 0.5132,
      "num_input_tokens_seen": 18594392,
      "step": 28440
    },
    {
      "epoch": 14.908280922431866,
      "grad_norm": 0.084388867020607,
      "learning_rate": 0.0001848140353798217,
      "loss": 0.4957,
      "num_input_tokens_seen": 18598424,
      "step": 28445
    },
    {
      "epoch": 14.91090146750524,
      "grad_norm": 0.16025999188423157,
      "learning_rate": 0.00018463654118537382,
      "loss": 0.3977,
      "num_input_tokens_seen": 18601976,
      "step": 28450
    },
    {
      "epoch": 14.913522012578616,
      "grad_norm": 0.4084363579750061,
      "learning_rate": 0.00018445911296136386,
      "loss": 0.558,
      "num_input_tokens_seen": 18604568,
      "step": 28455
    },
    {
      "epoch": 14.916142557651991,
      "grad_norm": 0.14817692339420319,
      "learning_rate": 0.00018428175074490754,
      "loss": 0.3656,
      "num_input_tokens_seen": 18607544,
      "step": 28460
    },
    {
      "epoch": 14.918763102725366,
      "grad_norm": 0.1273660510778427,
      "learning_rate": 0.00018410445457310687,
      "loss": 0.3774,
      "num_input_tokens_seen": 18611352,
      "step": 28465
    },
    {
      "epoch": 14.921383647798741,
      "grad_norm": 0.04380929097533226,
      "learning_rate": 0.00018392722448305044,
      "loss": 0.3353,
      "num_input_tokens_seen": 18616920,
      "step": 28470
    },
    {
      "epoch": 14.924004192872118,
      "grad_norm": 0.25847479701042175,
      "learning_rate": 0.00018375006051181265,
      "loss": 0.6306,
      "num_input_tokens_seen": 18619544,
      "step": 28475
    },
    {
      "epoch": 14.926624737945493,
      "grad_norm": 0.10823435336351395,
      "learning_rate": 0.0001835729626964544,
      "loss": 0.3533,
      "num_input_tokens_seen": 18622072,
      "step": 28480
    },
    {
      "epoch": 14.929245283018869,
      "grad_norm": 0.15187935531139374,
      "learning_rate": 0.00018339593107402242,
      "loss": 0.5772,
      "num_input_tokens_seen": 18624952,
      "step": 28485
    },
    {
      "epoch": 14.931865828092244,
      "grad_norm": 0.19026729464530945,
      "learning_rate": 0.00018321896568154945,
      "loss": 0.6113,
      "num_input_tokens_seen": 18627672,
      "step": 28490
    },
    {
      "epoch": 14.934486373165619,
      "grad_norm": 0.10574861615896225,
      "learning_rate": 0.00018304206655605476,
      "loss": 0.398,
      "num_input_tokens_seen": 18631160,
      "step": 28495
    },
    {
      "epoch": 14.937106918238994,
      "grad_norm": 0.16608837246894836,
      "learning_rate": 0.00018286523373454378,
      "loss": 0.4279,
      "num_input_tokens_seen": 18634168,
      "step": 28500
    },
    {
      "epoch": 14.93972746331237,
      "grad_norm": 0.17134584486484528,
      "learning_rate": 0.00018268846725400783,
      "loss": 0.3656,
      "num_input_tokens_seen": 18636984,
      "step": 28505
    },
    {
      "epoch": 14.942348008385745,
      "grad_norm": 0.11479664593935013,
      "learning_rate": 0.00018251176715142458,
      "loss": 0.4642,
      "num_input_tokens_seen": 18639864,
      "step": 28510
    },
    {
      "epoch": 14.94496855345912,
      "grad_norm": 0.16961584985256195,
      "learning_rate": 0.00018233513346375756,
      "loss": 0.3784,
      "num_input_tokens_seen": 18642264,
      "step": 28515
    },
    {
      "epoch": 14.947589098532495,
      "grad_norm": 0.08840952068567276,
      "learning_rate": 0.00018215856622795634,
      "loss": 0.496,
      "num_input_tokens_seen": 18646072,
      "step": 28520
    },
    {
      "epoch": 14.95020964360587,
      "grad_norm": 0.19354920089244843,
      "learning_rate": 0.00018198206548095697,
      "loss": 0.3405,
      "num_input_tokens_seen": 18648696,
      "step": 28525
    },
    {
      "epoch": 14.952830188679245,
      "grad_norm": 0.1086447462439537,
      "learning_rate": 0.00018180563125968135,
      "loss": 0.3916,
      "num_input_tokens_seen": 18651608,
      "step": 28530
    },
    {
      "epoch": 14.95545073375262,
      "grad_norm": 0.1892302930355072,
      "learning_rate": 0.00018162926360103766,
      "loss": 0.4343,
      "num_input_tokens_seen": 18655064,
      "step": 28535
    },
    {
      "epoch": 14.958071278825996,
      "grad_norm": 0.1427321881055832,
      "learning_rate": 0.0001814529625419199,
      "loss": 0.3693,
      "num_input_tokens_seen": 18658040,
      "step": 28540
    },
    {
      "epoch": 14.96069182389937,
      "grad_norm": 0.19952239096164703,
      "learning_rate": 0.00018127672811920798,
      "loss": 0.4061,
      "num_input_tokens_seen": 18660472,
      "step": 28545
    },
    {
      "epoch": 14.963312368972746,
      "grad_norm": 0.10641109943389893,
      "learning_rate": 0.00018110056036976834,
      "loss": 0.4621,
      "num_input_tokens_seen": 18664216,
      "step": 28550
    },
    {
      "epoch": 14.965932914046121,
      "grad_norm": 0.10127205401659012,
      "learning_rate": 0.00018092445933045332,
      "loss": 0.339,
      "num_input_tokens_seen": 18667224,
      "step": 28555
    },
    {
      "epoch": 14.968553459119496,
      "grad_norm": 0.17735794186592102,
      "learning_rate": 0.00018074842503810118,
      "loss": 0.4098,
      "num_input_tokens_seen": 18670008,
      "step": 28560
    },
    {
      "epoch": 14.971174004192871,
      "grad_norm": 0.13590730726718903,
      "learning_rate": 0.00018057245752953666,
      "loss": 0.3933,
      "num_input_tokens_seen": 18672888,
      "step": 28565
    },
    {
      "epoch": 14.973794549266248,
      "grad_norm": 0.12785552442073822,
      "learning_rate": 0.00018039655684156948,
      "loss": 0.3769,
      "num_input_tokens_seen": 18676440,
      "step": 28570
    },
    {
      "epoch": 14.976415094339622,
      "grad_norm": 0.13924215734004974,
      "learning_rate": 0.00018022072301099635,
      "loss": 0.4908,
      "num_input_tokens_seen": 18679480,
      "step": 28575
    },
    {
      "epoch": 14.979035639412999,
      "grad_norm": 0.1974497139453888,
      "learning_rate": 0.00018004495607459975,
      "loss": 0.4478,
      "num_input_tokens_seen": 18683096,
      "step": 28580
    },
    {
      "epoch": 14.981656184486374,
      "grad_norm": 0.3780461549758911,
      "learning_rate": 0.00017986925606914805,
      "loss": 0.5384,
      "num_input_tokens_seen": 18685304,
      "step": 28585
    },
    {
      "epoch": 14.984276729559749,
      "grad_norm": 0.1774611473083496,
      "learning_rate": 0.00017969362303139598,
      "loss": 0.4952,
      "num_input_tokens_seen": 18687640,
      "step": 28590
    },
    {
      "epoch": 14.986897274633124,
      "grad_norm": 0.14103996753692627,
      "learning_rate": 0.00017951805699808365,
      "loss": 0.3483,
      "num_input_tokens_seen": 18691832,
      "step": 28595
    },
    {
      "epoch": 14.9895178197065,
      "grad_norm": 0.15111610293388367,
      "learning_rate": 0.00017934255800593747,
      "loss": 0.6097,
      "num_input_tokens_seen": 18694744,
      "step": 28600
    },
    {
      "epoch": 14.992138364779874,
      "grad_norm": 0.09794308245182037,
      "learning_rate": 0.0001791671260916698,
      "loss": 0.554,
      "num_input_tokens_seen": 18699096,
      "step": 28605
    },
    {
      "epoch": 14.99475890985325,
      "grad_norm": 0.1481846123933792,
      "learning_rate": 0.00017899176129197914,
      "loss": 0.5306,
      "num_input_tokens_seen": 18702168,
      "step": 28610
    },
    {
      "epoch": 14.997379454926625,
      "grad_norm": 0.1605534851551056,
      "learning_rate": 0.00017881646364354998,
      "loss": 0.4544,
      "num_input_tokens_seen": 18704920,
      "step": 28615
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.14916636049747467,
      "learning_rate": 0.00017864123318305213,
      "loss": 0.3651,
      "num_input_tokens_seen": 18706976,
      "step": 28620
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.4801882207393646,
      "eval_runtime": 13.6743,
      "eval_samples_per_second": 62.014,
      "eval_steps_per_second": 15.504,
      "num_input_tokens_seen": 18706976,
      "step": 28620
    },
    {
      "epoch": 15.002620545073375,
      "grad_norm": 0.1371796727180481,
      "learning_rate": 0.00017846606994714222,
      "loss": 0.3992,
      "num_input_tokens_seen": 18710720,
      "step": 28625
    },
    {
      "epoch": 15.00524109014675,
      "grad_norm": 0.12722715735435486,
      "learning_rate": 0.0001782909739724621,
      "loss": 0.4621,
      "num_input_tokens_seen": 18714528,
      "step": 28630
    },
    {
      "epoch": 15.007861635220126,
      "grad_norm": 0.1511552333831787,
      "learning_rate": 0.0001781159452956399,
      "loss": 0.3827,
      "num_input_tokens_seen": 18717120,
      "step": 28635
    },
    {
      "epoch": 15.0104821802935,
      "grad_norm": 0.12249162793159485,
      "learning_rate": 0.00017794098395328977,
      "loss": 0.449,
      "num_input_tokens_seen": 18719776,
      "step": 28640
    },
    {
      "epoch": 15.013102725366876,
      "grad_norm": 0.13092687726020813,
      "learning_rate": 0.00017776608998201172,
      "loss": 0.3992,
      "num_input_tokens_seen": 18722976,
      "step": 28645
    },
    {
      "epoch": 15.015723270440251,
      "grad_norm": 0.17375284433364868,
      "learning_rate": 0.00017759126341839132,
      "loss": 0.4996,
      "num_input_tokens_seen": 18726432,
      "step": 28650
    },
    {
      "epoch": 15.018343815513626,
      "grad_norm": 0.1373516023159027,
      "learning_rate": 0.0001774165042990003,
      "loss": 0.39,
      "num_input_tokens_seen": 18729440,
      "step": 28655
    },
    {
      "epoch": 15.020964360587001,
      "grad_norm": 0.147457093000412,
      "learning_rate": 0.00017724181266039635,
      "loss": 0.3742,
      "num_input_tokens_seen": 18732256,
      "step": 28660
    },
    {
      "epoch": 15.023584905660377,
      "grad_norm": 0.14270953834056854,
      "learning_rate": 0.00017706718853912292,
      "loss": 0.4585,
      "num_input_tokens_seen": 18736480,
      "step": 28665
    },
    {
      "epoch": 15.026205450733753,
      "grad_norm": 0.49858805537223816,
      "learning_rate": 0.00017689263197170964,
      "loss": 0.3952,
      "num_input_tokens_seen": 18739200,
      "step": 28670
    },
    {
      "epoch": 15.028825995807129,
      "grad_norm": 0.17068906128406525,
      "learning_rate": 0.00017671814299467136,
      "loss": 0.3207,
      "num_input_tokens_seen": 18741536,
      "step": 28675
    },
    {
      "epoch": 15.031446540880504,
      "grad_norm": 0.12040925770998001,
      "learning_rate": 0.00017654372164450954,
      "loss": 0.5653,
      "num_input_tokens_seen": 18744672,
      "step": 28680
    },
    {
      "epoch": 15.034067085953879,
      "grad_norm": 0.3561355173587799,
      "learning_rate": 0.0001763693679577108,
      "loss": 0.5443,
      "num_input_tokens_seen": 18747904,
      "step": 28685
    },
    {
      "epoch": 15.036687631027254,
      "grad_norm": 0.08750350773334503,
      "learning_rate": 0.00017619508197074812,
      "loss": 0.4253,
      "num_input_tokens_seen": 18752000,
      "step": 28690
    },
    {
      "epoch": 15.03930817610063,
      "grad_norm": 0.10710261017084122,
      "learning_rate": 0.0001760208637200803,
      "loss": 0.4396,
      "num_input_tokens_seen": 18755616,
      "step": 28695
    },
    {
      "epoch": 15.041928721174004,
      "grad_norm": 0.3212026059627533,
      "learning_rate": 0.00017584671324215152,
      "loss": 0.4862,
      "num_input_tokens_seen": 18758240,
      "step": 28700
    },
    {
      "epoch": 15.04454926624738,
      "grad_norm": 0.10460865497589111,
      "learning_rate": 0.00017567263057339212,
      "loss": 0.2849,
      "num_input_tokens_seen": 18762368,
      "step": 28705
    },
    {
      "epoch": 15.047169811320755,
      "grad_norm": 0.15666334331035614,
      "learning_rate": 0.00017549861575021848,
      "loss": 0.4288,
      "num_input_tokens_seen": 18765152,
      "step": 28710
    },
    {
      "epoch": 15.04979035639413,
      "grad_norm": 0.12478119879961014,
      "learning_rate": 0.00017532466880903214,
      "loss": 0.6133,
      "num_input_tokens_seen": 18768928,
      "step": 28715
    },
    {
      "epoch": 15.052410901467505,
      "grad_norm": 0.19207993149757385,
      "learning_rate": 0.00017515078978622102,
      "loss": 0.3326,
      "num_input_tokens_seen": 18771488,
      "step": 28720
    },
    {
      "epoch": 15.05503144654088,
      "grad_norm": 0.15537093579769135,
      "learning_rate": 0.0001749769787181587,
      "loss": 0.4996,
      "num_input_tokens_seen": 18774272,
      "step": 28725
    },
    {
      "epoch": 15.057651991614255,
      "grad_norm": 0.1641271710395813,
      "learning_rate": 0.00017480323564120426,
      "loss": 0.4876,
      "num_input_tokens_seen": 18776704,
      "step": 28730
    },
    {
      "epoch": 15.06027253668763,
      "grad_norm": 0.2004980593919754,
      "learning_rate": 0.00017462956059170287,
      "loss": 0.4557,
      "num_input_tokens_seen": 18779520,
      "step": 28735
    },
    {
      "epoch": 15.062893081761006,
      "grad_norm": 0.15934623777866364,
      "learning_rate": 0.00017445595360598553,
      "loss": 0.4053,
      "num_input_tokens_seen": 18782336,
      "step": 28740
    },
    {
      "epoch": 15.065513626834381,
      "grad_norm": 0.11633774638175964,
      "learning_rate": 0.0001742824147203686,
      "loss": 0.4806,
      "num_input_tokens_seen": 18785504,
      "step": 28745
    },
    {
      "epoch": 15.068134171907756,
      "grad_norm": 0.12437944859266281,
      "learning_rate": 0.00017410894397115463,
      "loss": 0.3032,
      "num_input_tokens_seen": 18788480,
      "step": 28750
    },
    {
      "epoch": 15.070754716981131,
      "grad_norm": 0.12259435653686523,
      "learning_rate": 0.00017393554139463147,
      "loss": 0.5003,
      "num_input_tokens_seen": 18794144,
      "step": 28755
    },
    {
      "epoch": 15.073375262054507,
      "grad_norm": 0.0961797907948494,
      "learning_rate": 0.00017376220702707308,
      "loss": 0.4221,
      "num_input_tokens_seen": 18797376,
      "step": 28760
    },
    {
      "epoch": 15.075995807127883,
      "grad_norm": 0.13369086384773254,
      "learning_rate": 0.00017358894090473926,
      "loss": 0.5031,
      "num_input_tokens_seen": 18800672,
      "step": 28765
    },
    {
      "epoch": 15.078616352201259,
      "grad_norm": 0.10162489116191864,
      "learning_rate": 0.00017341574306387492,
      "loss": 0.392,
      "num_input_tokens_seen": 18803648,
      "step": 28770
    },
    {
      "epoch": 15.081236897274634,
      "grad_norm": 0.22017645835876465,
      "learning_rate": 0.00017324261354071147,
      "loss": 0.4062,
      "num_input_tokens_seen": 18806144,
      "step": 28775
    },
    {
      "epoch": 15.083857442348009,
      "grad_norm": 0.11265350878238678,
      "learning_rate": 0.00017306955237146522,
      "loss": 0.4018,
      "num_input_tokens_seen": 18809152,
      "step": 28780
    },
    {
      "epoch": 15.086477987421384,
      "grad_norm": 0.25722628831863403,
      "learning_rate": 0.0001728965595923388,
      "loss": 0.4276,
      "num_input_tokens_seen": 18812192,
      "step": 28785
    },
    {
      "epoch": 15.08909853249476,
      "grad_norm": 0.18585754930973053,
      "learning_rate": 0.00017272363523952033,
      "loss": 0.4781,
      "num_input_tokens_seen": 18815168,
      "step": 28790
    },
    {
      "epoch": 15.091719077568134,
      "grad_norm": 0.18085338175296783,
      "learning_rate": 0.0001725507793491838,
      "loss": 0.3803,
      "num_input_tokens_seen": 18819072,
      "step": 28795
    },
    {
      "epoch": 15.09433962264151,
      "grad_norm": 0.2349613904953003,
      "learning_rate": 0.00017237799195748827,
      "loss": 0.5668,
      "num_input_tokens_seen": 18821728,
      "step": 28800
    },
    {
      "epoch": 15.096960167714885,
      "grad_norm": 0.12094612419605255,
      "learning_rate": 0.00017220527310057927,
      "loss": 0.475,
      "num_input_tokens_seen": 18824544,
      "step": 28805
    },
    {
      "epoch": 15.09958071278826,
      "grad_norm": 0.15317408740520477,
      "learning_rate": 0.0001720326228145873,
      "loss": 0.32,
      "num_input_tokens_seen": 18828032,
      "step": 28810
    },
    {
      "epoch": 15.102201257861635,
      "grad_norm": 0.18588922917842865,
      "learning_rate": 0.00017186004113562903,
      "loss": 0.4192,
      "num_input_tokens_seen": 18830688,
      "step": 28815
    },
    {
      "epoch": 15.10482180293501,
      "grad_norm": 0.1597009152173996,
      "learning_rate": 0.00017168752809980655,
      "loss": 0.3084,
      "num_input_tokens_seen": 18833664,
      "step": 28820
    },
    {
      "epoch": 15.107442348008385,
      "grad_norm": 0.09471364319324493,
      "learning_rate": 0.00017151508374320767,
      "loss": 0.3509,
      "num_input_tokens_seen": 18837536,
      "step": 28825
    },
    {
      "epoch": 15.11006289308176,
      "grad_norm": 0.16148895025253296,
      "learning_rate": 0.00017134270810190583,
      "loss": 0.3894,
      "num_input_tokens_seen": 18840000,
      "step": 28830
    },
    {
      "epoch": 15.112683438155136,
      "grad_norm": 0.08912510424852371,
      "learning_rate": 0.0001711704012119597,
      "loss": 0.4623,
      "num_input_tokens_seen": 18844224,
      "step": 28835
    },
    {
      "epoch": 15.115303983228511,
      "grad_norm": 0.07919841259717941,
      "learning_rate": 0.0001709981631094142,
      "loss": 0.3609,
      "num_input_tokens_seen": 18847104,
      "step": 28840
    },
    {
      "epoch": 15.117924528301886,
      "grad_norm": 0.1591789871454239,
      "learning_rate": 0.00017082599383029946,
      "loss": 0.5514,
      "num_input_tokens_seen": 18849536,
      "step": 28845
    },
    {
      "epoch": 15.120545073375261,
      "grad_norm": 0.18540754914283752,
      "learning_rate": 0.0001706538934106316,
      "loss": 0.4083,
      "num_input_tokens_seen": 18854528,
      "step": 28850
    },
    {
      "epoch": 15.123165618448636,
      "grad_norm": 0.22450846433639526,
      "learning_rate": 0.00017048186188641185,
      "loss": 0.4298,
      "num_input_tokens_seen": 18857344,
      "step": 28855
    },
    {
      "epoch": 15.125786163522013,
      "grad_norm": 0.22583253681659698,
      "learning_rate": 0.0001703098992936271,
      "loss": 0.4046,
      "num_input_tokens_seen": 18859872,
      "step": 28860
    },
    {
      "epoch": 15.128406708595389,
      "grad_norm": 0.17910555005073547,
      "learning_rate": 0.00017013800566825012,
      "loss": 0.3033,
      "num_input_tokens_seen": 18862240,
      "step": 28865
    },
    {
      "epoch": 15.131027253668764,
      "grad_norm": 0.12314002960920334,
      "learning_rate": 0.00016996618104623905,
      "loss": 0.3488,
      "num_input_tokens_seen": 18865472,
      "step": 28870
    },
    {
      "epoch": 15.133647798742139,
      "grad_norm": 0.09006233513355255,
      "learning_rate": 0.00016979442546353774,
      "loss": 0.5045,
      "num_input_tokens_seen": 18868960,
      "step": 28875
    },
    {
      "epoch": 15.136268343815514,
      "grad_norm": 0.14341402053833008,
      "learning_rate": 0.00016962273895607555,
      "loss": 0.4431,
      "num_input_tokens_seen": 18871616,
      "step": 28880
    },
    {
      "epoch": 15.13888888888889,
      "grad_norm": 0.09239079803228378,
      "learning_rate": 0.00016945112155976723,
      "loss": 0.5258,
      "num_input_tokens_seen": 18875040,
      "step": 28885
    },
    {
      "epoch": 15.141509433962264,
      "grad_norm": 0.22408638894557953,
      "learning_rate": 0.000169279573310513,
      "loss": 0.4631,
      "num_input_tokens_seen": 18877632,
      "step": 28890
    },
    {
      "epoch": 15.14412997903564,
      "grad_norm": 0.13731428980827332,
      "learning_rate": 0.00016910809424419904,
      "loss": 0.4718,
      "num_input_tokens_seen": 18881056,
      "step": 28895
    },
    {
      "epoch": 15.146750524109015,
      "grad_norm": 0.3399761915206909,
      "learning_rate": 0.00016893668439669674,
      "loss": 0.4513,
      "num_input_tokens_seen": 18883616,
      "step": 28900
    },
    {
      "epoch": 15.14937106918239,
      "grad_norm": 0.15533392131328583,
      "learning_rate": 0.0001687653438038632,
      "loss": 0.3859,
      "num_input_tokens_seen": 18886592,
      "step": 28905
    },
    {
      "epoch": 15.151991614255765,
      "grad_norm": 0.10308791697025299,
      "learning_rate": 0.00016859407250154084,
      "loss": 0.3986,
      "num_input_tokens_seen": 18891104,
      "step": 28910
    },
    {
      "epoch": 15.15461215932914,
      "grad_norm": 0.11016646772623062,
      "learning_rate": 0.0001684228705255575,
      "loss": 0.3296,
      "num_input_tokens_seen": 18894528,
      "step": 28915
    },
    {
      "epoch": 15.157232704402515,
      "grad_norm": 0.11021623760461807,
      "learning_rate": 0.00016825173791172677,
      "loss": 0.491,
      "num_input_tokens_seen": 18897760,
      "step": 28920
    },
    {
      "epoch": 15.15985324947589,
      "grad_norm": 0.10786458849906921,
      "learning_rate": 0.0001680806746958477,
      "loss": 0.4146,
      "num_input_tokens_seen": 18900800,
      "step": 28925
    },
    {
      "epoch": 15.162473794549266,
      "grad_norm": 0.12061981111764908,
      "learning_rate": 0.00016790968091370494,
      "loss": 0.4208,
      "num_input_tokens_seen": 18903680,
      "step": 28930
    },
    {
      "epoch": 15.165094339622641,
      "grad_norm": 0.1298707276582718,
      "learning_rate": 0.00016773875660106824,
      "loss": 0.4267,
      "num_input_tokens_seen": 18906336,
      "step": 28935
    },
    {
      "epoch": 15.167714884696016,
      "grad_norm": 0.13761450350284576,
      "learning_rate": 0.0001675679017936928,
      "loss": 0.4453,
      "num_input_tokens_seen": 18910112,
      "step": 28940
    },
    {
      "epoch": 15.170335429769391,
      "grad_norm": 0.21191218495368958,
      "learning_rate": 0.00016739711652731976,
      "loss": 0.4389,
      "num_input_tokens_seen": 18912928,
      "step": 28945
    },
    {
      "epoch": 15.172955974842766,
      "grad_norm": 0.12425488978624344,
      "learning_rate": 0.00016722640083767542,
      "loss": 0.4598,
      "num_input_tokens_seen": 18916416,
      "step": 28950
    },
    {
      "epoch": 15.175576519916143,
      "grad_norm": 0.15345829725265503,
      "learning_rate": 0.00016705575476047153,
      "loss": 0.5742,
      "num_input_tokens_seen": 18919968,
      "step": 28955
    },
    {
      "epoch": 15.178197064989519,
      "grad_norm": 0.14565932750701904,
      "learning_rate": 0.0001668851783314055,
      "loss": 0.3516,
      "num_input_tokens_seen": 18923392,
      "step": 28960
    },
    {
      "epoch": 15.180817610062894,
      "grad_norm": 0.11797955632209778,
      "learning_rate": 0.00016671467158615977,
      "loss": 0.4111,
      "num_input_tokens_seen": 18926528,
      "step": 28965
    },
    {
      "epoch": 15.183438155136269,
      "grad_norm": 0.11045068502426147,
      "learning_rate": 0.00016654423456040224,
      "loss": 0.3065,
      "num_input_tokens_seen": 18929696,
      "step": 28970
    },
    {
      "epoch": 15.186058700209644,
      "grad_norm": 0.16360269486904144,
      "learning_rate": 0.0001663738672897866,
      "loss": 0.4174,
      "num_input_tokens_seen": 18932384,
      "step": 28975
    },
    {
      "epoch": 15.18867924528302,
      "grad_norm": 0.11049733310937881,
      "learning_rate": 0.0001662035698099517,
      "loss": 0.4057,
      "num_input_tokens_seen": 18934880,
      "step": 28980
    },
    {
      "epoch": 15.191299790356394,
      "grad_norm": 0.208894744515419,
      "learning_rate": 0.00016603334215652206,
      "loss": 0.3573,
      "num_input_tokens_seen": 18938816,
      "step": 28985
    },
    {
      "epoch": 15.19392033542977,
      "grad_norm": 0.23014698922634125,
      "learning_rate": 0.0001658631843651069,
      "loss": 0.3899,
      "num_input_tokens_seen": 18941824,
      "step": 28990
    },
    {
      "epoch": 15.196540880503145,
      "grad_norm": 0.14176738262176514,
      "learning_rate": 0.00016569309647130177,
      "loss": 0.4174,
      "num_input_tokens_seen": 18945056,
      "step": 28995
    },
    {
      "epoch": 15.19916142557652,
      "grad_norm": 0.18340986967086792,
      "learning_rate": 0.00016552307851068666,
      "loss": 0.507,
      "num_input_tokens_seen": 18948256,
      "step": 29000
    },
    {
      "epoch": 15.201781970649895,
      "grad_norm": 0.2291364073753357,
      "learning_rate": 0.00016535313051882765,
      "loss": 0.4782,
      "num_input_tokens_seen": 18951008,
      "step": 29005
    },
    {
      "epoch": 15.20440251572327,
      "grad_norm": 0.13308225572109222,
      "learning_rate": 0.00016518325253127604,
      "loss": 0.4058,
      "num_input_tokens_seen": 18954464,
      "step": 29010
    },
    {
      "epoch": 15.207023060796645,
      "grad_norm": 0.08830877393484116,
      "learning_rate": 0.00016501344458356803,
      "loss": 0.3942,
      "num_input_tokens_seen": 18958464,
      "step": 29015
    },
    {
      "epoch": 15.20964360587002,
      "grad_norm": 0.11074705421924591,
      "learning_rate": 0.00016484370671122588,
      "loss": 0.4148,
      "num_input_tokens_seen": 18961152,
      "step": 29020
    },
    {
      "epoch": 15.212264150943396,
      "grad_norm": 0.1281006634235382,
      "learning_rate": 0.00016467403894975641,
      "loss": 0.2981,
      "num_input_tokens_seen": 18964640,
      "step": 29025
    },
    {
      "epoch": 15.214884696016771,
      "grad_norm": 0.12122956663370132,
      "learning_rate": 0.0001645044413346524,
      "loss": 0.4118,
      "num_input_tokens_seen": 18967616,
      "step": 29030
    },
    {
      "epoch": 15.217505241090146,
      "grad_norm": 0.15366369485855103,
      "learning_rate": 0.00016433491390139177,
      "loss": 0.4624,
      "num_input_tokens_seen": 18971136,
      "step": 29035
    },
    {
      "epoch": 15.220125786163521,
      "grad_norm": 0.15745219588279724,
      "learning_rate": 0.00016416545668543786,
      "loss": 0.5634,
      "num_input_tokens_seen": 18974208,
      "step": 29040
    },
    {
      "epoch": 15.222746331236896,
      "grad_norm": 0.16723684966564178,
      "learning_rate": 0.0001639960697222388,
      "loss": 0.422,
      "num_input_tokens_seen": 18977408,
      "step": 29045
    },
    {
      "epoch": 15.225366876310272,
      "grad_norm": 0.2282942831516266,
      "learning_rate": 0.00016382675304722877,
      "loss": 0.4752,
      "num_input_tokens_seen": 18980288,
      "step": 29050
    },
    {
      "epoch": 15.227987421383649,
      "grad_norm": 0.1510913372039795,
      "learning_rate": 0.00016365750669582662,
      "loss": 0.3453,
      "num_input_tokens_seen": 18984096,
      "step": 29055
    },
    {
      "epoch": 15.230607966457024,
      "grad_norm": 0.2503235638141632,
      "learning_rate": 0.00016348833070343682,
      "loss": 0.4429,
      "num_input_tokens_seen": 18987648,
      "step": 29060
    },
    {
      "epoch": 15.233228511530399,
      "grad_norm": 0.12657389044761658,
      "learning_rate": 0.00016331922510544932,
      "loss": 0.3802,
      "num_input_tokens_seen": 18990208,
      "step": 29065
    },
    {
      "epoch": 15.235849056603774,
      "grad_norm": 0.1449359506368637,
      "learning_rate": 0.0001631501899372387,
      "loss": 0.4046,
      "num_input_tokens_seen": 18993440,
      "step": 29070
    },
    {
      "epoch": 15.23846960167715,
      "grad_norm": 0.12663353979587555,
      "learning_rate": 0.0001629812252341653,
      "loss": 0.4203,
      "num_input_tokens_seen": 18997024,
      "step": 29075
    },
    {
      "epoch": 15.241090146750524,
      "grad_norm": 0.2519679367542267,
      "learning_rate": 0.0001628123310315749,
      "loss": 0.4369,
      "num_input_tokens_seen": 19000864,
      "step": 29080
    },
    {
      "epoch": 15.2437106918239,
      "grad_norm": 0.12802952527999878,
      "learning_rate": 0.00016264350736479777,
      "loss": 0.4261,
      "num_input_tokens_seen": 19004576,
      "step": 29085
    },
    {
      "epoch": 15.246331236897275,
      "grad_norm": 0.20471814274787903,
      "learning_rate": 0.00016247475426915038,
      "loss": 0.3988,
      "num_input_tokens_seen": 19008128,
      "step": 29090
    },
    {
      "epoch": 15.24895178197065,
      "grad_norm": 0.141913041472435,
      "learning_rate": 0.0001623060717799335,
      "loss": 0.5163,
      "num_input_tokens_seen": 19013952,
      "step": 29095
    },
    {
      "epoch": 15.251572327044025,
      "grad_norm": 0.1458059549331665,
      "learning_rate": 0.0001621374599324338,
      "loss": 0.4681,
      "num_input_tokens_seen": 19017216,
      "step": 29100
    },
    {
      "epoch": 15.2541928721174,
      "grad_norm": 0.14813682436943054,
      "learning_rate": 0.00016196891876192292,
      "loss": 0.3575,
      "num_input_tokens_seen": 19020096,
      "step": 29105
    },
    {
      "epoch": 15.256813417190775,
      "grad_norm": 0.18233245611190796,
      "learning_rate": 0.00016180044830365798,
      "loss": 0.4185,
      "num_input_tokens_seen": 19023456,
      "step": 29110
    },
    {
      "epoch": 15.25943396226415,
      "grad_norm": 0.24094423651695251,
      "learning_rate": 0.00016163204859288066,
      "loss": 0.4779,
      "num_input_tokens_seen": 19027424,
      "step": 29115
    },
    {
      "epoch": 15.262054507337526,
      "grad_norm": 0.21354353427886963,
      "learning_rate": 0.00016146371966481866,
      "loss": 0.5052,
      "num_input_tokens_seen": 19030976,
      "step": 29120
    },
    {
      "epoch": 15.264675052410901,
      "grad_norm": 0.19625669717788696,
      "learning_rate": 0.00016129546155468411,
      "loss": 0.3919,
      "num_input_tokens_seen": 19034976,
      "step": 29125
    },
    {
      "epoch": 15.267295597484276,
      "grad_norm": 0.11735250800848007,
      "learning_rate": 0.00016112727429767483,
      "loss": 0.4424,
      "num_input_tokens_seen": 19038752,
      "step": 29130
    },
    {
      "epoch": 15.269916142557651,
      "grad_norm": 0.13535970449447632,
      "learning_rate": 0.00016095915792897392,
      "loss": 0.4555,
      "num_input_tokens_seen": 19041536,
      "step": 29135
    },
    {
      "epoch": 15.272536687631026,
      "grad_norm": 0.19481174647808075,
      "learning_rate": 0.000160791112483749,
      "loss": 0.4197,
      "num_input_tokens_seen": 19044448,
      "step": 29140
    },
    {
      "epoch": 15.275157232704402,
      "grad_norm": 0.17534248530864716,
      "learning_rate": 0.00016062313799715362,
      "loss": 0.5107,
      "num_input_tokens_seen": 19047904,
      "step": 29145
    },
    {
      "epoch": 15.277777777777779,
      "grad_norm": 0.07810308039188385,
      "learning_rate": 0.00016045523450432576,
      "loss": 0.4997,
      "num_input_tokens_seen": 19052864,
      "step": 29150
    },
    {
      "epoch": 15.280398322851154,
      "grad_norm": 0.15898442268371582,
      "learning_rate": 0.0001602874020403891,
      "loss": 0.5692,
      "num_input_tokens_seen": 19055456,
      "step": 29155
    },
    {
      "epoch": 15.283018867924529,
      "grad_norm": 0.17190611362457275,
      "learning_rate": 0.00016011964064045232,
      "loss": 0.3738,
      "num_input_tokens_seen": 19058240,
      "step": 29160
    },
    {
      "epoch": 15.285639412997904,
      "grad_norm": 0.13143061101436615,
      "learning_rate": 0.00015995195033960936,
      "loss": 0.4491,
      "num_input_tokens_seen": 19062336,
      "step": 29165
    },
    {
      "epoch": 15.28825995807128,
      "grad_norm": 0.09903270751237869,
      "learning_rate": 0.00015978433117293884,
      "loss": 0.2943,
      "num_input_tokens_seen": 19066592,
      "step": 29170
    },
    {
      "epoch": 15.290880503144654,
      "grad_norm": 0.12217194586992264,
      "learning_rate": 0.0001596167831755047,
      "loss": 0.39,
      "num_input_tokens_seen": 19069888,
      "step": 29175
    },
    {
      "epoch": 15.29350104821803,
      "grad_norm": 0.12766645848751068,
      "learning_rate": 0.00015944930638235626,
      "loss": 0.3397,
      "num_input_tokens_seen": 19073152,
      "step": 29180
    },
    {
      "epoch": 15.296121593291405,
      "grad_norm": 0.10354848206043243,
      "learning_rate": 0.00015928190082852773,
      "loss": 0.3684,
      "num_input_tokens_seen": 19075904,
      "step": 29185
    },
    {
      "epoch": 15.29874213836478,
      "grad_norm": 0.08601171523332596,
      "learning_rate": 0.0001591145665490384,
      "loss": 0.5947,
      "num_input_tokens_seen": 19079584,
      "step": 29190
    },
    {
      "epoch": 15.301362683438155,
      "grad_norm": 0.13043265044689178,
      "learning_rate": 0.00015894730357889287,
      "loss": 0.3639,
      "num_input_tokens_seen": 19082656,
      "step": 29195
    },
    {
      "epoch": 15.30398322851153,
      "grad_norm": 0.09456156939268112,
      "learning_rate": 0.0001587801119530805,
      "loss": 0.4655,
      "num_input_tokens_seen": 19086208,
      "step": 29200
    },
    {
      "epoch": 15.306603773584905,
      "grad_norm": 0.1396864950656891,
      "learning_rate": 0.00015861299170657572,
      "loss": 0.4034,
      "num_input_tokens_seen": 19089184,
      "step": 29205
    },
    {
      "epoch": 15.30922431865828,
      "grad_norm": 0.12451320141553879,
      "learning_rate": 0.00015844594287433834,
      "loss": 0.4203,
      "num_input_tokens_seen": 19093664,
      "step": 29210
    },
    {
      "epoch": 15.311844863731656,
      "grad_norm": 0.09166120737791061,
      "learning_rate": 0.00015827896549131304,
      "loss": 0.381,
      "num_input_tokens_seen": 19098048,
      "step": 29215
    },
    {
      "epoch": 15.314465408805031,
      "grad_norm": 0.15081624686717987,
      "learning_rate": 0.0001581120595924298,
      "loss": 0.4226,
      "num_input_tokens_seen": 19101760,
      "step": 29220
    },
    {
      "epoch": 15.317085953878406,
      "grad_norm": 0.15263666212558746,
      "learning_rate": 0.00015794522521260317,
      "loss": 0.3787,
      "num_input_tokens_seen": 19106912,
      "step": 29225
    },
    {
      "epoch": 15.319706498951781,
      "grad_norm": 0.10968370735645294,
      "learning_rate": 0.00015777846238673293,
      "loss": 0.4919,
      "num_input_tokens_seen": 19110272,
      "step": 29230
    },
    {
      "epoch": 15.322327044025156,
      "grad_norm": 0.16057813167572021,
      "learning_rate": 0.00015761177114970404,
      "loss": 0.4393,
      "num_input_tokens_seen": 19113408,
      "step": 29235
    },
    {
      "epoch": 15.324947589098532,
      "grad_norm": 0.13474227488040924,
      "learning_rate": 0.0001574451515363865,
      "loss": 0.5122,
      "num_input_tokens_seen": 19116864,
      "step": 29240
    },
    {
      "epoch": 15.327568134171909,
      "grad_norm": 0.09651020169258118,
      "learning_rate": 0.00015727860358163536,
      "loss": 0.3776,
      "num_input_tokens_seen": 19120576,
      "step": 29245
    },
    {
      "epoch": 15.330188679245284,
      "grad_norm": 0.33053866028785706,
      "learning_rate": 0.00015711212732029035,
      "loss": 0.4201,
      "num_input_tokens_seen": 19123872,
      "step": 29250
    },
    {
      "epoch": 15.332809224318659,
      "grad_norm": 0.1377621293067932,
      "learning_rate": 0.00015694572278717627,
      "loss": 0.3968,
      "num_input_tokens_seen": 19126688,
      "step": 29255
    },
    {
      "epoch": 15.335429769392034,
      "grad_norm": 0.13769908249378204,
      "learning_rate": 0.00015677939001710323,
      "loss": 0.3277,
      "num_input_tokens_seen": 19129504,
      "step": 29260
    },
    {
      "epoch": 15.33805031446541,
      "grad_norm": 0.2224826067686081,
      "learning_rate": 0.00015661312904486613,
      "loss": 0.5716,
      "num_input_tokens_seen": 19132064,
      "step": 29265
    },
    {
      "epoch": 15.340670859538784,
      "grad_norm": 0.11132881045341492,
      "learning_rate": 0.00015644693990524483,
      "loss": 0.297,
      "num_input_tokens_seen": 19134848,
      "step": 29270
    },
    {
      "epoch": 15.34329140461216,
      "grad_norm": 0.14047904312610626,
      "learning_rate": 0.00015628082263300448,
      "loss": 0.6111,
      "num_input_tokens_seen": 19137632,
      "step": 29275
    },
    {
      "epoch": 15.345911949685535,
      "grad_norm": 0.17380955815315247,
      "learning_rate": 0.00015611477726289465,
      "loss": 0.4107,
      "num_input_tokens_seen": 19140672,
      "step": 29280
    },
    {
      "epoch": 15.34853249475891,
      "grad_norm": 0.08582736551761627,
      "learning_rate": 0.00015594880382964994,
      "loss": 0.4721,
      "num_input_tokens_seen": 19144192,
      "step": 29285
    },
    {
      "epoch": 15.351153039832285,
      "grad_norm": 0.1995939165353775,
      "learning_rate": 0.00015578290236799037,
      "loss": 0.4348,
      "num_input_tokens_seen": 19146880,
      "step": 29290
    },
    {
      "epoch": 15.35377358490566,
      "grad_norm": 0.08821816742420197,
      "learning_rate": 0.00015561707291262061,
      "loss": 0.4023,
      "num_input_tokens_seen": 19150400,
      "step": 29295
    },
    {
      "epoch": 15.356394129979035,
      "grad_norm": 0.19031444191932678,
      "learning_rate": 0.00015545131549823043,
      "loss": 0.3816,
      "num_input_tokens_seen": 19153504,
      "step": 29300
    },
    {
      "epoch": 15.35901467505241,
      "grad_norm": 0.10028552263975143,
      "learning_rate": 0.0001552856301594942,
      "loss": 0.3802,
      "num_input_tokens_seen": 19156960,
      "step": 29305
    },
    {
      "epoch": 15.361635220125786,
      "grad_norm": 0.16363656520843506,
      "learning_rate": 0.00015512001693107126,
      "loss": 0.6568,
      "num_input_tokens_seen": 19159744,
      "step": 29310
    },
    {
      "epoch": 15.364255765199161,
      "grad_norm": 0.1481056958436966,
      "learning_rate": 0.0001549544758476062,
      "loss": 0.3846,
      "num_input_tokens_seen": 19163808,
      "step": 29315
    },
    {
      "epoch": 15.366876310272536,
      "grad_norm": 0.2616104185581207,
      "learning_rate": 0.00015478900694372832,
      "loss": 0.391,
      "num_input_tokens_seen": 19166304,
      "step": 29320
    },
    {
      "epoch": 15.369496855345911,
      "grad_norm": 0.11669070273637772,
      "learning_rate": 0.00015462361025405196,
      "loss": 0.3998,
      "num_input_tokens_seen": 19169792,
      "step": 29325
    },
    {
      "epoch": 15.372117400419286,
      "grad_norm": 0.1092834323644638,
      "learning_rate": 0.0001544582858131759,
      "loss": 0.4586,
      "num_input_tokens_seen": 19172448,
      "step": 29330
    },
    {
      "epoch": 15.374737945492662,
      "grad_norm": 0.1387137621641159,
      "learning_rate": 0.00015429303365568448,
      "loss": 0.3806,
      "num_input_tokens_seen": 19176352,
      "step": 29335
    },
    {
      "epoch": 15.377358490566039,
      "grad_norm": 0.29950660467147827,
      "learning_rate": 0.00015412785381614625,
      "loss": 0.5774,
      "num_input_tokens_seen": 19179808,
      "step": 29340
    },
    {
      "epoch": 15.379979035639414,
      "grad_norm": 0.19915388524532318,
      "learning_rate": 0.000153962746329115,
      "loss": 0.4266,
      "num_input_tokens_seen": 19183872,
      "step": 29345
    },
    {
      "epoch": 15.382599580712789,
      "grad_norm": 0.11626732349395752,
      "learning_rate": 0.0001537977112291295,
      "loss": 0.3712,
      "num_input_tokens_seen": 19187584,
      "step": 29350
    },
    {
      "epoch": 15.385220125786164,
      "grad_norm": 0.11558596789836884,
      "learning_rate": 0.00015363274855071323,
      "loss": 0.4813,
      "num_input_tokens_seen": 19192320,
      "step": 29355
    },
    {
      "epoch": 15.38784067085954,
      "grad_norm": 0.1462496668100357,
      "learning_rate": 0.0001534678583283743,
      "loss": 0.4186,
      "num_input_tokens_seen": 19195712,
      "step": 29360
    },
    {
      "epoch": 15.390461215932914,
      "grad_norm": 0.12163545936346054,
      "learning_rate": 0.00015330304059660605,
      "loss": 0.5303,
      "num_input_tokens_seen": 19199328,
      "step": 29365
    },
    {
      "epoch": 15.39308176100629,
      "grad_norm": 0.15473918616771698,
      "learning_rate": 0.00015313829538988628,
      "loss": 0.4343,
      "num_input_tokens_seen": 19202368,
      "step": 29370
    },
    {
      "epoch": 15.395702306079665,
      "grad_norm": 0.09756525605916977,
      "learning_rate": 0.00015297362274267783,
      "loss": 0.4882,
      "num_input_tokens_seen": 19205728,
      "step": 29375
    },
    {
      "epoch": 15.39832285115304,
      "grad_norm": 0.24130694568157196,
      "learning_rate": 0.00015280902268942866,
      "loss": 0.3398,
      "num_input_tokens_seen": 19208768,
      "step": 29380
    },
    {
      "epoch": 15.400943396226415,
      "grad_norm": 0.16255629062652588,
      "learning_rate": 0.00015264449526457074,
      "loss": 0.53,
      "num_input_tokens_seen": 19213152,
      "step": 29385
    },
    {
      "epoch": 15.40356394129979,
      "grad_norm": 0.09604879468679428,
      "learning_rate": 0.00015248004050252178,
      "loss": 0.4585,
      "num_input_tokens_seen": 19215392,
      "step": 29390
    },
    {
      "epoch": 15.406184486373165,
      "grad_norm": 0.09295032173395157,
      "learning_rate": 0.00015231565843768348,
      "loss": 0.4223,
      "num_input_tokens_seen": 19218944,
      "step": 29395
    },
    {
      "epoch": 15.40880503144654,
      "grad_norm": 0.14816218614578247,
      "learning_rate": 0.00015215134910444284,
      "loss": 0.5244,
      "num_input_tokens_seen": 19221984,
      "step": 29400
    },
    {
      "epoch": 15.411425576519916,
      "grad_norm": 0.1139475554227829,
      "learning_rate": 0.00015198711253717163,
      "loss": 0.5453,
      "num_input_tokens_seen": 19225376,
      "step": 29405
    },
    {
      "epoch": 15.414046121593291,
      "grad_norm": 0.15938138961791992,
      "learning_rate": 0.00015182294877022596,
      "loss": 0.4744,
      "num_input_tokens_seen": 19228448,
      "step": 29410
    },
    {
      "epoch": 15.416666666666666,
      "grad_norm": 0.13243865966796875,
      "learning_rate": 0.00015165885783794726,
      "loss": 0.7571,
      "num_input_tokens_seen": 19231712,
      "step": 29415
    },
    {
      "epoch": 15.419287211740041,
      "grad_norm": 0.12238147854804993,
      "learning_rate": 0.0001514948397746615,
      "loss": 0.5046,
      "num_input_tokens_seen": 19234144,
      "step": 29420
    },
    {
      "epoch": 15.421907756813416,
      "grad_norm": 0.14879977703094482,
      "learning_rate": 0.0001513308946146792,
      "loss": 0.4729,
      "num_input_tokens_seen": 19237056,
      "step": 29425
    },
    {
      "epoch": 15.424528301886792,
      "grad_norm": 0.10276903212070465,
      "learning_rate": 0.0001511670223922959,
      "loss": 0.3965,
      "num_input_tokens_seen": 19239904,
      "step": 29430
    },
    {
      "epoch": 15.427148846960169,
      "grad_norm": 0.14274343848228455,
      "learning_rate": 0.000151003223141792,
      "loss": 0.4337,
      "num_input_tokens_seen": 19243552,
      "step": 29435
    },
    {
      "epoch": 15.429769392033544,
      "grad_norm": 0.13180086016654968,
      "learning_rate": 0.00015083949689743202,
      "loss": 0.4579,
      "num_input_tokens_seen": 19246560,
      "step": 29440
    },
    {
      "epoch": 15.432389937106919,
      "grad_norm": 0.0769764706492424,
      "learning_rate": 0.00015067584369346594,
      "loss": 0.42,
      "num_input_tokens_seen": 19249632,
      "step": 29445
    },
    {
      "epoch": 15.435010482180294,
      "grad_norm": 0.1544460952281952,
      "learning_rate": 0.00015051226356412818,
      "loss": 0.4312,
      "num_input_tokens_seen": 19252736,
      "step": 29450
    },
    {
      "epoch": 15.43763102725367,
      "grad_norm": 0.1341368407011032,
      "learning_rate": 0.00015034875654363754,
      "loss": 0.4105,
      "num_input_tokens_seen": 19255968,
      "step": 29455
    },
    {
      "epoch": 15.440251572327044,
      "grad_norm": 0.12658046185970306,
      "learning_rate": 0.00015018532266619818,
      "loss": 0.4565,
      "num_input_tokens_seen": 19259680,
      "step": 29460
    },
    {
      "epoch": 15.44287211740042,
      "grad_norm": 0.1748906522989273,
      "learning_rate": 0.00015002196196599828,
      "loss": 0.4032,
      "num_input_tokens_seen": 19262848,
      "step": 29465
    },
    {
      "epoch": 15.445492662473795,
      "grad_norm": 0.17940078675746918,
      "learning_rate": 0.00014985867447721114,
      "loss": 0.398,
      "num_input_tokens_seen": 19265536,
      "step": 29470
    },
    {
      "epoch": 15.44811320754717,
      "grad_norm": 0.2143641710281372,
      "learning_rate": 0.00014969546023399467,
      "loss": 0.3277,
      "num_input_tokens_seen": 19268384,
      "step": 29475
    },
    {
      "epoch": 15.450733752620545,
      "grad_norm": 0.0871981829404831,
      "learning_rate": 0.00014953231927049165,
      "loss": 0.4226,
      "num_input_tokens_seen": 19272000,
      "step": 29480
    },
    {
      "epoch": 15.45335429769392,
      "grad_norm": 0.13180695474147797,
      "learning_rate": 0.00014936925162082904,
      "loss": 0.5155,
      "num_input_tokens_seen": 19275360,
      "step": 29485
    },
    {
      "epoch": 15.455974842767295,
      "grad_norm": 0.22634676098823547,
      "learning_rate": 0.00014920625731911863,
      "loss": 0.4324,
      "num_input_tokens_seen": 19279488,
      "step": 29490
    },
    {
      "epoch": 15.45859538784067,
      "grad_norm": 0.23696091771125793,
      "learning_rate": 0.00014904333639945716,
      "loss": 0.425,
      "num_input_tokens_seen": 19282176,
      "step": 29495
    },
    {
      "epoch": 15.461215932914046,
      "grad_norm": 0.1739288866519928,
      "learning_rate": 0.00014888048889592575,
      "loss": 0.5247,
      "num_input_tokens_seen": 19285056,
      "step": 29500
    },
    {
      "epoch": 15.463836477987421,
      "grad_norm": 0.15930186212062836,
      "learning_rate": 0.00014871771484259046,
      "loss": 0.3919,
      "num_input_tokens_seen": 19288704,
      "step": 29505
    },
    {
      "epoch": 15.466457023060796,
      "grad_norm": 0.18932081758975983,
      "learning_rate": 0.00014855501427350144,
      "loss": 0.6544,
      "num_input_tokens_seen": 19291584,
      "step": 29510
    },
    {
      "epoch": 15.469077568134171,
      "grad_norm": 0.20615799725055695,
      "learning_rate": 0.00014839238722269405,
      "loss": 0.3585,
      "num_input_tokens_seen": 19295072,
      "step": 29515
    },
    {
      "epoch": 15.471698113207546,
      "grad_norm": 0.14512988924980164,
      "learning_rate": 0.00014822983372418774,
      "loss": 0.4319,
      "num_input_tokens_seen": 19298144,
      "step": 29520
    },
    {
      "epoch": 15.474318658280922,
      "grad_norm": 0.12535852193832397,
      "learning_rate": 0.00014806735381198705,
      "loss": 0.5946,
      "num_input_tokens_seen": 19301472,
      "step": 29525
    },
    {
      "epoch": 15.476939203354299,
      "grad_norm": 0.19189687073230743,
      "learning_rate": 0.00014790494752008087,
      "loss": 0.4374,
      "num_input_tokens_seen": 19303936,
      "step": 29530
    },
    {
      "epoch": 15.479559748427674,
      "grad_norm": 0.1008206158876419,
      "learning_rate": 0.00014774261488244295,
      "loss": 0.4719,
      "num_input_tokens_seen": 19308416,
      "step": 29535
    },
    {
      "epoch": 15.482180293501049,
      "grad_norm": 0.22166162729263306,
      "learning_rate": 0.00014758035593303114,
      "loss": 0.4856,
      "num_input_tokens_seen": 19312992,
      "step": 29540
    },
    {
      "epoch": 15.484800838574424,
      "grad_norm": 0.23827087879180908,
      "learning_rate": 0.00014741817070578817,
      "loss": 0.323,
      "num_input_tokens_seen": 19317792,
      "step": 29545
    },
    {
      "epoch": 15.4874213836478,
      "grad_norm": 0.15469838678836823,
      "learning_rate": 0.0001472560592346414,
      "loss": 0.3856,
      "num_input_tokens_seen": 19320928,
      "step": 29550
    },
    {
      "epoch": 15.490041928721174,
      "grad_norm": 0.1862858235836029,
      "learning_rate": 0.0001470940215535027,
      "loss": 0.434,
      "num_input_tokens_seen": 19323584,
      "step": 29555
    },
    {
      "epoch": 15.49266247379455,
      "grad_norm": 0.1281670778989792,
      "learning_rate": 0.00014693205769626878,
      "loss": 0.4138,
      "num_input_tokens_seen": 19326112,
      "step": 29560
    },
    {
      "epoch": 15.495283018867925,
      "grad_norm": 0.11406828463077545,
      "learning_rate": 0.00014677016769682028,
      "loss": 0.4117,
      "num_input_tokens_seen": 19329824,
      "step": 29565
    },
    {
      "epoch": 15.4979035639413,
      "grad_norm": 0.1605973094701767,
      "learning_rate": 0.00014660835158902268,
      "loss": 0.4501,
      "num_input_tokens_seen": 19332544,
      "step": 29570
    },
    {
      "epoch": 15.500524109014675,
      "grad_norm": 0.16559578478336334,
      "learning_rate": 0.00014644660940672628,
      "loss": 0.387,
      "num_input_tokens_seen": 19335744,
      "step": 29575
    },
    {
      "epoch": 15.50314465408805,
      "grad_norm": 0.13993674516677856,
      "learning_rate": 0.0001462849411837656,
      "loss": 0.5797,
      "num_input_tokens_seen": 19339456,
      "step": 29580
    },
    {
      "epoch": 15.505765199161425,
      "grad_norm": 0.16978426277637482,
      "learning_rate": 0.00014612334695395985,
      "loss": 0.5487,
      "num_input_tokens_seen": 19342752,
      "step": 29585
    },
    {
      "epoch": 15.5083857442348,
      "grad_norm": 0.12899483740329742,
      "learning_rate": 0.0001459618267511128,
      "loss": 0.4184,
      "num_input_tokens_seen": 19345536,
      "step": 29590
    },
    {
      "epoch": 15.511006289308176,
      "grad_norm": 0.2278876006603241,
      "learning_rate": 0.00014580038060901256,
      "loss": 0.397,
      "num_input_tokens_seen": 19348768,
      "step": 29595
    },
    {
      "epoch": 15.51362683438155,
      "grad_norm": 0.15644307434558868,
      "learning_rate": 0.00014563900856143157,
      "loss": 0.3839,
      "num_input_tokens_seen": 19352128,
      "step": 29600
    },
    {
      "epoch": 15.516247379454926,
      "grad_norm": 0.1594255268573761,
      "learning_rate": 0.0001454777106421273,
      "loss": 0.497,
      "num_input_tokens_seen": 19354784,
      "step": 29605
    },
    {
      "epoch": 15.518867924528301,
      "grad_norm": 0.13155511021614075,
      "learning_rate": 0.00014531648688484127,
      "loss": 0.5291,
      "num_input_tokens_seen": 19358528,
      "step": 29610
    },
    {
      "epoch": 15.521488469601676,
      "grad_norm": 0.20413652062416077,
      "learning_rate": 0.0001451553373233,
      "loss": 0.366,
      "num_input_tokens_seen": 19361760,
      "step": 29615
    },
    {
      "epoch": 15.524109014675052,
      "grad_norm": 0.10921814292669296,
      "learning_rate": 0.00014499426199121379,
      "loss": 0.4109,
      "num_input_tokens_seen": 19365504,
      "step": 29620
    },
    {
      "epoch": 15.526729559748428,
      "grad_norm": 0.09963647276163101,
      "learning_rate": 0.0001448332609222777,
      "loss": 0.2968,
      "num_input_tokens_seen": 19369344,
      "step": 29625
    },
    {
      "epoch": 15.529350104821804,
      "grad_norm": 0.22353151440620422,
      "learning_rate": 0.0001446723341501715,
      "loss": 0.4252,
      "num_input_tokens_seen": 19372224,
      "step": 29630
    },
    {
      "epoch": 15.531970649895179,
      "grad_norm": 0.23802253603935242,
      "learning_rate": 0.00014451148170855922,
      "loss": 0.3853,
      "num_input_tokens_seen": 19374976,
      "step": 29635
    },
    {
      "epoch": 15.534591194968554,
      "grad_norm": 0.2088603526353836,
      "learning_rate": 0.0001443507036310895,
      "loss": 0.3469,
      "num_input_tokens_seen": 19377440,
      "step": 29640
    },
    {
      "epoch": 15.53721174004193,
      "grad_norm": 0.2294108122587204,
      "learning_rate": 0.00014418999995139493,
      "loss": 0.4503,
      "num_input_tokens_seen": 19380032,
      "step": 29645
    },
    {
      "epoch": 15.539832285115304,
      "grad_norm": 0.1254151314496994,
      "learning_rate": 0.00014402937070309325,
      "loss": 0.3368,
      "num_input_tokens_seen": 19383488,
      "step": 29650
    },
    {
      "epoch": 15.54245283018868,
      "grad_norm": 0.20016463100910187,
      "learning_rate": 0.0001438688159197859,
      "loss": 0.4871,
      "num_input_tokens_seen": 19386560,
      "step": 29655
    },
    {
      "epoch": 15.545073375262055,
      "grad_norm": 0.16729550063610077,
      "learning_rate": 0.0001437083356350593,
      "loss": 0.4515,
      "num_input_tokens_seen": 19389216,
      "step": 29660
    },
    {
      "epoch": 15.54769392033543,
      "grad_norm": 0.15460853278636932,
      "learning_rate": 0.0001435479298824841,
      "loss": 0.4953,
      "num_input_tokens_seen": 19393056,
      "step": 29665
    },
    {
      "epoch": 15.550314465408805,
      "grad_norm": 0.1822902113199234,
      "learning_rate": 0.00014338759869561557,
      "loss": 0.5172,
      "num_input_tokens_seen": 19396672,
      "step": 29670
    },
    {
      "epoch": 15.55293501048218,
      "grad_norm": 0.2228993922472,
      "learning_rate": 0.00014322734210799287,
      "loss": 0.576,
      "num_input_tokens_seen": 19399168,
      "step": 29675
    },
    {
      "epoch": 15.555555555555555,
      "grad_norm": 0.032227255403995514,
      "learning_rate": 0.0001430671601531398,
      "loss": 0.3676,
      "num_input_tokens_seen": 19405248,
      "step": 29680
    },
    {
      "epoch": 15.55817610062893,
      "grad_norm": 0.24903203547000885,
      "learning_rate": 0.00014290705286456473,
      "loss": 0.4241,
      "num_input_tokens_seen": 19407712,
      "step": 29685
    },
    {
      "epoch": 15.560796645702306,
      "grad_norm": 0.13930891454219818,
      "learning_rate": 0.00014274702027576024,
      "loss": 0.3548,
      "num_input_tokens_seen": 19410816,
      "step": 29690
    },
    {
      "epoch": 15.56341719077568,
      "grad_norm": 0.14509613811969757,
      "learning_rate": 0.00014258706242020354,
      "loss": 0.4209,
      "num_input_tokens_seen": 19413888,
      "step": 29695
    },
    {
      "epoch": 15.566037735849056,
      "grad_norm": 0.17328262329101562,
      "learning_rate": 0.00014242717933135558,
      "loss": 0.4939,
      "num_input_tokens_seen": 19417344,
      "step": 29700
    },
    {
      "epoch": 15.568658280922431,
      "grad_norm": 0.15257637202739716,
      "learning_rate": 0.0001422673710426625,
      "loss": 0.3114,
      "num_input_tokens_seen": 19420512,
      "step": 29705
    },
    {
      "epoch": 15.571278825995806,
      "grad_norm": 0.1192760020494461,
      "learning_rate": 0.00014210763758755403,
      "loss": 0.3322,
      "num_input_tokens_seen": 19423328,
      "step": 29710
    },
    {
      "epoch": 15.573899371069182,
      "grad_norm": 0.1543300747871399,
      "learning_rate": 0.00014194797899944468,
      "loss": 0.4433,
      "num_input_tokens_seen": 19427136,
      "step": 29715
    },
    {
      "epoch": 15.576519916142558,
      "grad_norm": 0.14708726108074188,
      "learning_rate": 0.00014178839531173344,
      "loss": 0.4293,
      "num_input_tokens_seen": 19430496,
      "step": 29720
    },
    {
      "epoch": 15.579140461215934,
      "grad_norm": 0.22096197307109833,
      "learning_rate": 0.00014162888655780303,
      "loss": 0.4482,
      "num_input_tokens_seen": 19433792,
      "step": 29725
    },
    {
      "epoch": 15.581761006289309,
      "grad_norm": 0.15467843413352966,
      "learning_rate": 0.00014146945277102108,
      "loss": 0.3528,
      "num_input_tokens_seen": 19436384,
      "step": 29730
    },
    {
      "epoch": 15.584381551362684,
      "grad_norm": 0.32337328791618347,
      "learning_rate": 0.00014131009398473938,
      "loss": 0.4721,
      "num_input_tokens_seen": 19439200,
      "step": 29735
    },
    {
      "epoch": 15.58700209643606,
      "grad_norm": 0.12611334025859833,
      "learning_rate": 0.00014115081023229376,
      "loss": 0.4031,
      "num_input_tokens_seen": 19442400,
      "step": 29740
    },
    {
      "epoch": 15.589622641509434,
      "grad_norm": 0.13268883526325226,
      "learning_rate": 0.00014099160154700462,
      "loss": 0.4521,
      "num_input_tokens_seen": 19446464,
      "step": 29745
    },
    {
      "epoch": 15.59224318658281,
      "grad_norm": 0.21400083601474762,
      "learning_rate": 0.00014083246796217684,
      "loss": 0.2975,
      "num_input_tokens_seen": 19449600,
      "step": 29750
    },
    {
      "epoch": 15.594863731656185,
      "grad_norm": 0.1676173359155655,
      "learning_rate": 0.00014067340951109898,
      "loss": 0.3412,
      "num_input_tokens_seen": 19452608,
      "step": 29755
    },
    {
      "epoch": 15.59748427672956,
      "grad_norm": 0.07267787307500839,
      "learning_rate": 0.00014051442622704447,
      "loss": 0.3894,
      "num_input_tokens_seen": 19456832,
      "step": 29760
    },
    {
      "epoch": 15.600104821802935,
      "grad_norm": 0.15719550848007202,
      "learning_rate": 0.0001403555181432709,
      "loss": 0.3496,
      "num_input_tokens_seen": 19459136,
      "step": 29765
    },
    {
      "epoch": 15.60272536687631,
      "grad_norm": 0.15244585275650024,
      "learning_rate": 0.00014019668529301977,
      "loss": 0.3638,
      "num_input_tokens_seen": 19463360,
      "step": 29770
    },
    {
      "epoch": 15.605345911949685,
      "grad_norm": 0.20678044855594635,
      "learning_rate": 0.00014003792770951733,
      "loss": 0.3456,
      "num_input_tokens_seen": 19466432,
      "step": 29775
    },
    {
      "epoch": 15.60796645702306,
      "grad_norm": 0.10084418952465057,
      "learning_rate": 0.00013987924542597363,
      "loss": 0.3548,
      "num_input_tokens_seen": 19470592,
      "step": 29780
    },
    {
      "epoch": 15.610587002096436,
      "grad_norm": 0.08838600665330887,
      "learning_rate": 0.0001397206384755833,
      "loss": 0.3426,
      "num_input_tokens_seen": 19474496,
      "step": 29785
    },
    {
      "epoch": 15.61320754716981,
      "grad_norm": 0.09748022258281708,
      "learning_rate": 0.00013956210689152526,
      "loss": 0.3709,
      "num_input_tokens_seen": 19477792,
      "step": 29790
    },
    {
      "epoch": 15.615828092243186,
      "grad_norm": 0.14530837535858154,
      "learning_rate": 0.0001394036507069622,
      "loss": 0.4138,
      "num_input_tokens_seen": 19480736,
      "step": 29795
    },
    {
      "epoch": 15.618448637316561,
      "grad_norm": 0.08735819160938263,
      "learning_rate": 0.00013924526995504172,
      "loss": 0.4521,
      "num_input_tokens_seen": 19485312,
      "step": 29800
    },
    {
      "epoch": 15.621069182389936,
      "grad_norm": 0.1551615446805954,
      "learning_rate": 0.00013908696466889486,
      "loss": 0.3473,
      "num_input_tokens_seen": 19488544,
      "step": 29805
    },
    {
      "epoch": 15.623689727463312,
      "grad_norm": 0.17316053807735443,
      "learning_rate": 0.0001389287348816375,
      "loss": 0.3369,
      "num_input_tokens_seen": 19491744,
      "step": 29810
    },
    {
      "epoch": 15.626310272536688,
      "grad_norm": 0.14849403500556946,
      "learning_rate": 0.00013877058062636944,
      "loss": 0.4652,
      "num_input_tokens_seen": 19495136,
      "step": 29815
    },
    {
      "epoch": 15.628930817610064,
      "grad_norm": 0.1579088270664215,
      "learning_rate": 0.00013861250193617498,
      "loss": 0.4289,
      "num_input_tokens_seen": 19498272,
      "step": 29820
    },
    {
      "epoch": 15.631551362683439,
      "grad_norm": 0.24817177653312683,
      "learning_rate": 0.00013845449884412203,
      "loss": 0.4236,
      "num_input_tokens_seen": 19501792,
      "step": 29825
    },
    {
      "epoch": 15.634171907756814,
      "grad_norm": 0.31178712844848633,
      "learning_rate": 0.00013829657138326334,
      "loss": 0.5677,
      "num_input_tokens_seen": 19504640,
      "step": 29830
    },
    {
      "epoch": 15.63679245283019,
      "grad_norm": 0.14457781612873077,
      "learning_rate": 0.00013813871958663526,
      "loss": 0.3602,
      "num_input_tokens_seen": 19508032,
      "step": 29835
    },
    {
      "epoch": 15.639412997903564,
      "grad_norm": 0.12251488864421844,
      "learning_rate": 0.0001379809434872587,
      "loss": 0.3438,
      "num_input_tokens_seen": 19511008,
      "step": 29840
    },
    {
      "epoch": 15.64203354297694,
      "grad_norm": 0.14396952092647552,
      "learning_rate": 0.0001378232431181386,
      "loss": 0.5638,
      "num_input_tokens_seen": 19514240,
      "step": 29845
    },
    {
      "epoch": 15.644654088050315,
      "grad_norm": 0.2072889655828476,
      "learning_rate": 0.00013766561851226428,
      "loss": 0.3716,
      "num_input_tokens_seen": 19517056,
      "step": 29850
    },
    {
      "epoch": 15.64727463312369,
      "grad_norm": 0.36744189262390137,
      "learning_rate": 0.00013750806970260886,
      "loss": 0.3795,
      "num_input_tokens_seen": 19520256,
      "step": 29855
    },
    {
      "epoch": 15.649895178197065,
      "grad_norm": 0.2654309868812561,
      "learning_rate": 0.00013735059672212959,
      "loss": 0.4158,
      "num_input_tokens_seen": 19522976,
      "step": 29860
    },
    {
      "epoch": 15.65251572327044,
      "grad_norm": 0.19569571316242218,
      "learning_rate": 0.00013719319960376808,
      "loss": 0.3857,
      "num_input_tokens_seen": 19526784,
      "step": 29865
    },
    {
      "epoch": 15.655136268343815,
      "grad_norm": 0.11104840040206909,
      "learning_rate": 0.00013703587838045017,
      "loss": 0.3367,
      "num_input_tokens_seen": 19529920,
      "step": 29870
    },
    {
      "epoch": 15.65775681341719,
      "grad_norm": 0.20752093195915222,
      "learning_rate": 0.00013687863308508568,
      "loss": 0.4406,
      "num_input_tokens_seen": 19532608,
      "step": 29875
    },
    {
      "epoch": 15.660377358490566,
      "grad_norm": 0.24084828794002533,
      "learning_rate": 0.00013672146375056849,
      "loss": 0.3845,
      "num_input_tokens_seen": 19535680,
      "step": 29880
    },
    {
      "epoch": 15.66299790356394,
      "grad_norm": 0.20621629059314728,
      "learning_rate": 0.00013656437040977643,
      "loss": 0.375,
      "num_input_tokens_seen": 19538144,
      "step": 29885
    },
    {
      "epoch": 15.665618448637316,
      "grad_norm": 0.13648763298988342,
      "learning_rate": 0.00013640735309557178,
      "loss": 0.2691,
      "num_input_tokens_seen": 19541344,
      "step": 29890
    },
    {
      "epoch": 15.668238993710691,
      "grad_norm": 0.12164945155382156,
      "learning_rate": 0.00013625041184080078,
      "loss": 0.464,
      "num_input_tokens_seen": 19544640,
      "step": 29895
    },
    {
      "epoch": 15.670859538784066,
      "grad_norm": 0.11469173431396484,
      "learning_rate": 0.00013609354667829378,
      "loss": 0.3024,
      "num_input_tokens_seen": 19547872,
      "step": 29900
    },
    {
      "epoch": 15.673480083857442,
      "grad_norm": 0.1401376724243164,
      "learning_rate": 0.00013593675764086521,
      "loss": 0.3662,
      "num_input_tokens_seen": 19550880,
      "step": 29905
    },
    {
      "epoch": 15.676100628930818,
      "grad_norm": 0.19746866822242737,
      "learning_rate": 0.00013578004476131356,
      "loss": 0.5953,
      "num_input_tokens_seen": 19554112,
      "step": 29910
    },
    {
      "epoch": 15.678721174004194,
      "grad_norm": 0.14457669854164124,
      "learning_rate": 0.00013562340807242112,
      "loss": 0.3963,
      "num_input_tokens_seen": 19557760,
      "step": 29915
    },
    {
      "epoch": 15.681341719077569,
      "grad_norm": 0.2527296841144562,
      "learning_rate": 0.00013546684760695472,
      "loss": 0.4473,
      "num_input_tokens_seen": 19561312,
      "step": 29920
    },
    {
      "epoch": 15.683962264150944,
      "grad_norm": 0.14346453547477722,
      "learning_rate": 0.00013531036339766494,
      "loss": 0.5785,
      "num_input_tokens_seen": 19565248,
      "step": 29925
    },
    {
      "epoch": 15.68658280922432,
      "grad_norm": 0.26769280433654785,
      "learning_rate": 0.00013515395547728675,
      "loss": 0.4695,
      "num_input_tokens_seen": 19567808,
      "step": 29930
    },
    {
      "epoch": 15.689203354297694,
      "grad_norm": 0.16936098039150238,
      "learning_rate": 0.00013499762387853866,
      "loss": 0.5257,
      "num_input_tokens_seen": 19570880,
      "step": 29935
    },
    {
      "epoch": 15.69182389937107,
      "grad_norm": 0.17957520484924316,
      "learning_rate": 0.00013484136863412333,
      "loss": 0.4305,
      "num_input_tokens_seen": 19573536,
      "step": 29940
    },
    {
      "epoch": 15.694444444444445,
      "grad_norm": 0.18009376525878906,
      "learning_rate": 0.00013468518977672773,
      "loss": 0.4539,
      "num_input_tokens_seen": 19577408,
      "step": 29945
    },
    {
      "epoch": 15.69706498951782,
      "grad_norm": 0.16381919384002686,
      "learning_rate": 0.0001345290873390227,
      "loss": 0.3971,
      "num_input_tokens_seen": 19580960,
      "step": 29950
    },
    {
      "epoch": 15.699685534591195,
      "grad_norm": 0.20047533512115479,
      "learning_rate": 0.00013437306135366322,
      "loss": 0.6683,
      "num_input_tokens_seen": 19584448,
      "step": 29955
    },
    {
      "epoch": 15.70230607966457,
      "grad_norm": 0.1353667974472046,
      "learning_rate": 0.00013421711185328806,
      "loss": 0.4288,
      "num_input_tokens_seen": 19587392,
      "step": 29960
    },
    {
      "epoch": 15.704926624737945,
      "grad_norm": 0.22603991627693176,
      "learning_rate": 0.00013406123887051984,
      "loss": 0.3597,
      "num_input_tokens_seen": 19590240,
      "step": 29965
    },
    {
      "epoch": 15.70754716981132,
      "grad_norm": 0.13995802402496338,
      "learning_rate": 0.0001339054424379656,
      "loss": 0.4005,
      "num_input_tokens_seen": 19593056,
      "step": 29970
    },
    {
      "epoch": 15.710167714884696,
      "grad_norm": 0.12667888402938843,
      "learning_rate": 0.00013374972258821621,
      "loss": 0.3756,
      "num_input_tokens_seen": 19596160,
      "step": 29975
    },
    {
      "epoch": 15.71278825995807,
      "grad_norm": 0.2553826570510864,
      "learning_rate": 0.00013359407935384642,
      "loss": 0.3044,
      "num_input_tokens_seen": 19601184,
      "step": 29980
    },
    {
      "epoch": 15.715408805031446,
      "grad_norm": 0.13706639409065247,
      "learning_rate": 0.0001334385127674152,
      "loss": 0.3907,
      "num_input_tokens_seen": 19604160,
      "step": 29985
    },
    {
      "epoch": 15.718029350104821,
      "grad_norm": 0.09739244729280472,
      "learning_rate": 0.00013328302286146515,
      "loss": 0.3641,
      "num_input_tokens_seen": 19607872,
      "step": 29990
    },
    {
      "epoch": 15.720649895178196,
      "grad_norm": 0.12348050624132156,
      "learning_rate": 0.00013312760966852283,
      "loss": 0.3254,
      "num_input_tokens_seen": 19612096,
      "step": 29995
    },
    {
      "epoch": 15.723270440251572,
      "grad_norm": 0.13673099875450134,
      "learning_rate": 0.00013297227322109912,
      "loss": 0.4336,
      "num_input_tokens_seen": 19614976,
      "step": 30000
    },
    {
      "epoch": 15.725890985324948,
      "grad_norm": 0.19042213261127472,
      "learning_rate": 0.00013281701355168852,
      "loss": 0.4854,
      "num_input_tokens_seen": 19618624,
      "step": 30005
    },
    {
      "epoch": 15.728511530398324,
      "grad_norm": 0.246638685464859,
      "learning_rate": 0.00013266183069276982,
      "loss": 0.5197,
      "num_input_tokens_seen": 19621920,
      "step": 30010
    },
    {
      "epoch": 15.731132075471699,
      "grad_norm": 0.11392125487327576,
      "learning_rate": 0.00013250672467680514,
      "loss": 0.3721,
      "num_input_tokens_seen": 19624352,
      "step": 30015
    },
    {
      "epoch": 15.733752620545074,
      "grad_norm": 0.1258622407913208,
      "learning_rate": 0.00013235169553624127,
      "loss": 0.3793,
      "num_input_tokens_seen": 19631744,
      "step": 30020
    },
    {
      "epoch": 15.73637316561845,
      "grad_norm": 0.27382785081863403,
      "learning_rate": 0.00013219674330350816,
      "loss": 0.3907,
      "num_input_tokens_seen": 19634592,
      "step": 30025
    },
    {
      "epoch": 15.738993710691824,
      "grad_norm": 0.1321406066417694,
      "learning_rate": 0.00013204186801102024,
      "loss": 0.4404,
      "num_input_tokens_seen": 19637472,
      "step": 30030
    },
    {
      "epoch": 15.7416142557652,
      "grad_norm": 0.11098424345254898,
      "learning_rate": 0.0001318870696911758,
      "loss": 0.5462,
      "num_input_tokens_seen": 19641344,
      "step": 30035
    },
    {
      "epoch": 15.744234800838575,
      "grad_norm": 0.15083156526088715,
      "learning_rate": 0.00013173234837635656,
      "loss": 0.3657,
      "num_input_tokens_seen": 19644320,
      "step": 30040
    },
    {
      "epoch": 15.74685534591195,
      "grad_norm": 0.09133066236972809,
      "learning_rate": 0.00013157770409892878,
      "loss": 0.3346,
      "num_input_tokens_seen": 19648512,
      "step": 30045
    },
    {
      "epoch": 15.749475890985325,
      "grad_norm": 0.17204952239990234,
      "learning_rate": 0.00013142313689124197,
      "loss": 0.5161,
      "num_input_tokens_seen": 19651296,
      "step": 30050
    },
    {
      "epoch": 15.7520964360587,
      "grad_norm": 0.16547919809818268,
      "learning_rate": 0.00013126864678562994,
      "loss": 0.4296,
      "num_input_tokens_seen": 19654080,
      "step": 30055
    },
    {
      "epoch": 15.754716981132075,
      "grad_norm": 0.13583487272262573,
      "learning_rate": 0.00013111423381441034,
      "loss": 0.4556,
      "num_input_tokens_seen": 19658240,
      "step": 30060
    },
    {
      "epoch": 15.75733752620545,
      "grad_norm": 0.16493026912212372,
      "learning_rate": 0.00013095989800988468,
      "loss": 0.5732,
      "num_input_tokens_seen": 19661792,
      "step": 30065
    },
    {
      "epoch": 15.759958071278826,
      "grad_norm": 0.2444484680891037,
      "learning_rate": 0.000130805639404338,
      "loss": 0.4382,
      "num_input_tokens_seen": 19664288,
      "step": 30070
    },
    {
      "epoch": 15.7625786163522,
      "grad_norm": 0.14498655498027802,
      "learning_rate": 0.0001306514580300397,
      "loss": 0.4615,
      "num_input_tokens_seen": 19670656,
      "step": 30075
    },
    {
      "epoch": 15.765199161425576,
      "grad_norm": 0.15124021470546722,
      "learning_rate": 0.00013049735391924244,
      "loss": 0.471,
      "num_input_tokens_seen": 19674048,
      "step": 30080
    },
    {
      "epoch": 15.767819706498951,
      "grad_norm": 0.16695266962051392,
      "learning_rate": 0.00013034332710418328,
      "loss": 0.3611,
      "num_input_tokens_seen": 19676896,
      "step": 30085
    },
    {
      "epoch": 15.770440251572326,
      "grad_norm": 0.09107746928930283,
      "learning_rate": 0.00013018937761708298,
      "loss": 0.3795,
      "num_input_tokens_seen": 19679392,
      "step": 30090
    },
    {
      "epoch": 15.773060796645701,
      "grad_norm": 0.1941092163324356,
      "learning_rate": 0.0001300355054901457,
      "loss": 0.4558,
      "num_input_tokens_seen": 19682560,
      "step": 30095
    },
    {
      "epoch": 15.775681341719078,
      "grad_norm": 0.2699563205242157,
      "learning_rate": 0.0001298817107555599,
      "loss": 0.415,
      "num_input_tokens_seen": 19685312,
      "step": 30100
    },
    {
      "epoch": 15.778301886792454,
      "grad_norm": 0.30469420552253723,
      "learning_rate": 0.0001297279934454978,
      "loss": 0.4146,
      "num_input_tokens_seen": 19688064,
      "step": 30105
    },
    {
      "epoch": 15.780922431865829,
      "grad_norm": 0.149092897772789,
      "learning_rate": 0.000129574353592115,
      "loss": 0.4533,
      "num_input_tokens_seen": 19690976,
      "step": 30110
    },
    {
      "epoch": 15.783542976939204,
      "grad_norm": 0.15758776664733887,
      "learning_rate": 0.00012942079122755162,
      "loss": 0.4857,
      "num_input_tokens_seen": 19693728,
      "step": 30115
    },
    {
      "epoch": 15.786163522012579,
      "grad_norm": 0.1558701992034912,
      "learning_rate": 0.00012926730638393075,
      "loss": 0.4916,
      "num_input_tokens_seen": 19700864,
      "step": 30120
    },
    {
      "epoch": 15.788784067085954,
      "grad_norm": 0.17277589440345764,
      "learning_rate": 0.0001291138990933598,
      "loss": 0.3381,
      "num_input_tokens_seen": 19703488,
      "step": 30125
    },
    {
      "epoch": 15.79140461215933,
      "grad_norm": 0.1070399358868599,
      "learning_rate": 0.00012896056938792994,
      "loss": 0.3554,
      "num_input_tokens_seen": 19706944,
      "step": 30130
    },
    {
      "epoch": 15.794025157232705,
      "grad_norm": 0.1351306289434433,
      "learning_rate": 0.000128807317299716,
      "loss": 0.4168,
      "num_input_tokens_seen": 19710400,
      "step": 30135
    },
    {
      "epoch": 15.79664570230608,
      "grad_norm": 0.14436811208724976,
      "learning_rate": 0.00012865414286077637,
      "loss": 0.3942,
      "num_input_tokens_seen": 19713056,
      "step": 30140
    },
    {
      "epoch": 15.799266247379455,
      "grad_norm": 0.10992499440908432,
      "learning_rate": 0.00012850104610315365,
      "loss": 0.4376,
      "num_input_tokens_seen": 19717248,
      "step": 30145
    },
    {
      "epoch": 15.80188679245283,
      "grad_norm": 0.2905251085758209,
      "learning_rate": 0.00012834802705887372,
      "loss": 0.4547,
      "num_input_tokens_seen": 19719552,
      "step": 30150
    },
    {
      "epoch": 15.804507337526205,
      "grad_norm": 0.13724905252456665,
      "learning_rate": 0.00012819508575994643,
      "loss": 0.484,
      "num_input_tokens_seen": 19722304,
      "step": 30155
    },
    {
      "epoch": 15.80712788259958,
      "grad_norm": 0.15455037355422974,
      "learning_rate": 0.0001280422222383656,
      "loss": 0.427,
      "num_input_tokens_seen": 19725440,
      "step": 30160
    },
    {
      "epoch": 15.809748427672956,
      "grad_norm": 0.19686083495616913,
      "learning_rate": 0.00012788943652610818,
      "loss": 0.4399,
      "num_input_tokens_seen": 19728864,
      "step": 30165
    },
    {
      "epoch": 15.81236897274633,
      "grad_norm": 0.2083735167980194,
      "learning_rate": 0.0001277367286551356,
      "loss": 0.429,
      "num_input_tokens_seen": 19732192,
      "step": 30170
    },
    {
      "epoch": 15.814989517819706,
      "grad_norm": 0.11665172874927521,
      "learning_rate": 0.00012758409865739213,
      "loss": 0.444,
      "num_input_tokens_seen": 19735040,
      "step": 30175
    },
    {
      "epoch": 15.817610062893081,
      "grad_norm": 0.3355864882469177,
      "learning_rate": 0.00012743154656480655,
      "loss": 0.4156,
      "num_input_tokens_seen": 19738368,
      "step": 30180
    },
    {
      "epoch": 15.820230607966456,
      "grad_norm": 0.19205355644226074,
      "learning_rate": 0.00012727907240929094,
      "loss": 0.3388,
      "num_input_tokens_seen": 19742176,
      "step": 30185
    },
    {
      "epoch": 15.822851153039831,
      "grad_norm": 0.09561226516962051,
      "learning_rate": 0.00012712667622274127,
      "loss": 0.4229,
      "num_input_tokens_seen": 19745760,
      "step": 30190
    },
    {
      "epoch": 15.825471698113208,
      "grad_norm": 0.10806697607040405,
      "learning_rate": 0.000126974358037037,
      "loss": 0.3859,
      "num_input_tokens_seen": 19748832,
      "step": 30195
    },
    {
      "epoch": 15.828092243186584,
      "grad_norm": 0.17824238538742065,
      "learning_rate": 0.00012682211788404114,
      "loss": 0.423,
      "num_input_tokens_seen": 19752000,
      "step": 30200
    },
    {
      "epoch": 15.830712788259959,
      "grad_norm": 0.10373161733150482,
      "learning_rate": 0.0001266699557956008,
      "loss": 0.4583,
      "num_input_tokens_seen": 19755744,
      "step": 30205
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.11455374211072922,
      "learning_rate": 0.00012651787180354657,
      "loss": 0.476,
      "num_input_tokens_seen": 19759072,
      "step": 30210
    },
    {
      "epoch": 15.835953878406709,
      "grad_norm": 0.09407982975244522,
      "learning_rate": 0.00012636586593969262,
      "loss": 0.472,
      "num_input_tokens_seen": 19762432,
      "step": 30215
    },
    {
      "epoch": 15.838574423480084,
      "grad_norm": 0.11453400552272797,
      "learning_rate": 0.000126213938235837,
      "loss": 0.4119,
      "num_input_tokens_seen": 19765248,
      "step": 30220
    },
    {
      "epoch": 15.84119496855346,
      "grad_norm": 0.13672661781311035,
      "learning_rate": 0.0001260620887237611,
      "loss": 0.4186,
      "num_input_tokens_seen": 19768224,
      "step": 30225
    },
    {
      "epoch": 15.843815513626835,
      "grad_norm": 0.12961319088935852,
      "learning_rate": 0.00012591031743523006,
      "loss": 0.4043,
      "num_input_tokens_seen": 19771232,
      "step": 30230
    },
    {
      "epoch": 15.84643605870021,
      "grad_norm": 0.14986534416675568,
      "learning_rate": 0.00012575862440199277,
      "loss": 0.4165,
      "num_input_tokens_seen": 19774016,
      "step": 30235
    },
    {
      "epoch": 15.849056603773585,
      "grad_norm": 0.10865092277526855,
      "learning_rate": 0.00012560700965578165,
      "loss": 0.6065,
      "num_input_tokens_seen": 19777568,
      "step": 30240
    },
    {
      "epoch": 15.85167714884696,
      "grad_norm": 0.3024200201034546,
      "learning_rate": 0.0001254554732283129,
      "loss": 0.3707,
      "num_input_tokens_seen": 19780448,
      "step": 30245
    },
    {
      "epoch": 15.854297693920335,
      "grad_norm": 0.20446975529193878,
      "learning_rate": 0.0001253040151512862,
      "loss": 0.3777,
      "num_input_tokens_seen": 19783808,
      "step": 30250
    },
    {
      "epoch": 15.85691823899371,
      "grad_norm": 0.09781742095947266,
      "learning_rate": 0.0001251526354563846,
      "loss": 0.3866,
      "num_input_tokens_seen": 19787136,
      "step": 30255
    },
    {
      "epoch": 15.859538784067086,
      "grad_norm": 0.18653228878974915,
      "learning_rate": 0.0001250013341752752,
      "loss": 0.5034,
      "num_input_tokens_seen": 19789920,
      "step": 30260
    },
    {
      "epoch": 15.86215932914046,
      "grad_norm": 0.0861758291721344,
      "learning_rate": 0.00012485011133960843,
      "loss": 0.4528,
      "num_input_tokens_seen": 19793024,
      "step": 30265
    },
    {
      "epoch": 15.864779874213836,
      "grad_norm": 0.22135011851787567,
      "learning_rate": 0.00012469896698101863,
      "loss": 0.4188,
      "num_input_tokens_seen": 19796672,
      "step": 30270
    },
    {
      "epoch": 15.867400419287211,
      "grad_norm": 0.20139537751674652,
      "learning_rate": 0.00012454790113112325,
      "loss": 0.3718,
      "num_input_tokens_seen": 19798944,
      "step": 30275
    },
    {
      "epoch": 15.870020964360586,
      "grad_norm": 0.5314944386482239,
      "learning_rate": 0.00012439691382152345,
      "loss": 0.4417,
      "num_input_tokens_seen": 19801664,
      "step": 30280
    },
    {
      "epoch": 15.872641509433961,
      "grad_norm": 0.13219588994979858,
      "learning_rate": 0.00012424600508380412,
      "loss": 0.5004,
      "num_input_tokens_seen": 19804384,
      "step": 30285
    },
    {
      "epoch": 15.875262054507338,
      "grad_norm": 0.12965844571590424,
      "learning_rate": 0.00012409517494953377,
      "loss": 0.4884,
      "num_input_tokens_seen": 19807744,
      "step": 30290
    },
    {
      "epoch": 15.877882599580714,
      "grad_norm": 0.15070542693138123,
      "learning_rate": 0.00012394442345026418,
      "loss": 0.2804,
      "num_input_tokens_seen": 19810336,
      "step": 30295
    },
    {
      "epoch": 15.880503144654089,
      "grad_norm": 0.1116751879453659,
      "learning_rate": 0.00012379375061753118,
      "loss": 0.3823,
      "num_input_tokens_seen": 19813440,
      "step": 30300
    },
    {
      "epoch": 15.883123689727464,
      "grad_norm": 0.16924387216567993,
      "learning_rate": 0.00012364315648285353,
      "loss": 0.5578,
      "num_input_tokens_seen": 19816128,
      "step": 30305
    },
    {
      "epoch": 15.885744234800839,
      "grad_norm": 0.21360863745212555,
      "learning_rate": 0.00012349264107773363,
      "loss": 0.3458,
      "num_input_tokens_seen": 19818656,
      "step": 30310
    },
    {
      "epoch": 15.888364779874214,
      "grad_norm": 0.11291486769914627,
      "learning_rate": 0.00012334220443365785,
      "loss": 0.4294,
      "num_input_tokens_seen": 19821856,
      "step": 30315
    },
    {
      "epoch": 15.89098532494759,
      "grad_norm": 0.17218437790870667,
      "learning_rate": 0.00012319184658209575,
      "loss": 0.4663,
      "num_input_tokens_seen": 19824864,
      "step": 30320
    },
    {
      "epoch": 15.893605870020965,
      "grad_norm": 0.29213908314704895,
      "learning_rate": 0.00012304156755450063,
      "loss": 0.362,
      "num_input_tokens_seen": 19828352,
      "step": 30325
    },
    {
      "epoch": 15.89622641509434,
      "grad_norm": 0.2192990630865097,
      "learning_rate": 0.00012289136738230906,
      "loss": 0.4825,
      "num_input_tokens_seen": 19830848,
      "step": 30330
    },
    {
      "epoch": 15.898846960167715,
      "grad_norm": 0.13554413616657257,
      "learning_rate": 0.00012274124609694092,
      "loss": 0.4555,
      "num_input_tokens_seen": 19836448,
      "step": 30335
    },
    {
      "epoch": 15.90146750524109,
      "grad_norm": 0.15897057950496674,
      "learning_rate": 0.00012259120372980014,
      "loss": 0.3063,
      "num_input_tokens_seen": 19839296,
      "step": 30340
    },
    {
      "epoch": 15.904088050314465,
      "grad_norm": 0.17595060169696808,
      "learning_rate": 0.0001224412403122739,
      "loss": 0.3999,
      "num_input_tokens_seen": 19842176,
      "step": 30345
    },
    {
      "epoch": 15.90670859538784,
      "grad_norm": 0.15595588088035583,
      "learning_rate": 0.0001222913558757328,
      "loss": 0.3217,
      "num_input_tokens_seen": 19845216,
      "step": 30350
    },
    {
      "epoch": 15.909329140461216,
      "grad_norm": 0.21814902126789093,
      "learning_rate": 0.00012214155045153085,
      "loss": 0.5138,
      "num_input_tokens_seen": 19848064,
      "step": 30355
    },
    {
      "epoch": 15.91194968553459,
      "grad_norm": 0.17347264289855957,
      "learning_rate": 0.00012199182407100584,
      "loss": 0.4118,
      "num_input_tokens_seen": 19850912,
      "step": 30360
    },
    {
      "epoch": 15.914570230607966,
      "grad_norm": 0.14224492013454437,
      "learning_rate": 0.00012184217676547855,
      "loss": 0.4806,
      "num_input_tokens_seen": 19854688,
      "step": 30365
    },
    {
      "epoch": 15.917190775681341,
      "grad_norm": 0.1667386293411255,
      "learning_rate": 0.00012169260856625358,
      "loss": 0.4685,
      "num_input_tokens_seen": 19857792,
      "step": 30370
    },
    {
      "epoch": 15.919811320754716,
      "grad_norm": 0.14849206805229187,
      "learning_rate": 0.000121543119504619,
      "loss": 0.4063,
      "num_input_tokens_seen": 19860672,
      "step": 30375
    },
    {
      "epoch": 15.922431865828091,
      "grad_norm": 0.08589507639408112,
      "learning_rate": 0.00012139370961184626,
      "loss": 0.4114,
      "num_input_tokens_seen": 19863584,
      "step": 30380
    },
    {
      "epoch": 15.925052410901468,
      "grad_norm": 0.2308543622493744,
      "learning_rate": 0.00012124437891918994,
      "loss": 0.4642,
      "num_input_tokens_seen": 19866912,
      "step": 30385
    },
    {
      "epoch": 15.927672955974844,
      "grad_norm": 0.1597238928079605,
      "learning_rate": 0.0001210951274578887,
      "loss": 0.6091,
      "num_input_tokens_seen": 19869920,
      "step": 30390
    },
    {
      "epoch": 15.930293501048219,
      "grad_norm": 0.13511230051517487,
      "learning_rate": 0.00012094595525916379,
      "loss": 0.5904,
      "num_input_tokens_seen": 19872736,
      "step": 30395
    },
    {
      "epoch": 15.932914046121594,
      "grad_norm": 0.2067684829235077,
      "learning_rate": 0.0001207968623542206,
      "loss": 0.5461,
      "num_input_tokens_seen": 19875584,
      "step": 30400
    },
    {
      "epoch": 15.935534591194969,
      "grad_norm": 0.11374685913324356,
      "learning_rate": 0.00012064784877424778,
      "loss": 0.4715,
      "num_input_tokens_seen": 19879168,
      "step": 30405
    },
    {
      "epoch": 15.938155136268344,
      "grad_norm": 0.18881887197494507,
      "learning_rate": 0.00012049891455041695,
      "loss": 0.5683,
      "num_input_tokens_seen": 19882528,
      "step": 30410
    },
    {
      "epoch": 15.94077568134172,
      "grad_norm": 0.1597020924091339,
      "learning_rate": 0.00012035005971388379,
      "loss": 0.3823,
      "num_input_tokens_seen": 19885440,
      "step": 30415
    },
    {
      "epoch": 15.943396226415095,
      "grad_norm": 0.28684404492378235,
      "learning_rate": 0.0001202012842957867,
      "loss": 0.3686,
      "num_input_tokens_seen": 19888320,
      "step": 30420
    },
    {
      "epoch": 15.94601677148847,
      "grad_norm": 0.1477472186088562,
      "learning_rate": 0.00012005258832724797,
      "loss": 0.5415,
      "num_input_tokens_seen": 19891520,
      "step": 30425
    },
    {
      "epoch": 15.948637316561845,
      "grad_norm": 0.21685373783111572,
      "learning_rate": 0.00011990397183937324,
      "loss": 0.3319,
      "num_input_tokens_seen": 19894688,
      "step": 30430
    },
    {
      "epoch": 15.95125786163522,
      "grad_norm": 0.26334482431411743,
      "learning_rate": 0.00011975543486325108,
      "loss": 0.4526,
      "num_input_tokens_seen": 19897408,
      "step": 30435
    },
    {
      "epoch": 15.953878406708595,
      "grad_norm": 0.20050108432769775,
      "learning_rate": 0.00011960697742995392,
      "loss": 0.5532,
      "num_input_tokens_seen": 19901056,
      "step": 30440
    },
    {
      "epoch": 15.95649895178197,
      "grad_norm": 0.06204957142472267,
      "learning_rate": 0.00011945859957053746,
      "loss": 0.2872,
      "num_input_tokens_seen": 19905056,
      "step": 30445
    },
    {
      "epoch": 15.959119496855346,
      "grad_norm": 0.11420123279094696,
      "learning_rate": 0.00011931030131604036,
      "loss": 0.4022,
      "num_input_tokens_seen": 19908160,
      "step": 30450
    },
    {
      "epoch": 15.96174004192872,
      "grad_norm": 0.12648585438728333,
      "learning_rate": 0.00011916208269748507,
      "loss": 0.3805,
      "num_input_tokens_seen": 19911040,
      "step": 30455
    },
    {
      "epoch": 15.964360587002096,
      "grad_norm": 0.14400669932365417,
      "learning_rate": 0.00011901394374587743,
      "loss": 0.4244,
      "num_input_tokens_seen": 19914720,
      "step": 30460
    },
    {
      "epoch": 15.966981132075471,
      "grad_norm": 0.21150702238082886,
      "learning_rate": 0.00011886588449220609,
      "loss": 0.4969,
      "num_input_tokens_seen": 19917312,
      "step": 30465
    },
    {
      "epoch": 15.969601677148846,
      "grad_norm": 0.14212748408317566,
      "learning_rate": 0.00011871790496744351,
      "loss": 0.5243,
      "num_input_tokens_seen": 19920480,
      "step": 30470
    },
    {
      "epoch": 15.972222222222221,
      "grad_norm": 0.2164187729358673,
      "learning_rate": 0.00011857000520254546,
      "loss": 0.3846,
      "num_input_tokens_seen": 19923104,
      "step": 30475
    },
    {
      "epoch": 15.974842767295598,
      "grad_norm": 0.11999550461769104,
      "learning_rate": 0.0001184221852284506,
      "loss": 0.4563,
      "num_input_tokens_seen": 19926688,
      "step": 30480
    },
    {
      "epoch": 15.977463312368974,
      "grad_norm": 0.14106102287769318,
      "learning_rate": 0.00011827444507608143,
      "loss": 0.3264,
      "num_input_tokens_seen": 19930624,
      "step": 30485
    },
    {
      "epoch": 15.980083857442349,
      "grad_norm": 0.10565842688083649,
      "learning_rate": 0.00011812678477634325,
      "loss": 0.4713,
      "num_input_tokens_seen": 19933984,
      "step": 30490
    },
    {
      "epoch": 15.982704402515724,
      "grad_norm": 0.15937526524066925,
      "learning_rate": 0.0001179792043601251,
      "loss": 0.3561,
      "num_input_tokens_seen": 19936288,
      "step": 30495
    },
    {
      "epoch": 15.985324947589099,
      "grad_norm": 0.16942355036735535,
      "learning_rate": 0.00011783170385829905,
      "loss": 0.4641,
      "num_input_tokens_seen": 19939648,
      "step": 30500
    },
    {
      "epoch": 15.987945492662474,
      "grad_norm": 0.13684998452663422,
      "learning_rate": 0.00011768428330172071,
      "loss": 0.4736,
      "num_input_tokens_seen": 19942848,
      "step": 30505
    },
    {
      "epoch": 15.99056603773585,
      "grad_norm": 0.16515058279037476,
      "learning_rate": 0.00011753694272122856,
      "loss": 0.4816,
      "num_input_tokens_seen": 19946176,
      "step": 30510
    },
    {
      "epoch": 15.993186582809225,
      "grad_norm": 0.20613378286361694,
      "learning_rate": 0.00011738968214764456,
      "loss": 0.3382,
      "num_input_tokens_seen": 19948800,
      "step": 30515
    },
    {
      "epoch": 15.9958071278826,
      "grad_norm": 0.19448119401931763,
      "learning_rate": 0.00011724250161177391,
      "loss": 0.4253,
      "num_input_tokens_seen": 19952288,
      "step": 30520
    },
    {
      "epoch": 15.998427672955975,
      "grad_norm": 0.2404850721359253,
      "learning_rate": 0.00011709540114440525,
      "loss": 0.3806,
      "num_input_tokens_seen": 19955424,
      "step": 30525
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.48173266649246216,
      "eval_runtime": 13.6907,
      "eval_samples_per_second": 61.94,
      "eval_steps_per_second": 15.485,
      "num_input_tokens_seen": 19956544,
      "step": 30528
    },
    {
      "epoch": 16.00104821802935,
      "grad_norm": 0.23362447321414948,
      "learning_rate": 0.00011694838077631043,
      "loss": 0.4428,
      "num_input_tokens_seen": 19957376,
      "step": 30530
    },
    {
      "epoch": 16.003668763102727,
      "grad_norm": 0.10988538712263107,
      "learning_rate": 0.0001168014405382441,
      "loss": 0.5058,
      "num_input_tokens_seen": 19960768,
      "step": 30535
    },
    {
      "epoch": 16.0062893081761,
      "grad_norm": 0.1513240933418274,
      "learning_rate": 0.0001166545804609448,
      "loss": 0.3404,
      "num_input_tokens_seen": 19964416,
      "step": 30540
    },
    {
      "epoch": 16.008909853249477,
      "grad_norm": 0.14581599831581116,
      "learning_rate": 0.00011650780057513367,
      "loss": 0.4701,
      "num_input_tokens_seen": 19967904,
      "step": 30545
    },
    {
      "epoch": 16.01153039832285,
      "grad_norm": 0.20574240386486053,
      "learning_rate": 0.00011636110091151553,
      "loss": 0.6038,
      "num_input_tokens_seen": 19971872,
      "step": 30550
    },
    {
      "epoch": 16.014150943396228,
      "grad_norm": 0.17635276913642883,
      "learning_rate": 0.00011621448150077834,
      "loss": 0.3397,
      "num_input_tokens_seen": 19975072,
      "step": 30555
    },
    {
      "epoch": 16.0167714884696,
      "grad_norm": 0.4589725136756897,
      "learning_rate": 0.0001160679423735933,
      "loss": 0.5271,
      "num_input_tokens_seen": 19978144,
      "step": 30560
    },
    {
      "epoch": 16.019392033542978,
      "grad_norm": 0.10441102832555771,
      "learning_rate": 0.00011592148356061455,
      "loss": 0.3598,
      "num_input_tokens_seen": 19981216,
      "step": 30565
    },
    {
      "epoch": 16.02201257861635,
      "grad_norm": 0.16796645522117615,
      "learning_rate": 0.00011577510509247951,
      "loss": 0.5811,
      "num_input_tokens_seen": 19984896,
      "step": 30570
    },
    {
      "epoch": 16.02463312368973,
      "grad_norm": 0.09472794085741043,
      "learning_rate": 0.00011562880699980904,
      "loss": 0.3867,
      "num_input_tokens_seen": 19988256,
      "step": 30575
    },
    {
      "epoch": 16.0272536687631,
      "grad_norm": 0.2575645446777344,
      "learning_rate": 0.00011548258931320704,
      "loss": 0.4551,
      "num_input_tokens_seen": 19991744,
      "step": 30580
    },
    {
      "epoch": 16.02987421383648,
      "grad_norm": 0.12930992245674133,
      "learning_rate": 0.00011533645206326049,
      "loss": 0.3911,
      "num_input_tokens_seen": 19995104,
      "step": 30585
    },
    {
      "epoch": 16.032494758909852,
      "grad_norm": 0.14747123420238495,
      "learning_rate": 0.00011519039528053999,
      "loss": 0.4158,
      "num_input_tokens_seen": 19997472,
      "step": 30590
    },
    {
      "epoch": 16.03511530398323,
      "grad_norm": 0.2859938442707062,
      "learning_rate": 0.00011504441899559837,
      "loss": 0.4095,
      "num_input_tokens_seen": 19999776,
      "step": 30595
    },
    {
      "epoch": 16.037735849056602,
      "grad_norm": 0.17801764607429504,
      "learning_rate": 0.00011489852323897249,
      "loss": 0.4844,
      "num_input_tokens_seen": 20002848,
      "step": 30600
    },
    {
      "epoch": 16.04035639412998,
      "grad_norm": 0.12303724139928818,
      "learning_rate": 0.0001147527080411821,
      "loss": 0.3089,
      "num_input_tokens_seen": 20006176,
      "step": 30605
    },
    {
      "epoch": 16.042976939203353,
      "grad_norm": 0.20581944286823273,
      "learning_rate": 0.00011460697343273002,
      "loss": 0.3801,
      "num_input_tokens_seen": 20009088,
      "step": 30610
    },
    {
      "epoch": 16.04559748427673,
      "grad_norm": 0.17847029864788055,
      "learning_rate": 0.00011446131944410249,
      "loss": 0.3488,
      "num_input_tokens_seen": 20012000,
      "step": 30615
    },
    {
      "epoch": 16.048218029350103,
      "grad_norm": 0.14134849607944489,
      "learning_rate": 0.00011431574610576844,
      "loss": 0.5895,
      "num_input_tokens_seen": 20016416,
      "step": 30620
    },
    {
      "epoch": 16.05083857442348,
      "grad_norm": 0.16854727268218994,
      "learning_rate": 0.00011417025344818005,
      "loss": 0.4575,
      "num_input_tokens_seen": 20020608,
      "step": 30625
    },
    {
      "epoch": 16.053459119496857,
      "grad_norm": 0.2073327749967575,
      "learning_rate": 0.00011402484150177289,
      "loss": 0.5571,
      "num_input_tokens_seen": 20023360,
      "step": 30630
    },
    {
      "epoch": 16.05607966457023,
      "grad_norm": 0.12176599353551865,
      "learning_rate": 0.00011387951029696542,
      "loss": 0.3637,
      "num_input_tokens_seen": 20026240,
      "step": 30635
    },
    {
      "epoch": 16.058700209643607,
      "grad_norm": 0.14324577152729034,
      "learning_rate": 0.00011373425986415941,
      "loss": 0.5094,
      "num_input_tokens_seen": 20029568,
      "step": 30640
    },
    {
      "epoch": 16.06132075471698,
      "grad_norm": 0.16904249787330627,
      "learning_rate": 0.00011358909023373953,
      "loss": 0.5454,
      "num_input_tokens_seen": 20032288,
      "step": 30645
    },
    {
      "epoch": 16.063941299790358,
      "grad_norm": 0.10992176085710526,
      "learning_rate": 0.00011344400143607342,
      "loss": 0.3748,
      "num_input_tokens_seen": 20035584,
      "step": 30650
    },
    {
      "epoch": 16.06656184486373,
      "grad_norm": 0.16546694934368134,
      "learning_rate": 0.00011329899350151212,
      "loss": 0.3358,
      "num_input_tokens_seen": 20038912,
      "step": 30655
    },
    {
      "epoch": 16.069182389937108,
      "grad_norm": 0.24216419458389282,
      "learning_rate": 0.00011315406646038973,
      "loss": 0.5459,
      "num_input_tokens_seen": 20042656,
      "step": 30660
    },
    {
      "epoch": 16.07180293501048,
      "grad_norm": 0.16178104281425476,
      "learning_rate": 0.0001130092203430232,
      "loss": 0.5209,
      "num_input_tokens_seen": 20046528,
      "step": 30665
    },
    {
      "epoch": 16.07442348008386,
      "grad_norm": 0.2656477093696594,
      "learning_rate": 0.00011286445517971289,
      "loss": 0.359,
      "num_input_tokens_seen": 20049600,
      "step": 30670
    },
    {
      "epoch": 16.07704402515723,
      "grad_norm": 0.16031256318092346,
      "learning_rate": 0.00011271977100074188,
      "loss": 0.4631,
      "num_input_tokens_seen": 20052480,
      "step": 30675
    },
    {
      "epoch": 16.07966457023061,
      "grad_norm": 0.1690695434808731,
      "learning_rate": 0.00011257516783637633,
      "loss": 0.5341,
      "num_input_tokens_seen": 20056128,
      "step": 30680
    },
    {
      "epoch": 16.082285115303982,
      "grad_norm": 0.113068126142025,
      "learning_rate": 0.00011243064571686573,
      "loss": 0.4027,
      "num_input_tokens_seen": 20059264,
      "step": 30685
    },
    {
      "epoch": 16.08490566037736,
      "grad_norm": 0.15055252611637115,
      "learning_rate": 0.00011228620467244238,
      "loss": 0.4107,
      "num_input_tokens_seen": 20062112,
      "step": 30690
    },
    {
      "epoch": 16.087526205450732,
      "grad_norm": 0.2014285773038864,
      "learning_rate": 0.00011214184473332183,
      "loss": 0.543,
      "num_input_tokens_seen": 20064896,
      "step": 30695
    },
    {
      "epoch": 16.09014675052411,
      "grad_norm": 0.17959250509738922,
      "learning_rate": 0.0001119975659297025,
      "loss": 0.4296,
      "num_input_tokens_seen": 20067776,
      "step": 30700
    },
    {
      "epoch": 16.092767295597483,
      "grad_norm": 0.17839676141738892,
      "learning_rate": 0.00011185336829176568,
      "loss": 0.4482,
      "num_input_tokens_seen": 20071072,
      "step": 30705
    },
    {
      "epoch": 16.09538784067086,
      "grad_norm": 0.2267932891845703,
      "learning_rate": 0.00011170925184967601,
      "loss": 0.4115,
      "num_input_tokens_seen": 20073920,
      "step": 30710
    },
    {
      "epoch": 16.098008385744233,
      "grad_norm": 0.08724416047334671,
      "learning_rate": 0.00011156521663358094,
      "loss": 0.4879,
      "num_input_tokens_seen": 20077952,
      "step": 30715
    },
    {
      "epoch": 16.10062893081761,
      "grad_norm": 0.1251232624053955,
      "learning_rate": 0.00011142126267361124,
      "loss": 0.5294,
      "num_input_tokens_seen": 20081472,
      "step": 30720
    },
    {
      "epoch": 16.103249475890987,
      "grad_norm": 0.1140279546380043,
      "learning_rate": 0.00011127738999988007,
      "loss": 0.3543,
      "num_input_tokens_seen": 20084128,
      "step": 30725
    },
    {
      "epoch": 16.10587002096436,
      "grad_norm": 0.1531580239534378,
      "learning_rate": 0.00011113359864248429,
      "loss": 0.4954,
      "num_input_tokens_seen": 20087488,
      "step": 30730
    },
    {
      "epoch": 16.108490566037737,
      "grad_norm": 0.2685762941837311,
      "learning_rate": 0.00011098988863150317,
      "loss": 0.5015,
      "num_input_tokens_seen": 20090656,
      "step": 30735
    },
    {
      "epoch": 16.11111111111111,
      "grad_norm": 0.20556038618087769,
      "learning_rate": 0.0001108462599969992,
      "loss": 0.3855,
      "num_input_tokens_seen": 20093632,
      "step": 30740
    },
    {
      "epoch": 16.113731656184488,
      "grad_norm": 0.14754165709018707,
      "learning_rate": 0.000110702712769018,
      "loss": 0.3146,
      "num_input_tokens_seen": 20097312,
      "step": 30745
    },
    {
      "epoch": 16.11635220125786,
      "grad_norm": 0.15630127489566803,
      "learning_rate": 0.00011055924697758801,
      "loss": 0.6467,
      "num_input_tokens_seen": 20100832,
      "step": 30750
    },
    {
      "epoch": 16.118972746331238,
      "grad_norm": 0.23290102183818817,
      "learning_rate": 0.00011041586265272052,
      "loss": 0.5255,
      "num_input_tokens_seen": 20104800,
      "step": 30755
    },
    {
      "epoch": 16.12159329140461,
      "grad_norm": 0.09333276003599167,
      "learning_rate": 0.00011027255982441003,
      "loss": 0.3924,
      "num_input_tokens_seen": 20108544,
      "step": 30760
    },
    {
      "epoch": 16.12421383647799,
      "grad_norm": 0.11418642848730087,
      "learning_rate": 0.00011012933852263369,
      "loss": 0.2601,
      "num_input_tokens_seen": 20111680,
      "step": 30765
    },
    {
      "epoch": 16.12683438155136,
      "grad_norm": 0.16922754049301147,
      "learning_rate": 0.00010998619877735184,
      "loss": 0.3403,
      "num_input_tokens_seen": 20115328,
      "step": 30770
    },
    {
      "epoch": 16.12945492662474,
      "grad_norm": 0.1273026317358017,
      "learning_rate": 0.0001098431406185078,
      "loss": 0.3393,
      "num_input_tokens_seen": 20118752,
      "step": 30775
    },
    {
      "epoch": 16.132075471698112,
      "grad_norm": 0.19970792531967163,
      "learning_rate": 0.00010970016407602751,
      "loss": 0.3151,
      "num_input_tokens_seen": 20121504,
      "step": 30780
    },
    {
      "epoch": 16.13469601677149,
      "grad_norm": 0.1093519777059555,
      "learning_rate": 0.00010955726917982023,
      "loss": 0.4889,
      "num_input_tokens_seen": 20125440,
      "step": 30785
    },
    {
      "epoch": 16.137316561844862,
      "grad_norm": 0.19353853166103363,
      "learning_rate": 0.00010941445595977767,
      "loss": 0.4337,
      "num_input_tokens_seen": 20128288,
      "step": 30790
    },
    {
      "epoch": 16.13993710691824,
      "grad_norm": 0.1452207714319229,
      "learning_rate": 0.00010927172444577494,
      "loss": 0.4409,
      "num_input_tokens_seen": 20131328,
      "step": 30795
    },
    {
      "epoch": 16.142557651991613,
      "grad_norm": 0.1422969251871109,
      "learning_rate": 0.00010912907466766985,
      "loss": 0.2679,
      "num_input_tokens_seen": 20135616,
      "step": 30800
    },
    {
      "epoch": 16.14517819706499,
      "grad_norm": 0.18633422255516052,
      "learning_rate": 0.00010898650665530302,
      "loss": 0.4193,
      "num_input_tokens_seen": 20139040,
      "step": 30805
    },
    {
      "epoch": 16.147798742138363,
      "grad_norm": 0.14131951332092285,
      "learning_rate": 0.000108844020438498,
      "loss": 0.4742,
      "num_input_tokens_seen": 20141984,
      "step": 30810
    },
    {
      "epoch": 16.15041928721174,
      "grad_norm": 0.10832314193248749,
      "learning_rate": 0.00010870161604706152,
      "loss": 0.37,
      "num_input_tokens_seen": 20144448,
      "step": 30815
    },
    {
      "epoch": 16.153039832285117,
      "grad_norm": 0.19948458671569824,
      "learning_rate": 0.00010855929351078264,
      "loss": 0.4053,
      "num_input_tokens_seen": 20150048,
      "step": 30820
    },
    {
      "epoch": 16.15566037735849,
      "grad_norm": 0.1690431535243988,
      "learning_rate": 0.00010841705285943382,
      "loss": 0.376,
      "num_input_tokens_seen": 20153600,
      "step": 30825
    },
    {
      "epoch": 16.158280922431867,
      "grad_norm": 0.2111012488603592,
      "learning_rate": 0.0001082748941227702,
      "loss": 0.3774,
      "num_input_tokens_seen": 20156448,
      "step": 30830
    },
    {
      "epoch": 16.16090146750524,
      "grad_norm": 0.27785131335258484,
      "learning_rate": 0.00010813281733052959,
      "loss": 0.4252,
      "num_input_tokens_seen": 20160256,
      "step": 30835
    },
    {
      "epoch": 16.163522012578618,
      "grad_norm": 0.26470282673835754,
      "learning_rate": 0.00010799082251243292,
      "loss": 0.4673,
      "num_input_tokens_seen": 20163168,
      "step": 30840
    },
    {
      "epoch": 16.16614255765199,
      "grad_norm": 0.3461025059223175,
      "learning_rate": 0.00010784890969818407,
      "loss": 0.3281,
      "num_input_tokens_seen": 20166048,
      "step": 30845
    },
    {
      "epoch": 16.168763102725368,
      "grad_norm": 0.12074201554059982,
      "learning_rate": 0.00010770707891746928,
      "loss": 0.4214,
      "num_input_tokens_seen": 20169632,
      "step": 30850
    },
    {
      "epoch": 16.17138364779874,
      "grad_norm": 0.14198653399944305,
      "learning_rate": 0.00010756533019995817,
      "loss": 0.4574,
      "num_input_tokens_seen": 20173920,
      "step": 30855
    },
    {
      "epoch": 16.17400419287212,
      "grad_norm": 0.24989943206310272,
      "learning_rate": 0.0001074236635753027,
      "loss": 0.5134,
      "num_input_tokens_seen": 20176448,
      "step": 30860
    },
    {
      "epoch": 16.17662473794549,
      "grad_norm": 0.19064569473266602,
      "learning_rate": 0.00010728207907313809,
      "loss": 0.476,
      "num_input_tokens_seen": 20180448,
      "step": 30865
    },
    {
      "epoch": 16.17924528301887,
      "grad_norm": 0.17482434213161469,
      "learning_rate": 0.0001071405767230822,
      "loss": 0.4607,
      "num_input_tokens_seen": 20183232,
      "step": 30870
    },
    {
      "epoch": 16.181865828092242,
      "grad_norm": 0.27007395029067993,
      "learning_rate": 0.0001069991565547358,
      "loss": 0.403,
      "num_input_tokens_seen": 20186240,
      "step": 30875
    },
    {
      "epoch": 16.18448637316562,
      "grad_norm": 0.11860951036214828,
      "learning_rate": 0.00010685781859768223,
      "loss": 0.3541,
      "num_input_tokens_seen": 20189888,
      "step": 30880
    },
    {
      "epoch": 16.187106918238992,
      "grad_norm": 0.1660480797290802,
      "learning_rate": 0.00010671656288148768,
      "loss": 0.4214,
      "num_input_tokens_seen": 20193440,
      "step": 30885
    },
    {
      "epoch": 16.18972746331237,
      "grad_norm": 0.12038110941648483,
      "learning_rate": 0.00010657538943570138,
      "loss": 0.4014,
      "num_input_tokens_seen": 20197088,
      "step": 30890
    },
    {
      "epoch": 16.192348008385743,
      "grad_norm": 0.31326591968536377,
      "learning_rate": 0.00010643429828985518,
      "loss": 0.4456,
      "num_input_tokens_seen": 20200736,
      "step": 30895
    },
    {
      "epoch": 16.19496855345912,
      "grad_norm": 0.1620456576347351,
      "learning_rate": 0.0001062932894734639,
      "loss": 0.3816,
      "num_input_tokens_seen": 20203712,
      "step": 30900
    },
    {
      "epoch": 16.197589098532493,
      "grad_norm": 0.13198646903038025,
      "learning_rate": 0.00010615236301602476,
      "loss": 0.4638,
      "num_input_tokens_seen": 20206688,
      "step": 30905
    },
    {
      "epoch": 16.20020964360587,
      "grad_norm": 0.1357073336839676,
      "learning_rate": 0.00010601151894701794,
      "loss": 0.461,
      "num_input_tokens_seen": 20210112,
      "step": 30910
    },
    {
      "epoch": 16.202830188679247,
      "grad_norm": 0.1414388120174408,
      "learning_rate": 0.0001058707572959065,
      "loss": 0.4525,
      "num_input_tokens_seen": 20212768,
      "step": 30915
    },
    {
      "epoch": 16.20545073375262,
      "grad_norm": 0.1277455985546112,
      "learning_rate": 0.00010573007809213614,
      "loss": 0.5428,
      "num_input_tokens_seen": 20216928,
      "step": 30920
    },
    {
      "epoch": 16.208071278825997,
      "grad_norm": 0.12014485895633698,
      "learning_rate": 0.00010558948136513536,
      "loss": 0.3382,
      "num_input_tokens_seen": 20219488,
      "step": 30925
    },
    {
      "epoch": 16.21069182389937,
      "grad_norm": 0.2002529352903366,
      "learning_rate": 0.00010544896714431557,
      "loss": 0.3101,
      "num_input_tokens_seen": 20222592,
      "step": 30930
    },
    {
      "epoch": 16.213312368972748,
      "grad_norm": 0.1305534690618515,
      "learning_rate": 0.0001053085354590706,
      "loss": 0.5637,
      "num_input_tokens_seen": 20227616,
      "step": 30935
    },
    {
      "epoch": 16.21593291404612,
      "grad_norm": 0.2742302119731903,
      "learning_rate": 0.00010516818633877695,
      "loss": 0.4516,
      "num_input_tokens_seen": 20230240,
      "step": 30940
    },
    {
      "epoch": 16.218553459119498,
      "grad_norm": 0.247484028339386,
      "learning_rate": 0.00010502791981279425,
      "loss": 0.4367,
      "num_input_tokens_seen": 20233120,
      "step": 30945
    },
    {
      "epoch": 16.22117400419287,
      "grad_norm": 0.09345132112503052,
      "learning_rate": 0.00010488773591046469,
      "loss": 0.4862,
      "num_input_tokens_seen": 20236512,
      "step": 30950
    },
    {
      "epoch": 16.22379454926625,
      "grad_norm": 0.11417748779058456,
      "learning_rate": 0.0001047476346611132,
      "loss": 0.3214,
      "num_input_tokens_seen": 20241024,
      "step": 30955
    },
    {
      "epoch": 16.22641509433962,
      "grad_norm": 0.1227143257856369,
      "learning_rate": 0.00010460761609404724,
      "loss": 0.3401,
      "num_input_tokens_seen": 20244800,
      "step": 30960
    },
    {
      "epoch": 16.229035639413,
      "grad_norm": 0.1007026731967926,
      "learning_rate": 0.00010446768023855701,
      "loss": 0.4628,
      "num_input_tokens_seen": 20249152,
      "step": 30965
    },
    {
      "epoch": 16.231656184486372,
      "grad_norm": 0.2193092405796051,
      "learning_rate": 0.00010432782712391559,
      "loss": 0.4936,
      "num_input_tokens_seen": 20252512,
      "step": 30970
    },
    {
      "epoch": 16.23427672955975,
      "grad_norm": 0.15821470320224762,
      "learning_rate": 0.00010418805677937871,
      "loss": 0.3928,
      "num_input_tokens_seen": 20256224,
      "step": 30975
    },
    {
      "epoch": 16.236897274633122,
      "grad_norm": 0.1714731752872467,
      "learning_rate": 0.00010404836923418465,
      "loss": 0.5185,
      "num_input_tokens_seen": 20258656,
      "step": 30980
    },
    {
      "epoch": 16.2395178197065,
      "grad_norm": 0.12810157239437103,
      "learning_rate": 0.00010390876451755477,
      "loss": 0.3306,
      "num_input_tokens_seen": 20262528,
      "step": 30985
    },
    {
      "epoch": 16.242138364779873,
      "grad_norm": 0.08893265575170517,
      "learning_rate": 0.0001037692426586922,
      "loss": 0.4608,
      "num_input_tokens_seen": 20266176,
      "step": 30990
    },
    {
      "epoch": 16.24475890985325,
      "grad_norm": 0.2585868239402771,
      "learning_rate": 0.0001036298036867837,
      "loss": 0.3303,
      "num_input_tokens_seen": 20269088,
      "step": 30995
    },
    {
      "epoch": 16.247379454926623,
      "grad_norm": 0.21962715685367584,
      "learning_rate": 0.00010349044763099819,
      "loss": 0.363,
      "num_input_tokens_seen": 20272384,
      "step": 31000
    },
    {
      "epoch": 16.25,
      "grad_norm": 0.09608300030231476,
      "learning_rate": 0.00010335117452048742,
      "loss": 0.4021,
      "num_input_tokens_seen": 20276416,
      "step": 31005
    },
    {
      "epoch": 16.252620545073377,
      "grad_norm": 0.20355595648288727,
      "learning_rate": 0.00010321198438438589,
      "loss": 0.406,
      "num_input_tokens_seen": 20279904,
      "step": 31010
    },
    {
      "epoch": 16.25524109014675,
      "grad_norm": 0.1408318728208542,
      "learning_rate": 0.00010307287725181036,
      "loss": 0.3938,
      "num_input_tokens_seen": 20283200,
      "step": 31015
    },
    {
      "epoch": 16.257861635220127,
      "grad_norm": 0.23656591773033142,
      "learning_rate": 0.00010293385315186049,
      "loss": 0.3843,
      "num_input_tokens_seen": 20286336,
      "step": 31020
    },
    {
      "epoch": 16.2604821802935,
      "grad_norm": 0.23265254497528076,
      "learning_rate": 0.00010279491211361853,
      "loss": 0.4185,
      "num_input_tokens_seen": 20289024,
      "step": 31025
    },
    {
      "epoch": 16.263102725366878,
      "grad_norm": 0.15207913517951965,
      "learning_rate": 0.00010265605416614938,
      "loss": 0.5157,
      "num_input_tokens_seen": 20291968,
      "step": 31030
    },
    {
      "epoch": 16.26572327044025,
      "grad_norm": 0.15739402174949646,
      "learning_rate": 0.00010251727933850069,
      "loss": 0.3953,
      "num_input_tokens_seen": 20295072,
      "step": 31035
    },
    {
      "epoch": 16.268343815513628,
      "grad_norm": 0.14158913493156433,
      "learning_rate": 0.00010237858765970231,
      "loss": 0.3238,
      "num_input_tokens_seen": 20298112,
      "step": 31040
    },
    {
      "epoch": 16.270964360587,
      "grad_norm": 0.10871683061122894,
      "learning_rate": 0.00010223997915876726,
      "loss": 0.4886,
      "num_input_tokens_seen": 20301664,
      "step": 31045
    },
    {
      "epoch": 16.27358490566038,
      "grad_norm": 0.15356577932834625,
      "learning_rate": 0.00010210145386469049,
      "loss": 0.444,
      "num_input_tokens_seen": 20304608,
      "step": 31050
    },
    {
      "epoch": 16.27620545073375,
      "grad_norm": 0.14175650477409363,
      "learning_rate": 0.00010196301180645012,
      "loss": 0.4376,
      "num_input_tokens_seen": 20307840,
      "step": 31055
    },
    {
      "epoch": 16.27882599580713,
      "grad_norm": 0.15299543738365173,
      "learning_rate": 0.0001018246530130067,
      "loss": 0.3446,
      "num_input_tokens_seen": 20310784,
      "step": 31060
    },
    {
      "epoch": 16.281446540880502,
      "grad_norm": 0.14439979195594788,
      "learning_rate": 0.00010168637751330328,
      "loss": 0.2629,
      "num_input_tokens_seen": 20313344,
      "step": 31065
    },
    {
      "epoch": 16.28406708595388,
      "grad_norm": 0.2628938555717468,
      "learning_rate": 0.00010154818533626552,
      "loss": 0.3665,
      "num_input_tokens_seen": 20316256,
      "step": 31070
    },
    {
      "epoch": 16.286687631027252,
      "grad_norm": 0.12286683171987534,
      "learning_rate": 0.00010141007651080153,
      "loss": 0.4258,
      "num_input_tokens_seen": 20320672,
      "step": 31075
    },
    {
      "epoch": 16.28930817610063,
      "grad_norm": 0.087629534304142,
      "learning_rate": 0.00010127205106580212,
      "loss": 0.4078,
      "num_input_tokens_seen": 20324128,
      "step": 31080
    },
    {
      "epoch": 16.291928721174003,
      "grad_norm": 0.17663492262363434,
      "learning_rate": 0.0001011341090301407,
      "loss": 0.4214,
      "num_input_tokens_seen": 20331520,
      "step": 31085
    },
    {
      "epoch": 16.29454926624738,
      "grad_norm": 0.12441933155059814,
      "learning_rate": 0.00010099625043267336,
      "loss": 0.3805,
      "num_input_tokens_seen": 20334560,
      "step": 31090
    },
    {
      "epoch": 16.297169811320753,
      "grad_norm": 0.18479059636592865,
      "learning_rate": 0.00010085847530223812,
      "loss": 0.451,
      "num_input_tokens_seen": 20337856,
      "step": 31095
    },
    {
      "epoch": 16.29979035639413,
      "grad_norm": 0.1344982534646988,
      "learning_rate": 0.00010072078366765641,
      "loss": 0.3054,
      "num_input_tokens_seen": 20340224,
      "step": 31100
    },
    {
      "epoch": 16.302410901467507,
      "grad_norm": 0.14880654215812683,
      "learning_rate": 0.00010058317555773139,
      "loss": 0.4538,
      "num_input_tokens_seen": 20343968,
      "step": 31105
    },
    {
      "epoch": 16.30503144654088,
      "grad_norm": 0.13682237267494202,
      "learning_rate": 0.00010044565100124925,
      "loss": 0.3814,
      "num_input_tokens_seen": 20348096,
      "step": 31110
    },
    {
      "epoch": 16.307651991614257,
      "grad_norm": 0.18074782192707062,
      "learning_rate": 0.00010030821002697871,
      "loss": 0.4665,
      "num_input_tokens_seen": 20351072,
      "step": 31115
    },
    {
      "epoch": 16.31027253668763,
      "grad_norm": 0.13412441313266754,
      "learning_rate": 0.00010017085266367054,
      "loss": 0.4126,
      "num_input_tokens_seen": 20354528,
      "step": 31120
    },
    {
      "epoch": 16.312893081761008,
      "grad_norm": 0.15288442373275757,
      "learning_rate": 0.00010003357894005854,
      "loss": 0.3841,
      "num_input_tokens_seen": 20357664,
      "step": 31125
    },
    {
      "epoch": 16.31551362683438,
      "grad_norm": 0.21026714146137238,
      "learning_rate": 9.989638888485885e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 20361056,
      "step": 31130
    },
    {
      "epoch": 16.318134171907758,
      "grad_norm": 0.16410726308822632,
      "learning_rate": 9.975928252676991e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 20364160,
      "step": 31135
    },
    {
      "epoch": 16.32075471698113,
      "grad_norm": 0.12199748307466507,
      "learning_rate": 9.962225989447288e-05,
      "loss": 0.5161,
      "num_input_tokens_seen": 20367072,
      "step": 31140
    },
    {
      "epoch": 16.32337526205451,
      "grad_norm": 0.17208051681518555,
      "learning_rate": 9.948532101663144e-05,
      "loss": 0.3831,
      "num_input_tokens_seen": 20369600,
      "step": 31145
    },
    {
      "epoch": 16.32599580712788,
      "grad_norm": 0.13056769967079163,
      "learning_rate": 9.934846592189134e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 20372768,
      "step": 31150
    },
    {
      "epoch": 16.32861635220126,
      "grad_norm": 0.16065770387649536,
      "learning_rate": 9.921169463888153e-05,
      "loss": 0.4853,
      "num_input_tokens_seen": 20375680,
      "step": 31155
    },
    {
      "epoch": 16.331236897274632,
      "grad_norm": 0.1467992663383484,
      "learning_rate": 9.907500719621253e-05,
      "loss": 0.3913,
      "num_input_tokens_seen": 20378272,
      "step": 31160
    },
    {
      "epoch": 16.33385744234801,
      "grad_norm": 0.11337465792894363,
      "learning_rate": 9.893840362247809e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 20381888,
      "step": 31165
    },
    {
      "epoch": 16.336477987421382,
      "grad_norm": 0.08799827098846436,
      "learning_rate": 9.880188394625417e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 20385856,
      "step": 31170
    },
    {
      "epoch": 16.33909853249476,
      "grad_norm": 0.2564990222454071,
      "learning_rate": 9.86654481960989e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 20389120,
      "step": 31175
    },
    {
      "epoch": 16.341719077568133,
      "grad_norm": 0.220762237906456,
      "learning_rate": 9.852909640055325e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 20392672,
      "step": 31180
    },
    {
      "epoch": 16.34433962264151,
      "grad_norm": 0.1953219324350357,
      "learning_rate": 9.839282858814047e-05,
      "loss": 0.4009,
      "num_input_tokens_seen": 20395232,
      "step": 31185
    },
    {
      "epoch": 16.346960167714883,
      "grad_norm": 0.12618349492549896,
      "learning_rate": 9.825664478736607e-05,
      "loss": 0.3965,
      "num_input_tokens_seen": 20398368,
      "step": 31190
    },
    {
      "epoch": 16.34958071278826,
      "grad_norm": 0.20724767446517944,
      "learning_rate": 9.812054502671835e-05,
      "loss": 0.3604,
      "num_input_tokens_seen": 20400768,
      "step": 31195
    },
    {
      "epoch": 16.352201257861637,
      "grad_norm": 0.08824434876441956,
      "learning_rate": 9.798452933466761e-05,
      "loss": 0.4975,
      "num_input_tokens_seen": 20404448,
      "step": 31200
    },
    {
      "epoch": 16.35482180293501,
      "grad_norm": 0.23708462715148926,
      "learning_rate": 9.784859773966693e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 20407264,
      "step": 31205
    },
    {
      "epoch": 16.357442348008387,
      "grad_norm": 0.148317351937294,
      "learning_rate": 9.771275027015159e-05,
      "loss": 0.3089,
      "num_input_tokens_seen": 20410272,
      "step": 31210
    },
    {
      "epoch": 16.36006289308176,
      "grad_norm": 0.09859143942594528,
      "learning_rate": 9.757698695453954e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 20413280,
      "step": 31215
    },
    {
      "epoch": 16.362683438155138,
      "grad_norm": 0.17777884006500244,
      "learning_rate": 9.74413078212305e-05,
      "loss": 0.4703,
      "num_input_tokens_seen": 20415776,
      "step": 31220
    },
    {
      "epoch": 16.36530398322851,
      "grad_norm": 0.19430458545684814,
      "learning_rate": 9.730571289860746e-05,
      "loss": 0.4921,
      "num_input_tokens_seen": 20418944,
      "step": 31225
    },
    {
      "epoch": 16.367924528301888,
      "grad_norm": 0.13738462328910828,
      "learning_rate": 9.717020221503493e-05,
      "loss": 0.5647,
      "num_input_tokens_seen": 20422112,
      "step": 31230
    },
    {
      "epoch": 16.37054507337526,
      "grad_norm": 0.2030600905418396,
      "learning_rate": 9.703477579886038e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 20424736,
      "step": 31235
    },
    {
      "epoch": 16.37316561844864,
      "grad_norm": 0.15414097905158997,
      "learning_rate": 9.689943367841347e-05,
      "loss": 0.3866,
      "num_input_tokens_seen": 20428288,
      "step": 31240
    },
    {
      "epoch": 16.37578616352201,
      "grad_norm": 0.11875078827142715,
      "learning_rate": 9.676417588200632e-05,
      "loss": 0.4515,
      "num_input_tokens_seen": 20432320,
      "step": 31245
    },
    {
      "epoch": 16.37840670859539,
      "grad_norm": 0.27727627754211426,
      "learning_rate": 9.662900243793321e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 20434976,
      "step": 31250
    },
    {
      "epoch": 16.381027253668762,
      "grad_norm": 0.17410032451152802,
      "learning_rate": 9.649391337447084e-05,
      "loss": 0.4249,
      "num_input_tokens_seen": 20437664,
      "step": 31255
    },
    {
      "epoch": 16.38364779874214,
      "grad_norm": 0.10776685178279877,
      "learning_rate": 9.635890871987829e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 20440896,
      "step": 31260
    },
    {
      "epoch": 16.386268343815512,
      "grad_norm": 0.1118689775466919,
      "learning_rate": 9.622398850239705e-05,
      "loss": 0.3704,
      "num_input_tokens_seen": 20444064,
      "step": 31265
    },
    {
      "epoch": 16.38888888888889,
      "grad_norm": 0.22461660206317902,
      "learning_rate": 9.608915275025104e-05,
      "loss": 0.3953,
      "num_input_tokens_seen": 20446944,
      "step": 31270
    },
    {
      "epoch": 16.391509433962263,
      "grad_norm": 0.17091208696365356,
      "learning_rate": 9.595440149164619e-05,
      "loss": 0.4231,
      "num_input_tokens_seen": 20449888,
      "step": 31275
    },
    {
      "epoch": 16.39412997903564,
      "grad_norm": 0.12728819251060486,
      "learning_rate": 9.581973475477085e-05,
      "loss": 0.4054,
      "num_input_tokens_seen": 20453824,
      "step": 31280
    },
    {
      "epoch": 16.396750524109013,
      "grad_norm": 0.14804333448410034,
      "learning_rate": 9.568515256779587e-05,
      "loss": 0.5866,
      "num_input_tokens_seen": 20457184,
      "step": 31285
    },
    {
      "epoch": 16.39937106918239,
      "grad_norm": 0.13924381136894226,
      "learning_rate": 9.555065495887433e-05,
      "loss": 0.4275,
      "num_input_tokens_seen": 20460864,
      "step": 31290
    },
    {
      "epoch": 16.401991614255767,
      "grad_norm": 0.1528402864933014,
      "learning_rate": 9.541624195614152e-05,
      "loss": 0.3627,
      "num_input_tokens_seen": 20463392,
      "step": 31295
    },
    {
      "epoch": 16.40461215932914,
      "grad_norm": 0.18973298370838165,
      "learning_rate": 9.528191358771532e-05,
      "loss": 0.3638,
      "num_input_tokens_seen": 20466432,
      "step": 31300
    },
    {
      "epoch": 16.407232704402517,
      "grad_norm": 0.1146138608455658,
      "learning_rate": 9.514766988169549e-05,
      "loss": 0.4545,
      "num_input_tokens_seen": 20469312,
      "step": 31305
    },
    {
      "epoch": 16.40985324947589,
      "grad_norm": 0.12701286375522614,
      "learning_rate": 9.501351086616422e-05,
      "loss": 0.4962,
      "num_input_tokens_seen": 20471936,
      "step": 31310
    },
    {
      "epoch": 16.412473794549268,
      "grad_norm": 0.16382072865962982,
      "learning_rate": 9.487943656918613e-05,
      "loss": 0.2742,
      "num_input_tokens_seen": 20474720,
      "step": 31315
    },
    {
      "epoch": 16.41509433962264,
      "grad_norm": 0.14662472903728485,
      "learning_rate": 9.474544701880805e-05,
      "loss": 0.5295,
      "num_input_tokens_seen": 20478784,
      "step": 31320
    },
    {
      "epoch": 16.417714884696018,
      "grad_norm": 0.24558314681053162,
      "learning_rate": 9.461154224305923e-05,
      "loss": 0.3615,
      "num_input_tokens_seen": 20481824,
      "step": 31325
    },
    {
      "epoch": 16.42033542976939,
      "grad_norm": 0.20433206856250763,
      "learning_rate": 9.447772226995082e-05,
      "loss": 0.3415,
      "num_input_tokens_seen": 20484704,
      "step": 31330
    },
    {
      "epoch": 16.42295597484277,
      "grad_norm": 0.18551024794578552,
      "learning_rate": 9.434398712747639e-05,
      "loss": 0.5049,
      "num_input_tokens_seen": 20487936,
      "step": 31335
    },
    {
      "epoch": 16.42557651991614,
      "grad_norm": 0.26163414120674133,
      "learning_rate": 9.421033684361185e-05,
      "loss": 0.5098,
      "num_input_tokens_seen": 20491264,
      "step": 31340
    },
    {
      "epoch": 16.42819706498952,
      "grad_norm": 0.22738908231258392,
      "learning_rate": 9.407677144631533e-05,
      "loss": 0.4417,
      "num_input_tokens_seen": 20494112,
      "step": 31345
    },
    {
      "epoch": 16.430817610062892,
      "grad_norm": 0.1929461658000946,
      "learning_rate": 9.394329096352732e-05,
      "loss": 0.4242,
      "num_input_tokens_seen": 20497184,
      "step": 31350
    },
    {
      "epoch": 16.43343815513627,
      "grad_norm": 0.17515331506729126,
      "learning_rate": 9.380989542317037e-05,
      "loss": 0.3635,
      "num_input_tokens_seen": 20500864,
      "step": 31355
    },
    {
      "epoch": 16.436058700209642,
      "grad_norm": 0.16979938745498657,
      "learning_rate": 9.367658485314907e-05,
      "loss": 0.4141,
      "num_input_tokens_seen": 20504928,
      "step": 31360
    },
    {
      "epoch": 16.43867924528302,
      "grad_norm": 0.2566717565059662,
      "learning_rate": 9.354335928135066e-05,
      "loss": 0.4492,
      "num_input_tokens_seen": 20507776,
      "step": 31365
    },
    {
      "epoch": 16.441299790356393,
      "grad_norm": 0.17005088925361633,
      "learning_rate": 9.341021873564432e-05,
      "loss": 0.4608,
      "num_input_tokens_seen": 20510944,
      "step": 31370
    },
    {
      "epoch": 16.44392033542977,
      "grad_norm": 0.14079034328460693,
      "learning_rate": 9.327716324388164e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 20514784,
      "step": 31375
    },
    {
      "epoch": 16.446540880503143,
      "grad_norm": 0.17590169608592987,
      "learning_rate": 9.314419283389641e-05,
      "loss": 0.3548,
      "num_input_tokens_seen": 20517248,
      "step": 31380
    },
    {
      "epoch": 16.44916142557652,
      "grad_norm": 0.15425598621368408,
      "learning_rate": 9.30113075335044e-05,
      "loss": 0.4065,
      "num_input_tokens_seen": 20520512,
      "step": 31385
    },
    {
      "epoch": 16.451781970649897,
      "grad_norm": 0.15294863283634186,
      "learning_rate": 9.287850737050352e-05,
      "loss": 0.4366,
      "num_input_tokens_seen": 20523328,
      "step": 31390
    },
    {
      "epoch": 16.45440251572327,
      "grad_norm": 0.14265970885753632,
      "learning_rate": 9.274579237267422e-05,
      "loss": 0.3433,
      "num_input_tokens_seen": 20527296,
      "step": 31395
    },
    {
      "epoch": 16.457023060796647,
      "grad_norm": 0.24660997092723846,
      "learning_rate": 9.261316256777897e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 20529952,
      "step": 31400
    },
    {
      "epoch": 16.45964360587002,
      "grad_norm": 0.12970378994941711,
      "learning_rate": 9.24806179835625e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 20533760,
      "step": 31405
    },
    {
      "epoch": 16.462264150943398,
      "grad_norm": 0.22941653430461884,
      "learning_rate": 9.234815864775137e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 20536384,
      "step": 31410
    },
    {
      "epoch": 16.46488469601677,
      "grad_norm": 0.12748324871063232,
      "learning_rate": 9.221578458805485e-05,
      "loss": 0.251,
      "num_input_tokens_seen": 20539744,
      "step": 31415
    },
    {
      "epoch": 16.467505241090148,
      "grad_norm": 0.12380800396203995,
      "learning_rate": 9.208349583216385e-05,
      "loss": 0.3801,
      "num_input_tokens_seen": 20543904,
      "step": 31420
    },
    {
      "epoch": 16.47012578616352,
      "grad_norm": 0.16428537666797638,
      "learning_rate": 9.195129240775174e-05,
      "loss": 0.3129,
      "num_input_tokens_seen": 20547552,
      "step": 31425
    },
    {
      "epoch": 16.4727463312369,
      "grad_norm": 0.16590824723243713,
      "learning_rate": 9.181917434247417e-05,
      "loss": 0.3476,
      "num_input_tokens_seen": 20549984,
      "step": 31430
    },
    {
      "epoch": 16.47536687631027,
      "grad_norm": 0.16303297877311707,
      "learning_rate": 9.168714166396835e-05,
      "loss": 0.4327,
      "num_input_tokens_seen": 20553280,
      "step": 31435
    },
    {
      "epoch": 16.47798742138365,
      "grad_norm": 0.08198010176420212,
      "learning_rate": 9.155519439985438e-05,
      "loss": 0.4778,
      "num_input_tokens_seen": 20557376,
      "step": 31440
    },
    {
      "epoch": 16.480607966457022,
      "grad_norm": 0.16857141256332397,
      "learning_rate": 9.142333257773383e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 20560288,
      "step": 31445
    },
    {
      "epoch": 16.4832285115304,
      "grad_norm": 0.0898447334766388,
      "learning_rate": 9.12915562251908e-05,
      "loss": 0.4402,
      "num_input_tokens_seen": 20563392,
      "step": 31450
    },
    {
      "epoch": 16.485849056603772,
      "grad_norm": 0.17070943117141724,
      "learning_rate": 9.115986536979149e-05,
      "loss": 0.4718,
      "num_input_tokens_seen": 20566272,
      "step": 31455
    },
    {
      "epoch": 16.48846960167715,
      "grad_norm": 0.14728333055973053,
      "learning_rate": 9.10282600390841e-05,
      "loss": 0.4295,
      "num_input_tokens_seen": 20568672,
      "step": 31460
    },
    {
      "epoch": 16.491090146750523,
      "grad_norm": 0.16980499029159546,
      "learning_rate": 9.08967402605988e-05,
      "loss": 0.5286,
      "num_input_tokens_seen": 20572096,
      "step": 31465
    },
    {
      "epoch": 16.4937106918239,
      "grad_norm": 0.14160676300525665,
      "learning_rate": 9.07653060618483e-05,
      "loss": 0.3546,
      "num_input_tokens_seen": 20575008,
      "step": 31470
    },
    {
      "epoch": 16.496331236897273,
      "grad_norm": 0.17533394694328308,
      "learning_rate": 9.063395747032676e-05,
      "loss": 0.5765,
      "num_input_tokens_seen": 20578304,
      "step": 31475
    },
    {
      "epoch": 16.49895178197065,
      "grad_norm": 0.1794256865978241,
      "learning_rate": 9.050269451351112e-05,
      "loss": 0.4792,
      "num_input_tokens_seen": 20581248,
      "step": 31480
    },
    {
      "epoch": 16.501572327044027,
      "grad_norm": 0.13934561610221863,
      "learning_rate": 9.037151721886006e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 20584032,
      "step": 31485
    },
    {
      "epoch": 16.5041928721174,
      "grad_norm": 0.14239749312400818,
      "learning_rate": 9.024042561381424e-05,
      "loss": 0.4737,
      "num_input_tokens_seen": 20587872,
      "step": 31490
    },
    {
      "epoch": 16.506813417190777,
      "grad_norm": 0.13439327478408813,
      "learning_rate": 9.010941972579656e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 20590880,
      "step": 31495
    },
    {
      "epoch": 16.50943396226415,
      "grad_norm": 0.32275938987731934,
      "learning_rate": 8.99784995822121e-05,
      "loss": 0.3027,
      "num_input_tokens_seen": 20593792,
      "step": 31500
    },
    {
      "epoch": 16.512054507337528,
      "grad_norm": 0.14213387668132782,
      "learning_rate": 8.984766521044769e-05,
      "loss": 0.3903,
      "num_input_tokens_seen": 20596992,
      "step": 31505
    },
    {
      "epoch": 16.5146750524109,
      "grad_norm": 0.2262789011001587,
      "learning_rate": 8.971691663787252e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 20599808,
      "step": 31510
    },
    {
      "epoch": 16.517295597484278,
      "grad_norm": 0.09524277597665787,
      "learning_rate": 8.958625389183756e-05,
      "loss": 0.4377,
      "num_input_tokens_seen": 20603136,
      "step": 31515
    },
    {
      "epoch": 16.51991614255765,
      "grad_norm": 0.16104845702648163,
      "learning_rate": 8.9455676999676e-05,
      "loss": 0.3454,
      "num_input_tokens_seen": 20605792,
      "step": 31520
    },
    {
      "epoch": 16.52253668763103,
      "grad_norm": 0.23314912617206573,
      "learning_rate": 8.932518598870309e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 20608928,
      "step": 31525
    },
    {
      "epoch": 16.5251572327044,
      "grad_norm": 0.19317160546779633,
      "learning_rate": 8.919478088621614e-05,
      "loss": 0.4368,
      "num_input_tokens_seen": 20611680,
      "step": 31530
    },
    {
      "epoch": 16.52777777777778,
      "grad_norm": 0.19663991034030914,
      "learning_rate": 8.906446171949422e-05,
      "loss": 0.3137,
      "num_input_tokens_seen": 20614528,
      "step": 31535
    },
    {
      "epoch": 16.530398322851152,
      "grad_norm": 0.14048317074775696,
      "learning_rate": 8.893422851579885e-05,
      "loss": 0.4275,
      "num_input_tokens_seen": 20617984,
      "step": 31540
    },
    {
      "epoch": 16.53301886792453,
      "grad_norm": 0.12690229713916779,
      "learning_rate": 8.8804081302373e-05,
      "loss": 0.3275,
      "num_input_tokens_seen": 20621952,
      "step": 31545
    },
    {
      "epoch": 16.535639412997902,
      "grad_norm": 0.3239949643611908,
      "learning_rate": 8.867402010644221e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 20624416,
      "step": 31550
    },
    {
      "epoch": 16.53825995807128,
      "grad_norm": 0.13192930817604065,
      "learning_rate": 8.854404495521389e-05,
      "loss": 0.3393,
      "num_input_tokens_seen": 20627456,
      "step": 31555
    },
    {
      "epoch": 16.540880503144653,
      "grad_norm": 0.2618512213230133,
      "learning_rate": 8.841415587587709e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 20630688,
      "step": 31560
    },
    {
      "epoch": 16.54350104821803,
      "grad_norm": 0.10385912656784058,
      "learning_rate": 8.828435289560344e-05,
      "loss": 0.4848,
      "num_input_tokens_seen": 20635552,
      "step": 31565
    },
    {
      "epoch": 16.546121593291403,
      "grad_norm": 0.5608444213867188,
      "learning_rate": 8.815463604154588e-05,
      "loss": 0.4686,
      "num_input_tokens_seen": 20638272,
      "step": 31570
    },
    {
      "epoch": 16.54874213836478,
      "grad_norm": 0.2163662165403366,
      "learning_rate": 8.80250053408399e-05,
      "loss": 0.5449,
      "num_input_tokens_seen": 20641536,
      "step": 31575
    },
    {
      "epoch": 16.551362683438157,
      "grad_norm": 0.13794127106666565,
      "learning_rate": 8.789546082060273e-05,
      "loss": 0.3455,
      "num_input_tokens_seen": 20644864,
      "step": 31580
    },
    {
      "epoch": 16.55398322851153,
      "grad_norm": 0.15786676108837128,
      "learning_rate": 8.776600250793371e-05,
      "loss": 0.5095,
      "num_input_tokens_seen": 20648224,
      "step": 31585
    },
    {
      "epoch": 16.556603773584907,
      "grad_norm": 0.12926185131072998,
      "learning_rate": 8.763663042991399e-05,
      "loss": 0.4236,
      "num_input_tokens_seen": 20652800,
      "step": 31590
    },
    {
      "epoch": 16.55922431865828,
      "grad_norm": 0.16465964913368225,
      "learning_rate": 8.75073446136066e-05,
      "loss": 0.5417,
      "num_input_tokens_seen": 20655776,
      "step": 31595
    },
    {
      "epoch": 16.561844863731658,
      "grad_norm": 0.12263883650302887,
      "learning_rate": 8.737814508605674e-05,
      "loss": 0.5555,
      "num_input_tokens_seen": 20659040,
      "step": 31600
    },
    {
      "epoch": 16.56446540880503,
      "grad_norm": 0.136065274477005,
      "learning_rate": 8.724903187429145e-05,
      "loss": 0.4018,
      "num_input_tokens_seen": 20662560,
      "step": 31605
    },
    {
      "epoch": 16.567085953878408,
      "grad_norm": 0.15963970124721527,
      "learning_rate": 8.71200050053198e-05,
      "loss": 0.3089,
      "num_input_tokens_seen": 20664992,
      "step": 31610
    },
    {
      "epoch": 16.56970649895178,
      "grad_norm": 0.14828921854496002,
      "learning_rate": 8.699106450613287e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 20667488,
      "step": 31615
    },
    {
      "epoch": 16.572327044025158,
      "grad_norm": 0.2545384168624878,
      "learning_rate": 8.686221040370334e-05,
      "loss": 0.4419,
      "num_input_tokens_seen": 20670304,
      "step": 31620
    },
    {
      "epoch": 16.57494758909853,
      "grad_norm": 0.1918611228466034,
      "learning_rate": 8.673344272498596e-05,
      "loss": 0.3977,
      "num_input_tokens_seen": 20674080,
      "step": 31625
    },
    {
      "epoch": 16.57756813417191,
      "grad_norm": 0.18365438282489777,
      "learning_rate": 8.660476149691759e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 20676928,
      "step": 31630
    },
    {
      "epoch": 16.580188679245282,
      "grad_norm": 0.1172620877623558,
      "learning_rate": 8.647616674641684e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 20680096,
      "step": 31635
    },
    {
      "epoch": 16.58280922431866,
      "grad_norm": 0.09912192821502686,
      "learning_rate": 8.63476585003844e-05,
      "loss": 0.4805,
      "num_input_tokens_seen": 20683360,
      "step": 31640
    },
    {
      "epoch": 16.585429769392032,
      "grad_norm": 0.2874975800514221,
      "learning_rate": 8.621923678570259e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 20685920,
      "step": 31645
    },
    {
      "epoch": 16.58805031446541,
      "grad_norm": 0.17511039972305298,
      "learning_rate": 8.609090162923567e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 20688576,
      "step": 31650
    },
    {
      "epoch": 16.590670859538783,
      "grad_norm": 0.17933779954910278,
      "learning_rate": 8.596265305783002e-05,
      "loss": 0.3742,
      "num_input_tokens_seen": 20691424,
      "step": 31655
    },
    {
      "epoch": 16.59329140461216,
      "grad_norm": 0.1491769701242447,
      "learning_rate": 8.583449109831375e-05,
      "loss": 0.4217,
      "num_input_tokens_seen": 20694432,
      "step": 31660
    },
    {
      "epoch": 16.595911949685533,
      "grad_norm": 0.12656420469284058,
      "learning_rate": 8.570641577749705e-05,
      "loss": 0.3836,
      "num_input_tokens_seen": 20697856,
      "step": 31665
    },
    {
      "epoch": 16.59853249475891,
      "grad_norm": 0.16658946871757507,
      "learning_rate": 8.557842712217162e-05,
      "loss": 0.5354,
      "num_input_tokens_seen": 20701504,
      "step": 31670
    },
    {
      "epoch": 16.601153039832283,
      "grad_norm": 0.10272825509309769,
      "learning_rate": 8.545052515911112e-05,
      "loss": 0.4283,
      "num_input_tokens_seen": 20705056,
      "step": 31675
    },
    {
      "epoch": 16.60377358490566,
      "grad_norm": 0.1594393104314804,
      "learning_rate": 8.532270991507136e-05,
      "loss": 0.3848,
      "num_input_tokens_seen": 20707872,
      "step": 31680
    },
    {
      "epoch": 16.606394129979037,
      "grad_norm": 0.12818914651870728,
      "learning_rate": 8.519498141678983e-05,
      "loss": 0.4414,
      "num_input_tokens_seen": 20710560,
      "step": 31685
    },
    {
      "epoch": 16.60901467505241,
      "grad_norm": 0.183188796043396,
      "learning_rate": 8.506733969098579e-05,
      "loss": 0.4543,
      "num_input_tokens_seen": 20714016,
      "step": 31690
    },
    {
      "epoch": 16.611635220125788,
      "grad_norm": 0.329810231924057,
      "learning_rate": 8.49397847643606e-05,
      "loss": 0.4032,
      "num_input_tokens_seen": 20717120,
      "step": 31695
    },
    {
      "epoch": 16.61425576519916,
      "grad_norm": 0.11458756029605865,
      "learning_rate": 8.481231666359723e-05,
      "loss": 0.3735,
      "num_input_tokens_seen": 20720160,
      "step": 31700
    },
    {
      "epoch": 16.616876310272538,
      "grad_norm": 0.14560265839099884,
      "learning_rate": 8.468493541536031e-05,
      "loss": 0.4601,
      "num_input_tokens_seen": 20723328,
      "step": 31705
    },
    {
      "epoch": 16.61949685534591,
      "grad_norm": 0.19406895339488983,
      "learning_rate": 8.455764104629681e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 20725632,
      "step": 31710
    },
    {
      "epoch": 16.622117400419288,
      "grad_norm": 0.1816796362400055,
      "learning_rate": 8.443043358303515e-05,
      "loss": 0.5633,
      "num_input_tokens_seen": 20729600,
      "step": 31715
    },
    {
      "epoch": 16.62473794549266,
      "grad_norm": 0.19719670712947845,
      "learning_rate": 8.430331305218585e-05,
      "loss": 0.4648,
      "num_input_tokens_seen": 20732512,
      "step": 31720
    },
    {
      "epoch": 16.62735849056604,
      "grad_norm": 0.21241477131843567,
      "learning_rate": 8.417627948034096e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 20736544,
      "step": 31725
    },
    {
      "epoch": 16.629979035639412,
      "grad_norm": 0.42504727840423584,
      "learning_rate": 8.404933289407424e-05,
      "loss": 0.4738,
      "num_input_tokens_seen": 20739968,
      "step": 31730
    },
    {
      "epoch": 16.63259958071279,
      "grad_norm": 0.21077778935432434,
      "learning_rate": 8.392247331994174e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 20743296,
      "step": 31735
    },
    {
      "epoch": 16.635220125786162,
      "grad_norm": 0.13239647448062897,
      "learning_rate": 8.37957007844809e-05,
      "loss": 0.4798,
      "num_input_tokens_seen": 20745696,
      "step": 31740
    },
    {
      "epoch": 16.63784067085954,
      "grad_norm": 0.11292733252048492,
      "learning_rate": 8.366901531421134e-05,
      "loss": 0.5628,
      "num_input_tokens_seen": 20750272,
      "step": 31745
    },
    {
      "epoch": 16.640461215932913,
      "grad_norm": 0.20740582048892975,
      "learning_rate": 8.354241693563385e-05,
      "loss": 0.4353,
      "num_input_tokens_seen": 20754112,
      "step": 31750
    },
    {
      "epoch": 16.64308176100629,
      "grad_norm": 0.12424096465110779,
      "learning_rate": 8.341590567523166e-05,
      "loss": 0.369,
      "num_input_tokens_seen": 20756928,
      "step": 31755
    },
    {
      "epoch": 16.645702306079663,
      "grad_norm": 0.14431287348270416,
      "learning_rate": 8.328948155946924e-05,
      "loss": 0.4884,
      "num_input_tokens_seen": 20759968,
      "step": 31760
    },
    {
      "epoch": 16.64832285115304,
      "grad_norm": 0.20062124729156494,
      "learning_rate": 8.316314461479318e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 20762560,
      "step": 31765
    },
    {
      "epoch": 16.650943396226417,
      "grad_norm": 0.22318552434444427,
      "learning_rate": 8.303689486763177e-05,
      "loss": 0.4027,
      "num_input_tokens_seen": 20765120,
      "step": 31770
    },
    {
      "epoch": 16.65356394129979,
      "grad_norm": 0.18983541429042816,
      "learning_rate": 8.291073234439512e-05,
      "loss": 0.3727,
      "num_input_tokens_seen": 20767840,
      "step": 31775
    },
    {
      "epoch": 16.656184486373167,
      "grad_norm": 0.15647254884243011,
      "learning_rate": 8.27846570714747e-05,
      "loss": 0.4363,
      "num_input_tokens_seen": 20771200,
      "step": 31780
    },
    {
      "epoch": 16.65880503144654,
      "grad_norm": 0.2408500760793686,
      "learning_rate": 8.265866907524427e-05,
      "loss": 0.4412,
      "num_input_tokens_seen": 20774336,
      "step": 31785
    },
    {
      "epoch": 16.661425576519918,
      "grad_norm": 0.1242041140794754,
      "learning_rate": 8.253276838205892e-05,
      "loss": 0.5019,
      "num_input_tokens_seen": 20777248,
      "step": 31790
    },
    {
      "epoch": 16.66404612159329,
      "grad_norm": 0.18603257834911346,
      "learning_rate": 8.240695501825568e-05,
      "loss": 0.4026,
      "num_input_tokens_seen": 20780288,
      "step": 31795
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.23817189037799835,
      "learning_rate": 8.228122901015345e-05,
      "loss": 0.5653,
      "num_input_tokens_seen": 20782848,
      "step": 31800
    },
    {
      "epoch": 16.66928721174004,
      "grad_norm": 0.11419589817523956,
      "learning_rate": 8.21555903840524e-05,
      "loss": 0.462,
      "num_input_tokens_seen": 20787168,
      "step": 31805
    },
    {
      "epoch": 16.671907756813418,
      "grad_norm": 0.12922526895999908,
      "learning_rate": 8.203003916623491e-05,
      "loss": 0.5366,
      "num_input_tokens_seen": 20790176,
      "step": 31810
    },
    {
      "epoch": 16.67452830188679,
      "grad_norm": 0.15932336449623108,
      "learning_rate": 8.190457538296464e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 20792864,
      "step": 31815
    },
    {
      "epoch": 16.67714884696017,
      "grad_norm": 0.14916545152664185,
      "learning_rate": 8.177919906048736e-05,
      "loss": 0.3922,
      "num_input_tokens_seen": 20797408,
      "step": 31820
    },
    {
      "epoch": 16.679769392033542,
      "grad_norm": 0.18543432652950287,
      "learning_rate": 8.165391022503044e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 20800128,
      "step": 31825
    },
    {
      "epoch": 16.68238993710692,
      "grad_norm": 0.19949837028980255,
      "learning_rate": 8.152870890280261e-05,
      "loss": 0.4574,
      "num_input_tokens_seen": 20803008,
      "step": 31830
    },
    {
      "epoch": 16.685010482180292,
      "grad_norm": 0.15442003309726715,
      "learning_rate": 8.140359511999473e-05,
      "loss": 0.5362,
      "num_input_tokens_seen": 20806144,
      "step": 31835
    },
    {
      "epoch": 16.68763102725367,
      "grad_norm": 0.20361292362213135,
      "learning_rate": 8.127856890277923e-05,
      "loss": 0.3485,
      "num_input_tokens_seen": 20809472,
      "step": 31840
    },
    {
      "epoch": 16.690251572327043,
      "grad_norm": 0.12349516153335571,
      "learning_rate": 8.115363027730998e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 20812288,
      "step": 31845
    },
    {
      "epoch": 16.69287211740042,
      "grad_norm": 0.238317608833313,
      "learning_rate": 8.102877926972286e-05,
      "loss": 0.4671,
      "num_input_tokens_seen": 20815296,
      "step": 31850
    },
    {
      "epoch": 16.695492662473793,
      "grad_norm": 0.14882588386535645,
      "learning_rate": 8.090401590613533e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 20822656,
      "step": 31855
    },
    {
      "epoch": 16.69811320754717,
      "grad_norm": 0.12130945920944214,
      "learning_rate": 8.077934021264627e-05,
      "loss": 0.4762,
      "num_input_tokens_seen": 20826016,
      "step": 31860
    },
    {
      "epoch": 16.700733752620543,
      "grad_norm": 0.12280938774347305,
      "learning_rate": 8.065475221533652e-05,
      "loss": 0.3582,
      "num_input_tokens_seen": 20829824,
      "step": 31865
    },
    {
      "epoch": 16.70335429769392,
      "grad_norm": 0.163461834192276,
      "learning_rate": 8.053025194026858e-05,
      "loss": 0.3931,
      "num_input_tokens_seen": 20832512,
      "step": 31870
    },
    {
      "epoch": 16.705974842767297,
      "grad_norm": 0.17535635828971863,
      "learning_rate": 8.040583941348623e-05,
      "loss": 0.4131,
      "num_input_tokens_seen": 20836000,
      "step": 31875
    },
    {
      "epoch": 16.70859538784067,
      "grad_norm": 0.19178907573223114,
      "learning_rate": 8.028151466101541e-05,
      "loss": 0.2881,
      "num_input_tokens_seen": 20838976,
      "step": 31880
    },
    {
      "epoch": 16.711215932914047,
      "grad_norm": 0.18863269686698914,
      "learning_rate": 8.015727770886321e-05,
      "loss": 0.5231,
      "num_input_tokens_seen": 20842208,
      "step": 31885
    },
    {
      "epoch": 16.71383647798742,
      "grad_norm": 0.17131516337394714,
      "learning_rate": 8.00331285830187e-05,
      "loss": 0.4841,
      "num_input_tokens_seen": 20846272,
      "step": 31890
    },
    {
      "epoch": 16.716457023060798,
      "grad_norm": 0.16618123650550842,
      "learning_rate": 7.990906730945247e-05,
      "loss": 0.4338,
      "num_input_tokens_seen": 20848896,
      "step": 31895
    },
    {
      "epoch": 16.71907756813417,
      "grad_norm": 0.20349723100662231,
      "learning_rate": 7.978509391411681e-05,
      "loss": 0.4438,
      "num_input_tokens_seen": 20852288,
      "step": 31900
    },
    {
      "epoch": 16.721698113207548,
      "grad_norm": 0.09791191667318344,
      "learning_rate": 7.966120842294544e-05,
      "loss": 0.4754,
      "num_input_tokens_seen": 20855136,
      "step": 31905
    },
    {
      "epoch": 16.72431865828092,
      "grad_norm": 0.14086738228797913,
      "learning_rate": 7.953741086185368e-05,
      "loss": 0.3567,
      "num_input_tokens_seen": 20858432,
      "step": 31910
    },
    {
      "epoch": 16.7269392033543,
      "grad_norm": 0.11512748897075653,
      "learning_rate": 7.941370125673864e-05,
      "loss": 0.3331,
      "num_input_tokens_seen": 20861280,
      "step": 31915
    },
    {
      "epoch": 16.729559748427672,
      "grad_norm": 0.22114163637161255,
      "learning_rate": 7.9290079633479e-05,
      "loss": 0.3673,
      "num_input_tokens_seen": 20863968,
      "step": 31920
    },
    {
      "epoch": 16.73218029350105,
      "grad_norm": 0.2524678707122803,
      "learning_rate": 7.916654601793516e-05,
      "loss": 0.5109,
      "num_input_tokens_seen": 20866112,
      "step": 31925
    },
    {
      "epoch": 16.734800838574422,
      "grad_norm": 0.15289300680160522,
      "learning_rate": 7.904310043594859e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 20869856,
      "step": 31930
    },
    {
      "epoch": 16.7374213836478,
      "grad_norm": 0.14128825068473816,
      "learning_rate": 7.891974291334303e-05,
      "loss": 0.3876,
      "num_input_tokens_seen": 20872448,
      "step": 31935
    },
    {
      "epoch": 16.740041928721173,
      "grad_norm": 0.1083511933684349,
      "learning_rate": 7.879647347592322e-05,
      "loss": 0.3401,
      "num_input_tokens_seen": 20875008,
      "step": 31940
    },
    {
      "epoch": 16.74266247379455,
      "grad_norm": 0.161741241812706,
      "learning_rate": 7.867329214947578e-05,
      "loss": 0.5286,
      "num_input_tokens_seen": 20878144,
      "step": 31945
    },
    {
      "epoch": 16.745283018867923,
      "grad_norm": 0.09799446165561676,
      "learning_rate": 7.855019895976889e-05,
      "loss": 0.4132,
      "num_input_tokens_seen": 20881216,
      "step": 31950
    },
    {
      "epoch": 16.7479035639413,
      "grad_norm": 0.16693706810474396,
      "learning_rate": 7.842719393255232e-05,
      "loss": 0.3699,
      "num_input_tokens_seen": 20885120,
      "step": 31955
    },
    {
      "epoch": 16.750524109014677,
      "grad_norm": 0.11135993152856827,
      "learning_rate": 7.830427709355725e-05,
      "loss": 0.5487,
      "num_input_tokens_seen": 20887808,
      "step": 31960
    },
    {
      "epoch": 16.75314465408805,
      "grad_norm": 0.10606803745031357,
      "learning_rate": 7.818144846849634e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 20890720,
      "step": 31965
    },
    {
      "epoch": 16.755765199161427,
      "grad_norm": 0.16773375868797302,
      "learning_rate": 7.805870808306403e-05,
      "loss": 0.4081,
      "num_input_tokens_seen": 20893440,
      "step": 31970
    },
    {
      "epoch": 16.7583857442348,
      "grad_norm": 0.13392767310142517,
      "learning_rate": 7.793605596293618e-05,
      "loss": 0.3779,
      "num_input_tokens_seen": 20897792,
      "step": 31975
    },
    {
      "epoch": 16.761006289308177,
      "grad_norm": 0.16916006803512573,
      "learning_rate": 7.781349213377048e-05,
      "loss": 0.4713,
      "num_input_tokens_seen": 20899936,
      "step": 31980
    },
    {
      "epoch": 16.76362683438155,
      "grad_norm": 0.18081939220428467,
      "learning_rate": 7.769101662120559e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 20905728,
      "step": 31985
    },
    {
      "epoch": 16.766247379454928,
      "grad_norm": 0.13001933693885803,
      "learning_rate": 7.756862945086196e-05,
      "loss": 0.4682,
      "num_input_tokens_seen": 20909376,
      "step": 31990
    },
    {
      "epoch": 16.7688679245283,
      "grad_norm": 0.11783062666654587,
      "learning_rate": 7.744633064834172e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 20913088,
      "step": 31995
    },
    {
      "epoch": 16.771488469601678,
      "grad_norm": 0.15143722295761108,
      "learning_rate": 7.732412023922836e-05,
      "loss": 0.5318,
      "num_input_tokens_seen": 20915808,
      "step": 32000
    },
    {
      "epoch": 16.77410901467505,
      "grad_norm": 0.10028830170631409,
      "learning_rate": 7.720199824908692e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 20920032,
      "step": 32005
    },
    {
      "epoch": 16.77672955974843,
      "grad_norm": 0.15585541725158691,
      "learning_rate": 7.707996470346402e-05,
      "loss": 0.3944,
      "num_input_tokens_seen": 20922912,
      "step": 32010
    },
    {
      "epoch": 16.779350104821802,
      "grad_norm": 0.23953969776630402,
      "learning_rate": 7.695801962788756e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 20926176,
      "step": 32015
    },
    {
      "epoch": 16.78197064989518,
      "grad_norm": 0.1572684943675995,
      "learning_rate": 7.683616304786695e-05,
      "loss": 0.4339,
      "num_input_tokens_seen": 20928896,
      "step": 32020
    },
    {
      "epoch": 16.784591194968552,
      "grad_norm": 0.16583755612373352,
      "learning_rate": 7.671439498889332e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 20931968,
      "step": 32025
    },
    {
      "epoch": 16.78721174004193,
      "grad_norm": 0.1567569226026535,
      "learning_rate": 7.65927154764392e-05,
      "loss": 0.4363,
      "num_input_tokens_seen": 20935168,
      "step": 32030
    },
    {
      "epoch": 16.789832285115303,
      "grad_norm": 0.11630333214998245,
      "learning_rate": 7.647112453595862e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 20937856,
      "step": 32035
    },
    {
      "epoch": 16.79245283018868,
      "grad_norm": 0.15427155792713165,
      "learning_rate": 7.634962219288688e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 20941120,
      "step": 32040
    },
    {
      "epoch": 16.795073375262053,
      "grad_norm": 0.15543130040168762,
      "learning_rate": 7.622820847264083e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 20944416,
      "step": 32045
    },
    {
      "epoch": 16.79769392033543,
      "grad_norm": 0.12505273520946503,
      "learning_rate": 7.610688340061894e-05,
      "loss": 0.4236,
      "num_input_tokens_seen": 20948384,
      "step": 32050
    },
    {
      "epoch": 16.800314465408803,
      "grad_norm": 0.1611197143793106,
      "learning_rate": 7.598564700220101e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 20951328,
      "step": 32055
    },
    {
      "epoch": 16.80293501048218,
      "grad_norm": 0.15429255366325378,
      "learning_rate": 7.586449930274842e-05,
      "loss": 0.4599,
      "num_input_tokens_seen": 20954304,
      "step": 32060
    },
    {
      "epoch": 16.805555555555557,
      "grad_norm": 0.17902672290802002,
      "learning_rate": 7.574344032760367e-05,
      "loss": 0.4075,
      "num_input_tokens_seen": 20957600,
      "step": 32065
    },
    {
      "epoch": 16.80817610062893,
      "grad_norm": 0.0838669091463089,
      "learning_rate": 7.562247010209111e-05,
      "loss": 0.4008,
      "num_input_tokens_seen": 20961248,
      "step": 32070
    },
    {
      "epoch": 16.810796645702307,
      "grad_norm": 0.1059718132019043,
      "learning_rate": 7.550158865151618e-05,
      "loss": 0.3637,
      "num_input_tokens_seen": 20964864,
      "step": 32075
    },
    {
      "epoch": 16.81341719077568,
      "grad_norm": 0.09056317061185837,
      "learning_rate": 7.538079600116593e-05,
      "loss": 0.4018,
      "num_input_tokens_seen": 20968160,
      "step": 32080
    },
    {
      "epoch": 16.816037735849058,
      "grad_norm": 0.11410718411207199,
      "learning_rate": 7.526009217630886e-05,
      "loss": 0.4363,
      "num_input_tokens_seen": 20971072,
      "step": 32085
    },
    {
      "epoch": 16.81865828092243,
      "grad_norm": 0.18900741636753082,
      "learning_rate": 7.513947720219494e-05,
      "loss": 0.4564,
      "num_input_tokens_seen": 20974016,
      "step": 32090
    },
    {
      "epoch": 16.821278825995808,
      "grad_norm": 0.13474825024604797,
      "learning_rate": 7.501895110405533e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 20977280,
      "step": 32095
    },
    {
      "epoch": 16.82389937106918,
      "grad_norm": 0.22368580102920532,
      "learning_rate": 7.489851390710262e-05,
      "loss": 0.5827,
      "num_input_tokens_seen": 20980704,
      "step": 32100
    },
    {
      "epoch": 16.82651991614256,
      "grad_norm": 0.1521386057138443,
      "learning_rate": 7.477816563653095e-05,
      "loss": 0.6433,
      "num_input_tokens_seen": 20983552,
      "step": 32105
    },
    {
      "epoch": 16.829140461215932,
      "grad_norm": 0.1405884027481079,
      "learning_rate": 7.465790631751584e-05,
      "loss": 0.4037,
      "num_input_tokens_seen": 20986464,
      "step": 32110
    },
    {
      "epoch": 16.83176100628931,
      "grad_norm": 0.1327299028635025,
      "learning_rate": 7.453773597521429e-05,
      "loss": 0.4615,
      "num_input_tokens_seen": 20990112,
      "step": 32115
    },
    {
      "epoch": 16.834381551362682,
      "grad_norm": 0.09370731562376022,
      "learning_rate": 7.44176546347643e-05,
      "loss": 0.4033,
      "num_input_tokens_seen": 20993184,
      "step": 32120
    },
    {
      "epoch": 16.83700209643606,
      "grad_norm": 0.27245357632637024,
      "learning_rate": 7.429766232128583e-05,
      "loss": 0.5377,
      "num_input_tokens_seen": 20995936,
      "step": 32125
    },
    {
      "epoch": 16.839622641509433,
      "grad_norm": 0.19655805826187134,
      "learning_rate": 7.417775905987956e-05,
      "loss": 0.476,
      "num_input_tokens_seen": 20999008,
      "step": 32130
    },
    {
      "epoch": 16.84224318658281,
      "grad_norm": 0.146407350897789,
      "learning_rate": 7.405794487562811e-05,
      "loss": 0.4187,
      "num_input_tokens_seen": 21002304,
      "step": 32135
    },
    {
      "epoch": 16.844863731656183,
      "grad_norm": 0.11259737610816956,
      "learning_rate": 7.393821979359528e-05,
      "loss": 0.3584,
      "num_input_tokens_seen": 21005344,
      "step": 32140
    },
    {
      "epoch": 16.84748427672956,
      "grad_norm": 0.08936091512441635,
      "learning_rate": 7.3818583838826e-05,
      "loss": 0.3666,
      "num_input_tokens_seen": 21009312,
      "step": 32145
    },
    {
      "epoch": 16.850104821802937,
      "grad_norm": 0.18443261086940765,
      "learning_rate": 7.369903703634684e-05,
      "loss": 0.3317,
      "num_input_tokens_seen": 21012544,
      "step": 32150
    },
    {
      "epoch": 16.85272536687631,
      "grad_norm": 0.15834544599056244,
      "learning_rate": 7.357957941116572e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 21015200,
      "step": 32155
    },
    {
      "epoch": 16.855345911949687,
      "grad_norm": 0.3419441282749176,
      "learning_rate": 7.346021098827166e-05,
      "loss": 0.3289,
      "num_input_tokens_seen": 21017696,
      "step": 32160
    },
    {
      "epoch": 16.85796645702306,
      "grad_norm": 0.1190839409828186,
      "learning_rate": 7.334093179263518e-05,
      "loss": 0.3922,
      "num_input_tokens_seen": 21020800,
      "step": 32165
    },
    {
      "epoch": 16.860587002096437,
      "grad_norm": 0.17906571924686432,
      "learning_rate": 7.322174184920837e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 21023552,
      "step": 32170
    },
    {
      "epoch": 16.86320754716981,
      "grad_norm": 0.16666220128536224,
      "learning_rate": 7.310264118292404e-05,
      "loss": 0.3994,
      "num_input_tokens_seen": 21026656,
      "step": 32175
    },
    {
      "epoch": 16.865828092243188,
      "grad_norm": 0.14530900120735168,
      "learning_rate": 7.298362981869705e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 21030464,
      "step": 32180
    },
    {
      "epoch": 16.86844863731656,
      "grad_norm": 0.10712596774101257,
      "learning_rate": 7.286470778142284e-05,
      "loss": 0.4884,
      "num_input_tokens_seen": 21033472,
      "step": 32185
    },
    {
      "epoch": 16.871069182389938,
      "grad_norm": 0.10560756176710129,
      "learning_rate": 7.274587509597886e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 21036512,
      "step": 32190
    },
    {
      "epoch": 16.87368972746331,
      "grad_norm": 0.1867685467004776,
      "learning_rate": 7.262713178722346e-05,
      "loss": 0.4366,
      "num_input_tokens_seen": 21039936,
      "step": 32195
    },
    {
      "epoch": 16.87631027253669,
      "grad_norm": 0.18013446033000946,
      "learning_rate": 7.250847787999625e-05,
      "loss": 0.5796,
      "num_input_tokens_seen": 21043360,
      "step": 32200
    },
    {
      "epoch": 16.878930817610062,
      "grad_norm": 0.17851638793945312,
      "learning_rate": 7.238991339911844e-05,
      "loss": 0.4584,
      "num_input_tokens_seen": 21046880,
      "step": 32205
    },
    {
      "epoch": 16.88155136268344,
      "grad_norm": 0.37121549248695374,
      "learning_rate": 7.227143836939237e-05,
      "loss": 0.2666,
      "num_input_tokens_seen": 21049664,
      "step": 32210
    },
    {
      "epoch": 16.884171907756812,
      "grad_norm": 0.15916219353675842,
      "learning_rate": 7.215305281560153e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 21052832,
      "step": 32215
    },
    {
      "epoch": 16.88679245283019,
      "grad_norm": 0.12624980509281158,
      "learning_rate": 7.203475676251104e-05,
      "loss": 0.3891,
      "num_input_tokens_seen": 21057120,
      "step": 32220
    },
    {
      "epoch": 16.889412997903563,
      "grad_norm": 0.19011320173740387,
      "learning_rate": 7.191655023486682e-05,
      "loss": 0.5185,
      "num_input_tokens_seen": 21060512,
      "step": 32225
    },
    {
      "epoch": 16.89203354297694,
      "grad_norm": 0.1751580834388733,
      "learning_rate": 7.179843325739644e-05,
      "loss": 0.4144,
      "num_input_tokens_seen": 21062720,
      "step": 32230
    },
    {
      "epoch": 16.894654088050313,
      "grad_norm": 0.11730008572340012,
      "learning_rate": 7.168040585480861e-05,
      "loss": 0.3788,
      "num_input_tokens_seen": 21065504,
      "step": 32235
    },
    {
      "epoch": 16.89727463312369,
      "grad_norm": 0.2743437588214874,
      "learning_rate": 7.156246805179351e-05,
      "loss": 0.3142,
      "num_input_tokens_seen": 21069472,
      "step": 32240
    },
    {
      "epoch": 16.899895178197063,
      "grad_norm": 0.2233106642961502,
      "learning_rate": 7.144461987302208e-05,
      "loss": 0.4641,
      "num_input_tokens_seen": 21072192,
      "step": 32245
    },
    {
      "epoch": 16.90251572327044,
      "grad_norm": 0.09910791367292404,
      "learning_rate": 7.132686134314714e-05,
      "loss": 0.4078,
      "num_input_tokens_seen": 21075264,
      "step": 32250
    },
    {
      "epoch": 16.905136268343817,
      "grad_norm": 0.1974743902683258,
      "learning_rate": 7.120919248680208e-05,
      "loss": 0.3896,
      "num_input_tokens_seen": 21079008,
      "step": 32255
    },
    {
      "epoch": 16.90775681341719,
      "grad_norm": 0.21984441578388214,
      "learning_rate": 7.109161332860203e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 21081888,
      "step": 32260
    },
    {
      "epoch": 16.910377358490567,
      "grad_norm": 0.23063646256923676,
      "learning_rate": 7.097412389314322e-05,
      "loss": 0.4701,
      "num_input_tokens_seen": 21084608,
      "step": 32265
    },
    {
      "epoch": 16.91299790356394,
      "grad_norm": 0.13634876906871796,
      "learning_rate": 7.085672420500322e-05,
      "loss": 0.5775,
      "num_input_tokens_seen": 21087680,
      "step": 32270
    },
    {
      "epoch": 16.915618448637318,
      "grad_norm": 0.09431938081979752,
      "learning_rate": 7.073941428874064e-05,
      "loss": 0.4648,
      "num_input_tokens_seen": 21090944,
      "step": 32275
    },
    {
      "epoch": 16.91823899371069,
      "grad_norm": 0.15558810532093048,
      "learning_rate": 7.062219416889514e-05,
      "loss": 0.3075,
      "num_input_tokens_seen": 21094272,
      "step": 32280
    },
    {
      "epoch": 16.920859538784068,
      "grad_norm": 0.17556984722614288,
      "learning_rate": 7.050506386998806e-05,
      "loss": 0.423,
      "num_input_tokens_seen": 21097952,
      "step": 32285
    },
    {
      "epoch": 16.92348008385744,
      "grad_norm": 0.11318234354257584,
      "learning_rate": 7.038802341652172e-05,
      "loss": 0.4706,
      "num_input_tokens_seen": 21101408,
      "step": 32290
    },
    {
      "epoch": 16.92610062893082,
      "grad_norm": 0.17866620421409607,
      "learning_rate": 7.027107283297967e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 21105888,
      "step": 32295
    },
    {
      "epoch": 16.928721174004192,
      "grad_norm": 0.16360461711883545,
      "learning_rate": 7.015421214382661e-05,
      "loss": 0.3995,
      "num_input_tokens_seen": 21108992,
      "step": 32300
    },
    {
      "epoch": 16.93134171907757,
      "grad_norm": 0.13795755803585052,
      "learning_rate": 7.003744137350827e-05,
      "loss": 0.2835,
      "num_input_tokens_seen": 21111648,
      "step": 32305
    },
    {
      "epoch": 16.933962264150942,
      "grad_norm": 0.17795732617378235,
      "learning_rate": 6.992076054645197e-05,
      "loss": 0.4876,
      "num_input_tokens_seen": 21115872,
      "step": 32310
    },
    {
      "epoch": 16.93658280922432,
      "grad_norm": 0.16400696337223053,
      "learning_rate": 6.980416968706594e-05,
      "loss": 0.3451,
      "num_input_tokens_seen": 21118880,
      "step": 32315
    },
    {
      "epoch": 16.939203354297693,
      "grad_norm": 0.11305691301822662,
      "learning_rate": 6.968766881973965e-05,
      "loss": 0.3506,
      "num_input_tokens_seen": 21121792,
      "step": 32320
    },
    {
      "epoch": 16.94182389937107,
      "grad_norm": 0.11638478189706802,
      "learning_rate": 6.957125796884395e-05,
      "loss": 0.765,
      "num_input_tokens_seen": 21125024,
      "step": 32325
    },
    {
      "epoch": 16.944444444444443,
      "grad_norm": 0.198253333568573,
      "learning_rate": 6.945493715873046e-05,
      "loss": 0.5231,
      "num_input_tokens_seen": 21128000,
      "step": 32330
    },
    {
      "epoch": 16.94706498951782,
      "grad_norm": 0.08116251975297928,
      "learning_rate": 6.933870641373208e-05,
      "loss": 0.5376,
      "num_input_tokens_seen": 21131808,
      "step": 32335
    },
    {
      "epoch": 16.949685534591197,
      "grad_norm": 0.20896044373512268,
      "learning_rate": 6.92225657581631e-05,
      "loss": 0.5124,
      "num_input_tokens_seen": 21135488,
      "step": 32340
    },
    {
      "epoch": 16.95230607966457,
      "grad_norm": 0.11643359065055847,
      "learning_rate": 6.910651521631877e-05,
      "loss": 0.4083,
      "num_input_tokens_seen": 21138656,
      "step": 32345
    },
    {
      "epoch": 16.954926624737947,
      "grad_norm": 0.29073378443717957,
      "learning_rate": 6.899055481247568e-05,
      "loss": 0.3467,
      "num_input_tokens_seen": 21141184,
      "step": 32350
    },
    {
      "epoch": 16.95754716981132,
      "grad_norm": 0.17636437714099884,
      "learning_rate": 6.88746845708913e-05,
      "loss": 0.433,
      "num_input_tokens_seen": 21144288,
      "step": 32355
    },
    {
      "epoch": 16.960167714884697,
      "grad_norm": 0.16328053176403046,
      "learning_rate": 6.87589045158043e-05,
      "loss": 0.4706,
      "num_input_tokens_seen": 21146912,
      "step": 32360
    },
    {
      "epoch": 16.96278825995807,
      "grad_norm": 0.18004633486270905,
      "learning_rate": 6.864321467143459e-05,
      "loss": 0.3475,
      "num_input_tokens_seen": 21150304,
      "step": 32365
    },
    {
      "epoch": 16.965408805031448,
      "grad_norm": 0.08472917228937149,
      "learning_rate": 6.852761506198319e-05,
      "loss": 0.4439,
      "num_input_tokens_seen": 21153760,
      "step": 32370
    },
    {
      "epoch": 16.96802935010482,
      "grad_norm": 0.10282233357429504,
      "learning_rate": 6.841210571163231e-05,
      "loss": 0.443,
      "num_input_tokens_seen": 21156960,
      "step": 32375
    },
    {
      "epoch": 16.970649895178198,
      "grad_norm": 0.3977726399898529,
      "learning_rate": 6.829668664454513e-05,
      "loss": 0.4497,
      "num_input_tokens_seen": 21159744,
      "step": 32380
    },
    {
      "epoch": 16.97327044025157,
      "grad_norm": 0.12625156342983246,
      "learning_rate": 6.818135788486584e-05,
      "loss": 0.3622,
      "num_input_tokens_seen": 21166304,
      "step": 32385
    },
    {
      "epoch": 16.97589098532495,
      "grad_norm": 0.179255872964859,
      "learning_rate": 6.806611945672004e-05,
      "loss": 0.3932,
      "num_input_tokens_seen": 21169440,
      "step": 32390
    },
    {
      "epoch": 16.978511530398322,
      "grad_norm": 0.17645855247974396,
      "learning_rate": 6.79509713842143e-05,
      "loss": 0.4244,
      "num_input_tokens_seen": 21173696,
      "step": 32395
    },
    {
      "epoch": 16.9811320754717,
      "grad_norm": 0.15537095069885254,
      "learning_rate": 6.783591369143626e-05,
      "loss": 0.4243,
      "num_input_tokens_seen": 21176672,
      "step": 32400
    },
    {
      "epoch": 16.983752620545072,
      "grad_norm": 0.2350526750087738,
      "learning_rate": 6.77209464024548e-05,
      "loss": 0.4064,
      "num_input_tokens_seen": 21180064,
      "step": 32405
    },
    {
      "epoch": 16.98637316561845,
      "grad_norm": 0.18357069790363312,
      "learning_rate": 6.760606954131965e-05,
      "loss": 0.6619,
      "num_input_tokens_seen": 21183680,
      "step": 32410
    },
    {
      "epoch": 16.988993710691823,
      "grad_norm": 0.15232375264167786,
      "learning_rate": 6.749128313206165e-05,
      "loss": 0.4135,
      "num_input_tokens_seen": 21187072,
      "step": 32415
    },
    {
      "epoch": 16.9916142557652,
      "grad_norm": 0.16426771879196167,
      "learning_rate": 6.737658719869288e-05,
      "loss": 0.5095,
      "num_input_tokens_seen": 21191776,
      "step": 32420
    },
    {
      "epoch": 16.994234800838573,
      "grad_norm": 0.09041070193052292,
      "learning_rate": 6.726198176520642e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 21196288,
      "step": 32425
    },
    {
      "epoch": 16.99685534591195,
      "grad_norm": 0.2269143909215927,
      "learning_rate": 6.71474668555766e-05,
      "loss": 0.4054,
      "num_input_tokens_seen": 21200992,
      "step": 32430
    },
    {
      "epoch": 16.999475890985323,
      "grad_norm": 0.1929013878107071,
      "learning_rate": 6.703304249375836e-05,
      "loss": 0.3822,
      "num_input_tokens_seen": 21204320,
      "step": 32435
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.4825729727745056,
      "eval_runtime": 13.7532,
      "eval_samples_per_second": 61.659,
      "eval_steps_per_second": 15.415,
      "num_input_tokens_seen": 21204416,
      "step": 32436
    },
    {
      "epoch": 17.0020964360587,
      "grad_norm": 0.2234920710325241,
      "learning_rate": 6.691870870368815e-05,
      "loss": 0.4232,
      "num_input_tokens_seen": 21206752,
      "step": 32440
    },
    {
      "epoch": 17.004716981132077,
      "grad_norm": 0.13259565830230713,
      "learning_rate": 6.680446550928316e-05,
      "loss": 0.3833,
      "num_input_tokens_seen": 21210656,
      "step": 32445
    },
    {
      "epoch": 17.00733752620545,
      "grad_norm": 0.15892216563224792,
      "learning_rate": 6.669031293444177e-05,
      "loss": 0.51,
      "num_input_tokens_seen": 21213216,
      "step": 32450
    },
    {
      "epoch": 17.009958071278827,
      "grad_norm": 0.16832703351974487,
      "learning_rate": 6.65762510030436e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 21216416,
      "step": 32455
    },
    {
      "epoch": 17.0125786163522,
      "grad_norm": 0.14834824204444885,
      "learning_rate": 6.646227973894886e-05,
      "loss": 0.3166,
      "num_input_tokens_seen": 21220352,
      "step": 32460
    },
    {
      "epoch": 17.015199161425578,
      "grad_norm": 0.15732207894325256,
      "learning_rate": 6.634839916599921e-05,
      "loss": 0.3521,
      "num_input_tokens_seen": 21223296,
      "step": 32465
    },
    {
      "epoch": 17.01781970649895,
      "grad_norm": 0.1878042370080948,
      "learning_rate": 6.623460930801701e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 21225824,
      "step": 32470
    },
    {
      "epoch": 17.020440251572328,
      "grad_norm": 0.19824102520942688,
      "learning_rate": 6.61209101888059e-05,
      "loss": 0.3452,
      "num_input_tokens_seen": 21228704,
      "step": 32475
    },
    {
      "epoch": 17.0230607966457,
      "grad_norm": 0.19264616072177887,
      "learning_rate": 6.600730183215043e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 21231648,
      "step": 32480
    },
    {
      "epoch": 17.02568134171908,
      "grad_norm": 0.2029109001159668,
      "learning_rate": 6.589378426181624e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 21234048,
      "step": 32485
    },
    {
      "epoch": 17.028301886792452,
      "grad_norm": 0.22472362220287323,
      "learning_rate": 6.578035750154976e-05,
      "loss": 0.5187,
      "num_input_tokens_seen": 21237568,
      "step": 32490
    },
    {
      "epoch": 17.03092243186583,
      "grad_norm": 0.34453320503234863,
      "learning_rate": 6.566702157507875e-05,
      "loss": 0.431,
      "num_input_tokens_seen": 21240672,
      "step": 32495
    },
    {
      "epoch": 17.033542976939202,
      "grad_norm": 0.0903494581580162,
      "learning_rate": 6.555377650611155e-05,
      "loss": 0.3866,
      "num_input_tokens_seen": 21243200,
      "step": 32500
    },
    {
      "epoch": 17.03616352201258,
      "grad_norm": 0.11578401178121567,
      "learning_rate": 6.544062231833792e-05,
      "loss": 0.3258,
      "num_input_tokens_seen": 21247936,
      "step": 32505
    },
    {
      "epoch": 17.038784067085953,
      "grad_norm": 0.1389605849981308,
      "learning_rate": 6.532755903542847e-05,
      "loss": 0.419,
      "num_input_tokens_seen": 21250560,
      "step": 32510
    },
    {
      "epoch": 17.04140461215933,
      "grad_norm": 0.0911344438791275,
      "learning_rate": 6.521458668103458e-05,
      "loss": 0.4559,
      "num_input_tokens_seen": 21254432,
      "step": 32515
    },
    {
      "epoch": 17.044025157232703,
      "grad_norm": 0.16338323056697845,
      "learning_rate": 6.510170527878889e-05,
      "loss": 0.4309,
      "num_input_tokens_seen": 21257568,
      "step": 32520
    },
    {
      "epoch": 17.04664570230608,
      "grad_norm": 0.1322387158870697,
      "learning_rate": 6.498891485230491e-05,
      "loss": 0.4476,
      "num_input_tokens_seen": 21260992,
      "step": 32525
    },
    {
      "epoch": 17.049266247379453,
      "grad_norm": 0.15505336225032806,
      "learning_rate": 6.487621542517703e-05,
      "loss": 0.4112,
      "num_input_tokens_seen": 21263328,
      "step": 32530
    },
    {
      "epoch": 17.05188679245283,
      "grad_norm": 0.19794519245624542,
      "learning_rate": 6.476360702098078e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 21266752,
      "step": 32535
    },
    {
      "epoch": 17.054507337526207,
      "grad_norm": 0.13511352241039276,
      "learning_rate": 6.465108966327243e-05,
      "loss": 0.4476,
      "num_input_tokens_seen": 21269728,
      "step": 32540
    },
    {
      "epoch": 17.05712788259958,
      "grad_norm": 0.21813659369945526,
      "learning_rate": 6.453866337558939e-05,
      "loss": 0.4405,
      "num_input_tokens_seen": 21272864,
      "step": 32545
    },
    {
      "epoch": 17.059748427672957,
      "grad_norm": 0.18042753636837006,
      "learning_rate": 6.442632818145011e-05,
      "loss": 0.3814,
      "num_input_tokens_seen": 21276320,
      "step": 32550
    },
    {
      "epoch": 17.06236897274633,
      "grad_norm": 0.14309252798557281,
      "learning_rate": 6.431408410435352e-05,
      "loss": 0.3668,
      "num_input_tokens_seen": 21279360,
      "step": 32555
    },
    {
      "epoch": 17.064989517819708,
      "grad_norm": 0.30188435316085815,
      "learning_rate": 6.420193116778e-05,
      "loss": 0.4694,
      "num_input_tokens_seen": 21282112,
      "step": 32560
    },
    {
      "epoch": 17.06761006289308,
      "grad_norm": 0.1557130217552185,
      "learning_rate": 6.408986939519074e-05,
      "loss": 0.5437,
      "num_input_tokens_seen": 21284832,
      "step": 32565
    },
    {
      "epoch": 17.070230607966458,
      "grad_norm": 0.19543927907943726,
      "learning_rate": 6.397789881002752e-05,
      "loss": 0.4112,
      "num_input_tokens_seen": 21288256,
      "step": 32570
    },
    {
      "epoch": 17.07285115303983,
      "grad_norm": 0.18231049180030823,
      "learning_rate": 6.386601943571352e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 21291616,
      "step": 32575
    },
    {
      "epoch": 17.07547169811321,
      "grad_norm": 0.24050764739513397,
      "learning_rate": 6.375423129565266e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 21294720,
      "step": 32580
    },
    {
      "epoch": 17.078092243186582,
      "grad_norm": 0.10443942248821259,
      "learning_rate": 6.36425344132296e-05,
      "loss": 0.4312,
      "num_input_tokens_seen": 21298400,
      "step": 32585
    },
    {
      "epoch": 17.08071278825996,
      "grad_norm": 0.18697670102119446,
      "learning_rate": 6.353092881181016e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 21301376,
      "step": 32590
    },
    {
      "epoch": 17.083333333333332,
      "grad_norm": 0.16125914454460144,
      "learning_rate": 6.341941451474082e-05,
      "loss": 0.3421,
      "num_input_tokens_seen": 21303840,
      "step": 32595
    },
    {
      "epoch": 17.08595387840671,
      "grad_norm": 0.211078941822052,
      "learning_rate": 6.330799154534921e-05,
      "loss": 0.3941,
      "num_input_tokens_seen": 21307136,
      "step": 32600
    },
    {
      "epoch": 17.088574423480082,
      "grad_norm": 0.12700600922107697,
      "learning_rate": 6.319665992694368e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 21309824,
      "step": 32605
    },
    {
      "epoch": 17.09119496855346,
      "grad_norm": 0.12247853726148605,
      "learning_rate": 6.308541968281373e-05,
      "loss": 0.363,
      "num_input_tokens_seen": 21312448,
      "step": 32610
    },
    {
      "epoch": 17.093815513626833,
      "grad_norm": 0.1805124282836914,
      "learning_rate": 6.297427083622936e-05,
      "loss": 0.3423,
      "num_input_tokens_seen": 21315040,
      "step": 32615
    },
    {
      "epoch": 17.09643605870021,
      "grad_norm": 0.1718374341726303,
      "learning_rate": 6.28632134104416e-05,
      "loss": 0.4689,
      "num_input_tokens_seen": 21317696,
      "step": 32620
    },
    {
      "epoch": 17.099056603773583,
      "grad_norm": 0.2136576920747757,
      "learning_rate": 6.275224742868247e-05,
      "loss": 0.4898,
      "num_input_tokens_seen": 21320320,
      "step": 32625
    },
    {
      "epoch": 17.10167714884696,
      "grad_norm": 0.167336568236351,
      "learning_rate": 6.264137291416477e-05,
      "loss": 0.2613,
      "num_input_tokens_seen": 21323136,
      "step": 32630
    },
    {
      "epoch": 17.104297693920337,
      "grad_norm": 0.11523616313934326,
      "learning_rate": 6.253058989008226e-05,
      "loss": 0.4387,
      "num_input_tokens_seen": 21325664,
      "step": 32635
    },
    {
      "epoch": 17.10691823899371,
      "grad_norm": 0.12486554682254791,
      "learning_rate": 6.241989837960949e-05,
      "loss": 0.3898,
      "num_input_tokens_seen": 21328352,
      "step": 32640
    },
    {
      "epoch": 17.109538784067087,
      "grad_norm": 0.14998182654380798,
      "learning_rate": 6.230929840590177e-05,
      "loss": 0.403,
      "num_input_tokens_seen": 21332704,
      "step": 32645
    },
    {
      "epoch": 17.11215932914046,
      "grad_norm": 0.11270567029714584,
      "learning_rate": 6.219878999209533e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 21336352,
      "step": 32650
    },
    {
      "epoch": 17.114779874213838,
      "grad_norm": 0.08699391782283783,
      "learning_rate": 6.208837316130733e-05,
      "loss": 0.3692,
      "num_input_tokens_seen": 21340288,
      "step": 32655
    },
    {
      "epoch": 17.11740041928721,
      "grad_norm": 0.3838450610637665,
      "learning_rate": 6.197804793663564e-05,
      "loss": 0.3014,
      "num_input_tokens_seen": 21344128,
      "step": 32660
    },
    {
      "epoch": 17.120020964360588,
      "grad_norm": 0.11537438631057739,
      "learning_rate": 6.18678143411593e-05,
      "loss": 0.4135,
      "num_input_tokens_seen": 21347296,
      "step": 32665
    },
    {
      "epoch": 17.12264150943396,
      "grad_norm": 0.17390336096286774,
      "learning_rate": 6.175767239793767e-05,
      "loss": 0.3928,
      "num_input_tokens_seen": 21350240,
      "step": 32670
    },
    {
      "epoch": 17.12526205450734,
      "grad_norm": 0.28829777240753174,
      "learning_rate": 6.164762213001112e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 21352704,
      "step": 32675
    },
    {
      "epoch": 17.127882599580712,
      "grad_norm": 0.17599837481975555,
      "learning_rate": 6.153766356040107e-05,
      "loss": 0.3625,
      "num_input_tokens_seen": 21355904,
      "step": 32680
    },
    {
      "epoch": 17.13050314465409,
      "grad_norm": 0.15005512535572052,
      "learning_rate": 6.142779671210951e-05,
      "loss": 0.4337,
      "num_input_tokens_seen": 21359136,
      "step": 32685
    },
    {
      "epoch": 17.133123689727462,
      "grad_norm": 0.12495873123407364,
      "learning_rate": 6.131802160811956e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 21362496,
      "step": 32690
    },
    {
      "epoch": 17.13574423480084,
      "grad_norm": 0.14730679988861084,
      "learning_rate": 6.120833827139466e-05,
      "loss": 0.3786,
      "num_input_tokens_seen": 21364928,
      "step": 32695
    },
    {
      "epoch": 17.138364779874212,
      "grad_norm": 0.1259341686964035,
      "learning_rate": 6.109874672487936e-05,
      "loss": 0.4288,
      "num_input_tokens_seen": 21367808,
      "step": 32700
    },
    {
      "epoch": 17.14098532494759,
      "grad_norm": 0.1748906373977661,
      "learning_rate": 6.098924699149894e-05,
      "loss": 0.3119,
      "num_input_tokens_seen": 21371040,
      "step": 32705
    },
    {
      "epoch": 17.143605870020963,
      "grad_norm": 0.1258101761341095,
      "learning_rate": 6.087983909415962e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 21374528,
      "step": 32710
    },
    {
      "epoch": 17.14622641509434,
      "grad_norm": 0.2263922244310379,
      "learning_rate": 6.077052305574815e-05,
      "loss": 0.3572,
      "num_input_tokens_seen": 21376864,
      "step": 32715
    },
    {
      "epoch": 17.148846960167713,
      "grad_norm": 0.17053502798080444,
      "learning_rate": 6.066129889913241e-05,
      "loss": 0.4724,
      "num_input_tokens_seen": 21379840,
      "step": 32720
    },
    {
      "epoch": 17.15146750524109,
      "grad_norm": 0.133600115776062,
      "learning_rate": 6.0552166647160676e-05,
      "loss": 0.5422,
      "num_input_tokens_seen": 21383072,
      "step": 32725
    },
    {
      "epoch": 17.154088050314467,
      "grad_norm": 0.14301788806915283,
      "learning_rate": 6.044312632266208e-05,
      "loss": 0.4747,
      "num_input_tokens_seen": 21386080,
      "step": 32730
    },
    {
      "epoch": 17.15670859538784,
      "grad_norm": 0.12628844380378723,
      "learning_rate": 6.03341779484467e-05,
      "loss": 0.453,
      "num_input_tokens_seen": 21388640,
      "step": 32735
    },
    {
      "epoch": 17.159329140461217,
      "grad_norm": 0.15599021315574646,
      "learning_rate": 6.022532154730537e-05,
      "loss": 0.4124,
      "num_input_tokens_seen": 21391552,
      "step": 32740
    },
    {
      "epoch": 17.16194968553459,
      "grad_norm": 0.1714443415403366,
      "learning_rate": 6.011655714200964e-05,
      "loss": 0.4845,
      "num_input_tokens_seen": 21395040,
      "step": 32745
    },
    {
      "epoch": 17.164570230607968,
      "grad_norm": 0.16996881365776062,
      "learning_rate": 6.0007884755311715e-05,
      "loss": 0.4428,
      "num_input_tokens_seen": 21398688,
      "step": 32750
    },
    {
      "epoch": 17.16719077568134,
      "grad_norm": 0.21833737194538116,
      "learning_rate": 5.989930440994451e-05,
      "loss": 0.5116,
      "num_input_tokens_seen": 21402144,
      "step": 32755
    },
    {
      "epoch": 17.169811320754718,
      "grad_norm": 0.2018212080001831,
      "learning_rate": 5.979081612862186e-05,
      "loss": 0.5819,
      "num_input_tokens_seen": 21404352,
      "step": 32760
    },
    {
      "epoch": 17.17243186582809,
      "grad_norm": 0.13430142402648926,
      "learning_rate": 5.968241993403834e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 21407808,
      "step": 32765
    },
    {
      "epoch": 17.17505241090147,
      "grad_norm": 0.16823068261146545,
      "learning_rate": 5.957411584886924e-05,
      "loss": 0.4943,
      "num_input_tokens_seen": 21410976,
      "step": 32770
    },
    {
      "epoch": 17.177672955974842,
      "grad_norm": 0.09925509244203568,
      "learning_rate": 5.946590389577033e-05,
      "loss": 0.4267,
      "num_input_tokens_seen": 21414976,
      "step": 32775
    },
    {
      "epoch": 17.18029350104822,
      "grad_norm": 0.1269979178905487,
      "learning_rate": 5.935778409737857e-05,
      "loss": 0.3206,
      "num_input_tokens_seen": 21418368,
      "step": 32780
    },
    {
      "epoch": 17.182914046121592,
      "grad_norm": 0.18360450863838196,
      "learning_rate": 5.92497564763112e-05,
      "loss": 0.3039,
      "num_input_tokens_seen": 21421664,
      "step": 32785
    },
    {
      "epoch": 17.18553459119497,
      "grad_norm": 0.06452053040266037,
      "learning_rate": 5.914182105516641e-05,
      "loss": 0.4302,
      "num_input_tokens_seen": 21428544,
      "step": 32790
    },
    {
      "epoch": 17.188155136268342,
      "grad_norm": 0.1138933002948761,
      "learning_rate": 5.903397785652304e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 21431520,
      "step": 32795
    },
    {
      "epoch": 17.19077568134172,
      "grad_norm": 0.12432429939508438,
      "learning_rate": 5.8926226902940804e-05,
      "loss": 0.385,
      "num_input_tokens_seen": 21435104,
      "step": 32800
    },
    {
      "epoch": 17.193396226415093,
      "grad_norm": 0.36713340878486633,
      "learning_rate": 5.88185682169598e-05,
      "loss": 0.4448,
      "num_input_tokens_seen": 21437888,
      "step": 32805
    },
    {
      "epoch": 17.19601677148847,
      "grad_norm": 0.13998650014400482,
      "learning_rate": 5.871100182110117e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 21441280,
      "step": 32810
    },
    {
      "epoch": 17.198637316561843,
      "grad_norm": 0.1350061446428299,
      "learning_rate": 5.8603527737866314e-05,
      "loss": 0.3081,
      "num_input_tokens_seen": 21445472,
      "step": 32815
    },
    {
      "epoch": 17.20125786163522,
      "grad_norm": 0.19393223524093628,
      "learning_rate": 5.849614598973779e-05,
      "loss": 0.4425,
      "num_input_tokens_seen": 21447872,
      "step": 32820
    },
    {
      "epoch": 17.203878406708597,
      "grad_norm": 0.14338839054107666,
      "learning_rate": 5.8388856599178644e-05,
      "loss": 0.4187,
      "num_input_tokens_seen": 21451456,
      "step": 32825
    },
    {
      "epoch": 17.20649895178197,
      "grad_norm": 0.14395783841609955,
      "learning_rate": 5.8281659588632464e-05,
      "loss": 0.321,
      "num_input_tokens_seen": 21454560,
      "step": 32830
    },
    {
      "epoch": 17.209119496855347,
      "grad_norm": 0.14965157210826874,
      "learning_rate": 5.817455498052382e-05,
      "loss": 0.4168,
      "num_input_tokens_seen": 21457248,
      "step": 32835
    },
    {
      "epoch": 17.21174004192872,
      "grad_norm": 0.1920236051082611,
      "learning_rate": 5.806754279725751e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 21461056,
      "step": 32840
    },
    {
      "epoch": 17.214360587002098,
      "grad_norm": 0.09402820467948914,
      "learning_rate": 5.796062306121947e-05,
      "loss": 0.5088,
      "num_input_tokens_seen": 21466176,
      "step": 32845
    },
    {
      "epoch": 17.21698113207547,
      "grad_norm": 0.24237583577632904,
      "learning_rate": 5.785379579477607e-05,
      "loss": 0.362,
      "num_input_tokens_seen": 21469824,
      "step": 32850
    },
    {
      "epoch": 17.219601677148848,
      "grad_norm": 0.15346603095531464,
      "learning_rate": 5.774706102027427e-05,
      "loss": 0.4343,
      "num_input_tokens_seen": 21473472,
      "step": 32855
    },
    {
      "epoch": 17.22222222222222,
      "grad_norm": 0.12027735263109207,
      "learning_rate": 5.7640418760041776e-05,
      "loss": 0.3454,
      "num_input_tokens_seen": 21476640,
      "step": 32860
    },
    {
      "epoch": 17.2248427672956,
      "grad_norm": 0.17367605865001678,
      "learning_rate": 5.753386903638713e-05,
      "loss": 0.4209,
      "num_input_tokens_seen": 21479712,
      "step": 32865
    },
    {
      "epoch": 17.22746331236897,
      "grad_norm": 0.13308921456336975,
      "learning_rate": 5.7427411871599e-05,
      "loss": 0.4835,
      "num_input_tokens_seen": 21483104,
      "step": 32870
    },
    {
      "epoch": 17.23008385744235,
      "grad_norm": 0.22289898991584778,
      "learning_rate": 5.7321047287947235e-05,
      "loss": 0.3884,
      "num_input_tokens_seen": 21486080,
      "step": 32875
    },
    {
      "epoch": 17.232704402515722,
      "grad_norm": 0.12317553162574768,
      "learning_rate": 5.72147753076821e-05,
      "loss": 0.3931,
      "num_input_tokens_seen": 21489792,
      "step": 32880
    },
    {
      "epoch": 17.2353249475891,
      "grad_norm": 0.13850846886634827,
      "learning_rate": 5.7108595953034306e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 21492704,
      "step": 32885
    },
    {
      "epoch": 17.237945492662472,
      "grad_norm": 0.09343021363019943,
      "learning_rate": 5.7002509246215415e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 21496992,
      "step": 32890
    },
    {
      "epoch": 17.24056603773585,
      "grad_norm": 0.23442241549491882,
      "learning_rate": 5.68965152094178e-05,
      "loss": 0.4167,
      "num_input_tokens_seen": 21500320,
      "step": 32895
    },
    {
      "epoch": 17.243186582809223,
      "grad_norm": 0.18550798296928406,
      "learning_rate": 5.679061386481388e-05,
      "loss": 0.4823,
      "num_input_tokens_seen": 21503584,
      "step": 32900
    },
    {
      "epoch": 17.2458071278826,
      "grad_norm": 0.2564476728439331,
      "learning_rate": 5.6684805234557216e-05,
      "loss": 0.4957,
      "num_input_tokens_seen": 21506240,
      "step": 32905
    },
    {
      "epoch": 17.248427672955973,
      "grad_norm": 0.1858757585287094,
      "learning_rate": 5.65790893407816e-05,
      "loss": 0.366,
      "num_input_tokens_seen": 21510208,
      "step": 32910
    },
    {
      "epoch": 17.25104821802935,
      "grad_norm": 0.12345859408378601,
      "learning_rate": 5.647346620560168e-05,
      "loss": 0.315,
      "num_input_tokens_seen": 21513344,
      "step": 32915
    },
    {
      "epoch": 17.253668763102727,
      "grad_norm": 0.21182800829410553,
      "learning_rate": 5.6367935851112605e-05,
      "loss": 0.4469,
      "num_input_tokens_seen": 21515968,
      "step": 32920
    },
    {
      "epoch": 17.2562893081761,
      "grad_norm": 0.15791776776313782,
      "learning_rate": 5.626249829939023e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 21519200,
      "step": 32925
    },
    {
      "epoch": 17.258909853249477,
      "grad_norm": 0.18659242987632751,
      "learning_rate": 5.6157153572490795e-05,
      "loss": 0.4609,
      "num_input_tokens_seen": 21522368,
      "step": 32930
    },
    {
      "epoch": 17.26153039832285,
      "grad_norm": 0.16404084861278534,
      "learning_rate": 5.6051901692451115e-05,
      "loss": 0.4038,
      "num_input_tokens_seen": 21525280,
      "step": 32935
    },
    {
      "epoch": 17.264150943396228,
      "grad_norm": 0.239126518368721,
      "learning_rate": 5.5946742681288744e-05,
      "loss": 0.3142,
      "num_input_tokens_seen": 21528736,
      "step": 32940
    },
    {
      "epoch": 17.2667714884696,
      "grad_norm": 0.22283115983009338,
      "learning_rate": 5.5841676561001805e-05,
      "loss": 0.5071,
      "num_input_tokens_seen": 21531904,
      "step": 32945
    },
    {
      "epoch": 17.269392033542978,
      "grad_norm": 0.1738097369670868,
      "learning_rate": 5.573670335356901e-05,
      "loss": 0.3977,
      "num_input_tokens_seen": 21534592,
      "step": 32950
    },
    {
      "epoch": 17.27201257861635,
      "grad_norm": 0.14224101603031158,
      "learning_rate": 5.563182308094933e-05,
      "loss": 0.5106,
      "num_input_tokens_seen": 21538880,
      "step": 32955
    },
    {
      "epoch": 17.27463312368973,
      "grad_norm": 0.11270654201507568,
      "learning_rate": 5.552703576508272e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 21542688,
      "step": 32960
    },
    {
      "epoch": 17.2772536687631,
      "grad_norm": 0.18933923542499542,
      "learning_rate": 5.5422341427889324e-05,
      "loss": 0.3841,
      "num_input_tokens_seen": 21545760,
      "step": 32965
    },
    {
      "epoch": 17.27987421383648,
      "grad_norm": 0.17141155898571014,
      "learning_rate": 5.531774009127011e-05,
      "loss": 0.4372,
      "num_input_tokens_seen": 21548736,
      "step": 32970
    },
    {
      "epoch": 17.282494758909852,
      "grad_norm": 0.22694015502929688,
      "learning_rate": 5.521323177710647e-05,
      "loss": 0.5247,
      "num_input_tokens_seen": 21551936,
      "step": 32975
    },
    {
      "epoch": 17.28511530398323,
      "grad_norm": 0.1913011521100998,
      "learning_rate": 5.510881650726046e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 21555296,
      "step": 32980
    },
    {
      "epoch": 17.287735849056602,
      "grad_norm": 0.17178428173065186,
      "learning_rate": 5.50044943035744e-05,
      "loss": 0.412,
      "num_input_tokens_seen": 21558144,
      "step": 32985
    },
    {
      "epoch": 17.29035639412998,
      "grad_norm": 0.18261151015758514,
      "learning_rate": 5.490026518787128e-05,
      "loss": 0.6002,
      "num_input_tokens_seen": 21562048,
      "step": 32990
    },
    {
      "epoch": 17.292976939203353,
      "grad_norm": 0.10965575277805328,
      "learning_rate": 5.47961291819547e-05,
      "loss": 0.415,
      "num_input_tokens_seen": 21565312,
      "step": 32995
    },
    {
      "epoch": 17.29559748427673,
      "grad_norm": 0.15161508321762085,
      "learning_rate": 5.46920863076088e-05,
      "loss": 0.4297,
      "num_input_tokens_seen": 21568960,
      "step": 33000
    },
    {
      "epoch": 17.298218029350103,
      "grad_norm": 0.12256015837192535,
      "learning_rate": 5.4588136586598056e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 21572064,
      "step": 33005
    },
    {
      "epoch": 17.30083857442348,
      "grad_norm": 0.09423811733722687,
      "learning_rate": 5.44842800406678e-05,
      "loss": 0.442,
      "num_input_tokens_seen": 21575328,
      "step": 33010
    },
    {
      "epoch": 17.303459119496857,
      "grad_norm": 0.1005781963467598,
      "learning_rate": 5.438051669154326e-05,
      "loss": 0.4203,
      "num_input_tokens_seen": 21578912,
      "step": 33015
    },
    {
      "epoch": 17.30607966457023,
      "grad_norm": 0.15453892946243286,
      "learning_rate": 5.427684656093074e-05,
      "loss": 0.4144,
      "num_input_tokens_seen": 21582560,
      "step": 33020
    },
    {
      "epoch": 17.308700209643607,
      "grad_norm": 0.22771084308624268,
      "learning_rate": 5.417326967051683e-05,
      "loss": 0.4336,
      "num_input_tokens_seen": 21586912,
      "step": 33025
    },
    {
      "epoch": 17.31132075471698,
      "grad_norm": 0.21890072524547577,
      "learning_rate": 5.4069786041968663e-05,
      "loss": 0.4594,
      "num_input_tokens_seen": 21589920,
      "step": 33030
    },
    {
      "epoch": 17.313941299790358,
      "grad_norm": 0.18911556899547577,
      "learning_rate": 5.39663956969339e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 21592416,
      "step": 33035
    },
    {
      "epoch": 17.31656184486373,
      "grad_norm": 0.20475584268569946,
      "learning_rate": 5.3863098657040534e-05,
      "loss": 0.506,
      "num_input_tokens_seen": 21596448,
      "step": 33040
    },
    {
      "epoch": 17.319182389937108,
      "grad_norm": 0.12079774588346481,
      "learning_rate": 5.375989494389705e-05,
      "loss": 0.4483,
      "num_input_tokens_seen": 21599968,
      "step": 33045
    },
    {
      "epoch": 17.32180293501048,
      "grad_norm": 0.0907021015882492,
      "learning_rate": 5.365678457909257e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 21603168,
      "step": 33050
    },
    {
      "epoch": 17.32442348008386,
      "grad_norm": 0.10311755537986755,
      "learning_rate": 5.3553767584196555e-05,
      "loss": 0.5314,
      "num_input_tokens_seen": 21606336,
      "step": 33055
    },
    {
      "epoch": 17.32704402515723,
      "grad_norm": 0.1951831728219986,
      "learning_rate": 5.3450843980759166e-05,
      "loss": 0.4647,
      "num_input_tokens_seen": 21609728,
      "step": 33060
    },
    {
      "epoch": 17.32966457023061,
      "grad_norm": 0.1698707789182663,
      "learning_rate": 5.3348013790310736e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 21612448,
      "step": 33065
    },
    {
      "epoch": 17.332285115303982,
      "grad_norm": 0.11937717348337173,
      "learning_rate": 5.324527703436199e-05,
      "loss": 0.3758,
      "num_input_tokens_seen": 21615424,
      "step": 33070
    },
    {
      "epoch": 17.33490566037736,
      "grad_norm": 0.2357882857322693,
      "learning_rate": 5.314263373440448e-05,
      "loss": 0.3804,
      "num_input_tokens_seen": 21618400,
      "step": 33075
    },
    {
      "epoch": 17.337526205450732,
      "grad_norm": 0.18691454827785492,
      "learning_rate": 5.304008391190995e-05,
      "loss": 0.4705,
      "num_input_tokens_seen": 21622688,
      "step": 33080
    },
    {
      "epoch": 17.34014675052411,
      "grad_norm": 0.2194855660200119,
      "learning_rate": 5.293762758833071e-05,
      "loss": 0.4955,
      "num_input_tokens_seen": 21626176,
      "step": 33085
    },
    {
      "epoch": 17.342767295597483,
      "grad_norm": 0.47881779074668884,
      "learning_rate": 5.283526478509953e-05,
      "loss": 0.3015,
      "num_input_tokens_seen": 21629440,
      "step": 33090
    },
    {
      "epoch": 17.34538784067086,
      "grad_norm": 0.1412932276725769,
      "learning_rate": 5.273299552362942e-05,
      "loss": 0.5718,
      "num_input_tokens_seen": 21632000,
      "step": 33095
    },
    {
      "epoch": 17.348008385744233,
      "grad_norm": 0.109747976064682,
      "learning_rate": 5.263081982531381e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 21635104,
      "step": 33100
    },
    {
      "epoch": 17.35062893081761,
      "grad_norm": 0.10795034468173981,
      "learning_rate": 5.2528737711526885e-05,
      "loss": 0.5099,
      "num_input_tokens_seen": 21638624,
      "step": 33105
    },
    {
      "epoch": 17.353249475890987,
      "grad_norm": 0.20316044986248016,
      "learning_rate": 5.2426749203623005e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 21641664,
      "step": 33110
    },
    {
      "epoch": 17.35587002096436,
      "grad_norm": 0.15950947999954224,
      "learning_rate": 5.23248543229371e-05,
      "loss": 0.4858,
      "num_input_tokens_seen": 21644672,
      "step": 33115
    },
    {
      "epoch": 17.358490566037737,
      "grad_norm": 0.30364516377449036,
      "learning_rate": 5.222305309078429e-05,
      "loss": 0.4282,
      "num_input_tokens_seen": 21647328,
      "step": 33120
    },
    {
      "epoch": 17.36111111111111,
      "grad_norm": 0.12430503219366074,
      "learning_rate": 5.2121345528460205e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 21650368,
      "step": 33125
    },
    {
      "epoch": 17.363731656184488,
      "grad_norm": 0.18500766158103943,
      "learning_rate": 5.201973165724094e-05,
      "loss": 0.6155,
      "num_input_tokens_seen": 21654400,
      "step": 33130
    },
    {
      "epoch": 17.36635220125786,
      "grad_norm": 0.1525660753250122,
      "learning_rate": 5.1918211498382996e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 21657856,
      "step": 33135
    },
    {
      "epoch": 17.368972746331238,
      "grad_norm": 0.15377986431121826,
      "learning_rate": 5.181678507312332e-05,
      "loss": 0.2979,
      "num_input_tokens_seen": 21661088,
      "step": 33140
    },
    {
      "epoch": 17.37159329140461,
      "grad_norm": 0.12435025721788406,
      "learning_rate": 5.171545240267894e-05,
      "loss": 0.3174,
      "num_input_tokens_seen": 21666144,
      "step": 33145
    },
    {
      "epoch": 17.37421383647799,
      "grad_norm": 0.11235909909009933,
      "learning_rate": 5.161421350824774e-05,
      "loss": 0.4019,
      "num_input_tokens_seen": 21669152,
      "step": 33150
    },
    {
      "epoch": 17.37683438155136,
      "grad_norm": 0.15290246903896332,
      "learning_rate": 5.151306841100756e-05,
      "loss": 0.4168,
      "num_input_tokens_seen": 21671840,
      "step": 33155
    },
    {
      "epoch": 17.37945492662474,
      "grad_norm": 0.18946486711502075,
      "learning_rate": 5.141201713211679e-05,
      "loss": 0.3253,
      "num_input_tokens_seen": 21674400,
      "step": 33160
    },
    {
      "epoch": 17.382075471698112,
      "grad_norm": 0.20996887981891632,
      "learning_rate": 5.1311059692714324e-05,
      "loss": 0.3524,
      "num_input_tokens_seen": 21677280,
      "step": 33165
    },
    {
      "epoch": 17.38469601677149,
      "grad_norm": 0.23188459873199463,
      "learning_rate": 5.1210196113919306e-05,
      "loss": 0.6161,
      "num_input_tokens_seen": 21680352,
      "step": 33170
    },
    {
      "epoch": 17.387316561844862,
      "grad_norm": 0.11868887394666672,
      "learning_rate": 5.110942641683114e-05,
      "loss": 0.4482,
      "num_input_tokens_seen": 21684768,
      "step": 33175
    },
    {
      "epoch": 17.38993710691824,
      "grad_norm": 0.20095300674438477,
      "learning_rate": 5.10087506225298e-05,
      "loss": 0.5665,
      "num_input_tokens_seen": 21687776,
      "step": 33180
    },
    {
      "epoch": 17.392557651991613,
      "grad_norm": 0.11678658425807953,
      "learning_rate": 5.090816875207543e-05,
      "loss": 0.3527,
      "num_input_tokens_seen": 21691392,
      "step": 33185
    },
    {
      "epoch": 17.39517819706499,
      "grad_norm": 0.18375809490680695,
      "learning_rate": 5.0807680826508604e-05,
      "loss": 0.5707,
      "num_input_tokens_seen": 21694016,
      "step": 33190
    },
    {
      "epoch": 17.397798742138363,
      "grad_norm": 0.13346509635448456,
      "learning_rate": 5.070728686685039e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 21697152,
      "step": 33195
    },
    {
      "epoch": 17.40041928721174,
      "grad_norm": 0.07188092917203903,
      "learning_rate": 5.0606986894101925e-05,
      "loss": 0.526,
      "num_input_tokens_seen": 21701504,
      "step": 33200
    },
    {
      "epoch": 17.403039832285117,
      "grad_norm": 0.1855645626783371,
      "learning_rate": 5.0506780929244875e-05,
      "loss": 0.6039,
      "num_input_tokens_seen": 21704640,
      "step": 33205
    },
    {
      "epoch": 17.40566037735849,
      "grad_norm": 0.12247059494256973,
      "learning_rate": 5.040666899324109e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 21708160,
      "step": 33210
    },
    {
      "epoch": 17.408280922431867,
      "grad_norm": 0.15078769624233246,
      "learning_rate": 5.0306651107032916e-05,
      "loss": 0.4134,
      "num_input_tokens_seen": 21710976,
      "step": 33215
    },
    {
      "epoch": 17.41090146750524,
      "grad_norm": 0.14222081005573273,
      "learning_rate": 5.020672729154308e-05,
      "loss": 0.6396,
      "num_input_tokens_seen": 21714368,
      "step": 33220
    },
    {
      "epoch": 17.413522012578618,
      "grad_norm": 0.15208257734775543,
      "learning_rate": 5.010689756767428e-05,
      "loss": 0.5243,
      "num_input_tokens_seen": 21716896,
      "step": 33225
    },
    {
      "epoch": 17.41614255765199,
      "grad_norm": 0.16577032208442688,
      "learning_rate": 5.000716195630983e-05,
      "loss": 0.4402,
      "num_input_tokens_seen": 21719488,
      "step": 33230
    },
    {
      "epoch": 17.418763102725368,
      "grad_norm": 0.19632300734519958,
      "learning_rate": 4.990752047831343e-05,
      "loss": 0.422,
      "num_input_tokens_seen": 21724000,
      "step": 33235
    },
    {
      "epoch": 17.42138364779874,
      "grad_norm": 0.17233018577098846,
      "learning_rate": 4.980797315452873e-05,
      "loss": 0.406,
      "num_input_tokens_seen": 21727424,
      "step": 33240
    },
    {
      "epoch": 17.42400419287212,
      "grad_norm": 0.14331626892089844,
      "learning_rate": 4.9708520005779965e-05,
      "loss": 0.379,
      "num_input_tokens_seen": 21732032,
      "step": 33245
    },
    {
      "epoch": 17.42662473794549,
      "grad_norm": 0.11681719124317169,
      "learning_rate": 4.960916105287172e-05,
      "loss": 0.6213,
      "num_input_tokens_seen": 21735488,
      "step": 33250
    },
    {
      "epoch": 17.42924528301887,
      "grad_norm": 0.1629646122455597,
      "learning_rate": 4.950989631658859e-05,
      "loss": 0.4101,
      "num_input_tokens_seen": 21737984,
      "step": 33255
    },
    {
      "epoch": 17.431865828092242,
      "grad_norm": 0.14942534267902374,
      "learning_rate": 4.941072581769562e-05,
      "loss": 0.4576,
      "num_input_tokens_seen": 21741088,
      "step": 33260
    },
    {
      "epoch": 17.43448637316562,
      "grad_norm": 0.09661665558815002,
      "learning_rate": 4.931164957693834e-05,
      "loss": 0.5193,
      "num_input_tokens_seen": 21744928,
      "step": 33265
    },
    {
      "epoch": 17.437106918238992,
      "grad_norm": 0.32882359623908997,
      "learning_rate": 4.921266761504217e-05,
      "loss": 0.5192,
      "num_input_tokens_seen": 21748288,
      "step": 33270
    },
    {
      "epoch": 17.43972746331237,
      "grad_norm": 0.20479880273342133,
      "learning_rate": 4.9113779952713155e-05,
      "loss": 0.4077,
      "num_input_tokens_seen": 21751968,
      "step": 33275
    },
    {
      "epoch": 17.442348008385743,
      "grad_norm": 0.18077348172664642,
      "learning_rate": 4.90149866106373e-05,
      "loss": 0.4082,
      "num_input_tokens_seen": 21755648,
      "step": 33280
    },
    {
      "epoch": 17.44496855345912,
      "grad_norm": 0.1955847144126892,
      "learning_rate": 4.8916287609481137e-05,
      "loss": 0.4141,
      "num_input_tokens_seen": 21759040,
      "step": 33285
    },
    {
      "epoch": 17.447589098532493,
      "grad_norm": 0.17855262756347656,
      "learning_rate": 4.8817682969891366e-05,
      "loss": 0.3896,
      "num_input_tokens_seen": 21762272,
      "step": 33290
    },
    {
      "epoch": 17.45020964360587,
      "grad_norm": 0.31248658895492554,
      "learning_rate": 4.8719172712495095e-05,
      "loss": 0.5166,
      "num_input_tokens_seen": 21765600,
      "step": 33295
    },
    {
      "epoch": 17.452830188679247,
      "grad_norm": 0.23360000550746918,
      "learning_rate": 4.862075685789935e-05,
      "loss": 0.4312,
      "num_input_tokens_seen": 21768032,
      "step": 33300
    },
    {
      "epoch": 17.45545073375262,
      "grad_norm": 0.2892428934574127,
      "learning_rate": 4.8522435426691604e-05,
      "loss": 0.4759,
      "num_input_tokens_seen": 21770304,
      "step": 33305
    },
    {
      "epoch": 17.458071278825997,
      "grad_norm": 0.16613894701004028,
      "learning_rate": 4.842420843943962e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 21774016,
      "step": 33310
    },
    {
      "epoch": 17.46069182389937,
      "grad_norm": 0.12467831373214722,
      "learning_rate": 4.8326075916691415e-05,
      "loss": 0.545,
      "num_input_tokens_seen": 21778048,
      "step": 33315
    },
    {
      "epoch": 17.463312368972748,
      "grad_norm": 0.17986032366752625,
      "learning_rate": 4.822803787897523e-05,
      "loss": 0.2681,
      "num_input_tokens_seen": 21780736,
      "step": 33320
    },
    {
      "epoch": 17.46593291404612,
      "grad_norm": 0.14195065200328827,
      "learning_rate": 4.813009434679932e-05,
      "loss": 0.4729,
      "num_input_tokens_seen": 21784704,
      "step": 33325
    },
    {
      "epoch": 17.468553459119498,
      "grad_norm": 0.09852784126996994,
      "learning_rate": 4.803224534065259e-05,
      "loss": 0.3327,
      "num_input_tokens_seen": 21788096,
      "step": 33330
    },
    {
      "epoch": 17.47117400419287,
      "grad_norm": 0.10336489975452423,
      "learning_rate": 4.793449088100371e-05,
      "loss": 0.3445,
      "num_input_tokens_seen": 21791808,
      "step": 33335
    },
    {
      "epoch": 17.47379454926625,
      "grad_norm": 0.1569727510213852,
      "learning_rate": 4.783683098830188e-05,
      "loss": 0.6001,
      "num_input_tokens_seen": 21795072,
      "step": 33340
    },
    {
      "epoch": 17.47641509433962,
      "grad_norm": 0.1913924515247345,
      "learning_rate": 4.7739265682976485e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 21798016,
      "step": 33345
    },
    {
      "epoch": 17.479035639413,
      "grad_norm": 0.1538972407579422,
      "learning_rate": 4.764179498543714e-05,
      "loss": 0.3774,
      "num_input_tokens_seen": 21801632,
      "step": 33350
    },
    {
      "epoch": 17.481656184486372,
      "grad_norm": 0.18187467753887177,
      "learning_rate": 4.754441891607347e-05,
      "loss": 0.3163,
      "num_input_tokens_seen": 21804416,
      "step": 33355
    },
    {
      "epoch": 17.48427672955975,
      "grad_norm": 0.15988227725028992,
      "learning_rate": 4.7447137495255424e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 21808160,
      "step": 33360
    },
    {
      "epoch": 17.486897274633122,
      "grad_norm": 0.29110753536224365,
      "learning_rate": 4.7349950743333206e-05,
      "loss": 0.4969,
      "num_input_tokens_seen": 21810976,
      "step": 33365
    },
    {
      "epoch": 17.4895178197065,
      "grad_norm": 0.10645464062690735,
      "learning_rate": 4.725285868063722e-05,
      "loss": 0.4407,
      "num_input_tokens_seen": 21814880,
      "step": 33370
    },
    {
      "epoch": 17.492138364779873,
      "grad_norm": 0.21821701526641846,
      "learning_rate": 4.715586132747801e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 21817792,
      "step": 33375
    },
    {
      "epoch": 17.49475890985325,
      "grad_norm": 0.17563049495220184,
      "learning_rate": 4.705895870414634e-05,
      "loss": 0.3347,
      "num_input_tokens_seen": 21821312,
      "step": 33380
    },
    {
      "epoch": 17.497379454926623,
      "grad_norm": 0.09165258705615997,
      "learning_rate": 4.696215083091299e-05,
      "loss": 0.419,
      "num_input_tokens_seen": 21825664,
      "step": 33385
    },
    {
      "epoch": 17.5,
      "grad_norm": 0.13112781941890717,
      "learning_rate": 4.686543772802915e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 21829088,
      "step": 33390
    },
    {
      "epoch": 17.502620545073377,
      "grad_norm": 0.13598817586898804,
      "learning_rate": 4.6768819415726085e-05,
      "loss": 0.4139,
      "num_input_tokens_seen": 21832000,
      "step": 33395
    },
    {
      "epoch": 17.50524109014675,
      "grad_norm": 0.11999157816171646,
      "learning_rate": 4.667229591421529e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 21834816,
      "step": 33400
    },
    {
      "epoch": 17.507861635220127,
      "grad_norm": 0.14604541659355164,
      "learning_rate": 4.657586724368845e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 21837184,
      "step": 33405
    },
    {
      "epoch": 17.5104821802935,
      "grad_norm": 0.14418448507785797,
      "learning_rate": 4.647953342431726e-05,
      "loss": 0.4476,
      "num_input_tokens_seen": 21842080,
      "step": 33410
    },
    {
      "epoch": 17.513102725366878,
      "grad_norm": 0.1798648238182068,
      "learning_rate": 4.63832944762535e-05,
      "loss": 0.4183,
      "num_input_tokens_seen": 21844736,
      "step": 33415
    },
    {
      "epoch": 17.51572327044025,
      "grad_norm": 0.1275508552789688,
      "learning_rate": 4.628715041962944e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 21848736,
      "step": 33420
    },
    {
      "epoch": 17.518343815513628,
      "grad_norm": 0.21846358478069305,
      "learning_rate": 4.619110127455728e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 21851808,
      "step": 33425
    },
    {
      "epoch": 17.520964360587,
      "grad_norm": 0.12666074931621552,
      "learning_rate": 4.6095147061129494e-05,
      "loss": 0.4036,
      "num_input_tokens_seen": 21854752,
      "step": 33430
    },
    {
      "epoch": 17.52358490566038,
      "grad_norm": 0.19361469149589539,
      "learning_rate": 4.599928779941853e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 21858016,
      "step": 33435
    },
    {
      "epoch": 17.52620545073375,
      "grad_norm": 0.12646836042404175,
      "learning_rate": 4.590352350947691e-05,
      "loss": 0.3121,
      "num_input_tokens_seen": 21860928,
      "step": 33440
    },
    {
      "epoch": 17.52882599580713,
      "grad_norm": 0.19924849271774292,
      "learning_rate": 4.580785421133759e-05,
      "loss": 0.3259,
      "num_input_tokens_seen": 21864416,
      "step": 33445
    },
    {
      "epoch": 17.531446540880502,
      "grad_norm": 0.09799008816480637,
      "learning_rate": 4.571227992501348e-05,
      "loss": 0.4225,
      "num_input_tokens_seen": 21867808,
      "step": 33450
    },
    {
      "epoch": 17.53406708595388,
      "grad_norm": 0.11715039610862732,
      "learning_rate": 4.561680067049773e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 21871008,
      "step": 33455
    },
    {
      "epoch": 17.536687631027252,
      "grad_norm": 0.20613794028759003,
      "learning_rate": 4.552141646776331e-05,
      "loss": 0.3641,
      "num_input_tokens_seen": 21873984,
      "step": 33460
    },
    {
      "epoch": 17.53930817610063,
      "grad_norm": 0.1536497324705124,
      "learning_rate": 4.542612733676365e-05,
      "loss": 0.3829,
      "num_input_tokens_seen": 21877216,
      "step": 33465
    },
    {
      "epoch": 17.541928721174003,
      "grad_norm": 0.17218251526355743,
      "learning_rate": 4.533093329743204e-05,
      "loss": 0.297,
      "num_input_tokens_seen": 21880544,
      "step": 33470
    },
    {
      "epoch": 17.54454926624738,
      "grad_norm": 0.24426011741161346,
      "learning_rate": 4.523583436968204e-05,
      "loss": 0.6435,
      "num_input_tokens_seen": 21883296,
      "step": 33475
    },
    {
      "epoch": 17.547169811320753,
      "grad_norm": 0.1795400083065033,
      "learning_rate": 4.514083057340723e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 21885888,
      "step": 33480
    },
    {
      "epoch": 17.54979035639413,
      "grad_norm": 0.14946594834327698,
      "learning_rate": 4.504592192848151e-05,
      "loss": 0.4386,
      "num_input_tokens_seen": 21888736,
      "step": 33485
    },
    {
      "epoch": 17.552410901467507,
      "grad_norm": 0.2486901581287384,
      "learning_rate": 4.495110845475847e-05,
      "loss": 0.5097,
      "num_input_tokens_seen": 21891264,
      "step": 33490
    },
    {
      "epoch": 17.55503144654088,
      "grad_norm": 0.15552474558353424,
      "learning_rate": 4.4856390172072045e-05,
      "loss": 0.6189,
      "num_input_tokens_seen": 21893760,
      "step": 33495
    },
    {
      "epoch": 17.557651991614257,
      "grad_norm": 0.15001027286052704,
      "learning_rate": 4.476176710023622e-05,
      "loss": 0.4397,
      "num_input_tokens_seen": 21897280,
      "step": 33500
    },
    {
      "epoch": 17.56027253668763,
      "grad_norm": 0.11222461611032486,
      "learning_rate": 4.4667239259045035e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 21900640,
      "step": 33505
    },
    {
      "epoch": 17.562893081761008,
      "grad_norm": 0.15386433899402618,
      "learning_rate": 4.457280666827285e-05,
      "loss": 0.4232,
      "num_input_tokens_seen": 21903744,
      "step": 33510
    },
    {
      "epoch": 17.56551362683438,
      "grad_norm": 0.2597722113132477,
      "learning_rate": 4.447846934767358e-05,
      "loss": 0.3649,
      "num_input_tokens_seen": 21905984,
      "step": 33515
    },
    {
      "epoch": 17.568134171907758,
      "grad_norm": 0.10091083496809006,
      "learning_rate": 4.4384227316981774e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 21910272,
      "step": 33520
    },
    {
      "epoch": 17.57075471698113,
      "grad_norm": 0.18122826516628265,
      "learning_rate": 4.4290080595911555e-05,
      "loss": 0.5891,
      "num_input_tokens_seen": 21913216,
      "step": 33525
    },
    {
      "epoch": 17.57337526205451,
      "grad_norm": 0.17303037643432617,
      "learning_rate": 4.419602920415749e-05,
      "loss": 0.2987,
      "num_input_tokens_seen": 21916128,
      "step": 33530
    },
    {
      "epoch": 17.57599580712788,
      "grad_norm": 0.23765501379966736,
      "learning_rate": 4.410207316139408e-05,
      "loss": 0.326,
      "num_input_tokens_seen": 21918592,
      "step": 33535
    },
    {
      "epoch": 17.57861635220126,
      "grad_norm": 0.15526166558265686,
      "learning_rate": 4.400821248727577e-05,
      "loss": 0.4338,
      "num_input_tokens_seen": 21921216,
      "step": 33540
    },
    {
      "epoch": 17.581236897274632,
      "grad_norm": 0.14141398668289185,
      "learning_rate": 4.391444720143717e-05,
      "loss": 0.4217,
      "num_input_tokens_seen": 21925056,
      "step": 33545
    },
    {
      "epoch": 17.58385744234801,
      "grad_norm": 0.18066652119159698,
      "learning_rate": 4.382077732349299e-05,
      "loss": 0.421,
      "num_input_tokens_seen": 21928320,
      "step": 33550
    },
    {
      "epoch": 17.586477987421382,
      "grad_norm": 0.15026874840259552,
      "learning_rate": 4.372720287303772e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 21931968,
      "step": 33555
    },
    {
      "epoch": 17.58909853249476,
      "grad_norm": 0.14743980765342712,
      "learning_rate": 4.3633723869646204e-05,
      "loss": 0.3742,
      "num_input_tokens_seen": 21935008,
      "step": 33560
    },
    {
      "epoch": 17.591719077568133,
      "grad_norm": 0.17697729170322418,
      "learning_rate": 4.3540340332873184e-05,
      "loss": 0.4131,
      "num_input_tokens_seen": 21937344,
      "step": 33565
    },
    {
      "epoch": 17.59433962264151,
      "grad_norm": 0.16325683891773224,
      "learning_rate": 4.3447052282253375e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 21939936,
      "step": 33570
    },
    {
      "epoch": 17.596960167714883,
      "grad_norm": 0.3158087134361267,
      "learning_rate": 4.335385973730166e-05,
      "loss": 0.4051,
      "num_input_tokens_seen": 21942400,
      "step": 33575
    },
    {
      "epoch": 17.59958071278826,
      "grad_norm": 0.31720566749572754,
      "learning_rate": 4.3260762717512726e-05,
      "loss": 0.4025,
      "num_input_tokens_seen": 21945632,
      "step": 33580
    },
    {
      "epoch": 17.602201257861637,
      "grad_norm": 0.25949734449386597,
      "learning_rate": 4.316776124236144e-05,
      "loss": 0.5543,
      "num_input_tokens_seen": 21949312,
      "step": 33585
    },
    {
      "epoch": 17.60482180293501,
      "grad_norm": 0.10080122202634811,
      "learning_rate": 4.307485533130279e-05,
      "loss": 0.3829,
      "num_input_tokens_seen": 21955872,
      "step": 33590
    },
    {
      "epoch": 17.607442348008387,
      "grad_norm": 0.08560929447412491,
      "learning_rate": 4.298204500377145e-05,
      "loss": 0.4596,
      "num_input_tokens_seen": 21959712,
      "step": 33595
    },
    {
      "epoch": 17.61006289308176,
      "grad_norm": 0.10836491733789444,
      "learning_rate": 4.288933027918235e-05,
      "loss": 0.5507,
      "num_input_tokens_seen": 21963136,
      "step": 33600
    },
    {
      "epoch": 17.612683438155138,
      "grad_norm": 0.11885707825422287,
      "learning_rate": 4.279671117693046e-05,
      "loss": 0.5574,
      "num_input_tokens_seen": 21966912,
      "step": 33605
    },
    {
      "epoch": 17.61530398322851,
      "grad_norm": 0.197340726852417,
      "learning_rate": 4.270418771639045e-05,
      "loss": 0.4397,
      "num_input_tokens_seen": 21969152,
      "step": 33610
    },
    {
      "epoch": 17.617924528301888,
      "grad_norm": 0.36166930198669434,
      "learning_rate": 4.2611759916917345e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 21971744,
      "step": 33615
    },
    {
      "epoch": 17.62054507337526,
      "grad_norm": 0.2876751720905304,
      "learning_rate": 4.251942779784579e-05,
      "loss": 0.3259,
      "num_input_tokens_seen": 21974592,
      "step": 33620
    },
    {
      "epoch": 17.62316561844864,
      "grad_norm": 0.18130621314048767,
      "learning_rate": 4.242719137849077e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 21978528,
      "step": 33625
    },
    {
      "epoch": 17.62578616352201,
      "grad_norm": 0.3234784007072449,
      "learning_rate": 4.233505067814702e-05,
      "loss": 0.4395,
      "num_input_tokens_seen": 21981792,
      "step": 33630
    },
    {
      "epoch": 17.62840670859539,
      "grad_norm": 0.2132330983877182,
      "learning_rate": 4.224300571608947e-05,
      "loss": 0.3499,
      "num_input_tokens_seen": 21985344,
      "step": 33635
    },
    {
      "epoch": 17.631027253668762,
      "grad_norm": 0.14960677921772003,
      "learning_rate": 4.215105651157264e-05,
      "loss": 0.5042,
      "num_input_tokens_seen": 21988352,
      "step": 33640
    },
    {
      "epoch": 17.63364779874214,
      "grad_norm": 0.11676548421382904,
      "learning_rate": 4.2059203083831434e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 21992608,
      "step": 33645
    },
    {
      "epoch": 17.636268343815512,
      "grad_norm": 0.0685248076915741,
      "learning_rate": 4.196744545208042e-05,
      "loss": 0.3498,
      "num_input_tokens_seen": 21996160,
      "step": 33650
    },
    {
      "epoch": 17.63888888888889,
      "grad_norm": 0.08160872012376785,
      "learning_rate": 4.187578363551431e-05,
      "loss": 0.3954,
      "num_input_tokens_seen": 21999712,
      "step": 33655
    },
    {
      "epoch": 17.641509433962263,
      "grad_norm": 0.16714459657669067,
      "learning_rate": 4.17842176533077e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 22002432,
      "step": 33660
    },
    {
      "epoch": 17.64412997903564,
      "grad_norm": 0.2683694660663605,
      "learning_rate": 4.1692747524615274e-05,
      "loss": 0.5644,
      "num_input_tokens_seen": 22004992,
      "step": 33665
    },
    {
      "epoch": 17.646750524109013,
      "grad_norm": 0.1088641881942749,
      "learning_rate": 4.160137326857138e-05,
      "loss": 0.3942,
      "num_input_tokens_seen": 22008480,
      "step": 33670
    },
    {
      "epoch": 17.64937106918239,
      "grad_norm": 0.1333726942539215,
      "learning_rate": 4.151009490429042e-05,
      "loss": 0.4288,
      "num_input_tokens_seen": 22011968,
      "step": 33675
    },
    {
      "epoch": 17.651991614255767,
      "grad_norm": 0.20703507959842682,
      "learning_rate": 4.141891245086687e-05,
      "loss": 0.5716,
      "num_input_tokens_seen": 22015424,
      "step": 33680
    },
    {
      "epoch": 17.65461215932914,
      "grad_norm": 0.10406072437763214,
      "learning_rate": 4.132782592737511e-05,
      "loss": 0.3749,
      "num_input_tokens_seen": 22019776,
      "step": 33685
    },
    {
      "epoch": 17.657232704402517,
      "grad_norm": 0.2571864426136017,
      "learning_rate": 4.123683535286943e-05,
      "loss": 0.443,
      "num_input_tokens_seen": 22023072,
      "step": 33690
    },
    {
      "epoch": 17.65985324947589,
      "grad_norm": 0.3031919300556183,
      "learning_rate": 4.114594074638395e-05,
      "loss": 0.4116,
      "num_input_tokens_seen": 22026272,
      "step": 33695
    },
    {
      "epoch": 17.662473794549268,
      "grad_norm": 0.16436856985092163,
      "learning_rate": 4.105514212693268e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 22029216,
      "step": 33700
    },
    {
      "epoch": 17.66509433962264,
      "grad_norm": 0.14149615168571472,
      "learning_rate": 4.096443951350976e-05,
      "loss": 0.4469,
      "num_input_tokens_seen": 22032416,
      "step": 33705
    },
    {
      "epoch": 17.667714884696018,
      "grad_norm": 0.13423115015029907,
      "learning_rate": 4.0873832925089116e-05,
      "loss": 0.3145,
      "num_input_tokens_seen": 22035488,
      "step": 33710
    },
    {
      "epoch": 17.67033542976939,
      "grad_norm": 0.1386263370513916,
      "learning_rate": 4.0783322380624656e-05,
      "loss": 0.5151,
      "num_input_tokens_seen": 22039232,
      "step": 33715
    },
    {
      "epoch": 17.67295597484277,
      "grad_norm": 0.20868362486362457,
      "learning_rate": 4.069290789905023e-05,
      "loss": 0.4402,
      "num_input_tokens_seen": 22041888,
      "step": 33720
    },
    {
      "epoch": 17.67557651991614,
      "grad_norm": 0.1648639589548111,
      "learning_rate": 4.060258949927942e-05,
      "loss": 0.4335,
      "num_input_tokens_seen": 22044416,
      "step": 33725
    },
    {
      "epoch": 17.67819706498952,
      "grad_norm": 0.08388122916221619,
      "learning_rate": 4.051236720020568e-05,
      "loss": 0.3205,
      "num_input_tokens_seen": 22047552,
      "step": 33730
    },
    {
      "epoch": 17.680817610062892,
      "grad_norm": 0.2984316349029541,
      "learning_rate": 4.042224102070263e-05,
      "loss": 0.4688,
      "num_input_tokens_seen": 22049856,
      "step": 33735
    },
    {
      "epoch": 17.68343815513627,
      "grad_norm": 0.22204042971134186,
      "learning_rate": 4.033221097962364e-05,
      "loss": 0.4249,
      "num_input_tokens_seen": 22052672,
      "step": 33740
    },
    {
      "epoch": 17.686058700209642,
      "grad_norm": 0.11338645964860916,
      "learning_rate": 4.0242277095802025e-05,
      "loss": 0.5216,
      "num_input_tokens_seen": 22055392,
      "step": 33745
    },
    {
      "epoch": 17.68867924528302,
      "grad_norm": 0.24025414884090424,
      "learning_rate": 4.015243938805086e-05,
      "loss": 0.4485,
      "num_input_tokens_seen": 22058176,
      "step": 33750
    },
    {
      "epoch": 17.691299790356393,
      "grad_norm": 0.25149065256118774,
      "learning_rate": 4.006269787516304e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 22061152,
      "step": 33755
    },
    {
      "epoch": 17.69392033542977,
      "grad_norm": 0.1523221880197525,
      "learning_rate": 3.9973052575911606e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 22064288,
      "step": 33760
    },
    {
      "epoch": 17.696540880503143,
      "grad_norm": 0.1975993514060974,
      "learning_rate": 3.988350350904929e-05,
      "loss": 0.4517,
      "num_input_tokens_seen": 22067008,
      "step": 33765
    },
    {
      "epoch": 17.69916142557652,
      "grad_norm": 0.1817268282175064,
      "learning_rate": 3.979405069330882e-05,
      "loss": 0.3516,
      "num_input_tokens_seen": 22070400,
      "step": 33770
    },
    {
      "epoch": 17.701781970649897,
      "grad_norm": 0.11383990198373795,
      "learning_rate": 3.970469414740269e-05,
      "loss": 0.5036,
      "num_input_tokens_seen": 22073312,
      "step": 33775
    },
    {
      "epoch": 17.70440251572327,
      "grad_norm": 0.17456650733947754,
      "learning_rate": 3.961543389002309e-05,
      "loss": 0.4517,
      "num_input_tokens_seen": 22076480,
      "step": 33780
    },
    {
      "epoch": 17.707023060796647,
      "grad_norm": 0.1726449429988861,
      "learning_rate": 3.952626993984243e-05,
      "loss": 0.364,
      "num_input_tokens_seen": 22079968,
      "step": 33785
    },
    {
      "epoch": 17.70964360587002,
      "grad_norm": 0.12935611605644226,
      "learning_rate": 3.943720231551268e-05,
      "loss": 0.4241,
      "num_input_tokens_seen": 22083136,
      "step": 33790
    },
    {
      "epoch": 17.712264150943398,
      "grad_norm": 0.13508474826812744,
      "learning_rate": 3.934823103566587e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 22086400,
      "step": 33795
    },
    {
      "epoch": 17.71488469601677,
      "grad_norm": 0.13743893802165985,
      "learning_rate": 3.925935611891379e-05,
      "loss": 0.4944,
      "num_input_tokens_seen": 22089632,
      "step": 33800
    },
    {
      "epoch": 17.717505241090148,
      "grad_norm": 0.16990269720554352,
      "learning_rate": 3.917057758384801e-05,
      "loss": 0.4353,
      "num_input_tokens_seen": 22092576,
      "step": 33805
    },
    {
      "epoch": 17.72012578616352,
      "grad_norm": 0.14176185429096222,
      "learning_rate": 3.9081895449039896e-05,
      "loss": 0.3619,
      "num_input_tokens_seen": 22096768,
      "step": 33810
    },
    {
      "epoch": 17.7227463312369,
      "grad_norm": 0.2471540868282318,
      "learning_rate": 3.899330973304083e-05,
      "loss": 0.4928,
      "num_input_tokens_seen": 22099296,
      "step": 33815
    },
    {
      "epoch": 17.72536687631027,
      "grad_norm": 0.1798281967639923,
      "learning_rate": 3.8904820454381875e-05,
      "loss": 0.4099,
      "num_input_tokens_seen": 22101888,
      "step": 33820
    },
    {
      "epoch": 17.72798742138365,
      "grad_norm": 0.17894628643989563,
      "learning_rate": 3.881642763157417e-05,
      "loss": 0.5503,
      "num_input_tokens_seen": 22105568,
      "step": 33825
    },
    {
      "epoch": 17.730607966457022,
      "grad_norm": 0.16657446324825287,
      "learning_rate": 3.872813128310826e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 22109248,
      "step": 33830
    },
    {
      "epoch": 17.7332285115304,
      "grad_norm": 0.09459580481052399,
      "learning_rate": 3.8639931427454866e-05,
      "loss": 0.3696,
      "num_input_tokens_seen": 22112352,
      "step": 33835
    },
    {
      "epoch": 17.735849056603772,
      "grad_norm": 0.10526210069656372,
      "learning_rate": 3.855182808306429e-05,
      "loss": 0.4316,
      "num_input_tokens_seen": 22115200,
      "step": 33840
    },
    {
      "epoch": 17.73846960167715,
      "grad_norm": 0.20818006992340088,
      "learning_rate": 3.8463821268366784e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 22118272,
      "step": 33845
    },
    {
      "epoch": 17.741090146750523,
      "grad_norm": 0.1776055544614792,
      "learning_rate": 3.837591100177246e-05,
      "loss": 0.4356,
      "num_input_tokens_seen": 22121248,
      "step": 33850
    },
    {
      "epoch": 17.7437106918239,
      "grad_norm": 0.14836125075817108,
      "learning_rate": 3.828809730167099e-05,
      "loss": 0.4531,
      "num_input_tokens_seen": 22124416,
      "step": 33855
    },
    {
      "epoch": 17.746331236897273,
      "grad_norm": 0.1495264172554016,
      "learning_rate": 3.820038018643218e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 22127264,
      "step": 33860
    },
    {
      "epoch": 17.74895178197065,
      "grad_norm": 0.13374607264995575,
      "learning_rate": 3.8112759674405254e-05,
      "loss": 0.4341,
      "num_input_tokens_seen": 22130816,
      "step": 33865
    },
    {
      "epoch": 17.751572327044027,
      "grad_norm": 0.1040518581867218,
      "learning_rate": 3.802523578391953e-05,
      "loss": 0.4634,
      "num_input_tokens_seen": 22135200,
      "step": 33870
    },
    {
      "epoch": 17.7541928721174,
      "grad_norm": 0.1664651781320572,
      "learning_rate": 3.793780853328399e-05,
      "loss": 0.5312,
      "num_input_tokens_seen": 22138304,
      "step": 33875
    },
    {
      "epoch": 17.756813417190777,
      "grad_norm": 0.1970103532075882,
      "learning_rate": 3.785047794078744e-05,
      "loss": 0.276,
      "num_input_tokens_seen": 22141024,
      "step": 33880
    },
    {
      "epoch": 17.75943396226415,
      "grad_norm": 0.3276658356189728,
      "learning_rate": 3.776324402469844e-05,
      "loss": 0.4505,
      "num_input_tokens_seen": 22144800,
      "step": 33885
    },
    {
      "epoch": 17.762054507337528,
      "grad_norm": 0.19613099098205566,
      "learning_rate": 3.767610680326533e-05,
      "loss": 0.6267,
      "num_input_tokens_seen": 22148256,
      "step": 33890
    },
    {
      "epoch": 17.7646750524109,
      "grad_norm": 0.09356625378131866,
      "learning_rate": 3.7589066294716145e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 22151840,
      "step": 33895
    },
    {
      "epoch": 17.767295597484278,
      "grad_norm": 0.11932537704706192,
      "learning_rate": 3.750212251725882e-05,
      "loss": 0.2598,
      "num_input_tokens_seen": 22155616,
      "step": 33900
    },
    {
      "epoch": 17.76991614255765,
      "grad_norm": 0.23110269010066986,
      "learning_rate": 3.741527548908113e-05,
      "loss": 0.4299,
      "num_input_tokens_seen": 22158656,
      "step": 33905
    },
    {
      "epoch": 17.77253668763103,
      "grad_norm": 0.1380559355020523,
      "learning_rate": 3.732852522835023e-05,
      "loss": 0.433,
      "num_input_tokens_seen": 22161152,
      "step": 33910
    },
    {
      "epoch": 17.7751572327044,
      "grad_norm": 0.09882190823554993,
      "learning_rate": 3.724187175321342e-05,
      "loss": 0.4484,
      "num_input_tokens_seen": 22164544,
      "step": 33915
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 0.18837939202785492,
      "learning_rate": 3.71553150817977e-05,
      "loss": 0.5432,
      "num_input_tokens_seen": 22167712,
      "step": 33920
    },
    {
      "epoch": 17.780398322851152,
      "grad_norm": 0.12033343315124512,
      "learning_rate": 3.70688552322096e-05,
      "loss": 0.4671,
      "num_input_tokens_seen": 22171648,
      "step": 33925
    },
    {
      "epoch": 17.78301886792453,
      "grad_norm": 0.17231054604053497,
      "learning_rate": 3.698249222253569e-05,
      "loss": 0.3733,
      "num_input_tokens_seen": 22178912,
      "step": 33930
    },
    {
      "epoch": 17.785639412997902,
      "grad_norm": 0.3401027321815491,
      "learning_rate": 3.6896226070841863e-05,
      "loss": 0.6169,
      "num_input_tokens_seen": 22181568,
      "step": 33935
    },
    {
      "epoch": 17.78825995807128,
      "grad_norm": 0.1430204212665558,
      "learning_rate": 3.681005679517424e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 22185408,
      "step": 33940
    },
    {
      "epoch": 17.790880503144653,
      "grad_norm": 0.14122053980827332,
      "learning_rate": 3.6723984413558455e-05,
      "loss": 0.4304,
      "num_input_tokens_seen": 22188224,
      "step": 33945
    },
    {
      "epoch": 17.79350104821803,
      "grad_norm": 0.2020057737827301,
      "learning_rate": 3.663800894399971e-05,
      "loss": 0.4404,
      "num_input_tokens_seen": 22190688,
      "step": 33950
    },
    {
      "epoch": 17.796121593291403,
      "grad_norm": 0.25220000743865967,
      "learning_rate": 3.655213040448318e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 22193184,
      "step": 33955
    },
    {
      "epoch": 17.79874213836478,
      "grad_norm": 0.40153074264526367,
      "learning_rate": 3.6466348812973723e-05,
      "loss": 0.342,
      "num_input_tokens_seen": 22195520,
      "step": 33960
    },
    {
      "epoch": 17.801362683438157,
      "grad_norm": 0.17063796520233154,
      "learning_rate": 3.6380664187415815e-05,
      "loss": 0.4279,
      "num_input_tokens_seen": 22198208,
      "step": 33965
    },
    {
      "epoch": 17.80398322851153,
      "grad_norm": 0.11316501349210739,
      "learning_rate": 3.6295076545733663e-05,
      "loss": 0.4171,
      "num_input_tokens_seen": 22201792,
      "step": 33970
    },
    {
      "epoch": 17.806603773584907,
      "grad_norm": 0.20211279392242432,
      "learning_rate": 3.6209585905831344e-05,
      "loss": 0.4057,
      "num_input_tokens_seen": 22205632,
      "step": 33975
    },
    {
      "epoch": 17.80922431865828,
      "grad_norm": 0.16784419119358063,
      "learning_rate": 3.6124192285592385e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 22208192,
      "step": 33980
    },
    {
      "epoch": 17.811844863731658,
      "grad_norm": 0.18238228559494019,
      "learning_rate": 3.6038895702880324e-05,
      "loss": 0.3943,
      "num_input_tokens_seen": 22211584,
      "step": 33985
    },
    {
      "epoch": 17.81446540880503,
      "grad_norm": 0.21093016862869263,
      "learning_rate": 3.595369617553806e-05,
      "loss": 0.571,
      "num_input_tokens_seen": 22215360,
      "step": 33990
    },
    {
      "epoch": 17.817085953878408,
      "grad_norm": 0.1489172875881195,
      "learning_rate": 3.58685937213884e-05,
      "loss": 0.5354,
      "num_input_tokens_seen": 22218848,
      "step": 33995
    },
    {
      "epoch": 17.81970649895178,
      "grad_norm": 0.12229494005441666,
      "learning_rate": 3.5783588358233863e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 22222880,
      "step": 34000
    },
    {
      "epoch": 17.822327044025158,
      "grad_norm": 0.16298426687717438,
      "learning_rate": 3.569868010385663e-05,
      "loss": 0.5212,
      "num_input_tokens_seen": 22229120,
      "step": 34005
    },
    {
      "epoch": 17.82494758909853,
      "grad_norm": 0.10452378541231155,
      "learning_rate": 3.5613868976018535e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 22232352,
      "step": 34010
    },
    {
      "epoch": 17.82756813417191,
      "grad_norm": 0.12478057295084,
      "learning_rate": 3.5529154992460955e-05,
      "loss": 0.3628,
      "num_input_tokens_seen": 22237856,
      "step": 34015
    },
    {
      "epoch": 17.830188679245282,
      "grad_norm": 0.182441845536232,
      "learning_rate": 3.544453817090521e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 22240992,
      "step": 34020
    },
    {
      "epoch": 17.83280922431866,
      "grad_norm": 0.16526001691818237,
      "learning_rate": 3.536001852905207e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 22243776,
      "step": 34025
    },
    {
      "epoch": 17.835429769392032,
      "grad_norm": 0.23856239020824432,
      "learning_rate": 3.527559608458225e-05,
      "loss": 0.3681,
      "num_input_tokens_seen": 22246592,
      "step": 34030
    },
    {
      "epoch": 17.83805031446541,
      "grad_norm": 0.10673028230667114,
      "learning_rate": 3.5191270855155886e-05,
      "loss": 0.3483,
      "num_input_tokens_seen": 22249664,
      "step": 34035
    },
    {
      "epoch": 17.840670859538783,
      "grad_norm": 0.15037646889686584,
      "learning_rate": 3.510704285841293e-05,
      "loss": 0.4045,
      "num_input_tokens_seen": 22253312,
      "step": 34040
    },
    {
      "epoch": 17.84329140461216,
      "grad_norm": 0.16310548782348633,
      "learning_rate": 3.502291211197267e-05,
      "loss": 0.5264,
      "num_input_tokens_seen": 22256768,
      "step": 34045
    },
    {
      "epoch": 17.845911949685533,
      "grad_norm": 0.20923194289207458,
      "learning_rate": 3.493887863343448e-05,
      "loss": 0.4311,
      "num_input_tokens_seen": 22260224,
      "step": 34050
    },
    {
      "epoch": 17.84853249475891,
      "grad_norm": 0.14420229196548462,
      "learning_rate": 3.485494244037718e-05,
      "loss": 0.364,
      "num_input_tokens_seen": 22262912,
      "step": 34055
    },
    {
      "epoch": 17.851153039832283,
      "grad_norm": 0.14331406354904175,
      "learning_rate": 3.477110355035934e-05,
      "loss": 0.2722,
      "num_input_tokens_seen": 22266240,
      "step": 34060
    },
    {
      "epoch": 17.85377358490566,
      "grad_norm": 0.1377137303352356,
      "learning_rate": 3.468736198091904e-05,
      "loss": 0.4862,
      "num_input_tokens_seen": 22269472,
      "step": 34065
    },
    {
      "epoch": 17.856394129979037,
      "grad_norm": 0.2050952911376953,
      "learning_rate": 3.4603717749573935e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 22273184,
      "step": 34070
    },
    {
      "epoch": 17.85901467505241,
      "grad_norm": 0.14519555866718292,
      "learning_rate": 3.452017087382159e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 22280032,
      "step": 34075
    },
    {
      "epoch": 17.861635220125788,
      "grad_norm": 0.1072733998298645,
      "learning_rate": 3.443672137113901e-05,
      "loss": 0.5626,
      "num_input_tokens_seen": 22284128,
      "step": 34080
    },
    {
      "epoch": 17.86425576519916,
      "grad_norm": 0.2025119811296463,
      "learning_rate": 3.4353369258983025e-05,
      "loss": 0.4371,
      "num_input_tokens_seen": 22286880,
      "step": 34085
    },
    {
      "epoch": 17.866876310272538,
      "grad_norm": 0.11648496985435486,
      "learning_rate": 3.4270114554789735e-05,
      "loss": 0.3466,
      "num_input_tokens_seen": 22290016,
      "step": 34090
    },
    {
      "epoch": 17.86949685534591,
      "grad_norm": 0.14667901396751404,
      "learning_rate": 3.41869572759751e-05,
      "loss": 0.5144,
      "num_input_tokens_seen": 22294688,
      "step": 34095
    },
    {
      "epoch": 17.872117400419288,
      "grad_norm": 0.2647666335105896,
      "learning_rate": 3.410389743993475e-05,
      "loss": 0.3978,
      "num_input_tokens_seen": 22297856,
      "step": 34100
    },
    {
      "epoch": 17.87473794549266,
      "grad_norm": 0.2209327667951584,
      "learning_rate": 3.40209350640438e-05,
      "loss": 0.458,
      "num_input_tokens_seen": 22301024,
      "step": 34105
    },
    {
      "epoch": 17.87735849056604,
      "grad_norm": 0.1217757984995842,
      "learning_rate": 3.3938070165657084e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 22303456,
      "step": 34110
    },
    {
      "epoch": 17.879979035639412,
      "grad_norm": 0.14417675137519836,
      "learning_rate": 3.385530276210902e-05,
      "loss": 0.3541,
      "num_input_tokens_seen": 22306528,
      "step": 34115
    },
    {
      "epoch": 17.88259958071279,
      "grad_norm": 0.15103766322135925,
      "learning_rate": 3.377263287071358e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 22309824,
      "step": 34120
    },
    {
      "epoch": 17.885220125786162,
      "grad_norm": 0.30422091484069824,
      "learning_rate": 3.369006050876428e-05,
      "loss": 0.4501,
      "num_input_tokens_seen": 22313024,
      "step": 34125
    },
    {
      "epoch": 17.88784067085954,
      "grad_norm": 0.23404870927333832,
      "learning_rate": 3.3607585693534394e-05,
      "loss": 0.418,
      "num_input_tokens_seen": 22315584,
      "step": 34130
    },
    {
      "epoch": 17.890461215932913,
      "grad_norm": 0.17449983954429626,
      "learning_rate": 3.352520844227663e-05,
      "loss": 0.4293,
      "num_input_tokens_seen": 22318144,
      "step": 34135
    },
    {
      "epoch": 17.89308176100629,
      "grad_norm": 0.23231031000614166,
      "learning_rate": 3.344292877222355e-05,
      "loss": 0.3797,
      "num_input_tokens_seen": 22320800,
      "step": 34140
    },
    {
      "epoch": 17.895702306079663,
      "grad_norm": 0.17935648560523987,
      "learning_rate": 3.336074670058703e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 22324064,
      "step": 34145
    },
    {
      "epoch": 17.89832285115304,
      "grad_norm": 0.31467628479003906,
      "learning_rate": 3.327866224455844e-05,
      "loss": 0.3481,
      "num_input_tokens_seen": 22327104,
      "step": 34150
    },
    {
      "epoch": 17.900943396226417,
      "grad_norm": 0.15366557240486145,
      "learning_rate": 3.3196675421309165e-05,
      "loss": 0.5131,
      "num_input_tokens_seen": 22330528,
      "step": 34155
    },
    {
      "epoch": 17.90356394129979,
      "grad_norm": 0.21326161921024323,
      "learning_rate": 3.3114786247989744e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 22333472,
      "step": 34160
    },
    {
      "epoch": 17.906184486373167,
      "grad_norm": 0.16232633590698242,
      "learning_rate": 3.303299474173066e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 22336192,
      "step": 34165
    },
    {
      "epoch": 17.90880503144654,
      "grad_norm": 0.15699028968811035,
      "learning_rate": 3.2951300919641544e-05,
      "loss": 0.4367,
      "num_input_tokens_seen": 22338720,
      "step": 34170
    },
    {
      "epoch": 17.911425576519918,
      "grad_norm": 0.13555768132209778,
      "learning_rate": 3.2869704798811964e-05,
      "loss": 0.2684,
      "num_input_tokens_seen": 22341152,
      "step": 34175
    },
    {
      "epoch": 17.91404612159329,
      "grad_norm": 0.17959725856781006,
      "learning_rate": 3.2788206396310746e-05,
      "loss": 0.45,
      "num_input_tokens_seen": 22344352,
      "step": 34180
    },
    {
      "epoch": 17.916666666666668,
      "grad_norm": 0.16598017513751984,
      "learning_rate": 3.270680572918655e-05,
      "loss": 0.2641,
      "num_input_tokens_seen": 22346944,
      "step": 34185
    },
    {
      "epoch": 17.91928721174004,
      "grad_norm": 0.120546355843544,
      "learning_rate": 3.262550281446741e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 22351040,
      "step": 34190
    },
    {
      "epoch": 17.921907756813418,
      "grad_norm": 0.13554412126541138,
      "learning_rate": 3.2544297669161115e-05,
      "loss": 0.4557,
      "num_input_tokens_seen": 22353728,
      "step": 34195
    },
    {
      "epoch": 17.92452830188679,
      "grad_norm": 0.1835147887468338,
      "learning_rate": 3.2463190310254633e-05,
      "loss": 0.4675,
      "num_input_tokens_seen": 22356928,
      "step": 34200
    },
    {
      "epoch": 17.92714884696017,
      "grad_norm": 0.18928009271621704,
      "learning_rate": 3.238218075471483e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 22359168,
      "step": 34205
    },
    {
      "epoch": 17.929769392033542,
      "grad_norm": 0.19511713087558746,
      "learning_rate": 3.230126901948788e-05,
      "loss": 0.3889,
      "num_input_tokens_seen": 22362400,
      "step": 34210
    },
    {
      "epoch": 17.93238993710692,
      "grad_norm": 0.13823217153549194,
      "learning_rate": 3.222045512149968e-05,
      "loss": 0.3816,
      "num_input_tokens_seen": 22365408,
      "step": 34215
    },
    {
      "epoch": 17.935010482180292,
      "grad_norm": 0.11409129202365875,
      "learning_rate": 3.213973907765566e-05,
      "loss": 0.351,
      "num_input_tokens_seen": 22368768,
      "step": 34220
    },
    {
      "epoch": 17.93763102725367,
      "grad_norm": 0.1153465136885643,
      "learning_rate": 3.205912090484048e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 22372128,
      "step": 34225
    },
    {
      "epoch": 17.940251572327043,
      "grad_norm": 0.15884119272232056,
      "learning_rate": 3.1978600619918754e-05,
      "loss": 0.4204,
      "num_input_tokens_seen": 22375520,
      "step": 34230
    },
    {
      "epoch": 17.94287211740042,
      "grad_norm": 0.12683111429214478,
      "learning_rate": 3.189817823973423e-05,
      "loss": 0.6341,
      "num_input_tokens_seen": 22378656,
      "step": 34235
    },
    {
      "epoch": 17.945492662473793,
      "grad_norm": 0.17918482422828674,
      "learning_rate": 3.18178537811104e-05,
      "loss": 0.4883,
      "num_input_tokens_seen": 22381888,
      "step": 34240
    },
    {
      "epoch": 17.94811320754717,
      "grad_norm": 0.19597811996936798,
      "learning_rate": 3.1737627260850335e-05,
      "loss": 0.4544,
      "num_input_tokens_seen": 22384928,
      "step": 34245
    },
    {
      "epoch": 17.950733752620543,
      "grad_norm": 0.10122834891080856,
      "learning_rate": 3.1657498695736364e-05,
      "loss": 0.332,
      "num_input_tokens_seen": 22388096,
      "step": 34250
    },
    {
      "epoch": 17.95335429769392,
      "grad_norm": 0.15880969166755676,
      "learning_rate": 3.157746810253054e-05,
      "loss": 0.2589,
      "num_input_tokens_seen": 22393632,
      "step": 34255
    },
    {
      "epoch": 17.955974842767297,
      "grad_norm": 0.16097578406333923,
      "learning_rate": 3.149753549797446e-05,
      "loss": 0.4605,
      "num_input_tokens_seen": 22396768,
      "step": 34260
    },
    {
      "epoch": 17.95859538784067,
      "grad_norm": 0.1551266759634018,
      "learning_rate": 3.141770089878887e-05,
      "loss": 0.3588,
      "num_input_tokens_seen": 22399776,
      "step": 34265
    },
    {
      "epoch": 17.961215932914047,
      "grad_norm": 0.17815954983234406,
      "learning_rate": 3.1337964321674354e-05,
      "loss": 0.5536,
      "num_input_tokens_seen": 22403104,
      "step": 34270
    },
    {
      "epoch": 17.96383647798742,
      "grad_norm": 0.22848671674728394,
      "learning_rate": 3.125832578331106e-05,
      "loss": 0.3725,
      "num_input_tokens_seen": 22406592,
      "step": 34275
    },
    {
      "epoch": 17.966457023060798,
      "grad_norm": 0.0989755317568779,
      "learning_rate": 3.117878530035823e-05,
      "loss": 0.4029,
      "num_input_tokens_seen": 22411264,
      "step": 34280
    },
    {
      "epoch": 17.96907756813417,
      "grad_norm": 0.14490798115730286,
      "learning_rate": 3.1099342889454875e-05,
      "loss": 0.4028,
      "num_input_tokens_seen": 22414976,
      "step": 34285
    },
    {
      "epoch": 17.971698113207548,
      "grad_norm": 0.11179136484861374,
      "learning_rate": 3.1019998567219597e-05,
      "loss": 0.524,
      "num_input_tokens_seen": 22418016,
      "step": 34290
    },
    {
      "epoch": 17.97431865828092,
      "grad_norm": 0.12959256768226624,
      "learning_rate": 3.0940752350250125e-05,
      "loss": 0.4985,
      "num_input_tokens_seen": 22421408,
      "step": 34295
    },
    {
      "epoch": 17.9769392033543,
      "grad_norm": 0.10097313672304153,
      "learning_rate": 3.0861604255124074e-05,
      "loss": 0.5901,
      "num_input_tokens_seen": 22423744,
      "step": 34300
    },
    {
      "epoch": 17.979559748427672,
      "grad_norm": 0.14870157837867737,
      "learning_rate": 3.0782554298398045e-05,
      "loss": 0.4036,
      "num_input_tokens_seen": 22428672,
      "step": 34305
    },
    {
      "epoch": 17.98218029350105,
      "grad_norm": 0.09462187439203262,
      "learning_rate": 3.070360249660859e-05,
      "loss": 0.438,
      "num_input_tokens_seen": 22431648,
      "step": 34310
    },
    {
      "epoch": 17.984800838574422,
      "grad_norm": 0.21059735119342804,
      "learning_rate": 3.0624748866271535e-05,
      "loss": 0.4115,
      "num_input_tokens_seen": 22434496,
      "step": 34315
    },
    {
      "epoch": 17.9874213836478,
      "grad_norm": 0.10874975472688675,
      "learning_rate": 3.0545993423882036e-05,
      "loss": 0.3749,
      "num_input_tokens_seen": 22438432,
      "step": 34320
    },
    {
      "epoch": 17.990041928721173,
      "grad_norm": 0.14175944030284882,
      "learning_rate": 3.046733618591496e-05,
      "loss": 0.382,
      "num_input_tokens_seen": 22441600,
      "step": 34325
    },
    {
      "epoch": 17.99266247379455,
      "grad_norm": 0.10464442521333694,
      "learning_rate": 3.0388777168824434e-05,
      "loss": 0.3883,
      "num_input_tokens_seen": 22444160,
      "step": 34330
    },
    {
      "epoch": 17.995283018867923,
      "grad_norm": 0.17106148600578308,
      "learning_rate": 3.0310316389044022e-05,
      "loss": 0.4791,
      "num_input_tokens_seen": 22447328,
      "step": 34335
    },
    {
      "epoch": 17.9979035639413,
      "grad_norm": 0.12308796495199203,
      "learning_rate": 3.0231953862986995e-05,
      "loss": 0.4014,
      "num_input_tokens_seen": 22450112,
      "step": 34340
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.4837873876094818,
      "eval_runtime": 13.6353,
      "eval_samples_per_second": 62.192,
      "eval_steps_per_second": 15.548,
      "num_input_tokens_seen": 22451928,
      "step": 34344
    },
    {
      "epoch": 18.000524109014677,
      "grad_norm": 0.23094508051872253,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 0.3427,
      "num_input_tokens_seen": 22452408,
      "step": 34345
    },
    {
      "epoch": 18.00314465408805,
      "grad_norm": 0.2231128215789795,
      "learning_rate": 3.0075523637592474e-05,
      "loss": 0.4226,
      "num_input_tokens_seen": 22456184,
      "step": 34350
    },
    {
      "epoch": 18.005765199161427,
      "grad_norm": 0.1895347535610199,
      "learning_rate": 2.999745597097847e-05,
      "loss": 0.4757,
      "num_input_tokens_seen": 22458968,
      "step": 34355
    },
    {
      "epoch": 18.0083857442348,
      "grad_norm": 0.13389529287815094,
      "learning_rate": 2.9919486623534497e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 22462392,
      "step": 34360
    },
    {
      "epoch": 18.011006289308177,
      "grad_norm": 0.14266733825206757,
      "learning_rate": 2.9841615611571005e-05,
      "loss": 0.3877,
      "num_input_tokens_seen": 22466360,
      "step": 34365
    },
    {
      "epoch": 18.01362683438155,
      "grad_norm": 0.0774640142917633,
      "learning_rate": 2.9763842951377628e-05,
      "loss": 0.4299,
      "num_input_tokens_seen": 22470104,
      "step": 34370
    },
    {
      "epoch": 18.016247379454928,
      "grad_norm": 0.19372303783893585,
      "learning_rate": 2.968616865922369e-05,
      "loss": 0.4024,
      "num_input_tokens_seen": 22473144,
      "step": 34375
    },
    {
      "epoch": 18.0188679245283,
      "grad_norm": 0.1973150223493576,
      "learning_rate": 2.960859275135758e-05,
      "loss": 0.4444,
      "num_input_tokens_seen": 22475640,
      "step": 34380
    },
    {
      "epoch": 18.021488469601678,
      "grad_norm": 0.26328331232070923,
      "learning_rate": 2.9531115244007367e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 22478712,
      "step": 34385
    },
    {
      "epoch": 18.02410901467505,
      "grad_norm": 0.12801463901996613,
      "learning_rate": 2.945373615338037e-05,
      "loss": 0.5272,
      "num_input_tokens_seen": 22481624,
      "step": 34390
    },
    {
      "epoch": 18.02672955974843,
      "grad_norm": 0.09769436717033386,
      "learning_rate": 2.9376455495663534e-05,
      "loss": 0.4195,
      "num_input_tokens_seen": 22484664,
      "step": 34395
    },
    {
      "epoch": 18.029350104821802,
      "grad_norm": 0.14708487689495087,
      "learning_rate": 2.9299273287023144e-05,
      "loss": 0.3817,
      "num_input_tokens_seen": 22487128,
      "step": 34400
    },
    {
      "epoch": 18.03197064989518,
      "grad_norm": 0.23880581557750702,
      "learning_rate": 2.922218954360473e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 22489528,
      "step": 34405
    },
    {
      "epoch": 18.034591194968552,
      "grad_norm": 0.1072583720088005,
      "learning_rate": 2.9145204281533278e-05,
      "loss": 0.4893,
      "num_input_tokens_seen": 22493560,
      "step": 34410
    },
    {
      "epoch": 18.03721174004193,
      "grad_norm": 0.22997111082077026,
      "learning_rate": 2.9068317516913244e-05,
      "loss": 0.4071,
      "num_input_tokens_seen": 22496408,
      "step": 34415
    },
    {
      "epoch": 18.039832285115303,
      "grad_norm": 0.19572485983371735,
      "learning_rate": 2.8991529265828542e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 22500440,
      "step": 34420
    },
    {
      "epoch": 18.04245283018868,
      "grad_norm": 0.22723232209682465,
      "learning_rate": 2.891483954434243e-05,
      "loss": 0.4438,
      "num_input_tokens_seen": 22503640,
      "step": 34425
    },
    {
      "epoch": 18.045073375262053,
      "grad_norm": 0.13832101225852966,
      "learning_rate": 2.8838248368497465e-05,
      "loss": 0.4812,
      "num_input_tokens_seen": 22507768,
      "step": 34430
    },
    {
      "epoch": 18.04769392033543,
      "grad_norm": 0.15487244725227356,
      "learning_rate": 2.8761755754315667e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 22511256,
      "step": 34435
    },
    {
      "epoch": 18.050314465408807,
      "grad_norm": 0.19945907592773438,
      "learning_rate": 2.8685361717798286e-05,
      "loss": 0.464,
      "num_input_tokens_seen": 22514872,
      "step": 34440
    },
    {
      "epoch": 18.05293501048218,
      "grad_norm": 0.16762210428714752,
      "learning_rate": 2.8609066274926265e-05,
      "loss": 0.3241,
      "num_input_tokens_seen": 22518008,
      "step": 34445
    },
    {
      "epoch": 18.055555555555557,
      "grad_norm": 0.20112007856369019,
      "learning_rate": 2.8532869441659615e-05,
      "loss": 0.3768,
      "num_input_tokens_seen": 22520664,
      "step": 34450
    },
    {
      "epoch": 18.05817610062893,
      "grad_norm": 0.15400919318199158,
      "learning_rate": 2.8456771233937973e-05,
      "loss": 0.3231,
      "num_input_tokens_seen": 22523096,
      "step": 34455
    },
    {
      "epoch": 18.060796645702307,
      "grad_norm": 0.20938004553318024,
      "learning_rate": 2.838077166768016e-05,
      "loss": 0.4558,
      "num_input_tokens_seen": 22526616,
      "step": 34460
    },
    {
      "epoch": 18.06341719077568,
      "grad_norm": 0.17601516842842102,
      "learning_rate": 2.8304870758784296e-05,
      "loss": 0.4254,
      "num_input_tokens_seen": 22529560,
      "step": 34465
    },
    {
      "epoch": 18.066037735849058,
      "grad_norm": 0.17726290225982666,
      "learning_rate": 2.822906852312812e-05,
      "loss": 0.3998,
      "num_input_tokens_seen": 22533016,
      "step": 34470
    },
    {
      "epoch": 18.06865828092243,
      "grad_norm": 0.28209954500198364,
      "learning_rate": 2.8153364976568563e-05,
      "loss": 0.4848,
      "num_input_tokens_seen": 22535416,
      "step": 34475
    },
    {
      "epoch": 18.071278825995808,
      "grad_norm": 0.10613051801919937,
      "learning_rate": 2.8077760134941955e-05,
      "loss": 0.3291,
      "num_input_tokens_seen": 22538936,
      "step": 34480
    },
    {
      "epoch": 18.07389937106918,
      "grad_norm": 0.19899208843708038,
      "learning_rate": 2.800225401406392e-05,
      "loss": 0.3766,
      "num_input_tokens_seen": 22541944,
      "step": 34485
    },
    {
      "epoch": 18.07651991614256,
      "grad_norm": 0.18769583106040955,
      "learning_rate": 2.7926846629729607e-05,
      "loss": 0.4889,
      "num_input_tokens_seen": 22544568,
      "step": 34490
    },
    {
      "epoch": 18.079140461215932,
      "grad_norm": 0.15371865034103394,
      "learning_rate": 2.7851537997713174e-05,
      "loss": 0.421,
      "num_input_tokens_seen": 22547768,
      "step": 34495
    },
    {
      "epoch": 18.08176100628931,
      "grad_norm": 0.209059938788414,
      "learning_rate": 2.7776328133768458e-05,
      "loss": 0.4267,
      "num_input_tokens_seen": 22550776,
      "step": 34500
    },
    {
      "epoch": 18.084381551362682,
      "grad_norm": 0.11432934552431107,
      "learning_rate": 2.770121705362849e-05,
      "loss": 0.3516,
      "num_input_tokens_seen": 22554392,
      "step": 34505
    },
    {
      "epoch": 18.08700209643606,
      "grad_norm": 0.1369943618774414,
      "learning_rate": 2.7626204773005704e-05,
      "loss": 0.4817,
      "num_input_tokens_seen": 22557304,
      "step": 34510
    },
    {
      "epoch": 18.089622641509433,
      "grad_norm": 0.18405885994434357,
      "learning_rate": 2.7551291307591765e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 22560536,
      "step": 34515
    },
    {
      "epoch": 18.09224318658281,
      "grad_norm": 0.1358766406774521,
      "learning_rate": 2.7476476673057636e-05,
      "loss": 0.3463,
      "num_input_tokens_seen": 22563832,
      "step": 34520
    },
    {
      "epoch": 18.094863731656183,
      "grad_norm": 0.16792641580104828,
      "learning_rate": 2.740176088505375e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 22566616,
      "step": 34525
    },
    {
      "epoch": 18.09748427672956,
      "grad_norm": 0.08490042388439178,
      "learning_rate": 2.7327143959209765e-05,
      "loss": 0.4617,
      "num_input_tokens_seen": 22569976,
      "step": 34530
    },
    {
      "epoch": 18.100104821802937,
      "grad_norm": 0.1756139099597931,
      "learning_rate": 2.725262591113481e-05,
      "loss": 0.5447,
      "num_input_tokens_seen": 22573112,
      "step": 34535
    },
    {
      "epoch": 18.10272536687631,
      "grad_norm": 0.18046778440475464,
      "learning_rate": 2.7178206756417078e-05,
      "loss": 0.416,
      "num_input_tokens_seen": 22576152,
      "step": 34540
    },
    {
      "epoch": 18.105345911949687,
      "grad_norm": 0.170474112033844,
      "learning_rate": 2.7103886510624344e-05,
      "loss": 0.4228,
      "num_input_tokens_seen": 22579672,
      "step": 34545
    },
    {
      "epoch": 18.10796645702306,
      "grad_norm": 0.15200179815292358,
      "learning_rate": 2.7029665189303387e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 22583096,
      "step": 34550
    },
    {
      "epoch": 18.110587002096437,
      "grad_norm": 0.17553190886974335,
      "learning_rate": 2.6955542807980515e-05,
      "loss": 0.538,
      "num_input_tokens_seen": 22587256,
      "step": 34555
    },
    {
      "epoch": 18.11320754716981,
      "grad_norm": 0.19042810797691345,
      "learning_rate": 2.688151938216138e-05,
      "loss": 0.5518,
      "num_input_tokens_seen": 22591352,
      "step": 34560
    },
    {
      "epoch": 18.115828092243188,
      "grad_norm": 0.22859002649784088,
      "learning_rate": 2.6807594927330703e-05,
      "loss": 0.4044,
      "num_input_tokens_seen": 22594040,
      "step": 34565
    },
    {
      "epoch": 18.11844863731656,
      "grad_norm": 0.18259117007255554,
      "learning_rate": 2.6733769458952727e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 22597208,
      "step": 34570
    },
    {
      "epoch": 18.121069182389938,
      "grad_norm": 0.12733404338359833,
      "learning_rate": 2.6660042992470934e-05,
      "loss": 0.3115,
      "num_input_tokens_seen": 22600536,
      "step": 34575
    },
    {
      "epoch": 18.12368972746331,
      "grad_norm": 0.12527742981910706,
      "learning_rate": 2.658641554330793e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 22603160,
      "step": 34580
    },
    {
      "epoch": 18.12631027253669,
      "grad_norm": 0.1659628450870514,
      "learning_rate": 2.6512887126865782e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 22606328,
      "step": 34585
    },
    {
      "epoch": 18.128930817610062,
      "grad_norm": 0.1628579944372177,
      "learning_rate": 2.6439457758525908e-05,
      "loss": 0.4008,
      "num_input_tokens_seen": 22609624,
      "step": 34590
    },
    {
      "epoch": 18.13155136268344,
      "grad_norm": 0.16493837535381317,
      "learning_rate": 2.6366127453648748e-05,
      "loss": 0.5056,
      "num_input_tokens_seen": 22612728,
      "step": 34595
    },
    {
      "epoch": 18.134171907756812,
      "grad_norm": 0.0871766209602356,
      "learning_rate": 2.6292896227574303e-05,
      "loss": 0.4652,
      "num_input_tokens_seen": 22615640,
      "step": 34600
    },
    {
      "epoch": 18.13679245283019,
      "grad_norm": 0.14593450725078583,
      "learning_rate": 2.6219764095621547e-05,
      "loss": 0.4803,
      "num_input_tokens_seen": 22618360,
      "step": 34605
    },
    {
      "epoch": 18.139412997903563,
      "grad_norm": 0.14336436986923218,
      "learning_rate": 2.6146731073088958e-05,
      "loss": 0.5447,
      "num_input_tokens_seen": 22621976,
      "step": 34610
    },
    {
      "epoch": 18.14203354297694,
      "grad_norm": 0.09076555073261261,
      "learning_rate": 2.607379717525432e-05,
      "loss": 0.4985,
      "num_input_tokens_seen": 22626008,
      "step": 34615
    },
    {
      "epoch": 18.144654088050313,
      "grad_norm": 0.17577873170375824,
      "learning_rate": 2.6000962417374373e-05,
      "loss": 0.3519,
      "num_input_tokens_seen": 22629368,
      "step": 34620
    },
    {
      "epoch": 18.14727463312369,
      "grad_norm": 0.10903752595186234,
      "learning_rate": 2.5928226814685485e-05,
      "loss": 0.376,
      "num_input_tokens_seen": 22632440,
      "step": 34625
    },
    {
      "epoch": 18.149895178197063,
      "grad_norm": 0.19362398982048035,
      "learning_rate": 2.585559038240304e-05,
      "loss": 0.4028,
      "num_input_tokens_seen": 22635160,
      "step": 34630
    },
    {
      "epoch": 18.15251572327044,
      "grad_norm": 0.10886732488870621,
      "learning_rate": 2.5783053135721714e-05,
      "loss": 0.5021,
      "num_input_tokens_seen": 22639896,
      "step": 34635
    },
    {
      "epoch": 18.155136268343817,
      "grad_norm": 0.19387982785701752,
      "learning_rate": 2.571061508981565e-05,
      "loss": 0.4087,
      "num_input_tokens_seen": 22642968,
      "step": 34640
    },
    {
      "epoch": 18.15775681341719,
      "grad_norm": 0.10686951875686646,
      "learning_rate": 2.5638276259837778e-05,
      "loss": 0.2946,
      "num_input_tokens_seen": 22646456,
      "step": 34645
    },
    {
      "epoch": 18.160377358490567,
      "grad_norm": 0.09333451092243195,
      "learning_rate": 2.5566036660920778e-05,
      "loss": 0.4809,
      "num_input_tokens_seen": 22650648,
      "step": 34650
    },
    {
      "epoch": 18.16299790356394,
      "grad_norm": 0.12627294659614563,
      "learning_rate": 2.5493896308176223e-05,
      "loss": 0.3201,
      "num_input_tokens_seen": 22654296,
      "step": 34655
    },
    {
      "epoch": 18.165618448637318,
      "grad_norm": 0.13045379519462585,
      "learning_rate": 2.542185521669521e-05,
      "loss": 0.3146,
      "num_input_tokens_seen": 22658072,
      "step": 34660
    },
    {
      "epoch": 18.16823899371069,
      "grad_norm": 0.28861621022224426,
      "learning_rate": 2.534991340154774e-05,
      "loss": 0.309,
      "num_input_tokens_seen": 22661752,
      "step": 34665
    },
    {
      "epoch": 18.170859538784068,
      "grad_norm": 0.19908367097377777,
      "learning_rate": 2.5278070877783332e-05,
      "loss": 0.6204,
      "num_input_tokens_seen": 22665112,
      "step": 34670
    },
    {
      "epoch": 18.17348008385744,
      "grad_norm": 0.21318423748016357,
      "learning_rate": 2.520632766043052e-05,
      "loss": 0.3356,
      "num_input_tokens_seen": 22667640,
      "step": 34675
    },
    {
      "epoch": 18.17610062893082,
      "grad_norm": 0.12613041698932648,
      "learning_rate": 2.513468376449729e-05,
      "loss": 0.4309,
      "num_input_tokens_seen": 22670840,
      "step": 34680
    },
    {
      "epoch": 18.178721174004192,
      "grad_norm": 0.15906471014022827,
      "learning_rate": 2.506313920497061e-05,
      "loss": 0.4403,
      "num_input_tokens_seen": 22673720,
      "step": 34685
    },
    {
      "epoch": 18.18134171907757,
      "grad_norm": 0.20460273325443268,
      "learning_rate": 2.4991693996816888e-05,
      "loss": 0.4283,
      "num_input_tokens_seen": 22676984,
      "step": 34690
    },
    {
      "epoch": 18.183962264150942,
      "grad_norm": 0.10446213185787201,
      "learning_rate": 2.4920348154981677e-05,
      "loss": 0.4066,
      "num_input_tokens_seen": 22680216,
      "step": 34695
    },
    {
      "epoch": 18.18658280922432,
      "grad_norm": 0.13321001827716827,
      "learning_rate": 2.4849101694389477e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 22683448,
      "step": 34700
    },
    {
      "epoch": 18.189203354297693,
      "grad_norm": 0.2496291995048523,
      "learning_rate": 2.4777954629944478e-05,
      "loss": 0.3985,
      "num_input_tokens_seen": 22689912,
      "step": 34705
    },
    {
      "epoch": 18.19182389937107,
      "grad_norm": 0.14379553496837616,
      "learning_rate": 2.4706906976529718e-05,
      "loss": 0.2707,
      "num_input_tokens_seen": 22692696,
      "step": 34710
    },
    {
      "epoch": 18.194444444444443,
      "grad_norm": 0.15842920541763306,
      "learning_rate": 2.4635958749007648e-05,
      "loss": 0.4121,
      "num_input_tokens_seen": 22695032,
      "step": 34715
    },
    {
      "epoch": 18.19706498951782,
      "grad_norm": 0.1688869744539261,
      "learning_rate": 2.456510996221978e-05,
      "loss": 0.4374,
      "num_input_tokens_seen": 22698712,
      "step": 34720
    },
    {
      "epoch": 18.199685534591197,
      "grad_norm": 0.18891732394695282,
      "learning_rate": 2.4494360630986756e-05,
      "loss": 0.4923,
      "num_input_tokens_seen": 22702200,
      "step": 34725
    },
    {
      "epoch": 18.20230607966457,
      "grad_norm": 0.13826784491539001,
      "learning_rate": 2.4423710770108687e-05,
      "loss": 0.3867,
      "num_input_tokens_seen": 22704888,
      "step": 34730
    },
    {
      "epoch": 18.204926624737947,
      "grad_norm": 0.178203284740448,
      "learning_rate": 2.435316039436464e-05,
      "loss": 0.3628,
      "num_input_tokens_seen": 22708280,
      "step": 34735
    },
    {
      "epoch": 18.20754716981132,
      "grad_norm": 0.4552643895149231,
      "learning_rate": 2.428270951851297e-05,
      "loss": 0.501,
      "num_input_tokens_seen": 22711384,
      "step": 34740
    },
    {
      "epoch": 18.210167714884697,
      "grad_norm": 0.10405321419239044,
      "learning_rate": 2.421235815729128e-05,
      "loss": 0.3689,
      "num_input_tokens_seen": 22714712,
      "step": 34745
    },
    {
      "epoch": 18.21278825995807,
      "grad_norm": 0.18122904002666473,
      "learning_rate": 2.414210632541619e-05,
      "loss": 0.4596,
      "num_input_tokens_seen": 22717432,
      "step": 34750
    },
    {
      "epoch": 18.215408805031448,
      "grad_norm": 0.1294703632593155,
      "learning_rate": 2.40719540375835e-05,
      "loss": 0.4087,
      "num_input_tokens_seen": 22720312,
      "step": 34755
    },
    {
      "epoch": 18.21802935010482,
      "grad_norm": 0.10949695855379105,
      "learning_rate": 2.4001901308468353e-05,
      "loss": 0.3576,
      "num_input_tokens_seen": 22727928,
      "step": 34760
    },
    {
      "epoch": 18.220649895178198,
      "grad_norm": 0.1391942799091339,
      "learning_rate": 2.3931948152724982e-05,
      "loss": 0.3863,
      "num_input_tokens_seen": 22730456,
      "step": 34765
    },
    {
      "epoch": 18.22327044025157,
      "grad_norm": 0.15399722754955292,
      "learning_rate": 2.386209458498684e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 22733240,
      "step": 34770
    },
    {
      "epoch": 18.22589098532495,
      "grad_norm": 0.10834602266550064,
      "learning_rate": 2.3792340619866458e-05,
      "loss": 0.3585,
      "num_input_tokens_seen": 22736344,
      "step": 34775
    },
    {
      "epoch": 18.228511530398322,
      "grad_norm": 0.19846107065677643,
      "learning_rate": 2.3722686271955507e-05,
      "loss": 0.414,
      "num_input_tokens_seen": 22739320,
      "step": 34780
    },
    {
      "epoch": 18.2311320754717,
      "grad_norm": 0.1523638218641281,
      "learning_rate": 2.365313155582488e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 22743000,
      "step": 34785
    },
    {
      "epoch": 18.233752620545072,
      "grad_norm": 0.1742786318063736,
      "learning_rate": 2.358367648602472e-05,
      "loss": 0.4602,
      "num_input_tokens_seen": 22745752,
      "step": 34790
    },
    {
      "epoch": 18.23637316561845,
      "grad_norm": 0.19777528941631317,
      "learning_rate": 2.3514321077084234e-05,
      "loss": 0.5633,
      "num_input_tokens_seen": 22748504,
      "step": 34795
    },
    {
      "epoch": 18.238993710691823,
      "grad_norm": 0.1509600281715393,
      "learning_rate": 2.3445065343511763e-05,
      "loss": 0.4419,
      "num_input_tokens_seen": 22751704,
      "step": 34800
    },
    {
      "epoch": 18.2416142557652,
      "grad_norm": 0.14609666168689728,
      "learning_rate": 2.3375909299794717e-05,
      "loss": 0.3878,
      "num_input_tokens_seen": 22755256,
      "step": 34805
    },
    {
      "epoch": 18.244234800838573,
      "grad_norm": 0.14300936460494995,
      "learning_rate": 2.330685296039986e-05,
      "loss": 0.583,
      "num_input_tokens_seen": 22758616,
      "step": 34810
    },
    {
      "epoch": 18.24685534591195,
      "grad_norm": 0.2209964543581009,
      "learning_rate": 2.3237896339772914e-05,
      "loss": 0.3068,
      "num_input_tokens_seen": 22761432,
      "step": 34815
    },
    {
      "epoch": 18.249475890985323,
      "grad_norm": 0.1212531179189682,
      "learning_rate": 2.3169039452338892e-05,
      "loss": 0.5374,
      "num_input_tokens_seen": 22764376,
      "step": 34820
    },
    {
      "epoch": 18.2520964360587,
      "grad_norm": 0.10718932747840881,
      "learning_rate": 2.3100282312501886e-05,
      "loss": 0.4441,
      "num_input_tokens_seen": 22768056,
      "step": 34825
    },
    {
      "epoch": 18.254716981132077,
      "grad_norm": 0.14104260504245758,
      "learning_rate": 2.3031624934645113e-05,
      "loss": 0.5608,
      "num_input_tokens_seen": 22771128,
      "step": 34830
    },
    {
      "epoch": 18.25733752620545,
      "grad_norm": 0.2267962247133255,
      "learning_rate": 2.296306733313075e-05,
      "loss": 0.3185,
      "num_input_tokens_seen": 22774360,
      "step": 34835
    },
    {
      "epoch": 18.259958071278827,
      "grad_norm": 0.11887254565954208,
      "learning_rate": 2.289460952230038e-05,
      "loss": 0.3385,
      "num_input_tokens_seen": 22778712,
      "step": 34840
    },
    {
      "epoch": 18.2625786163522,
      "grad_norm": 0.17220066487789154,
      "learning_rate": 2.2826251516474604e-05,
      "loss": 0.3924,
      "num_input_tokens_seen": 22781368,
      "step": 34845
    },
    {
      "epoch": 18.265199161425578,
      "grad_norm": 0.1268158257007599,
      "learning_rate": 2.2757993329953152e-05,
      "loss": 0.3031,
      "num_input_tokens_seen": 22784120,
      "step": 34850
    },
    {
      "epoch": 18.26781970649895,
      "grad_norm": 0.08741530776023865,
      "learning_rate": 2.2689834977014822e-05,
      "loss": 0.309,
      "num_input_tokens_seen": 22787160,
      "step": 34855
    },
    {
      "epoch": 18.270440251572328,
      "grad_norm": 0.11463408917188644,
      "learning_rate": 2.2621776471917598e-05,
      "loss": 0.4388,
      "num_input_tokens_seen": 22790584,
      "step": 34860
    },
    {
      "epoch": 18.2730607966457,
      "grad_norm": 0.12153484672307968,
      "learning_rate": 2.255381782889848e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 22794168,
      "step": 34865
    },
    {
      "epoch": 18.27568134171908,
      "grad_norm": 0.20780383050441742,
      "learning_rate": 2.2485959062173654e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 22796600,
      "step": 34870
    },
    {
      "epoch": 18.278301886792452,
      "grad_norm": 0.130620077252388,
      "learning_rate": 2.2418200185938485e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 22799896,
      "step": 34875
    },
    {
      "epoch": 18.28092243186583,
      "grad_norm": 0.15760312974452972,
      "learning_rate": 2.235054121436725e-05,
      "loss": 0.5342,
      "num_input_tokens_seen": 22803416,
      "step": 34880
    },
    {
      "epoch": 18.283542976939202,
      "grad_norm": 0.1206299439072609,
      "learning_rate": 2.2282982161613562e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 22806552,
      "step": 34885
    },
    {
      "epoch": 18.28616352201258,
      "grad_norm": 0.1210247203707695,
      "learning_rate": 2.221552304180985e-05,
      "loss": 0.3906,
      "num_input_tokens_seen": 22809496,
      "step": 34890
    },
    {
      "epoch": 18.288784067085953,
      "grad_norm": 0.15300217270851135,
      "learning_rate": 2.2148163869067816e-05,
      "loss": 0.3201,
      "num_input_tokens_seen": 22812664,
      "step": 34895
    },
    {
      "epoch": 18.29140461215933,
      "grad_norm": 0.11688452214002609,
      "learning_rate": 2.2080904657478305e-05,
      "loss": 0.3015,
      "num_input_tokens_seen": 22815992,
      "step": 34900
    },
    {
      "epoch": 18.294025157232703,
      "grad_norm": 0.11573784053325653,
      "learning_rate": 2.201374542111123e-05,
      "loss": 0.4329,
      "num_input_tokens_seen": 22818968,
      "step": 34905
    },
    {
      "epoch": 18.29664570230608,
      "grad_norm": 0.18864180147647858,
      "learning_rate": 2.1946686174015407e-05,
      "loss": 0.3643,
      "num_input_tokens_seen": 22821624,
      "step": 34910
    },
    {
      "epoch": 18.299266247379457,
      "grad_norm": 0.19056446850299835,
      "learning_rate": 2.1879726930218946e-05,
      "loss": 0.5415,
      "num_input_tokens_seen": 22824696,
      "step": 34915
    },
    {
      "epoch": 18.30188679245283,
      "grad_norm": 0.1503855288028717,
      "learning_rate": 2.1812867703728866e-05,
      "loss": 0.4151,
      "num_input_tokens_seen": 22827864,
      "step": 34920
    },
    {
      "epoch": 18.304507337526207,
      "grad_norm": 0.13301271200180054,
      "learning_rate": 2.1746108508531426e-05,
      "loss": 0.6298,
      "num_input_tokens_seen": 22831384,
      "step": 34925
    },
    {
      "epoch": 18.30712788259958,
      "grad_norm": 0.1700105220079422,
      "learning_rate": 2.1679449358591952e-05,
      "loss": 0.5291,
      "num_input_tokens_seen": 22835928,
      "step": 34930
    },
    {
      "epoch": 18.309748427672957,
      "grad_norm": 0.13393661379814148,
      "learning_rate": 2.1612890267854624e-05,
      "loss": 0.461,
      "num_input_tokens_seen": 22838776,
      "step": 34935
    },
    {
      "epoch": 18.31236897274633,
      "grad_norm": 0.13510988652706146,
      "learning_rate": 2.1546431250242914e-05,
      "loss": 0.4016,
      "num_input_tokens_seen": 22842008,
      "step": 34940
    },
    {
      "epoch": 18.314989517819708,
      "grad_norm": 0.1474440097808838,
      "learning_rate": 2.1480072319659427e-05,
      "loss": 0.4926,
      "num_input_tokens_seen": 22846040,
      "step": 34945
    },
    {
      "epoch": 18.31761006289308,
      "grad_norm": 0.15811000764369965,
      "learning_rate": 2.1413813489985447e-05,
      "loss": 0.3428,
      "num_input_tokens_seen": 22850328,
      "step": 34950
    },
    {
      "epoch": 18.320230607966458,
      "grad_norm": 0.25668469071388245,
      "learning_rate": 2.1347654775081716e-05,
      "loss": 0.5119,
      "num_input_tokens_seen": 22853624,
      "step": 34955
    },
    {
      "epoch": 18.32285115303983,
      "grad_norm": 0.3340844511985779,
      "learning_rate": 2.1281596188787834e-05,
      "loss": 0.5731,
      "num_input_tokens_seen": 22857240,
      "step": 34960
    },
    {
      "epoch": 18.32547169811321,
      "grad_norm": 0.16175822913646698,
      "learning_rate": 2.121563774492252e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 22860216,
      "step": 34965
    },
    {
      "epoch": 18.328092243186582,
      "grad_norm": 0.19222554564476013,
      "learning_rate": 2.114977945728358e-05,
      "loss": 0.3134,
      "num_input_tokens_seen": 22864920,
      "step": 34970
    },
    {
      "epoch": 18.33071278825996,
      "grad_norm": 0.20716775953769684,
      "learning_rate": 2.1084021339647707e-05,
      "loss": 0.439,
      "num_input_tokens_seen": 22867928,
      "step": 34975
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.11830371618270874,
      "learning_rate": 2.1018363405770792e-05,
      "loss": 0.4409,
      "num_input_tokens_seen": 22871256,
      "step": 34980
    },
    {
      "epoch": 18.33595387840671,
      "grad_norm": 0.34561145305633545,
      "learning_rate": 2.095280566938784e-05,
      "loss": 0.5176,
      "num_input_tokens_seen": 22875544,
      "step": 34985
    },
    {
      "epoch": 18.338574423480082,
      "grad_norm": 0.17394579946994781,
      "learning_rate": 2.0887348144212615e-05,
      "loss": 0.4693,
      "num_input_tokens_seen": 22878456,
      "step": 34990
    },
    {
      "epoch": 18.34119496855346,
      "grad_norm": 0.16183927655220032,
      "learning_rate": 2.08219908439381e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 22882168,
      "step": 34995
    },
    {
      "epoch": 18.343815513626833,
      "grad_norm": 0.11823158711194992,
      "learning_rate": 2.075673378223647e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 22884824,
      "step": 35000
    },
    {
      "epoch": 18.34643605870021,
      "grad_norm": 0.11446723341941833,
      "learning_rate": 2.069157697275853e-05,
      "loss": 0.4005,
      "num_input_tokens_seen": 22887864,
      "step": 35005
    },
    {
      "epoch": 18.349056603773583,
      "grad_norm": 0.14542007446289062,
      "learning_rate": 2.0626520429134543e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 22892184,
      "step": 35010
    },
    {
      "epoch": 18.35167714884696,
      "grad_norm": 0.14080101251602173,
      "learning_rate": 2.0561564164973458e-05,
      "loss": 0.4712,
      "num_input_tokens_seen": 22895096,
      "step": 35015
    },
    {
      "epoch": 18.354297693920337,
      "grad_norm": 0.15126116573810577,
      "learning_rate": 2.04967081938634e-05,
      "loss": 0.4358,
      "num_input_tokens_seen": 22898168,
      "step": 35020
    },
    {
      "epoch": 18.35691823899371,
      "grad_norm": 0.0906895101070404,
      "learning_rate": 2.043195252937152e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 22901368,
      "step": 35025
    },
    {
      "epoch": 18.359538784067087,
      "grad_norm": 0.09747887402772903,
      "learning_rate": 2.0367297185044043e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 22905048,
      "step": 35030
    },
    {
      "epoch": 18.36215932914046,
      "grad_norm": 0.14851051568984985,
      "learning_rate": 2.030274217440603e-05,
      "loss": 0.4318,
      "num_input_tokens_seen": 22907800,
      "step": 35035
    },
    {
      "epoch": 18.364779874213838,
      "grad_norm": 0.17837555706501007,
      "learning_rate": 2.0238287510961628e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 22911480,
      "step": 35040
    },
    {
      "epoch": 18.36740041928721,
      "grad_norm": 0.1492282748222351,
      "learning_rate": 2.017393320819405e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 22914936,
      "step": 35045
    },
    {
      "epoch": 18.370020964360588,
      "grad_norm": 0.16372574865818024,
      "learning_rate": 2.010967927956553e-05,
      "loss": 0.6427,
      "num_input_tokens_seen": 22918424,
      "step": 35050
    },
    {
      "epoch": 18.37264150943396,
      "grad_norm": 0.31143319606781006,
      "learning_rate": 2.00455257385172e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 22921112,
      "step": 35055
    },
    {
      "epoch": 18.37526205450734,
      "grad_norm": 0.17744526267051697,
      "learning_rate": 1.9981472598469386e-05,
      "loss": 0.4432,
      "num_input_tokens_seen": 22924024,
      "step": 35060
    },
    {
      "epoch": 18.377882599580712,
      "grad_norm": 0.2025577574968338,
      "learning_rate": 1.9917519872821142e-05,
      "loss": 0.3435,
      "num_input_tokens_seen": 22927128,
      "step": 35065
    },
    {
      "epoch": 18.38050314465409,
      "grad_norm": 0.1690942347049713,
      "learning_rate": 1.9853667574950605e-05,
      "loss": 0.2783,
      "num_input_tokens_seen": 22929912,
      "step": 35070
    },
    {
      "epoch": 18.383123689727462,
      "grad_norm": 0.15346604585647583,
      "learning_rate": 1.978991571821498e-05,
      "loss": 0.3914,
      "num_input_tokens_seen": 22932504,
      "step": 35075
    },
    {
      "epoch": 18.38574423480084,
      "grad_norm": 0.149316668510437,
      "learning_rate": 1.972626431595048e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 22936600,
      "step": 35080
    },
    {
      "epoch": 18.388364779874212,
      "grad_norm": 0.18798337876796722,
      "learning_rate": 1.9662713381472295e-05,
      "loss": 0.4229,
      "num_input_tokens_seen": 22939864,
      "step": 35085
    },
    {
      "epoch": 18.39098532494759,
      "grad_norm": 0.17298661172389984,
      "learning_rate": 1.959926292807451e-05,
      "loss": 0.5406,
      "num_input_tokens_seen": 22943480,
      "step": 35090
    },
    {
      "epoch": 18.393605870020963,
      "grad_norm": 0.1440153270959854,
      "learning_rate": 1.9535912969030178e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 22946712,
      "step": 35095
    },
    {
      "epoch": 18.39622641509434,
      "grad_norm": 0.17712117731571198,
      "learning_rate": 1.947266351759136e-05,
      "loss": 0.4537,
      "num_input_tokens_seen": 22950392,
      "step": 35100
    },
    {
      "epoch": 18.398846960167713,
      "grad_norm": 0.15057121217250824,
      "learning_rate": 1.940951458698925e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 22954264,
      "step": 35105
    },
    {
      "epoch": 18.40146750524109,
      "grad_norm": 0.14778324961662292,
      "learning_rate": 1.9346466190433842e-05,
      "loss": 0.3496,
      "num_input_tokens_seen": 22958232,
      "step": 35110
    },
    {
      "epoch": 18.404088050314467,
      "grad_norm": 0.2960945963859558,
      "learning_rate": 1.9283518341114136e-05,
      "loss": 0.6013,
      "num_input_tokens_seen": 22961208,
      "step": 35115
    },
    {
      "epoch": 18.40670859538784,
      "grad_norm": 0.1922048181295395,
      "learning_rate": 1.9220671052198047e-05,
      "loss": 0.352,
      "num_input_tokens_seen": 22966296,
      "step": 35120
    },
    {
      "epoch": 18.409329140461217,
      "grad_norm": 0.2500239312648773,
      "learning_rate": 1.9157924336832556e-05,
      "loss": 0.3763,
      "num_input_tokens_seen": 22968856,
      "step": 35125
    },
    {
      "epoch": 18.41194968553459,
      "grad_norm": 0.20246636867523193,
      "learning_rate": 1.909527820814355e-05,
      "loss": 0.287,
      "num_input_tokens_seen": 22972056,
      "step": 35130
    },
    {
      "epoch": 18.414570230607968,
      "grad_norm": 0.3804941773414612,
      "learning_rate": 1.9032732679235886e-05,
      "loss": 0.3104,
      "num_input_tokens_seen": 22974840,
      "step": 35135
    },
    {
      "epoch": 18.41719077568134,
      "grad_norm": 0.11794151365756989,
      "learning_rate": 1.8970287763193428e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 22978520,
      "step": 35140
    },
    {
      "epoch": 18.419811320754718,
      "grad_norm": 0.17230409383773804,
      "learning_rate": 1.8907943473078892e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 22982136,
      "step": 35145
    },
    {
      "epoch": 18.42243186582809,
      "grad_norm": 0.2579428255558014,
      "learning_rate": 1.884569982193396e-05,
      "loss": 0.4437,
      "num_input_tokens_seen": 22985304,
      "step": 35150
    },
    {
      "epoch": 18.42505241090147,
      "grad_norm": 0.1757480949163437,
      "learning_rate": 1.8783556822779267e-05,
      "loss": 0.4113,
      "num_input_tokens_seen": 22988856,
      "step": 35155
    },
    {
      "epoch": 18.427672955974842,
      "grad_norm": 0.1510702669620514,
      "learning_rate": 1.8721514488614532e-05,
      "loss": 0.3679,
      "num_input_tokens_seen": 22991896,
      "step": 35160
    },
    {
      "epoch": 18.43029350104822,
      "grad_norm": 0.1717846542596817,
      "learning_rate": 1.8659572832418315e-05,
      "loss": 0.4005,
      "num_input_tokens_seen": 22994808,
      "step": 35165
    },
    {
      "epoch": 18.432914046121592,
      "grad_norm": 0.17066113650798798,
      "learning_rate": 1.8597731867148026e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 22997560,
      "step": 35170
    },
    {
      "epoch": 18.43553459119497,
      "grad_norm": 0.13687226176261902,
      "learning_rate": 1.8535991605740043e-05,
      "loss": 0.54,
      "num_input_tokens_seen": 23000696,
      "step": 35175
    },
    {
      "epoch": 18.438155136268342,
      "grad_norm": 0.30222904682159424,
      "learning_rate": 1.8474352061109757e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 23003320,
      "step": 35180
    },
    {
      "epoch": 18.44077568134172,
      "grad_norm": 0.2835812270641327,
      "learning_rate": 1.8412813246151515e-05,
      "loss": 0.4429,
      "num_input_tokens_seen": 23006456,
      "step": 35185
    },
    {
      "epoch": 18.443396226415093,
      "grad_norm": 0.1358463168144226,
      "learning_rate": 1.8351375173738584e-05,
      "loss": 0.4036,
      "num_input_tokens_seen": 23010712,
      "step": 35190
    },
    {
      "epoch": 18.44601677148847,
      "grad_norm": 0.26392972469329834,
      "learning_rate": 1.829003785672295e-05,
      "loss": 0.4296,
      "num_input_tokens_seen": 23014232,
      "step": 35195
    },
    {
      "epoch": 18.448637316561843,
      "grad_norm": 0.18135255575180054,
      "learning_rate": 1.8228801307935806e-05,
      "loss": 0.3881,
      "num_input_tokens_seen": 23016952,
      "step": 35200
    },
    {
      "epoch": 18.45125786163522,
      "grad_norm": 0.21275801956653595,
      "learning_rate": 1.8167665540187063e-05,
      "loss": 0.3927,
      "num_input_tokens_seen": 23019832,
      "step": 35205
    },
    {
      "epoch": 18.453878406708597,
      "grad_norm": 0.25142213702201843,
      "learning_rate": 1.8106630566265604e-05,
      "loss": 0.4967,
      "num_input_tokens_seen": 23022264,
      "step": 35210
    },
    {
      "epoch": 18.45649895178197,
      "grad_norm": 0.2096983641386032,
      "learning_rate": 1.8045696398939326e-05,
      "loss": 0.3588,
      "num_input_tokens_seen": 23025912,
      "step": 35215
    },
    {
      "epoch": 18.459119496855347,
      "grad_norm": 0.1446247547864914,
      "learning_rate": 1.7984863050955036e-05,
      "loss": 0.373,
      "num_input_tokens_seen": 23029560,
      "step": 35220
    },
    {
      "epoch": 18.46174004192872,
      "grad_norm": 0.14714951813220978,
      "learning_rate": 1.7924130535038162e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 23033176,
      "step": 35225
    },
    {
      "epoch": 18.464360587002098,
      "grad_norm": 0.2575001120567322,
      "learning_rate": 1.7863498863893433e-05,
      "loss": 0.4011,
      "num_input_tokens_seen": 23036568,
      "step": 35230
    },
    {
      "epoch": 18.46698113207547,
      "grad_norm": 0.37529096007347107,
      "learning_rate": 1.7802968050204203e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 23039448,
      "step": 35235
    },
    {
      "epoch": 18.469601677148848,
      "grad_norm": 0.1918005645275116,
      "learning_rate": 1.7742538106632844e-05,
      "loss": 0.4617,
      "num_input_tokens_seen": 23043384,
      "step": 35240
    },
    {
      "epoch": 18.47222222222222,
      "grad_norm": 0.2538309693336487,
      "learning_rate": 1.7682209045820684e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 23047128,
      "step": 35245
    },
    {
      "epoch": 18.4748427672956,
      "grad_norm": 0.1726122349500656,
      "learning_rate": 1.76219808803878e-05,
      "loss": 0.4702,
      "num_input_tokens_seen": 23050072,
      "step": 35250
    },
    {
      "epoch": 18.47746331236897,
      "grad_norm": 0.20172469317913055,
      "learning_rate": 1.7561853622933278e-05,
      "loss": 0.4204,
      "num_input_tokens_seen": 23053688,
      "step": 35255
    },
    {
      "epoch": 18.48008385744235,
      "grad_norm": 0.3400912284851074,
      "learning_rate": 1.7501827286035e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 23056440,
      "step": 35260
    },
    {
      "epoch": 18.482704402515722,
      "grad_norm": 0.1501082330942154,
      "learning_rate": 1.7441901882249754e-05,
      "loss": 0.3927,
      "num_input_tokens_seen": 23060120,
      "step": 35265
    },
    {
      "epoch": 18.4853249475891,
      "grad_norm": 0.16702201962471008,
      "learning_rate": 1.7382077424113464e-05,
      "loss": 0.4837,
      "num_input_tokens_seen": 23063544,
      "step": 35270
    },
    {
      "epoch": 18.487945492662472,
      "grad_norm": 0.19849972426891327,
      "learning_rate": 1.7322353924140498e-05,
      "loss": 0.3705,
      "num_input_tokens_seen": 23067096,
      "step": 35275
    },
    {
      "epoch": 18.49056603773585,
      "grad_norm": 0.13123828172683716,
      "learning_rate": 1.7262731394824372e-05,
      "loss": 0.3264,
      "num_input_tokens_seen": 23070328,
      "step": 35280
    },
    {
      "epoch": 18.493186582809223,
      "grad_norm": 0.10335458815097809,
      "learning_rate": 1.7203209848637603e-05,
      "loss": 0.4911,
      "num_input_tokens_seen": 23074648,
      "step": 35285
    },
    {
      "epoch": 18.4958071278826,
      "grad_norm": 0.1361827701330185,
      "learning_rate": 1.7143789298031175e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 23077400,
      "step": 35290
    },
    {
      "epoch": 18.498427672955973,
      "grad_norm": 0.16708293557167053,
      "learning_rate": 1.708446975543537e-05,
      "loss": 0.529,
      "num_input_tokens_seen": 23079992,
      "step": 35295
    },
    {
      "epoch": 18.50104821802935,
      "grad_norm": 0.2186819165945053,
      "learning_rate": 1.7025251233259098e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 23082936,
      "step": 35300
    },
    {
      "epoch": 18.503668763102727,
      "grad_norm": 0.23328489065170288,
      "learning_rate": 1.6966133743890166e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 23085528,
      "step": 35305
    },
    {
      "epoch": 18.5062893081761,
      "grad_norm": 0.23835478723049164,
      "learning_rate": 1.690711729969535e-05,
      "loss": 0.4387,
      "num_input_tokens_seen": 23089016,
      "step": 35310
    },
    {
      "epoch": 18.508909853249477,
      "grad_norm": 0.1811058074235916,
      "learning_rate": 1.684820191302022e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 23091512,
      "step": 35315
    },
    {
      "epoch": 18.51153039832285,
      "grad_norm": 0.21011987328529358,
      "learning_rate": 1.6789387596189087e-05,
      "loss": 0.5417,
      "num_input_tokens_seen": 23095096,
      "step": 35320
    },
    {
      "epoch": 18.514150943396228,
      "grad_norm": 0.09566069394350052,
      "learning_rate": 1.6730674361505382e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 23098904,
      "step": 35325
    },
    {
      "epoch": 18.5167714884696,
      "grad_norm": 0.24599795043468475,
      "learning_rate": 1.6672062221251117e-05,
      "loss": 0.3458,
      "num_input_tokens_seen": 23101944,
      "step": 35330
    },
    {
      "epoch": 18.519392033542978,
      "grad_norm": 0.16760016977787018,
      "learning_rate": 1.6613551187687314e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 23105816,
      "step": 35335
    },
    {
      "epoch": 18.52201257861635,
      "grad_norm": 0.14818023145198822,
      "learning_rate": 1.6555141273053907e-05,
      "loss": 0.3882,
      "num_input_tokens_seen": 23109304,
      "step": 35340
    },
    {
      "epoch": 18.52463312368973,
      "grad_norm": 0.08916154503822327,
      "learning_rate": 1.6496832489569457e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 23112984,
      "step": 35345
    },
    {
      "epoch": 18.5272536687631,
      "grad_norm": 0.2633932828903198,
      "learning_rate": 1.643862484943165e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 23115832,
      "step": 35350
    },
    {
      "epoch": 18.52987421383648,
      "grad_norm": 0.11364073306322098,
      "learning_rate": 1.6380518364816687e-05,
      "loss": 0.4479,
      "num_input_tokens_seen": 23118872,
      "step": 35355
    },
    {
      "epoch": 18.532494758909852,
      "grad_norm": 0.14563021063804626,
      "learning_rate": 1.632251304787985e-05,
      "loss": 0.5423,
      "num_input_tokens_seen": 23121880,
      "step": 35360
    },
    {
      "epoch": 18.53511530398323,
      "grad_norm": 0.30368855595588684,
      "learning_rate": 1.6264608910755153e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 23125528,
      "step": 35365
    },
    {
      "epoch": 18.537735849056602,
      "grad_norm": 0.18607927858829498,
      "learning_rate": 1.6206805965555627e-05,
      "loss": 0.5521,
      "num_input_tokens_seen": 23130360,
      "step": 35370
    },
    {
      "epoch": 18.54035639412998,
      "grad_norm": 0.21965189278125763,
      "learning_rate": 1.614910422437288e-05,
      "loss": 0.3638,
      "num_input_tokens_seen": 23133912,
      "step": 35375
    },
    {
      "epoch": 18.542976939203353,
      "grad_norm": 0.10299127548933029,
      "learning_rate": 1.6091503699277477e-05,
      "loss": 0.4574,
      "num_input_tokens_seen": 23136440,
      "step": 35380
    },
    {
      "epoch": 18.54559748427673,
      "grad_norm": 0.38537758588790894,
      "learning_rate": 1.6034004402318726e-05,
      "loss": 0.4378,
      "num_input_tokens_seen": 23139544,
      "step": 35385
    },
    {
      "epoch": 18.548218029350103,
      "grad_norm": 0.20482774078845978,
      "learning_rate": 1.5976606345524836e-05,
      "loss": 0.37,
      "num_input_tokens_seen": 23144408,
      "step": 35390
    },
    {
      "epoch": 18.55083857442348,
      "grad_norm": 0.2447899580001831,
      "learning_rate": 1.5919309540902927e-05,
      "loss": 0.4695,
      "num_input_tokens_seen": 23147960,
      "step": 35395
    },
    {
      "epoch": 18.553459119496857,
      "grad_norm": 0.24194255471229553,
      "learning_rate": 1.5862114000438797e-05,
      "loss": 0.3674,
      "num_input_tokens_seen": 23151096,
      "step": 35400
    },
    {
      "epoch": 18.55607966457023,
      "grad_norm": 0.16891062259674072,
      "learning_rate": 1.5805019736097104e-05,
      "loss": 0.4341,
      "num_input_tokens_seen": 23154424,
      "step": 35405
    },
    {
      "epoch": 18.558700209643607,
      "grad_norm": 0.16352711617946625,
      "learning_rate": 1.5748026759821232e-05,
      "loss": 0.3233,
      "num_input_tokens_seen": 23157048,
      "step": 35410
    },
    {
      "epoch": 18.56132075471698,
      "grad_norm": 0.15431712567806244,
      "learning_rate": 1.5691135083533537e-05,
      "loss": 0.32,
      "num_input_tokens_seen": 23160792,
      "step": 35415
    },
    {
      "epoch": 18.563941299790358,
      "grad_norm": 0.20258884131908417,
      "learning_rate": 1.5634344719135052e-05,
      "loss": 0.4246,
      "num_input_tokens_seen": 23164248,
      "step": 35420
    },
    {
      "epoch": 18.56656184486373,
      "grad_norm": 0.2788035571575165,
      "learning_rate": 1.5577655678505776e-05,
      "loss": 0.5589,
      "num_input_tokens_seen": 23167832,
      "step": 35425
    },
    {
      "epoch": 18.569182389937108,
      "grad_norm": 0.1076313778758049,
      "learning_rate": 1.5521067973504442e-05,
      "loss": 0.3507,
      "num_input_tokens_seen": 23172152,
      "step": 35430
    },
    {
      "epoch": 18.57180293501048,
      "grad_norm": 0.19333398342132568,
      "learning_rate": 1.546458161596831e-05,
      "loss": 0.3915,
      "num_input_tokens_seen": 23175000,
      "step": 35435
    },
    {
      "epoch": 18.57442348008386,
      "grad_norm": 0.2294185906648636,
      "learning_rate": 1.5408196617713866e-05,
      "loss": 0.4471,
      "num_input_tokens_seen": 23177976,
      "step": 35440
    },
    {
      "epoch": 18.57704402515723,
      "grad_norm": 0.2040676474571228,
      "learning_rate": 1.5351912990536175e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 23180792,
      "step": 35445
    },
    {
      "epoch": 18.57966457023061,
      "grad_norm": 0.14431977272033691,
      "learning_rate": 1.5295730746209103e-05,
      "loss": 0.5847,
      "num_input_tokens_seen": 23184344,
      "step": 35450
    },
    {
      "epoch": 18.582285115303982,
      "grad_norm": 0.13657040894031525,
      "learning_rate": 1.5239649896485463e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 23187640,
      "step": 35455
    },
    {
      "epoch": 18.58490566037736,
      "grad_norm": 0.21261729300022125,
      "learning_rate": 1.5183670453096598e-05,
      "loss": 0.6263,
      "num_input_tokens_seen": 23191256,
      "step": 35460
    },
    {
      "epoch": 18.587526205450732,
      "grad_norm": 0.16037893295288086,
      "learning_rate": 1.5127792427752696e-05,
      "loss": 0.4615,
      "num_input_tokens_seen": 23193944,
      "step": 35465
    },
    {
      "epoch": 18.59014675052411,
      "grad_norm": 0.29544690251350403,
      "learning_rate": 1.507201583214296e-05,
      "loss": 0.4778,
      "num_input_tokens_seen": 23197464,
      "step": 35470
    },
    {
      "epoch": 18.592767295597483,
      "grad_norm": 0.16388261318206787,
      "learning_rate": 1.5016340677935169e-05,
      "loss": 0.3571,
      "num_input_tokens_seen": 23200024,
      "step": 35475
    },
    {
      "epoch": 18.59538784067086,
      "grad_norm": 0.14145363867282867,
      "learning_rate": 1.4960766976775953e-05,
      "loss": 0.4371,
      "num_input_tokens_seen": 23202968,
      "step": 35480
    },
    {
      "epoch": 18.598008385744233,
      "grad_norm": 0.16956709325313568,
      "learning_rate": 1.4905294740290677e-05,
      "loss": 0.3736,
      "num_input_tokens_seen": 23206296,
      "step": 35485
    },
    {
      "epoch": 18.60062893081761,
      "grad_norm": 0.11404571682214737,
      "learning_rate": 1.4849923980083391e-05,
      "loss": 0.4233,
      "num_input_tokens_seen": 23209304,
      "step": 35490
    },
    {
      "epoch": 18.603249475890987,
      "grad_norm": 0.15575705468654633,
      "learning_rate": 1.4794654707737164e-05,
      "loss": 0.3479,
      "num_input_tokens_seen": 23213080,
      "step": 35495
    },
    {
      "epoch": 18.60587002096436,
      "grad_norm": 0.13051748275756836,
      "learning_rate": 1.4739486934813696e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 23215928,
      "step": 35500
    },
    {
      "epoch": 18.608490566037737,
      "grad_norm": 0.15692156553268433,
      "learning_rate": 1.468442067285336e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 23219320,
      "step": 35505
    },
    {
      "epoch": 18.61111111111111,
      "grad_norm": 0.1387835443019867,
      "learning_rate": 1.4629455933375501e-05,
      "loss": 0.3841,
      "num_input_tokens_seen": 23222296,
      "step": 35510
    },
    {
      "epoch": 18.613731656184488,
      "grad_norm": 0.18272453546524048,
      "learning_rate": 1.4574592727878089e-05,
      "loss": 0.425,
      "num_input_tokens_seen": 23224728,
      "step": 35515
    },
    {
      "epoch": 18.61635220125786,
      "grad_norm": 0.20647656917572021,
      "learning_rate": 1.4519831067837774e-05,
      "loss": 0.3817,
      "num_input_tokens_seen": 23228248,
      "step": 35520
    },
    {
      "epoch": 18.618972746331238,
      "grad_norm": 0.4258762300014496,
      "learning_rate": 1.4465170964710172e-05,
      "loss": 0.4268,
      "num_input_tokens_seen": 23232600,
      "step": 35525
    },
    {
      "epoch": 18.62159329140461,
      "grad_norm": 0.5050902366638184,
      "learning_rate": 1.441061242992947e-05,
      "loss": 0.4439,
      "num_input_tokens_seen": 23235384,
      "step": 35530
    },
    {
      "epoch": 18.62421383647799,
      "grad_norm": 0.12240307033061981,
      "learning_rate": 1.4356155474908871e-05,
      "loss": 0.3964,
      "num_input_tokens_seen": 23238744,
      "step": 35535
    },
    {
      "epoch": 18.62683438155136,
      "grad_norm": 0.15563973784446716,
      "learning_rate": 1.4301800111039986e-05,
      "loss": 0.4161,
      "num_input_tokens_seen": 23241720,
      "step": 35540
    },
    {
      "epoch": 18.62945492662474,
      "grad_norm": 0.22017531096935272,
      "learning_rate": 1.4247546349693386e-05,
      "loss": 0.4442,
      "num_input_tokens_seen": 23244696,
      "step": 35545
    },
    {
      "epoch": 18.632075471698112,
      "grad_norm": 0.12860921025276184,
      "learning_rate": 1.4193394202218268e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 23248536,
      "step": 35550
    },
    {
      "epoch": 18.63469601677149,
      "grad_norm": 0.20755669474601746,
      "learning_rate": 1.413934367994274e-05,
      "loss": 0.4006,
      "num_input_tokens_seen": 23251352,
      "step": 35555
    },
    {
      "epoch": 18.637316561844862,
      "grad_norm": 0.12685967981815338,
      "learning_rate": 1.408539479417359e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 23254520,
      "step": 35560
    },
    {
      "epoch": 18.63993710691824,
      "grad_norm": 0.09961327165365219,
      "learning_rate": 1.4031547556196178e-05,
      "loss": 0.5557,
      "num_input_tokens_seen": 23261752,
      "step": 35565
    },
    {
      "epoch": 18.642557651991613,
      "grad_norm": 0.1927756518125534,
      "learning_rate": 1.3977801977274828e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 23265176,
      "step": 35570
    },
    {
      "epoch": 18.64517819706499,
      "grad_norm": 0.19008083641529083,
      "learning_rate": 1.3924158068652437e-05,
      "loss": 0.3947,
      "num_input_tokens_seen": 23267800,
      "step": 35575
    },
    {
      "epoch": 18.647798742138363,
      "grad_norm": 0.3348150849342346,
      "learning_rate": 1.3870615841550693e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 23270488,
      "step": 35580
    },
    {
      "epoch": 18.65041928721174,
      "grad_norm": 0.11451905965805054,
      "learning_rate": 1.3817175307170138e-05,
      "loss": 0.4617,
      "num_input_tokens_seen": 23274008,
      "step": 35585
    },
    {
      "epoch": 18.653039832285117,
      "grad_norm": 0.186057910323143,
      "learning_rate": 1.3763836476689828e-05,
      "loss": 0.2655,
      "num_input_tokens_seen": 23277240,
      "step": 35590
    },
    {
      "epoch": 18.65566037735849,
      "grad_norm": 0.276242733001709,
      "learning_rate": 1.3710599361267617e-05,
      "loss": 0.4493,
      "num_input_tokens_seen": 23279768,
      "step": 35595
    },
    {
      "epoch": 18.658280922431867,
      "grad_norm": 0.1651616394519806,
      "learning_rate": 1.3657463972040207e-05,
      "loss": 0.5199,
      "num_input_tokens_seen": 23283128,
      "step": 35600
    },
    {
      "epoch": 18.66090146750524,
      "grad_norm": 0.15315960347652435,
      "learning_rate": 1.3604430320122762e-05,
      "loss": 0.3663,
      "num_input_tokens_seen": 23286424,
      "step": 35605
    },
    {
      "epoch": 18.663522012578618,
      "grad_norm": 0.1507447212934494,
      "learning_rate": 1.355149841660941e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 23289880,
      "step": 35610
    },
    {
      "epoch": 18.66614255765199,
      "grad_norm": 0.1597985178232193,
      "learning_rate": 1.3498668272572955e-05,
      "loss": 0.4658,
      "num_input_tokens_seen": 23293528,
      "step": 35615
    },
    {
      "epoch": 18.668763102725368,
      "grad_norm": 0.13220292329788208,
      "learning_rate": 1.3445939899064729e-05,
      "loss": 0.2983,
      "num_input_tokens_seen": 23296952,
      "step": 35620
    },
    {
      "epoch": 18.67138364779874,
      "grad_norm": 0.24793259799480438,
      "learning_rate": 1.3393313307115019e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 23299384,
      "step": 35625
    },
    {
      "epoch": 18.67400419287212,
      "grad_norm": 0.14996197819709778,
      "learning_rate": 1.3340788507732626e-05,
      "loss": 0.4206,
      "num_input_tokens_seen": 23306232,
      "step": 35630
    },
    {
      "epoch": 18.67662473794549,
      "grad_norm": 0.30999088287353516,
      "learning_rate": 1.328836551190521e-05,
      "loss": 0.5171,
      "num_input_tokens_seen": 23309144,
      "step": 35635
    },
    {
      "epoch": 18.67924528301887,
      "grad_norm": 0.11258675903081894,
      "learning_rate": 1.323604433059905e-05,
      "loss": 0.379,
      "num_input_tokens_seen": 23312472,
      "step": 35640
    },
    {
      "epoch": 18.681865828092242,
      "grad_norm": 0.2343902587890625,
      "learning_rate": 1.3183824974759063e-05,
      "loss": 0.339,
      "num_input_tokens_seen": 23315320,
      "step": 35645
    },
    {
      "epoch": 18.68448637316562,
      "grad_norm": 0.22719348967075348,
      "learning_rate": 1.3131707455309006e-05,
      "loss": 0.4164,
      "num_input_tokens_seen": 23318360,
      "step": 35650
    },
    {
      "epoch": 18.687106918238992,
      "grad_norm": 0.2502090334892273,
      "learning_rate": 1.307969178315127e-05,
      "loss": 0.351,
      "num_input_tokens_seen": 23320824,
      "step": 35655
    },
    {
      "epoch": 18.68972746331237,
      "grad_norm": 0.14941884577274323,
      "learning_rate": 1.3027777969166932e-05,
      "loss": 0.4937,
      "num_input_tokens_seen": 23324216,
      "step": 35660
    },
    {
      "epoch": 18.692348008385743,
      "grad_norm": 0.18980196118354797,
      "learning_rate": 1.2975966024215746e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 23326840,
      "step": 35665
    },
    {
      "epoch": 18.69496855345912,
      "grad_norm": 0.23316536843776703,
      "learning_rate": 1.2924255959136267e-05,
      "loss": 0.4347,
      "num_input_tokens_seen": 23329464,
      "step": 35670
    },
    {
      "epoch": 18.697589098532493,
      "grad_norm": 0.21691472828388214,
      "learning_rate": 1.2872647784745561e-05,
      "loss": 0.5602,
      "num_input_tokens_seen": 23332280,
      "step": 35675
    },
    {
      "epoch": 18.70020964360587,
      "grad_norm": 0.1475774049758911,
      "learning_rate": 1.282114151183944e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 23335384,
      "step": 35680
    },
    {
      "epoch": 18.702830188679247,
      "grad_norm": 0.10330256819725037,
      "learning_rate": 1.2769737151192562e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 23338776,
      "step": 35685
    },
    {
      "epoch": 18.70545073375262,
      "grad_norm": 0.24587664008140564,
      "learning_rate": 1.2718434713558047e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 23341624,
      "step": 35690
    },
    {
      "epoch": 18.708071278825997,
      "grad_norm": 0.10912677645683289,
      "learning_rate": 1.2667234209667755e-05,
      "loss": 0.422,
      "num_input_tokens_seen": 23345144,
      "step": 35695
    },
    {
      "epoch": 18.71069182389937,
      "grad_norm": 0.09083671122789383,
      "learning_rate": 1.2616135650232286e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 23350328,
      "step": 35700
    },
    {
      "epoch": 18.713312368972748,
      "grad_norm": 0.19408413767814636,
      "learning_rate": 1.2565139045940866e-05,
      "loss": 0.323,
      "num_input_tokens_seen": 23353240,
      "step": 35705
    },
    {
      "epoch": 18.71593291404612,
      "grad_norm": 0.23839692771434784,
      "learning_rate": 1.2514244407461462e-05,
      "loss": 0.4932,
      "num_input_tokens_seen": 23356120,
      "step": 35710
    },
    {
      "epoch": 18.718553459119498,
      "grad_norm": 0.1757257580757141,
      "learning_rate": 1.2463451745440501e-05,
      "loss": 0.544,
      "num_input_tokens_seen": 23359032,
      "step": 35715
    },
    {
      "epoch": 18.72117400419287,
      "grad_norm": 0.1420944780111313,
      "learning_rate": 1.241276107050343e-05,
      "loss": 0.437,
      "num_input_tokens_seen": 23363064,
      "step": 35720
    },
    {
      "epoch": 18.72379454926625,
      "grad_norm": 0.20812970399856567,
      "learning_rate": 1.236217239325399e-05,
      "loss": 0.459,
      "num_input_tokens_seen": 23365432,
      "step": 35725
    },
    {
      "epoch": 18.72641509433962,
      "grad_norm": 0.2560889422893524,
      "learning_rate": 1.2311685724274768e-05,
      "loss": 0.4679,
      "num_input_tokens_seen": 23368120,
      "step": 35730
    },
    {
      "epoch": 18.729035639413,
      "grad_norm": 0.20754474401474,
      "learning_rate": 1.2261301074127096e-05,
      "loss": 0.471,
      "num_input_tokens_seen": 23371576,
      "step": 35735
    },
    {
      "epoch": 18.731656184486372,
      "grad_norm": 0.12952938675880432,
      "learning_rate": 1.2211018453350874e-05,
      "loss": 0.394,
      "num_input_tokens_seen": 23376216,
      "step": 35740
    },
    {
      "epoch": 18.73427672955975,
      "grad_norm": 0.19659680128097534,
      "learning_rate": 1.2160837872464581e-05,
      "loss": 0.3611,
      "num_input_tokens_seen": 23379256,
      "step": 35745
    },
    {
      "epoch": 18.736897274633122,
      "grad_norm": 0.23513858020305634,
      "learning_rate": 1.2110759341965428e-05,
      "loss": 0.3991,
      "num_input_tokens_seen": 23381912,
      "step": 35750
    },
    {
      "epoch": 18.7395178197065,
      "grad_norm": 0.2797253727912903,
      "learning_rate": 1.2060782872329256e-05,
      "loss": 0.3765,
      "num_input_tokens_seen": 23384568,
      "step": 35755
    },
    {
      "epoch": 18.742138364779873,
      "grad_norm": 0.1925716996192932,
      "learning_rate": 1.2010908474010595e-05,
      "loss": 0.4041,
      "num_input_tokens_seen": 23387320,
      "step": 35760
    },
    {
      "epoch": 18.74475890985325,
      "grad_norm": 0.15517660975456238,
      "learning_rate": 1.1961136157442654e-05,
      "loss": 0.3539,
      "num_input_tokens_seen": 23390168,
      "step": 35765
    },
    {
      "epoch": 18.747379454926623,
      "grad_norm": 0.19793230295181274,
      "learning_rate": 1.1911465933037214e-05,
      "loss": 0.4737,
      "num_input_tokens_seen": 23393080,
      "step": 35770
    },
    {
      "epoch": 18.75,
      "grad_norm": 0.16543638706207275,
      "learning_rate": 1.1861897811184686e-05,
      "loss": 0.3152,
      "num_input_tokens_seen": 23395800,
      "step": 35775
    },
    {
      "epoch": 18.752620545073377,
      "grad_norm": 0.17979717254638672,
      "learning_rate": 1.1812431802254109e-05,
      "loss": 0.3719,
      "num_input_tokens_seen": 23398424,
      "step": 35780
    },
    {
      "epoch": 18.75524109014675,
      "grad_norm": 0.24491800367832184,
      "learning_rate": 1.1763067916593262e-05,
      "loss": 0.4104,
      "num_input_tokens_seen": 23400984,
      "step": 35785
    },
    {
      "epoch": 18.757861635220127,
      "grad_norm": 0.166741281747818,
      "learning_rate": 1.1713806164528496e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 23404952,
      "step": 35790
    },
    {
      "epoch": 18.7604821802935,
      "grad_norm": 0.1452852189540863,
      "learning_rate": 1.1664646556364844e-05,
      "loss": 0.4462,
      "num_input_tokens_seen": 23409048,
      "step": 35795
    },
    {
      "epoch": 18.763102725366878,
      "grad_norm": 0.15471164882183075,
      "learning_rate": 1.161558910238597e-05,
      "loss": 0.4728,
      "num_input_tokens_seen": 23411864,
      "step": 35800
    },
    {
      "epoch": 18.76572327044025,
      "grad_norm": 0.20681801438331604,
      "learning_rate": 1.1566633812854e-05,
      "loss": 0.3434,
      "num_input_tokens_seen": 23414936,
      "step": 35805
    },
    {
      "epoch": 18.768343815513628,
      "grad_norm": 0.15325719118118286,
      "learning_rate": 1.151778069800985e-05,
      "loss": 0.4154,
      "num_input_tokens_seen": 23417976,
      "step": 35810
    },
    {
      "epoch": 18.770964360587,
      "grad_norm": 0.13836804032325745,
      "learning_rate": 1.1469029768073125e-05,
      "loss": 0.3727,
      "num_input_tokens_seen": 23420984,
      "step": 35815
    },
    {
      "epoch": 18.77358490566038,
      "grad_norm": 0.15972287952899933,
      "learning_rate": 1.1420381033241889e-05,
      "loss": 0.3689,
      "num_input_tokens_seen": 23424120,
      "step": 35820
    },
    {
      "epoch": 18.77620545073375,
      "grad_norm": 0.1475236713886261,
      "learning_rate": 1.1371834503693002e-05,
      "loss": 0.4687,
      "num_input_tokens_seen": 23426584,
      "step": 35825
    },
    {
      "epoch": 18.77882599580713,
      "grad_norm": 0.2000170350074768,
      "learning_rate": 1.1323390189581784e-05,
      "loss": 0.3815,
      "num_input_tokens_seen": 23429880,
      "step": 35830
    },
    {
      "epoch": 18.781446540880502,
      "grad_norm": 0.14634518325328827,
      "learning_rate": 1.127504810104213e-05,
      "loss": 0.3525,
      "num_input_tokens_seen": 23432728,
      "step": 35835
    },
    {
      "epoch": 18.78406708595388,
      "grad_norm": 0.17279410362243652,
      "learning_rate": 1.1226808248186782e-05,
      "loss": 0.4961,
      "num_input_tokens_seen": 23435704,
      "step": 35840
    },
    {
      "epoch": 18.786687631027252,
      "grad_norm": 0.3325054943561554,
      "learning_rate": 1.1178670641106891e-05,
      "loss": 0.3569,
      "num_input_tokens_seen": 23439416,
      "step": 35845
    },
    {
      "epoch": 18.78930817610063,
      "grad_norm": 0.1539911925792694,
      "learning_rate": 1.1130635289872403e-05,
      "loss": 0.4302,
      "num_input_tokens_seen": 23441880,
      "step": 35850
    },
    {
      "epoch": 18.791928721174003,
      "grad_norm": 0.20738746225833893,
      "learning_rate": 1.1082702204531725e-05,
      "loss": 0.4655,
      "num_input_tokens_seen": 23445560,
      "step": 35855
    },
    {
      "epoch": 18.79454926624738,
      "grad_norm": 0.17669238150119781,
      "learning_rate": 1.1034871395111778e-05,
      "loss": 0.4552,
      "num_input_tokens_seen": 23448760,
      "step": 35860
    },
    {
      "epoch": 18.797169811320753,
      "grad_norm": 0.15782317519187927,
      "learning_rate": 1.0987142871618394e-05,
      "loss": 0.2576,
      "num_input_tokens_seen": 23451864,
      "step": 35865
    },
    {
      "epoch": 18.79979035639413,
      "grad_norm": 0.17568063735961914,
      "learning_rate": 1.0939516644035696e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 23458552,
      "step": 35870
    },
    {
      "epoch": 18.802410901467507,
      "grad_norm": 0.11476080864667892,
      "learning_rate": 1.0891992722326716e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 23461656,
      "step": 35875
    },
    {
      "epoch": 18.80503144654088,
      "grad_norm": 0.08276047557592392,
      "learning_rate": 1.0844571116432778e-05,
      "loss": 0.4708,
      "num_input_tokens_seen": 23464664,
      "step": 35880
    },
    {
      "epoch": 18.807651991614257,
      "grad_norm": 0.20740453898906708,
      "learning_rate": 1.0797251836274003e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 23468216,
      "step": 35885
    },
    {
      "epoch": 18.81027253668763,
      "grad_norm": 0.14887402951717377,
      "learning_rate": 1.0750034891748972e-05,
      "loss": 0.4953,
      "num_input_tokens_seen": 23471064,
      "step": 35890
    },
    {
      "epoch": 18.812893081761008,
      "grad_norm": 0.09846650063991547,
      "learning_rate": 1.0702920292735009e-05,
      "loss": 0.3257,
      "num_input_tokens_seen": 23474264,
      "step": 35895
    },
    {
      "epoch": 18.81551362683438,
      "grad_norm": 0.34450289607048035,
      "learning_rate": 1.0655908049087893e-05,
      "loss": 0.3462,
      "num_input_tokens_seen": 23477720,
      "step": 35900
    },
    {
      "epoch": 18.818134171907758,
      "grad_norm": 0.14164967834949493,
      "learning_rate": 1.0608998170642149e-05,
      "loss": 0.3036,
      "num_input_tokens_seen": 23480344,
      "step": 35905
    },
    {
      "epoch": 18.82075471698113,
      "grad_norm": 0.16788357496261597,
      "learning_rate": 1.0562190667210703e-05,
      "loss": 0.434,
      "num_input_tokens_seen": 23483544,
      "step": 35910
    },
    {
      "epoch": 18.82337526205451,
      "grad_norm": 0.12462784349918365,
      "learning_rate": 1.0515485548585113e-05,
      "loss": 0.4642,
      "num_input_tokens_seen": 23486392,
      "step": 35915
    },
    {
      "epoch": 18.82599580712788,
      "grad_norm": 0.12524470686912537,
      "learning_rate": 1.0468882824535676e-05,
      "loss": 0.6149,
      "num_input_tokens_seen": 23490200,
      "step": 35920
    },
    {
      "epoch": 18.82861635220126,
      "grad_norm": 0.09455714374780655,
      "learning_rate": 1.0422382504811034e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 23493048,
      "step": 35925
    },
    {
      "epoch": 18.831236897274632,
      "grad_norm": 0.13220643997192383,
      "learning_rate": 1.0375984599138633e-05,
      "loss": 0.5507,
      "num_input_tokens_seen": 23496440,
      "step": 35930
    },
    {
      "epoch": 18.83385744234801,
      "grad_norm": 0.12763696908950806,
      "learning_rate": 1.0329689117224261e-05,
      "loss": 0.389,
      "num_input_tokens_seen": 23499832,
      "step": 35935
    },
    {
      "epoch": 18.836477987421382,
      "grad_norm": 0.11700668185949326,
      "learning_rate": 1.0283496068752507e-05,
      "loss": 0.5081,
      "num_input_tokens_seen": 23503416,
      "step": 35940
    },
    {
      "epoch": 18.83909853249476,
      "grad_norm": 0.16607356071472168,
      "learning_rate": 1.0237405463386418e-05,
      "loss": 0.3429,
      "num_input_tokens_seen": 23506616,
      "step": 35945
    },
    {
      "epoch": 18.841719077568133,
      "grad_norm": 0.17684073746204376,
      "learning_rate": 1.0191417310767503e-05,
      "loss": 0.5351,
      "num_input_tokens_seen": 23509912,
      "step": 35950
    },
    {
      "epoch": 18.84433962264151,
      "grad_norm": 0.11940024793148041,
      "learning_rate": 1.0145531620516179e-05,
      "loss": 0.3887,
      "num_input_tokens_seen": 23513272,
      "step": 35955
    },
    {
      "epoch": 18.846960167714883,
      "grad_norm": 0.17844845354557037,
      "learning_rate": 1.009974840223099e-05,
      "loss": 0.39,
      "num_input_tokens_seen": 23515992,
      "step": 35960
    },
    {
      "epoch": 18.84958071278826,
      "grad_norm": 0.14213474094867706,
      "learning_rate": 1.0054067665489386e-05,
      "loss": 0.3794,
      "num_input_tokens_seen": 23519032,
      "step": 35965
    },
    {
      "epoch": 18.852201257861637,
      "grad_norm": 0.1235152930021286,
      "learning_rate": 1.0008489419847278e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 23522392,
      "step": 35970
    },
    {
      "epoch": 18.85482180293501,
      "grad_norm": 0.17090724408626556,
      "learning_rate": 9.963013674839038e-06,
      "loss": 0.3362,
      "num_input_tokens_seen": 23525240,
      "step": 35975
    },
    {
      "epoch": 18.857442348008387,
      "grad_norm": 0.1551438868045807,
      "learning_rate": 9.91764043997767e-06,
      "loss": 0.4801,
      "num_input_tokens_seen": 23528568,
      "step": 35980
    },
    {
      "epoch": 18.86006289308176,
      "grad_norm": 0.1851229965686798,
      "learning_rate": 9.872369724754804e-06,
      "loss": 0.396,
      "num_input_tokens_seen": 23531288,
      "step": 35985
    },
    {
      "epoch": 18.862683438155138,
      "grad_norm": 0.1466241329908371,
      "learning_rate": 9.827201538640473e-06,
      "loss": 0.4069,
      "num_input_tokens_seen": 23534520,
      "step": 35990
    },
    {
      "epoch": 18.86530398322851,
      "grad_norm": 0.15601976215839386,
      "learning_rate": 9.782135891083455e-06,
      "loss": 0.4652,
      "num_input_tokens_seen": 23537880,
      "step": 35995
    },
    {
      "epoch": 18.867924528301888,
      "grad_norm": 0.10234362632036209,
      "learning_rate": 9.737172791510873e-06,
      "loss": 0.3916,
      "num_input_tokens_seen": 23541464,
      "step": 36000
    },
    {
      "epoch": 18.87054507337526,
      "grad_norm": 0.2533875107765198,
      "learning_rate": 9.692312249328483e-06,
      "loss": 0.2586,
      "num_input_tokens_seen": 23544760,
      "step": 36005
    },
    {
      "epoch": 18.87316561844864,
      "grad_norm": 0.16600292921066284,
      "learning_rate": 9.647554273920722e-06,
      "loss": 0.4113,
      "num_input_tokens_seen": 23547832,
      "step": 36010
    },
    {
      "epoch": 18.87578616352201,
      "grad_norm": 0.18568778038024902,
      "learning_rate": 9.602898874650323e-06,
      "loss": 0.3418,
      "num_input_tokens_seen": 23550968,
      "step": 36015
    },
    {
      "epoch": 18.87840670859539,
      "grad_norm": 0.1550706923007965,
      "learning_rate": 9.558346060858759e-06,
      "loss": 0.3683,
      "num_input_tokens_seen": 23554680,
      "step": 36020
    },
    {
      "epoch": 18.881027253668762,
      "grad_norm": 0.09437225759029388,
      "learning_rate": 9.51389584186596e-06,
      "loss": 0.3931,
      "num_input_tokens_seen": 23558168,
      "step": 36025
    },
    {
      "epoch": 18.88364779874214,
      "grad_norm": 0.15853385627269745,
      "learning_rate": 9.469548226970326e-06,
      "loss": 0.3976,
      "num_input_tokens_seen": 23560952,
      "step": 36030
    },
    {
      "epoch": 18.886268343815512,
      "grad_norm": 0.11478548496961594,
      "learning_rate": 9.425303225448989e-06,
      "loss": 0.3277,
      "num_input_tokens_seen": 23563096,
      "step": 36035
    },
    {
      "epoch": 18.88888888888889,
      "grad_norm": 0.12750141322612762,
      "learning_rate": 9.381160846557435e-06,
      "loss": 0.4842,
      "num_input_tokens_seen": 23565400,
      "step": 36040
    },
    {
      "epoch": 18.891509433962263,
      "grad_norm": 0.1971941590309143,
      "learning_rate": 9.337121099529722e-06,
      "loss": 0.3936,
      "num_input_tokens_seen": 23569016,
      "step": 36045
    },
    {
      "epoch": 18.89412997903564,
      "grad_norm": 0.13640686869621277,
      "learning_rate": 9.293183993578535e-06,
      "loss": 0.4472,
      "num_input_tokens_seen": 23572216,
      "step": 36050
    },
    {
      "epoch": 18.896750524109013,
      "grad_norm": 0.09965097904205322,
      "learning_rate": 9.249349537894968e-06,
      "loss": 0.5053,
      "num_input_tokens_seen": 23576056,
      "step": 36055
    },
    {
      "epoch": 18.89937106918239,
      "grad_norm": 0.09073662757873535,
      "learning_rate": 9.205617741648686e-06,
      "loss": 0.5551,
      "num_input_tokens_seen": 23579096,
      "step": 36060
    },
    {
      "epoch": 18.901991614255767,
      "grad_norm": 0.275786817073822,
      "learning_rate": 9.161988613987982e-06,
      "loss": 0.3821,
      "num_input_tokens_seen": 23581720,
      "step": 36065
    },
    {
      "epoch": 18.90461215932914,
      "grad_norm": 0.2650999128818512,
      "learning_rate": 9.118462164039387e-06,
      "loss": 0.6439,
      "num_input_tokens_seen": 23584824,
      "step": 36070
    },
    {
      "epoch": 18.907232704402517,
      "grad_norm": 0.3494341969490051,
      "learning_rate": 9.07503840090823e-06,
      "loss": 0.4062,
      "num_input_tokens_seen": 23587800,
      "step": 36075
    },
    {
      "epoch": 18.90985324947589,
      "grad_norm": 0.20203113555908203,
      "learning_rate": 9.031717333678303e-06,
      "loss": 0.5549,
      "num_input_tokens_seen": 23590584,
      "step": 36080
    },
    {
      "epoch": 18.912473794549268,
      "grad_norm": 0.11187215894460678,
      "learning_rate": 8.988498971411851e-06,
      "loss": 0.5923,
      "num_input_tokens_seen": 23594392,
      "step": 36085
    },
    {
      "epoch": 18.91509433962264,
      "grad_norm": 0.0945301279425621,
      "learning_rate": 8.945383323149647e-06,
      "loss": 0.4191,
      "num_input_tokens_seen": 23597176,
      "step": 36090
    },
    {
      "epoch": 18.917714884696018,
      "grad_norm": 0.1475011557340622,
      "learning_rate": 8.902370397911031e-06,
      "loss": 0.4552,
      "num_input_tokens_seen": 23600600,
      "step": 36095
    },
    {
      "epoch": 18.92033542976939,
      "grad_norm": 0.17184703052043915,
      "learning_rate": 8.859460204693748e-06,
      "loss": 0.5266,
      "num_input_tokens_seen": 23603480,
      "step": 36100
    },
    {
      "epoch": 18.92295597484277,
      "grad_norm": 0.1933935284614563,
      "learning_rate": 8.816652752474175e-06,
      "loss": 0.3255,
      "num_input_tokens_seen": 23605784,
      "step": 36105
    },
    {
      "epoch": 18.92557651991614,
      "grad_norm": 0.10758413374423981,
      "learning_rate": 8.773948050207148e-06,
      "loss": 0.4039,
      "num_input_tokens_seen": 23609144,
      "step": 36110
    },
    {
      "epoch": 18.92819706498952,
      "grad_norm": 0.15634730458259583,
      "learning_rate": 8.731346106826021e-06,
      "loss": 0.4955,
      "num_input_tokens_seen": 23611960,
      "step": 36115
    },
    {
      "epoch": 18.930817610062892,
      "grad_norm": 0.17170998454093933,
      "learning_rate": 8.6888469312425e-06,
      "loss": 0.42,
      "num_input_tokens_seen": 23614680,
      "step": 36120
    },
    {
      "epoch": 18.93343815513627,
      "grad_norm": 0.18673169612884521,
      "learning_rate": 8.646450532347083e-06,
      "loss": 0.3904,
      "num_input_tokens_seen": 23617592,
      "step": 36125
    },
    {
      "epoch": 18.936058700209642,
      "grad_norm": 0.3197040557861328,
      "learning_rate": 8.604156919008565e-06,
      "loss": 0.4084,
      "num_input_tokens_seen": 23620440,
      "step": 36130
    },
    {
      "epoch": 18.93867924528302,
      "grad_norm": 0.12094315141439438,
      "learning_rate": 8.561966100074258e-06,
      "loss": 0.331,
      "num_input_tokens_seen": 23623320,
      "step": 36135
    },
    {
      "epoch": 18.941299790356393,
      "grad_norm": 0.24049226939678192,
      "learning_rate": 8.519878084370048e-06,
      "loss": 0.3115,
      "num_input_tokens_seen": 23626168,
      "step": 36140
    },
    {
      "epoch": 18.94392033542977,
      "grad_norm": 0.2082182615995407,
      "learning_rate": 8.477892880700222e-06,
      "loss": 0.5399,
      "num_input_tokens_seen": 23629240,
      "step": 36145
    },
    {
      "epoch": 18.946540880503143,
      "grad_norm": 0.12402448803186417,
      "learning_rate": 8.436010497847646e-06,
      "loss": 0.3918,
      "num_input_tokens_seen": 23632472,
      "step": 36150
    },
    {
      "epoch": 18.94916142557652,
      "grad_norm": 0.13642050325870514,
      "learning_rate": 8.39423094457359e-06,
      "loss": 0.4571,
      "num_input_tokens_seen": 23635864,
      "step": 36155
    },
    {
      "epoch": 18.951781970649897,
      "grad_norm": 0.13849923014640808,
      "learning_rate": 8.352554229617892e-06,
      "loss": 0.3896,
      "num_input_tokens_seen": 23638712,
      "step": 36160
    },
    {
      "epoch": 18.95440251572327,
      "grad_norm": 0.1515272706747055,
      "learning_rate": 8.310980361698861e-06,
      "loss": 0.4137,
      "num_input_tokens_seen": 23641592,
      "step": 36165
    },
    {
      "epoch": 18.957023060796647,
      "grad_norm": 0.09150761365890503,
      "learning_rate": 8.26950934951326e-06,
      "loss": 0.4056,
      "num_input_tokens_seen": 23645912,
      "step": 36170
    },
    {
      "epoch": 18.95964360587002,
      "grad_norm": 0.13359595835208893,
      "learning_rate": 8.22814120173626e-06,
      "loss": 0.4066,
      "num_input_tokens_seen": 23648824,
      "step": 36175
    },
    {
      "epoch": 18.962264150943398,
      "grad_norm": 0.24855215847492218,
      "learning_rate": 8.186875927021775e-06,
      "loss": 0.4237,
      "num_input_tokens_seen": 23651096,
      "step": 36180
    },
    {
      "epoch": 18.96488469601677,
      "grad_norm": 0.20569084584712982,
      "learning_rate": 8.145713534001897e-06,
      "loss": 0.4276,
      "num_input_tokens_seen": 23654616,
      "step": 36185
    },
    {
      "epoch": 18.967505241090148,
      "grad_norm": 0.1158142164349556,
      "learning_rate": 8.104654031287406e-06,
      "loss": 0.4614,
      "num_input_tokens_seen": 23658200,
      "step": 36190
    },
    {
      "epoch": 18.97012578616352,
      "grad_norm": 0.2369406372308731,
      "learning_rate": 8.063697427467486e-06,
      "loss": 0.4714,
      "num_input_tokens_seen": 23660856,
      "step": 36195
    },
    {
      "epoch": 18.9727463312369,
      "grad_norm": 0.10058239847421646,
      "learning_rate": 8.022843731109675e-06,
      "loss": 0.4406,
      "num_input_tokens_seen": 23664056,
      "step": 36200
    },
    {
      "epoch": 18.97536687631027,
      "grad_norm": 0.12424767762422562,
      "learning_rate": 7.982092950760245e-06,
      "loss": 0.4537,
      "num_input_tokens_seen": 23667256,
      "step": 36205
    },
    {
      "epoch": 18.97798742138365,
      "grad_norm": 0.19258509576320648,
      "learning_rate": 7.941445094943711e-06,
      "loss": 0.4495,
      "num_input_tokens_seen": 23670456,
      "step": 36210
    },
    {
      "epoch": 18.980607966457022,
      "grad_norm": 0.5615735650062561,
      "learning_rate": 7.900900172163107e-06,
      "loss": 0.4158,
      "num_input_tokens_seen": 23673656,
      "step": 36215
    },
    {
      "epoch": 18.9832285115304,
      "grad_norm": 0.1898670494556427,
      "learning_rate": 7.860458190900144e-06,
      "loss": 0.4923,
      "num_input_tokens_seen": 23676824,
      "step": 36220
    },
    {
      "epoch": 18.985849056603772,
      "grad_norm": 0.15071868896484375,
      "learning_rate": 7.820119159614669e-06,
      "loss": 0.6112,
      "num_input_tokens_seen": 23679832,
      "step": 36225
    },
    {
      "epoch": 18.98846960167715,
      "grad_norm": 0.239267960190773,
      "learning_rate": 7.779883086745098e-06,
      "loss": 0.3926,
      "num_input_tokens_seen": 23682808,
      "step": 36230
    },
    {
      "epoch": 18.991090146750523,
      "grad_norm": 0.16600705683231354,
      "learning_rate": 7.739749980708533e-06,
      "loss": 0.5212,
      "num_input_tokens_seen": 23685976,
      "step": 36235
    },
    {
      "epoch": 18.9937106918239,
      "grad_norm": 0.19687460362911224,
      "learning_rate": 7.6997198499002e-06,
      "loss": 0.4907,
      "num_input_tokens_seen": 23688952,
      "step": 36240
    },
    {
      "epoch": 18.996331236897273,
      "grad_norm": 0.21041306853294373,
      "learning_rate": 7.659792702694068e-06,
      "loss": 0.4314,
      "num_input_tokens_seen": 23691832,
      "step": 36245
    },
    {
      "epoch": 18.99895178197065,
      "grad_norm": 0.1129300445318222,
      "learning_rate": 7.619968547442346e-06,
      "loss": 0.3717,
      "num_input_tokens_seen": 23695544,
      "step": 36250
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.48425400257110596,
      "eval_runtime": 13.6829,
      "eval_samples_per_second": 61.975,
      "eval_steps_per_second": 15.494,
      "num_input_tokens_seen": 23696296,
      "step": 36252
    },
    {
      "epoch": 19.001572327044027,
      "grad_norm": 0.18119506537914276,
      "learning_rate": 7.580247392475926e-06,
      "loss": 0.4799,
      "num_input_tokens_seen": 23697768,
      "step": 36255
    },
    {
      "epoch": 19.0041928721174,
      "grad_norm": 0.19248025119304657,
      "learning_rate": 7.540629246103825e-06,
      "loss": 0.3759,
      "num_input_tokens_seen": 23700072,
      "step": 36260
    },
    {
      "epoch": 19.006813417190777,
      "grad_norm": 0.1656535565853119,
      "learning_rate": 7.501114116613861e-06,
      "loss": 0.507,
      "num_input_tokens_seen": 23702856,
      "step": 36265
    },
    {
      "epoch": 19.00943396226415,
      "grad_norm": 0.18006618320941925,
      "learning_rate": 7.461702012272087e-06,
      "loss": 0.4738,
      "num_input_tokens_seen": 23706184,
      "step": 36270
    },
    {
      "epoch": 19.012054507337528,
      "grad_norm": 0.201813742518425,
      "learning_rate": 7.422392941323075e-06,
      "loss": 0.451,
      "num_input_tokens_seen": 23709128,
      "step": 36275
    },
    {
      "epoch": 19.0146750524109,
      "grad_norm": 0.22685310244560242,
      "learning_rate": 7.383186911989858e-06,
      "loss": 0.5632,
      "num_input_tokens_seen": 23712808,
      "step": 36280
    },
    {
      "epoch": 19.017295597484278,
      "grad_norm": 0.15432162582874298,
      "learning_rate": 7.344083932473822e-06,
      "loss": 0.4036,
      "num_input_tokens_seen": 23716168,
      "step": 36285
    },
    {
      "epoch": 19.01991614255765,
      "grad_norm": 0.13169065117835999,
      "learning_rate": 7.305084010954976e-06,
      "loss": 0.3429,
      "num_input_tokens_seen": 23719688,
      "step": 36290
    },
    {
      "epoch": 19.02253668763103,
      "grad_norm": 0.08983554691076279,
      "learning_rate": 7.26618715559152e-06,
      "loss": 0.401,
      "num_input_tokens_seen": 23723752,
      "step": 36295
    },
    {
      "epoch": 19.0251572327044,
      "grad_norm": 0.163125142455101,
      "learning_rate": 7.227393374520386e-06,
      "loss": 0.3426,
      "num_input_tokens_seen": 23727432,
      "step": 36300
    },
    {
      "epoch": 19.02777777777778,
      "grad_norm": 0.16551363468170166,
      "learning_rate": 7.18870267585664e-06,
      "loss": 0.4106,
      "num_input_tokens_seen": 23730312,
      "step": 36305
    },
    {
      "epoch": 19.030398322851152,
      "grad_norm": 0.23657049238681793,
      "learning_rate": 7.150115067694085e-06,
      "loss": 0.49,
      "num_input_tokens_seen": 23733448,
      "step": 36310
    },
    {
      "epoch": 19.03301886792453,
      "grad_norm": 0.14347593486309052,
      "learning_rate": 7.111630558104653e-06,
      "loss": 0.4198,
      "num_input_tokens_seen": 23737320,
      "step": 36315
    },
    {
      "epoch": 19.035639412997902,
      "grad_norm": 0.1328883320093155,
      "learning_rate": 7.073249155138961e-06,
      "loss": 0.4775,
      "num_input_tokens_seen": 23739752,
      "step": 36320
    },
    {
      "epoch": 19.03825995807128,
      "grad_norm": 0.19424696266651154,
      "learning_rate": 7.0349708668259736e-06,
      "loss": 0.3387,
      "num_input_tokens_seen": 23742152,
      "step": 36325
    },
    {
      "epoch": 19.040880503144653,
      "grad_norm": 0.12996578216552734,
      "learning_rate": 6.996795701173009e-06,
      "loss": 0.3742,
      "num_input_tokens_seen": 23745448,
      "step": 36330
    },
    {
      "epoch": 19.04350104821803,
      "grad_norm": 0.19973859190940857,
      "learning_rate": 6.958723666165901e-06,
      "loss": 0.3986,
      "num_input_tokens_seen": 23749864,
      "step": 36335
    },
    {
      "epoch": 19.046121593291403,
      "grad_norm": 0.15006497502326965,
      "learning_rate": 6.9207547697689446e-06,
      "loss": 0.4572,
      "num_input_tokens_seen": 23752552,
      "step": 36340
    },
    {
      "epoch": 19.04874213836478,
      "grad_norm": 0.17127038538455963,
      "learning_rate": 6.882889019924676e-06,
      "loss": 0.3713,
      "num_input_tokens_seen": 23755528,
      "step": 36345
    },
    {
      "epoch": 19.051362683438157,
      "grad_norm": 0.15144552290439606,
      "learning_rate": 6.84512642455426e-06,
      "loss": 0.3364,
      "num_input_tokens_seen": 23758600,
      "step": 36350
    },
    {
      "epoch": 19.05398322851153,
      "grad_norm": 0.35873228311538696,
      "learning_rate": 6.8074669915572095e-06,
      "loss": 0.4241,
      "num_input_tokens_seen": 23761480,
      "step": 36355
    },
    {
      "epoch": 19.056603773584907,
      "grad_norm": 0.2547651529312134,
      "learning_rate": 6.769910728811391e-06,
      "loss": 0.3889,
      "num_input_tokens_seen": 23764168,
      "step": 36360
    },
    {
      "epoch": 19.05922431865828,
      "grad_norm": 0.23845167458057404,
      "learning_rate": 6.73245764417324e-06,
      "loss": 0.488,
      "num_input_tokens_seen": 23766920,
      "step": 36365
    },
    {
      "epoch": 19.061844863731658,
      "grad_norm": 0.19895616173744202,
      "learning_rate": 6.695107745477435e-06,
      "loss": 0.4351,
      "num_input_tokens_seen": 23770056,
      "step": 36370
    },
    {
      "epoch": 19.06446540880503,
      "grad_norm": 0.13556106388568878,
      "learning_rate": 6.657861040537117e-06,
      "loss": 0.3077,
      "num_input_tokens_seen": 23773096,
      "step": 36375
    },
    {
      "epoch": 19.067085953878408,
      "grad_norm": 0.23753149807453156,
      "learning_rate": 6.620717537143994e-06,
      "loss": 0.3714,
      "num_input_tokens_seen": 23775496,
      "step": 36380
    },
    {
      "epoch": 19.06970649895178,
      "grad_norm": 0.227972611784935,
      "learning_rate": 6.583677243067965e-06,
      "loss": 0.4345,
      "num_input_tokens_seen": 23778600,
      "step": 36385
    },
    {
      "epoch": 19.072327044025158,
      "grad_norm": 0.04070316255092621,
      "learning_rate": 6.546740166057441e-06,
      "loss": 0.4349,
      "num_input_tokens_seen": 23783688,
      "step": 36390
    },
    {
      "epoch": 19.07494758909853,
      "grad_norm": 0.18814444541931152,
      "learning_rate": 6.5099063138392975e-06,
      "loss": 0.4831,
      "num_input_tokens_seen": 23786440,
      "step": 36395
    },
    {
      "epoch": 19.07756813417191,
      "grad_norm": 0.20590564608573914,
      "learning_rate": 6.473175694118705e-06,
      "loss": 0.4842,
      "num_input_tokens_seen": 23789768,
      "step": 36400
    },
    {
      "epoch": 19.080188679245282,
      "grad_norm": 0.14761210978031158,
      "learning_rate": 6.436548314579349e-06,
      "loss": 0.4485,
      "num_input_tokens_seen": 23792264,
      "step": 36405
    },
    {
      "epoch": 19.08280922431866,
      "grad_norm": 0.14373672008514404,
      "learning_rate": 6.400024182883158e-06,
      "loss": 0.4118,
      "num_input_tokens_seen": 23795816,
      "step": 36410
    },
    {
      "epoch": 19.085429769392032,
      "grad_norm": 0.15281343460083008,
      "learning_rate": 6.363603306670629e-06,
      "loss": 0.4671,
      "num_input_tokens_seen": 23798984,
      "step": 36415
    },
    {
      "epoch": 19.08805031446541,
      "grad_norm": 0.13228467106819153,
      "learning_rate": 6.327285693560614e-06,
      "loss": 0.4361,
      "num_input_tokens_seen": 23802056,
      "step": 36420
    },
    {
      "epoch": 19.090670859538783,
      "grad_norm": 0.23850561678409576,
      "learning_rate": 6.2910713511503125e-06,
      "loss": 0.4078,
      "num_input_tokens_seen": 23804424,
      "step": 36425
    },
    {
      "epoch": 19.09329140461216,
      "grad_norm": 0.1563412845134735,
      "learning_rate": 6.254960287015332e-06,
      "loss": 0.3499,
      "num_input_tokens_seen": 23807112,
      "step": 36430
    },
    {
      "epoch": 19.095911949685533,
      "grad_norm": 0.1900707632303238,
      "learning_rate": 6.218952508709741e-06,
      "loss": 0.3757,
      "num_input_tokens_seen": 23810184,
      "step": 36435
    },
    {
      "epoch": 19.09853249475891,
      "grad_norm": 0.1364985704421997,
      "learning_rate": 6.183048023765903e-06,
      "loss": 0.3978,
      "num_input_tokens_seen": 23812776,
      "step": 36440
    },
    {
      "epoch": 19.101153039832287,
      "grad_norm": 0.1318926215171814,
      "learning_rate": 6.147246839694698e-06,
      "loss": 0.5212,
      "num_input_tokens_seen": 23816296,
      "step": 36445
    },
    {
      "epoch": 19.10377358490566,
      "grad_norm": 0.15431444346904755,
      "learning_rate": 6.111548963985247e-06,
      "loss": 0.4619,
      "num_input_tokens_seen": 23819432,
      "step": 36450
    },
    {
      "epoch": 19.106394129979037,
      "grad_norm": 0.24222677946090698,
      "learning_rate": 6.075954404105188e-06,
      "loss": 0.4969,
      "num_input_tokens_seen": 23822600,
      "step": 36455
    },
    {
      "epoch": 19.10901467505241,
      "grad_norm": 0.14965540170669556,
      "learning_rate": 6.040463167500509e-06,
      "loss": 0.4119,
      "num_input_tokens_seen": 23825512,
      "step": 36460
    },
    {
      "epoch": 19.111635220125788,
      "grad_norm": 0.15223217010498047,
      "learning_rate": 6.005075261595494e-06,
      "loss": 0.4252,
      "num_input_tokens_seen": 23828456,
      "step": 36465
    },
    {
      "epoch": 19.11425576519916,
      "grad_norm": 0.11424508690834045,
      "learning_rate": 5.969790693792998e-06,
      "loss": 0.3509,
      "num_input_tokens_seen": 23831656,
      "step": 36470
    },
    {
      "epoch": 19.116876310272538,
      "grad_norm": 0.268831729888916,
      "learning_rate": 5.9346094714740615e-06,
      "loss": 0.383,
      "num_input_tokens_seen": 23834312,
      "step": 36475
    },
    {
      "epoch": 19.11949685534591,
      "grad_norm": 0.16430425643920898,
      "learning_rate": 5.8995316019982425e-06,
      "loss": 0.4354,
      "num_input_tokens_seen": 23836968,
      "step": 36480
    },
    {
      "epoch": 19.122117400419288,
      "grad_norm": 0.16565203666687012,
      "learning_rate": 5.8645570927034485e-06,
      "loss": 0.4337,
      "num_input_tokens_seen": 23840616,
      "step": 36485
    },
    {
      "epoch": 19.12473794549266,
      "grad_norm": 0.16968205571174622,
      "learning_rate": 5.8296859509058275e-06,
      "loss": 0.4017,
      "num_input_tokens_seen": 23844168,
      "step": 36490
    },
    {
      "epoch": 19.12735849056604,
      "grad_norm": 0.16957302391529083,
      "learning_rate": 5.794918183900155e-06,
      "loss": 0.3651,
      "num_input_tokens_seen": 23846888,
      "step": 36495
    },
    {
      "epoch": 19.129979035639412,
      "grad_norm": 0.108380526304245,
      "learning_rate": 5.760253798959447e-06,
      "loss": 0.4736,
      "num_input_tokens_seen": 23850856,
      "step": 36500
    },
    {
      "epoch": 19.13259958071279,
      "grad_norm": 0.16690994799137115,
      "learning_rate": 5.725692803335015e-06,
      "loss": 0.431,
      "num_input_tokens_seen": 23853992,
      "step": 36505
    },
    {
      "epoch": 19.135220125786162,
      "grad_norm": 0.18645720183849335,
      "learning_rate": 5.691235204256739e-06,
      "loss": 0.4101,
      "num_input_tokens_seen": 23857864,
      "step": 36510
    },
    {
      "epoch": 19.13784067085954,
      "grad_norm": 0.15232759714126587,
      "learning_rate": 5.65688100893258e-06,
      "loss": 0.4286,
      "num_input_tokens_seen": 23861480,
      "step": 36515
    },
    {
      "epoch": 19.140461215932913,
      "grad_norm": 0.17578579485416412,
      "learning_rate": 5.622630224549174e-06,
      "loss": 0.3842,
      "num_input_tokens_seen": 23864424,
      "step": 36520
    },
    {
      "epoch": 19.14308176100629,
      "grad_norm": 0.28775161504745483,
      "learning_rate": 5.588482858271404e-06,
      "loss": 0.5224,
      "num_input_tokens_seen": 23867272,
      "step": 36525
    },
    {
      "epoch": 19.145702306079663,
      "grad_norm": 0.20824900269508362,
      "learning_rate": 5.554438917242444e-06,
      "loss": 0.3746,
      "num_input_tokens_seen": 23871272,
      "step": 36530
    },
    {
      "epoch": 19.14832285115304,
      "grad_norm": 0.27083858847618103,
      "learning_rate": 5.520498408583985e-06,
      "loss": 0.3794,
      "num_input_tokens_seen": 23874376,
      "step": 36535
    },
    {
      "epoch": 19.150943396226417,
      "grad_norm": 0.15899866819381714,
      "learning_rate": 5.486661339395904e-06,
      "loss": 0.3428,
      "num_input_tokens_seen": 23877096,
      "step": 36540
    },
    {
      "epoch": 19.15356394129979,
      "grad_norm": 0.2570273280143738,
      "learning_rate": 5.452927716756595e-06,
      "loss": 0.3566,
      "num_input_tokens_seen": 23880776,
      "step": 36545
    },
    {
      "epoch": 19.156184486373167,
      "grad_norm": 0.12008151412010193,
      "learning_rate": 5.419297547722635e-06,
      "loss": 0.2983,
      "num_input_tokens_seen": 23885000,
      "step": 36550
    },
    {
      "epoch": 19.15880503144654,
      "grad_norm": 0.17559726536273956,
      "learning_rate": 5.385770839329229e-06,
      "loss": 0.3324,
      "num_input_tokens_seen": 23887720,
      "step": 36555
    },
    {
      "epoch": 19.161425576519918,
      "grad_norm": 0.13497404754161835,
      "learning_rate": 5.352347598589713e-06,
      "loss": 0.3996,
      "num_input_tokens_seen": 23890760,
      "step": 36560
    },
    {
      "epoch": 19.16404612159329,
      "grad_norm": 0.1312343031167984,
      "learning_rate": 5.319027832495826e-06,
      "loss": 0.3614,
      "num_input_tokens_seen": 23893640,
      "step": 36565
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 0.15731613337993622,
      "learning_rate": 5.285811548017661e-06,
      "loss": 0.3664,
      "num_input_tokens_seen": 23896584,
      "step": 36570
    },
    {
      "epoch": 19.16928721174004,
      "grad_norm": 0.09015386551618576,
      "learning_rate": 5.252698752103713e-06,
      "loss": 0.5011,
      "num_input_tokens_seen": 23901480,
      "step": 36575
    },
    {
      "epoch": 19.171907756813418,
      "grad_norm": 0.23550422489643097,
      "learning_rate": 5.219689451680832e-06,
      "loss": 0.4424,
      "num_input_tokens_seen": 23904680,
      "step": 36580
    },
    {
      "epoch": 19.17452830188679,
      "grad_norm": 0.19441336393356323,
      "learning_rate": 5.186783653654214e-06,
      "loss": 0.2698,
      "num_input_tokens_seen": 23907144,
      "step": 36585
    },
    {
      "epoch": 19.17714884696017,
      "grad_norm": 0.18700404465198517,
      "learning_rate": 5.153981364907245e-06,
      "loss": 0.4138,
      "num_input_tokens_seen": 23910888,
      "step": 36590
    },
    {
      "epoch": 19.179769392033542,
      "grad_norm": 0.21112394332885742,
      "learning_rate": 5.121282592301935e-06,
      "loss": 0.5737,
      "num_input_tokens_seen": 23914184,
      "step": 36595
    },
    {
      "epoch": 19.18238993710692,
      "grad_norm": 0.1325242519378662,
      "learning_rate": 5.088687342678422e-06,
      "loss": 0.4006,
      "num_input_tokens_seen": 23917608,
      "step": 36600
    },
    {
      "epoch": 19.185010482180292,
      "grad_norm": 0.13911817967891693,
      "learning_rate": 5.056195622855253e-06,
      "loss": 0.4258,
      "num_input_tokens_seen": 23922312,
      "step": 36605
    },
    {
      "epoch": 19.18763102725367,
      "grad_norm": 0.16119617223739624,
      "learning_rate": 5.023807439629324e-06,
      "loss": 0.4833,
      "num_input_tokens_seen": 23925096,
      "step": 36610
    },
    {
      "epoch": 19.190251572327043,
      "grad_norm": 0.20127755403518677,
      "learning_rate": 4.991522799775938e-06,
      "loss": 0.4258,
      "num_input_tokens_seen": 23927976,
      "step": 36615
    },
    {
      "epoch": 19.19287211740042,
      "grad_norm": 0.1739184558391571,
      "learning_rate": 4.9593417100485816e-06,
      "loss": 0.4264,
      "num_input_tokens_seen": 23934760,
      "step": 36620
    },
    {
      "epoch": 19.195492662473793,
      "grad_norm": 0.10500640422105789,
      "learning_rate": 4.927264177179258e-06,
      "loss": 0.4332,
      "num_input_tokens_seen": 23937960,
      "step": 36625
    },
    {
      "epoch": 19.19811320754717,
      "grad_norm": 0.12463995069265366,
      "learning_rate": 4.895290207878156e-06,
      "loss": 0.3397,
      "num_input_tokens_seen": 23940904,
      "step": 36630
    },
    {
      "epoch": 19.200733752620547,
      "grad_norm": 0.17514656484127045,
      "learning_rate": 4.863419808833924e-06,
      "loss": 0.3729,
      "num_input_tokens_seen": 23943848,
      "step": 36635
    },
    {
      "epoch": 19.20335429769392,
      "grad_norm": 0.1470939666032791,
      "learning_rate": 4.831652986713453e-06,
      "loss": 0.4266,
      "num_input_tokens_seen": 23947112,
      "step": 36640
    },
    {
      "epoch": 19.205974842767297,
      "grad_norm": 0.1888953000307083,
      "learning_rate": 4.799989748161926e-06,
      "loss": 0.3271,
      "num_input_tokens_seen": 23950056,
      "step": 36645
    },
    {
      "epoch": 19.20859538784067,
      "grad_norm": 0.17898963391780853,
      "learning_rate": 4.768430099803101e-06,
      "loss": 0.4593,
      "num_input_tokens_seen": 23953320,
      "step": 36650
    },
    {
      "epoch": 19.211215932914047,
      "grad_norm": 0.18792462348937988,
      "learning_rate": 4.736974048238696e-06,
      "loss": 0.4127,
      "num_input_tokens_seen": 23956168,
      "step": 36655
    },
    {
      "epoch": 19.21383647798742,
      "grad_norm": 0.1428712010383606,
      "learning_rate": 4.705621600049115e-06,
      "loss": 0.3773,
      "num_input_tokens_seen": 23959528,
      "step": 36660
    },
    {
      "epoch": 19.216457023060798,
      "grad_norm": 0.11380598694086075,
      "learning_rate": 4.674372761792889e-06,
      "loss": 0.4237,
      "num_input_tokens_seen": 23962504,
      "step": 36665
    },
    {
      "epoch": 19.21907756813417,
      "grad_norm": 0.12952099740505219,
      "learning_rate": 4.6432275400069e-06,
      "loss": 0.3571,
      "num_input_tokens_seen": 23965736,
      "step": 36670
    },
    {
      "epoch": 19.221698113207548,
      "grad_norm": 0.20352229475975037,
      "learning_rate": 4.6121859412063264e-06,
      "loss": 0.3461,
      "num_input_tokens_seen": 23968328,
      "step": 36675
    },
    {
      "epoch": 19.22431865828092,
      "grad_norm": 0.22749702632427216,
      "learning_rate": 4.581247971884861e-06,
      "loss": 0.3937,
      "num_input_tokens_seen": 23972360,
      "step": 36680
    },
    {
      "epoch": 19.2269392033543,
      "grad_norm": 0.18453387916088104,
      "learning_rate": 4.550413638514217e-06,
      "loss": 0.4264,
      "num_input_tokens_seen": 23975688,
      "step": 36685
    },
    {
      "epoch": 19.229559748427672,
      "grad_norm": 0.16271227598190308,
      "learning_rate": 4.519682947544679e-06,
      "loss": 0.4689,
      "num_input_tokens_seen": 23979656,
      "step": 36690
    },
    {
      "epoch": 19.23218029350105,
      "grad_norm": 0.19134211540222168,
      "learning_rate": 4.489055905404715e-06,
      "loss": 0.4295,
      "num_input_tokens_seen": 23982568,
      "step": 36695
    },
    {
      "epoch": 19.234800838574422,
      "grad_norm": 0.1312684714794159,
      "learning_rate": 4.4585325185012014e-06,
      "loss": 0.4708,
      "num_input_tokens_seen": 23985640,
      "step": 36700
    },
    {
      "epoch": 19.2374213836478,
      "grad_norm": 0.1682254821062088,
      "learning_rate": 4.428112793219197e-06,
      "loss": 0.4774,
      "num_input_tokens_seen": 23989000,
      "step": 36705
    },
    {
      "epoch": 19.240041928721173,
      "grad_norm": 0.11322047561407089,
      "learning_rate": 4.397796735922277e-06,
      "loss": 0.4429,
      "num_input_tokens_seen": 23991784,
      "step": 36710
    },
    {
      "epoch": 19.24266247379455,
      "grad_norm": 0.24288541078567505,
      "learning_rate": 4.367584352952092e-06,
      "loss": 0.4314,
      "num_input_tokens_seen": 23996328,
      "step": 36715
    },
    {
      "epoch": 19.245283018867923,
      "grad_norm": 0.19386422634124756,
      "learning_rate": 4.337475650628808e-06,
      "loss": 0.5008,
      "num_input_tokens_seen": 23999816,
      "step": 36720
    },
    {
      "epoch": 19.2479035639413,
      "grad_norm": 0.1250256597995758,
      "learning_rate": 4.307470635250832e-06,
      "loss": 0.4619,
      "num_input_tokens_seen": 24002472,
      "step": 36725
    },
    {
      "epoch": 19.250524109014677,
      "grad_norm": 0.10815037041902542,
      "learning_rate": 4.277569313094809e-06,
      "loss": 0.2616,
      "num_input_tokens_seen": 24005256,
      "step": 36730
    },
    {
      "epoch": 19.25314465408805,
      "grad_norm": 0.11771541088819504,
      "learning_rate": 4.247771690415791e-06,
      "loss": 0.3942,
      "num_input_tokens_seen": 24008776,
      "step": 36735
    },
    {
      "epoch": 19.255765199161427,
      "grad_norm": 0.1502184122800827,
      "learning_rate": 4.218077773447071e-06,
      "loss": 0.3326,
      "num_input_tokens_seen": 24012904,
      "step": 36740
    },
    {
      "epoch": 19.2583857442348,
      "grad_norm": 0.16368789970874786,
      "learning_rate": 4.1884875684003455e-06,
      "loss": 0.3822,
      "num_input_tokens_seen": 24016040,
      "step": 36745
    },
    {
      "epoch": 19.261006289308177,
      "grad_norm": 0.16409900784492493,
      "learning_rate": 4.159001081465497e-06,
      "loss": 0.437,
      "num_input_tokens_seen": 24018760,
      "step": 36750
    },
    {
      "epoch": 19.26362683438155,
      "grad_norm": 0.11863784492015839,
      "learning_rate": 4.129618318810702e-06,
      "loss": 0.4503,
      "num_input_tokens_seen": 24022088,
      "step": 36755
    },
    {
      "epoch": 19.266247379454928,
      "grad_norm": 0.24785323441028595,
      "learning_rate": 4.100339286582655e-06,
      "loss": 0.39,
      "num_input_tokens_seen": 24025064,
      "step": 36760
    },
    {
      "epoch": 19.2688679245283,
      "grad_norm": 0.1188720241189003,
      "learning_rate": 4.071163990906068e-06,
      "loss": 0.3956,
      "num_input_tokens_seen": 24028264,
      "step": 36765
    },
    {
      "epoch": 19.271488469601678,
      "grad_norm": 0.12749642133712769,
      "learning_rate": 4.042092437884115e-06,
      "loss": 0.4565,
      "num_input_tokens_seen": 24031560,
      "step": 36770
    },
    {
      "epoch": 19.27410901467505,
      "grad_norm": 0.07478553056716919,
      "learning_rate": 4.013124633598264e-06,
      "loss": 0.4815,
      "num_input_tokens_seen": 24035944,
      "step": 36775
    },
    {
      "epoch": 19.27672955974843,
      "grad_norm": 0.19366098940372467,
      "learning_rate": 3.984260584108168e-06,
      "loss": 0.5707,
      "num_input_tokens_seen": 24039912,
      "step": 36780
    },
    {
      "epoch": 19.279350104821802,
      "grad_norm": 0.20495253801345825,
      "learning_rate": 3.955500295451942e-06,
      "loss": 0.3506,
      "num_input_tokens_seen": 24042792,
      "step": 36785
    },
    {
      "epoch": 19.28197064989518,
      "grad_norm": 0.1279877871274948,
      "learning_rate": 3.926843773645883e-06,
      "loss": 0.4356,
      "num_input_tokens_seen": 24046184,
      "step": 36790
    },
    {
      "epoch": 19.284591194968552,
      "grad_norm": 0.13558146357536316,
      "learning_rate": 3.8982910246846415e-06,
      "loss": 0.4557,
      "num_input_tokens_seen": 24049576,
      "step": 36795
    },
    {
      "epoch": 19.28721174004193,
      "grad_norm": 0.16325892508029938,
      "learning_rate": 3.869842054541051e-06,
      "loss": 0.3718,
      "num_input_tokens_seen": 24051944,
      "step": 36800
    },
    {
      "epoch": 19.289832285115303,
      "grad_norm": 0.09344518929719925,
      "learning_rate": 3.84149686916635e-06,
      "loss": 0.4618,
      "num_input_tokens_seen": 24055112,
      "step": 36805
    },
    {
      "epoch": 19.29245283018868,
      "grad_norm": 0.13622665405273438,
      "learning_rate": 3.8132554744900183e-06,
      "loss": 0.4452,
      "num_input_tokens_seen": 24058888,
      "step": 36810
    },
    {
      "epoch": 19.295073375262053,
      "grad_norm": 0.06286221742630005,
      "learning_rate": 3.7851178764198302e-06,
      "loss": 0.3847,
      "num_input_tokens_seen": 24062728,
      "step": 36815
    },
    {
      "epoch": 19.29769392033543,
      "grad_norm": 0.10786975175142288,
      "learning_rate": 3.7570840808419104e-06,
      "loss": 0.5997,
      "num_input_tokens_seen": 24066504,
      "step": 36820
    },
    {
      "epoch": 19.300314465408803,
      "grad_norm": 0.15218721330165863,
      "learning_rate": 3.729154093620568e-06,
      "loss": 0.3752,
      "num_input_tokens_seen": 24069256,
      "step": 36825
    },
    {
      "epoch": 19.30293501048218,
      "grad_norm": 0.15817563235759735,
      "learning_rate": 3.7013279205984073e-06,
      "loss": 0.3859,
      "num_input_tokens_seen": 24071720,
      "step": 36830
    },
    {
      "epoch": 19.305555555555557,
      "grad_norm": 0.0931725725531578,
      "learning_rate": 3.6736055675963275e-06,
      "loss": 0.2862,
      "num_input_tokens_seen": 24075720,
      "step": 36835
    },
    {
      "epoch": 19.30817610062893,
      "grad_norm": 0.1816893070936203,
      "learning_rate": 3.645987040413634e-06,
      "loss": 0.3639,
      "num_input_tokens_seen": 24078920,
      "step": 36840
    },
    {
      "epoch": 19.310796645702307,
      "grad_norm": 0.19850443303585052,
      "learning_rate": 3.6184723448277056e-06,
      "loss": 0.395,
      "num_input_tokens_seen": 24082376,
      "step": 36845
    },
    {
      "epoch": 19.31341719077568,
      "grad_norm": 0.09134110063314438,
      "learning_rate": 3.5910614865943826e-06,
      "loss": 0.3547,
      "num_input_tokens_seen": 24085928,
      "step": 36850
    },
    {
      "epoch": 19.316037735849058,
      "grad_norm": 0.153901144862175,
      "learning_rate": 3.563754471447689e-06,
      "loss": 0.4124,
      "num_input_tokens_seen": 24088648,
      "step": 36855
    },
    {
      "epoch": 19.31865828092243,
      "grad_norm": 0.20411953330039978,
      "learning_rate": 3.5365513050998334e-06,
      "loss": 0.3494,
      "num_input_tokens_seen": 24092136,
      "step": 36860
    },
    {
      "epoch": 19.321278825995808,
      "grad_norm": 0.264841765165329,
      "learning_rate": 3.5094519932415414e-06,
      "loss": 0.4554,
      "num_input_tokens_seen": 24094632,
      "step": 36865
    },
    {
      "epoch": 19.32389937106918,
      "grad_norm": 0.1287636011838913,
      "learning_rate": 3.4824565415416123e-06,
      "loss": 0.4437,
      "num_input_tokens_seen": 24098248,
      "step": 36870
    },
    {
      "epoch": 19.32651991614256,
      "grad_norm": 0.18788224458694458,
      "learning_rate": 3.4555649556471946e-06,
      "loss": 0.406,
      "num_input_tokens_seen": 24100872,
      "step": 36875
    },
    {
      "epoch": 19.329140461215932,
      "grad_norm": 0.2081165611743927,
      "learning_rate": 3.4287772411837338e-06,
      "loss": 0.5054,
      "num_input_tokens_seen": 24104520,
      "step": 36880
    },
    {
      "epoch": 19.33176100628931,
      "grad_norm": 0.0329657606780529,
      "learning_rate": 3.402093403754858e-06,
      "loss": 0.4251,
      "num_input_tokens_seen": 24111048,
      "step": 36885
    },
    {
      "epoch": 19.334381551362682,
      "grad_norm": 0.21837809681892395,
      "learning_rate": 3.375513448942602e-06,
      "loss": 0.4031,
      "num_input_tokens_seen": 24113448,
      "step": 36890
    },
    {
      "epoch": 19.33700209643606,
      "grad_norm": 0.18994653224945068,
      "learning_rate": 3.349037382307074e-06,
      "loss": 0.403,
      "num_input_tokens_seen": 24116264,
      "step": 36895
    },
    {
      "epoch": 19.339622641509433,
      "grad_norm": 0.18688426911830902,
      "learning_rate": 3.322665209386899e-06,
      "loss": 0.3919,
      "num_input_tokens_seen": 24118888,
      "step": 36900
    },
    {
      "epoch": 19.34224318658281,
      "grad_norm": 0.11167551577091217,
      "learning_rate": 3.29639693569872e-06,
      "loss": 0.4643,
      "num_input_tokens_seen": 24122056,
      "step": 36905
    },
    {
      "epoch": 19.344863731656183,
      "grad_norm": 0.1483159214258194,
      "learning_rate": 3.270232566737641e-06,
      "loss": 0.5182,
      "num_input_tokens_seen": 24125288,
      "step": 36910
    },
    {
      "epoch": 19.34748427672956,
      "grad_norm": 0.09799438714981079,
      "learning_rate": 3.244172107976895e-06,
      "loss": 0.4868,
      "num_input_tokens_seen": 24128904,
      "step": 36915
    },
    {
      "epoch": 19.350104821802937,
      "grad_norm": 0.1669907420873642,
      "learning_rate": 3.2182155648680657e-06,
      "loss": 0.514,
      "num_input_tokens_seen": 24131880,
      "step": 36920
    },
    {
      "epoch": 19.35272536687631,
      "grad_norm": 0.23644502460956573,
      "learning_rate": 3.1923629428409205e-06,
      "loss": 0.3964,
      "num_input_tokens_seen": 24134600,
      "step": 36925
    },
    {
      "epoch": 19.355345911949687,
      "grad_norm": 0.09113118052482605,
      "learning_rate": 3.166614247303634e-06,
      "loss": 0.3761,
      "num_input_tokens_seen": 24137448,
      "step": 36930
    },
    {
      "epoch": 19.35796645702306,
      "grad_norm": 0.12440378218889236,
      "learning_rate": 3.140969483642453e-06,
      "loss": 0.5934,
      "num_input_tokens_seen": 24141064,
      "step": 36935
    },
    {
      "epoch": 19.360587002096437,
      "grad_norm": 0.12932497262954712,
      "learning_rate": 3.1154286572219747e-06,
      "loss": 0.3452,
      "num_input_tokens_seen": 24143688,
      "step": 36940
    },
    {
      "epoch": 19.36320754716981,
      "grad_norm": 0.16433696448802948,
      "learning_rate": 3.089991773385037e-06,
      "loss": 0.3078,
      "num_input_tokens_seen": 24146984,
      "step": 36945
    },
    {
      "epoch": 19.365828092243188,
      "grad_norm": 0.13313156366348267,
      "learning_rate": 3.064658837452772e-06,
      "loss": 0.523,
      "num_input_tokens_seen": 24151784,
      "step": 36950
    },
    {
      "epoch": 19.36844863731656,
      "grad_norm": 0.11357320845127106,
      "learning_rate": 3.0394298547246068e-06,
      "loss": 0.4231,
      "num_input_tokens_seen": 24154792,
      "step": 36955
    },
    {
      "epoch": 19.371069182389938,
      "grad_norm": 0.4190421998500824,
      "learning_rate": 3.0143048304779875e-06,
      "loss": 0.4225,
      "num_input_tokens_seen": 24157512,
      "step": 36960
    },
    {
      "epoch": 19.37368972746331,
      "grad_norm": 0.12448684126138687,
      "learning_rate": 2.989283769968987e-06,
      "loss": 0.5248,
      "num_input_tokens_seen": 24160392,
      "step": 36965
    },
    {
      "epoch": 19.37631027253669,
      "grad_norm": 0.3435942530632019,
      "learning_rate": 2.964366678431585e-06,
      "loss": 0.3988,
      "num_input_tokens_seen": 24163656,
      "step": 36970
    },
    {
      "epoch": 19.378930817610062,
      "grad_norm": 0.1377439647912979,
      "learning_rate": 2.9395535610781678e-06,
      "loss": 0.4192,
      "num_input_tokens_seen": 24166632,
      "step": 36975
    },
    {
      "epoch": 19.38155136268344,
      "grad_norm": 0.23285560309886932,
      "learning_rate": 2.9148444230994166e-06,
      "loss": 0.426,
      "num_input_tokens_seen": 24169320,
      "step": 36980
    },
    {
      "epoch": 19.384171907756812,
      "grad_norm": 0.18153220415115356,
      "learning_rate": 2.890239269664141e-06,
      "loss": 0.5261,
      "num_input_tokens_seen": 24172520,
      "step": 36985
    },
    {
      "epoch": 19.38679245283019,
      "grad_norm": 0.2004062533378601,
      "learning_rate": 2.8657381059194466e-06,
      "loss": 0.3233,
      "num_input_tokens_seen": 24176232,
      "step": 36990
    },
    {
      "epoch": 19.389412997903563,
      "grad_norm": 0.2111806422472,
      "learning_rate": 2.8413409369907885e-06,
      "loss": 0.4302,
      "num_input_tokens_seen": 24179400,
      "step": 36995
    },
    {
      "epoch": 19.39203354297694,
      "grad_norm": 0.30120208859443665,
      "learning_rate": 2.817047767981695e-06,
      "loss": 0.4717,
      "num_input_tokens_seen": 24182568,
      "step": 37000
    },
    {
      "epoch": 19.394654088050313,
      "grad_norm": 0.1743154376745224,
      "learning_rate": 2.7928586039740466e-06,
      "loss": 0.4171,
      "num_input_tokens_seen": 24185640,
      "step": 37005
    },
    {
      "epoch": 19.39727463312369,
      "grad_norm": 0.22942017018795013,
      "learning_rate": 2.7687734500279615e-06,
      "loss": 0.4929,
      "num_input_tokens_seen": 24189256,
      "step": 37010
    },
    {
      "epoch": 19.399895178197063,
      "grad_norm": 0.11837393790483475,
      "learning_rate": 2.744792311181743e-06,
      "loss": 0.3879,
      "num_input_tokens_seen": 24192744,
      "step": 37015
    },
    {
      "epoch": 19.40251572327044,
      "grad_norm": 0.14186014235019684,
      "learning_rate": 2.720915192451989e-06,
      "loss": 0.4817,
      "num_input_tokens_seen": 24197128,
      "step": 37020
    },
    {
      "epoch": 19.405136268343817,
      "grad_norm": 0.1077832505106926,
      "learning_rate": 2.697142098833538e-06,
      "loss": 0.3529,
      "num_input_tokens_seen": 24200552,
      "step": 37025
    },
    {
      "epoch": 19.40775681341719,
      "grad_norm": 0.15760953724384308,
      "learning_rate": 2.6734730352993563e-06,
      "loss": 0.3911,
      "num_input_tokens_seen": 24203880,
      "step": 37030
    },
    {
      "epoch": 19.410377358490567,
      "grad_norm": 0.21707206964492798,
      "learning_rate": 2.649908006800872e-06,
      "loss": 0.4626,
      "num_input_tokens_seen": 24207752,
      "step": 37035
    },
    {
      "epoch": 19.41299790356394,
      "grad_norm": 0.20029279589653015,
      "learning_rate": 2.626447018267586e-06,
      "loss": 0.4782,
      "num_input_tokens_seen": 24211752,
      "step": 37040
    },
    {
      "epoch": 19.415618448637318,
      "grad_norm": 0.2647962272167206,
      "learning_rate": 2.603090074607184e-06,
      "loss": 0.362,
      "num_input_tokens_seen": 24213992,
      "step": 37045
    },
    {
      "epoch": 19.41823899371069,
      "grad_norm": 0.1592869758605957,
      "learning_rate": 2.579837180705813e-06,
      "loss": 0.4676,
      "num_input_tokens_seen": 24216584,
      "step": 37050
    },
    {
      "epoch": 19.420859538784068,
      "grad_norm": 0.29370614886283875,
      "learning_rate": 2.556688341427582e-06,
      "loss": 0.3894,
      "num_input_tokens_seen": 24219336,
      "step": 37055
    },
    {
      "epoch": 19.42348008385744,
      "grad_norm": 0.3878040015697479,
      "learning_rate": 2.5336435616150066e-06,
      "loss": 0.3847,
      "num_input_tokens_seen": 24222024,
      "step": 37060
    },
    {
      "epoch": 19.42610062893082,
      "grad_norm": 0.20486710965633392,
      "learning_rate": 2.510702846088786e-06,
      "loss": 0.4235,
      "num_input_tokens_seen": 24225384,
      "step": 37065
    },
    {
      "epoch": 19.428721174004192,
      "grad_norm": 0.18920506536960602,
      "learning_rate": 2.487866199647915e-06,
      "loss": 0.3993,
      "num_input_tokens_seen": 24228232,
      "step": 37070
    },
    {
      "epoch": 19.43134171907757,
      "grad_norm": 0.24812690913677216,
      "learning_rate": 2.4651336270695156e-06,
      "loss": 0.4651,
      "num_input_tokens_seen": 24231432,
      "step": 37075
    },
    {
      "epoch": 19.433962264150942,
      "grad_norm": 0.11370860785245895,
      "learning_rate": 2.442505133108952e-06,
      "loss": 0.3731,
      "num_input_tokens_seen": 24234952,
      "step": 37080
    },
    {
      "epoch": 19.43658280922432,
      "grad_norm": 0.15607693791389465,
      "learning_rate": 2.419980722499937e-06,
      "loss": 0.3762,
      "num_input_tokens_seen": 24237768,
      "step": 37085
    },
    {
      "epoch": 19.439203354297693,
      "grad_norm": 0.10575183480978012,
      "learning_rate": 2.397560399954202e-06,
      "loss": 0.4738,
      "num_input_tokens_seen": 24241032,
      "step": 37090
    },
    {
      "epoch": 19.44182389937107,
      "grad_norm": 0.09379535913467407,
      "learning_rate": 2.3752441701618833e-06,
      "loss": 0.4751,
      "num_input_tokens_seen": 24245416,
      "step": 37095
    },
    {
      "epoch": 19.444444444444443,
      "grad_norm": 0.3775489032268524,
      "learning_rate": 2.3530320377913027e-06,
      "loss": 0.5081,
      "num_input_tokens_seen": 24249128,
      "step": 37100
    },
    {
      "epoch": 19.44706498951782,
      "grad_norm": 0.13740196824073792,
      "learning_rate": 2.3309240074890213e-06,
      "loss": 0.3887,
      "num_input_tokens_seen": 24252200,
      "step": 37105
    },
    {
      "epoch": 19.449685534591197,
      "grad_norm": 0.0961003303527832,
      "learning_rate": 2.3089200838796176e-06,
      "loss": 0.4137,
      "num_input_tokens_seen": 24255112,
      "step": 37110
    },
    {
      "epoch": 19.45230607966457,
      "grad_norm": 0.14983932673931122,
      "learning_rate": 2.2870202715662426e-06,
      "loss": 0.5577,
      "num_input_tokens_seen": 24258504,
      "step": 37115
    },
    {
      "epoch": 19.454926624737947,
      "grad_norm": 0.23691260814666748,
      "learning_rate": 2.265224575130009e-06,
      "loss": 0.468,
      "num_input_tokens_seen": 24260776,
      "step": 37120
    },
    {
      "epoch": 19.45754716981132,
      "grad_norm": 0.22804079949855804,
      "learning_rate": 2.2435329991303268e-06,
      "loss": 0.3667,
      "num_input_tokens_seen": 24263976,
      "step": 37125
    },
    {
      "epoch": 19.460167714884697,
      "grad_norm": 0.19504332542419434,
      "learning_rate": 2.2219455481047868e-06,
      "loss": 0.4239,
      "num_input_tokens_seen": 24267144,
      "step": 37130
    },
    {
      "epoch": 19.46278825995807,
      "grad_norm": 0.12743820250034332,
      "learning_rate": 2.2004622265693886e-06,
      "loss": 0.3955,
      "num_input_tokens_seen": 24270312,
      "step": 37135
    },
    {
      "epoch": 19.465408805031448,
      "grad_norm": 0.17141401767730713,
      "learning_rate": 2.179083039018037e-06,
      "loss": 0.3631,
      "num_input_tokens_seen": 24274632,
      "step": 37140
    },
    {
      "epoch": 19.46802935010482,
      "grad_norm": 0.2148926854133606,
      "learning_rate": 2.157807989923044e-06,
      "loss": 0.5592,
      "num_input_tokens_seen": 24279144,
      "step": 37145
    },
    {
      "epoch": 19.470649895178198,
      "grad_norm": 0.2853589653968811,
      "learning_rate": 2.1366370837349603e-06,
      "loss": 0.4937,
      "num_input_tokens_seen": 24282024,
      "step": 37150
    },
    {
      "epoch": 19.47327044025157,
      "grad_norm": 0.3998831808567047,
      "learning_rate": 2.1155703248825207e-06,
      "loss": 0.4774,
      "num_input_tokens_seen": 24285288,
      "step": 37155
    },
    {
      "epoch": 19.47589098532495,
      "grad_norm": 0.1349078118801117,
      "learning_rate": 2.094607717772534e-06,
      "loss": 0.3507,
      "num_input_tokens_seen": 24289384,
      "step": 37160
    },
    {
      "epoch": 19.478511530398322,
      "grad_norm": 0.28907108306884766,
      "learning_rate": 2.0737492667902702e-06,
      "loss": 0.5574,
      "num_input_tokens_seen": 24291848,
      "step": 37165
    },
    {
      "epoch": 19.4811320754717,
      "grad_norm": 0.16461066901683807,
      "learning_rate": 2.0529949762989608e-06,
      "loss": 0.3392,
      "num_input_tokens_seen": 24296296,
      "step": 37170
    },
    {
      "epoch": 19.483752620545072,
      "grad_norm": 0.1494234800338745,
      "learning_rate": 2.032344850640244e-06,
      "loss": 0.6421,
      "num_input_tokens_seen": 24299176,
      "step": 37175
    },
    {
      "epoch": 19.48637316561845,
      "grad_norm": 0.1340494304895401,
      "learning_rate": 2.011798894133887e-06,
      "loss": 0.3478,
      "num_input_tokens_seen": 24302216,
      "step": 37180
    },
    {
      "epoch": 19.488993710691823,
      "grad_norm": 0.15921513736248016,
      "learning_rate": 1.9913571110777852e-06,
      "loss": 0.4879,
      "num_input_tokens_seen": 24304648,
      "step": 37185
    },
    {
      "epoch": 19.4916142557652,
      "grad_norm": 0.23289506137371063,
      "learning_rate": 1.971019505748295e-06,
      "loss": 0.4048,
      "num_input_tokens_seen": 24308712,
      "step": 37190
    },
    {
      "epoch": 19.494234800838573,
      "grad_norm": 0.2076767385005951,
      "learning_rate": 1.9507860823996803e-06,
      "loss": 0.3907,
      "num_input_tokens_seen": 24312072,
      "step": 37195
    },
    {
      "epoch": 19.49685534591195,
      "grad_norm": 0.061192501336336136,
      "learning_rate": 1.9306568452645e-06,
      "loss": 0.3334,
      "num_input_tokens_seen": 24318312,
      "step": 37200
    },
    {
      "epoch": 19.499475890985323,
      "grad_norm": 0.16054211556911469,
      "learning_rate": 1.910631798553664e-06,
      "loss": 0.4516,
      "num_input_tokens_seen": 24321128,
      "step": 37205
    },
    {
      "epoch": 19.5020964360587,
      "grad_norm": 0.1259617954492569,
      "learning_rate": 1.8907109464562088e-06,
      "loss": 0.3761,
      "num_input_tokens_seen": 24324392,
      "step": 37210
    },
    {
      "epoch": 19.504716981132077,
      "grad_norm": 0.8562985062599182,
      "learning_rate": 1.870894293139247e-06,
      "loss": 0.5486,
      "num_input_tokens_seen": 24327560,
      "step": 37215
    },
    {
      "epoch": 19.50733752620545,
      "grad_norm": 0.1405588537454605,
      "learning_rate": 1.8511818427482396e-06,
      "loss": 0.5165,
      "num_input_tokens_seen": 24330504,
      "step": 37220
    },
    {
      "epoch": 19.509958071278827,
      "grad_norm": 0.12800490856170654,
      "learning_rate": 1.8315735994068327e-06,
      "loss": 0.3418,
      "num_input_tokens_seen": 24333800,
      "step": 37225
    },
    {
      "epoch": 19.5125786163522,
      "grad_norm": 0.1677141636610031,
      "learning_rate": 1.8120695672168009e-06,
      "loss": 0.4135,
      "num_input_tokens_seen": 24336264,
      "step": 37230
    },
    {
      "epoch": 19.515199161425578,
      "grad_norm": 0.2576335668563843,
      "learning_rate": 1.792669750258158e-06,
      "loss": 0.4924,
      "num_input_tokens_seen": 24338696,
      "step": 37235
    },
    {
      "epoch": 19.51781970649895,
      "grad_norm": 0.23448412120342255,
      "learning_rate": 1.7733741525892134e-06,
      "loss": 0.3953,
      "num_input_tokens_seen": 24342056,
      "step": 37240
    },
    {
      "epoch": 19.520440251572328,
      "grad_norm": 0.15068981051445007,
      "learning_rate": 1.7541827782462937e-06,
      "loss": 0.4289,
      "num_input_tokens_seen": 24345480,
      "step": 37245
    },
    {
      "epoch": 19.5230607966457,
      "grad_norm": 0.12734735012054443,
      "learning_rate": 1.7350956312440768e-06,
      "loss": 0.4451,
      "num_input_tokens_seen": 24348680,
      "step": 37250
    },
    {
      "epoch": 19.52568134171908,
      "grad_norm": 0.07889728248119354,
      "learning_rate": 1.716112715575313e-06,
      "loss": 0.3622,
      "num_input_tokens_seen": 24351624,
      "step": 37255
    },
    {
      "epoch": 19.528301886792452,
      "grad_norm": 0.10100677609443665,
      "learning_rate": 1.6972340352110481e-06,
      "loss": 0.4577,
      "num_input_tokens_seen": 24356552,
      "step": 37260
    },
    {
      "epoch": 19.53092243186583,
      "grad_norm": 0.18039365112781525,
      "learning_rate": 1.6784595941004565e-06,
      "loss": 0.3952,
      "num_input_tokens_seen": 24359688,
      "step": 37265
    },
    {
      "epoch": 19.533542976939202,
      "grad_norm": 0.12278559803962708,
      "learning_rate": 1.659789396171063e-06,
      "loss": 0.4254,
      "num_input_tokens_seen": 24364328,
      "step": 37270
    },
    {
      "epoch": 19.53616352201258,
      "grad_norm": 0.1543850302696228,
      "learning_rate": 1.6412234453282993e-06,
      "loss": 0.2804,
      "num_input_tokens_seen": 24367752,
      "step": 37275
    },
    {
      "epoch": 19.538784067085953,
      "grad_norm": 0.13718906044960022,
      "learning_rate": 1.622761745456003e-06,
      "loss": 0.4586,
      "num_input_tokens_seen": 24371208,
      "step": 37280
    },
    {
      "epoch": 19.54140461215933,
      "grad_norm": 0.18786685168743134,
      "learning_rate": 1.6044043004161958e-06,
      "loss": 0.3335,
      "num_input_tokens_seen": 24374824,
      "step": 37285
    },
    {
      "epoch": 19.544025157232703,
      "grad_norm": 0.12267272174358368,
      "learning_rate": 1.5861511140489725e-06,
      "loss": 0.3477,
      "num_input_tokens_seen": 24378408,
      "step": 37290
    },
    {
      "epoch": 19.54664570230608,
      "grad_norm": 0.24478581547737122,
      "learning_rate": 1.5680021901727237e-06,
      "loss": 0.5121,
      "num_input_tokens_seen": 24381160,
      "step": 37295
    },
    {
      "epoch": 19.549266247379457,
      "grad_norm": 0.15974465012550354,
      "learning_rate": 1.5499575325840232e-06,
      "loss": 0.5809,
      "num_input_tokens_seen": 24384072,
      "step": 37300
    },
    {
      "epoch": 19.55188679245283,
      "grad_norm": 0.24985471367835999,
      "learning_rate": 1.5320171450576293e-06,
      "loss": 0.3501,
      "num_input_tokens_seen": 24386952,
      "step": 37305
    },
    {
      "epoch": 19.554507337526207,
      "grad_norm": 0.11714424937963486,
      "learning_rate": 1.5141810313463733e-06,
      "loss": 0.3829,
      "num_input_tokens_seen": 24390600,
      "step": 37310
    },
    {
      "epoch": 19.55712788259958,
      "grad_norm": 0.1333543211221695,
      "learning_rate": 1.4964491951814374e-06,
      "loss": 0.4278,
      "num_input_tokens_seen": 24393416,
      "step": 37315
    },
    {
      "epoch": 19.559748427672957,
      "grad_norm": 0.16721504926681519,
      "learning_rate": 1.4788216402720766e-06,
      "loss": 0.3931,
      "num_input_tokens_seen": 24396328,
      "step": 37320
    },
    {
      "epoch": 19.56236897274633,
      "grad_norm": 0.08683401346206665,
      "learning_rate": 1.4612983703058413e-06,
      "loss": 0.3509,
      "num_input_tokens_seen": 24404040,
      "step": 37325
    },
    {
      "epoch": 19.564989517819708,
      "grad_norm": 0.13366977870464325,
      "learning_rate": 1.4438793889483549e-06,
      "loss": 0.4695,
      "num_input_tokens_seen": 24407304,
      "step": 37330
    },
    {
      "epoch": 19.56761006289308,
      "grad_norm": 0.1258632391691208,
      "learning_rate": 1.4265646998434246e-06,
      "loss": 0.5405,
      "num_input_tokens_seen": 24411496,
      "step": 37335
    },
    {
      "epoch": 19.570230607966458,
      "grad_norm": 0.20254181325435638,
      "learning_rate": 1.409354306613153e-06,
      "loss": 0.3969,
      "num_input_tokens_seen": 24414280,
      "step": 37340
    },
    {
      "epoch": 19.57285115303983,
      "grad_norm": 0.1547592431306839,
      "learning_rate": 1.3922482128577718e-06,
      "loss": 0.3031,
      "num_input_tokens_seen": 24417352,
      "step": 37345
    },
    {
      "epoch": 19.57547169811321,
      "grad_norm": 0.2711334228515625,
      "learning_rate": 1.3752464221556404e-06,
      "loss": 0.486,
      "num_input_tokens_seen": 24421192,
      "step": 37350
    },
    {
      "epoch": 19.578092243186582,
      "grad_norm": 0.14406883716583252,
      "learning_rate": 1.358348938063303e-06,
      "loss": 0.4518,
      "num_input_tokens_seen": 24424744,
      "step": 37355
    },
    {
      "epoch": 19.58071278825996,
      "grad_norm": 0.13760274648666382,
      "learning_rate": 1.341555764115543e-06,
      "loss": 0.421,
      "num_input_tokens_seen": 24427592,
      "step": 37360
    },
    {
      "epoch": 19.583333333333332,
      "grad_norm": 0.15138202905654907,
      "learning_rate": 1.3248669038253835e-06,
      "loss": 0.5315,
      "num_input_tokens_seen": 24430600,
      "step": 37365
    },
    {
      "epoch": 19.58595387840671,
      "grad_norm": 0.17294904589653015,
      "learning_rate": 1.3082823606838656e-06,
      "loss": 0.4185,
      "num_input_tokens_seen": 24433160,
      "step": 37370
    },
    {
      "epoch": 19.588574423480082,
      "grad_norm": 0.18860949575901031,
      "learning_rate": 1.2918021381603251e-06,
      "loss": 0.5421,
      "num_input_tokens_seen": 24435656,
      "step": 37375
    },
    {
      "epoch": 19.59119496855346,
      "grad_norm": 0.19109679758548737,
      "learning_rate": 1.275426239702171e-06,
      "loss": 0.4772,
      "num_input_tokens_seen": 24438440,
      "step": 37380
    },
    {
      "epoch": 19.593815513626833,
      "grad_norm": 0.1195802241563797,
      "learning_rate": 1.2591546687351073e-06,
      "loss": 0.4145,
      "num_input_tokens_seen": 24441416,
      "step": 37385
    },
    {
      "epoch": 19.59643605870021,
      "grad_norm": 0.18662205338478088,
      "learning_rate": 1.2429874286629673e-06,
      "loss": 0.3301,
      "num_input_tokens_seen": 24444328,
      "step": 37390
    },
    {
      "epoch": 19.599056603773583,
      "grad_norm": 0.3376014530658722,
      "learning_rate": 1.2269245228677116e-06,
      "loss": 0.3636,
      "num_input_tokens_seen": 24446472,
      "step": 37395
    },
    {
      "epoch": 19.60167714884696,
      "grad_norm": 0.1667160540819168,
      "learning_rate": 1.210965954709542e-06,
      "loss": 0.4631,
      "num_input_tokens_seen": 24449544,
      "step": 37400
    },
    {
      "epoch": 19.604297693920337,
      "grad_norm": 0.1563260406255722,
      "learning_rate": 1.1951117275268431e-06,
      "loss": 0.4433,
      "num_input_tokens_seen": 24452776,
      "step": 37405
    },
    {
      "epoch": 19.60691823899371,
      "grad_norm": 0.12430206686258316,
      "learning_rate": 1.1793618446360732e-06,
      "loss": 0.4314,
      "num_input_tokens_seen": 24455560,
      "step": 37410
    },
    {
      "epoch": 19.609538784067087,
      "grad_norm": 0.2364835888147354,
      "learning_rate": 1.1637163093319303e-06,
      "loss": 0.4427,
      "num_input_tokens_seen": 24458408,
      "step": 37415
    },
    {
      "epoch": 19.61215932914046,
      "grad_norm": 0.18541818857192993,
      "learning_rate": 1.1481751248874072e-06,
      "loss": 0.3581,
      "num_input_tokens_seen": 24461576,
      "step": 37420
    },
    {
      "epoch": 19.614779874213838,
      "grad_norm": 0.1579323261976242,
      "learning_rate": 1.1327382945533482e-06,
      "loss": 0.4374,
      "num_input_tokens_seen": 24464840,
      "step": 37425
    },
    {
      "epoch": 19.61740041928721,
      "grad_norm": 0.2266722321510315,
      "learning_rate": 1.1174058215591143e-06,
      "loss": 0.411,
      "num_input_tokens_seen": 24468200,
      "step": 37430
    },
    {
      "epoch": 19.620020964360588,
      "grad_norm": 0.1647244393825531,
      "learning_rate": 1.1021777091119732e-06,
      "loss": 0.4785,
      "num_input_tokens_seen": 24471176,
      "step": 37435
    },
    {
      "epoch": 19.62264150943396,
      "grad_norm": 0.11945312470197678,
      "learning_rate": 1.0870539603975994e-06,
      "loss": 0.3091,
      "num_input_tokens_seen": 24473960,
      "step": 37440
    },
    {
      "epoch": 19.62526205450734,
      "grad_norm": 0.21278703212738037,
      "learning_rate": 1.0720345785795727e-06,
      "loss": 0.324,
      "num_input_tokens_seen": 24476776,
      "step": 37445
    },
    {
      "epoch": 19.627882599580712,
      "grad_norm": 0.10310468822717667,
      "learning_rate": 1.0571195667998802e-06,
      "loss": 0.4766,
      "num_input_tokens_seen": 24480456,
      "step": 37450
    },
    {
      "epoch": 19.63050314465409,
      "grad_norm": 0.2579324245452881,
      "learning_rate": 1.042308928178526e-06,
      "loss": 0.2984,
      "num_input_tokens_seen": 24483400,
      "step": 37455
    },
    {
      "epoch": 19.633123689727462,
      "grad_norm": 0.1541488766670227,
      "learning_rate": 1.0276026658137538e-06,
      "loss": 0.5813,
      "num_input_tokens_seen": 24486536,
      "step": 37460
    },
    {
      "epoch": 19.63574423480084,
      "grad_norm": 0.11815927922725677,
      "learning_rate": 1.013000782781881e-06,
      "loss": 0.3312,
      "num_input_tokens_seen": 24490056,
      "step": 37465
    },
    {
      "epoch": 19.638364779874212,
      "grad_norm": 0.16517373919487,
      "learning_rate": 9.985032821375195e-07,
      "loss": 0.4263,
      "num_input_tokens_seen": 24493160,
      "step": 37470
    },
    {
      "epoch": 19.64098532494759,
      "grad_norm": 0.21902228891849518,
      "learning_rate": 9.841101669134101e-07,
      "loss": 0.5078,
      "num_input_tokens_seen": 24496200,
      "step": 37475
    },
    {
      "epoch": 19.643605870020963,
      "grad_norm": 0.12183684855699539,
      "learning_rate": 9.69821440120311e-07,
      "loss": 0.3393,
      "num_input_tokens_seen": 24500680,
      "step": 37480
    },
    {
      "epoch": 19.64622641509434,
      "grad_norm": 0.19091136753559113,
      "learning_rate": 9.556371047473866e-07,
      "loss": 0.6377,
      "num_input_tokens_seen": 24503720,
      "step": 37485
    },
    {
      "epoch": 19.648846960167717,
      "grad_norm": 0.1793806403875351,
      "learning_rate": 9.415571637617082e-07,
      "loss": 0.467,
      "num_input_tokens_seen": 24506440,
      "step": 37490
    },
    {
      "epoch": 19.65146750524109,
      "grad_norm": 0.1797504425048828,
      "learning_rate": 9.275816201087528e-07,
      "loss": 0.473,
      "num_input_tokens_seen": 24509384,
      "step": 37495
    },
    {
      "epoch": 19.654088050314467,
      "grad_norm": 0.09962619841098785,
      "learning_rate": 9.137104767120153e-07,
      "loss": 0.406,
      "num_input_tokens_seen": 24511720,
      "step": 37500
    },
    {
      "epoch": 19.65670859538784,
      "grad_norm": 0.13605725765228271,
      "learning_rate": 8.999437364731189e-07,
      "loss": 0.4306,
      "num_input_tokens_seen": 24514472,
      "step": 37505
    },
    {
      "epoch": 19.659329140461217,
      "grad_norm": 0.10821583122015,
      "learning_rate": 8.862814022720378e-07,
      "loss": 0.4088,
      "num_input_tokens_seen": 24517224,
      "step": 37510
    },
    {
      "epoch": 19.66194968553459,
      "grad_norm": 0.17120683193206787,
      "learning_rate": 8.727234769666526e-07,
      "loss": 0.3988,
      "num_input_tokens_seen": 24519944,
      "step": 37515
    },
    {
      "epoch": 19.664570230607968,
      "grad_norm": 0.1788930743932724,
      "learning_rate": 8.592699633931389e-07,
      "loss": 0.4664,
      "num_input_tokens_seen": 24524840,
      "step": 37520
    },
    {
      "epoch": 19.66719077568134,
      "grad_norm": 0.09448730945587158,
      "learning_rate": 8.459208643659122e-07,
      "loss": 0.4163,
      "num_input_tokens_seen": 24527912,
      "step": 37525
    },
    {
      "epoch": 19.669811320754718,
      "grad_norm": 0.17803531885147095,
      "learning_rate": 8.326761826773499e-07,
      "loss": 0.311,
      "num_input_tokens_seen": 24530696,
      "step": 37530
    },
    {
      "epoch": 19.67243186582809,
      "grad_norm": 0.18573962152004242,
      "learning_rate": 8.195359210981246e-07,
      "loss": 0.2883,
      "num_input_tokens_seen": 24533256,
      "step": 37535
    },
    {
      "epoch": 19.67505241090147,
      "grad_norm": 0.18374238908290863,
      "learning_rate": 8.065000823770929e-07,
      "loss": 0.4712,
      "num_input_tokens_seen": 24536552,
      "step": 37540
    },
    {
      "epoch": 19.677672955974842,
      "grad_norm": 0.12477029860019684,
      "learning_rate": 7.935686692410737e-07,
      "loss": 0.4138,
      "num_input_tokens_seen": 24539464,
      "step": 37545
    },
    {
      "epoch": 19.68029350104822,
      "grad_norm": 0.1687752604484558,
      "learning_rate": 7.807416843952364e-07,
      "loss": 0.3604,
      "num_input_tokens_seen": 24542312,
      "step": 37550
    },
    {
      "epoch": 19.682914046121592,
      "grad_norm": 0.2515292763710022,
      "learning_rate": 7.68019130522879e-07,
      "loss": 0.3944,
      "num_input_tokens_seen": 24546056,
      "step": 37555
    },
    {
      "epoch": 19.68553459119497,
      "grad_norm": 0.14906717836856842,
      "learning_rate": 7.554010102853726e-07,
      "loss": 0.4084,
      "num_input_tokens_seen": 24549512,
      "step": 37560
    },
    {
      "epoch": 19.688155136268342,
      "grad_norm": 0.17897722125053406,
      "learning_rate": 7.428873263223279e-07,
      "loss": 0.3878,
      "num_input_tokens_seen": 24553000,
      "step": 37565
    },
    {
      "epoch": 19.69077568134172,
      "grad_norm": 0.12632235884666443,
      "learning_rate": 7.304780812513734e-07,
      "loss": 0.6523,
      "num_input_tokens_seen": 24555944,
      "step": 37570
    },
    {
      "epoch": 19.693396226415093,
      "grad_norm": 0.21861177682876587,
      "learning_rate": 7.181732776684325e-07,
      "loss": 0.323,
      "num_input_tokens_seen": 24558600,
      "step": 37575
    },
    {
      "epoch": 19.69601677148847,
      "grad_norm": 0.20004218816757202,
      "learning_rate": 7.059729181475572e-07,
      "loss": 0.4016,
      "num_input_tokens_seen": 24562440,
      "step": 37580
    },
    {
      "epoch": 19.698637316561843,
      "grad_norm": 0.10725581645965576,
      "learning_rate": 6.938770052409282e-07,
      "loss": 0.4226,
      "num_input_tokens_seen": 24565736,
      "step": 37585
    },
    {
      "epoch": 19.70125786163522,
      "grad_norm": 0.17167215049266815,
      "learning_rate": 6.81885541478855e-07,
      "loss": 0.4237,
      "num_input_tokens_seen": 24569064,
      "step": 37590
    },
    {
      "epoch": 19.703878406708597,
      "grad_norm": 0.1757494956254959,
      "learning_rate": 6.699985293697197e-07,
      "loss": 0.4337,
      "num_input_tokens_seen": 24572584,
      "step": 37595
    },
    {
      "epoch": 19.70649895178197,
      "grad_norm": 0.17818930745124817,
      "learning_rate": 6.582159714003111e-07,
      "loss": 0.5579,
      "num_input_tokens_seen": 24575240,
      "step": 37600
    },
    {
      "epoch": 19.709119496855347,
      "grad_norm": 0.15712366998195648,
      "learning_rate": 6.465378700352687e-07,
      "loss": 0.6012,
      "num_input_tokens_seen": 24578408,
      "step": 37605
    },
    {
      "epoch": 19.71174004192872,
      "grad_norm": 0.2837543487548828,
      "learning_rate": 6.349642277176382e-07,
      "loss": 0.3807,
      "num_input_tokens_seen": 24581064,
      "step": 37610
    },
    {
      "epoch": 19.714360587002098,
      "grad_norm": 0.20833289623260498,
      "learning_rate": 6.23495046868372e-07,
      "loss": 0.3864,
      "num_input_tokens_seen": 24584200,
      "step": 37615
    },
    {
      "epoch": 19.71698113207547,
      "grad_norm": 0.14021815359592438,
      "learning_rate": 6.121303298868286e-07,
      "loss": 0.5071,
      "num_input_tokens_seen": 24587400,
      "step": 37620
    },
    {
      "epoch": 19.719601677148848,
      "grad_norm": 0.1669471263885498,
      "learning_rate": 6.008700791502175e-07,
      "loss": 0.3226,
      "num_input_tokens_seen": 24590088,
      "step": 37625
    },
    {
      "epoch": 19.72222222222222,
      "grad_norm": 0.21015655994415283,
      "learning_rate": 5.8971429701421e-07,
      "loss": 0.5371,
      "num_input_tokens_seen": 24593064,
      "step": 37630
    },
    {
      "epoch": 19.7248427672956,
      "grad_norm": 0.10507034510374069,
      "learning_rate": 5.786629858123283e-07,
      "loss": 0.4239,
      "num_input_tokens_seen": 24595816,
      "step": 37635
    },
    {
      "epoch": 19.72746331236897,
      "grad_norm": 0.13073725998401642,
      "learning_rate": 5.677161478565008e-07,
      "loss": 0.3303,
      "num_input_tokens_seen": 24598824,
      "step": 37640
    },
    {
      "epoch": 19.73008385744235,
      "grad_norm": 0.18112674355506897,
      "learning_rate": 5.56873785436618e-07,
      "loss": 0.4351,
      "num_input_tokens_seen": 24601480,
      "step": 37645
    },
    {
      "epoch": 19.732704402515722,
      "grad_norm": 0.18962253630161285,
      "learning_rate": 5.4613590082081e-07,
      "loss": 0.3413,
      "num_input_tokens_seen": 24604296,
      "step": 37650
    },
    {
      "epoch": 19.7353249475891,
      "grad_norm": 0.09215930849313736,
      "learning_rate": 5.355024962552801e-07,
      "loss": 0.3528,
      "num_input_tokens_seen": 24607336,
      "step": 37655
    },
    {
      "epoch": 19.737945492662472,
      "grad_norm": 0.08698677271604538,
      "learning_rate": 5.249735739644157e-07,
      "loss": 0.5251,
      "num_input_tokens_seen": 24610984,
      "step": 37660
    },
    {
      "epoch": 19.74056603773585,
      "grad_norm": 0.09408216178417206,
      "learning_rate": 5.145491361508436e-07,
      "loss": 0.3655,
      "num_input_tokens_seen": 24613800,
      "step": 37665
    },
    {
      "epoch": 19.743186582809223,
      "grad_norm": 0.09267228096723557,
      "learning_rate": 5.042291849950975e-07,
      "loss": 0.3494,
      "num_input_tokens_seen": 24617064,
      "step": 37670
    },
    {
      "epoch": 19.7458071278826,
      "grad_norm": 0.12319808453321457,
      "learning_rate": 4.940137226560615e-07,
      "loss": 0.4008,
      "num_input_tokens_seen": 24621416,
      "step": 37675
    },
    {
      "epoch": 19.748427672955973,
      "grad_norm": 0.1218697801232338,
      "learning_rate": 4.839027512706928e-07,
      "loss": 0.4297,
      "num_input_tokens_seen": 24625160,
      "step": 37680
    },
    {
      "epoch": 19.75104821802935,
      "grad_norm": 0.13037694990634918,
      "learning_rate": 4.7389627295407743e-07,
      "loss": 0.3952,
      "num_input_tokens_seen": 24628520,
      "step": 37685
    },
    {
      "epoch": 19.753668763102727,
      "grad_norm": 0.15470418334007263,
      "learning_rate": 4.6399428979948534e-07,
      "loss": 0.5136,
      "num_input_tokens_seen": 24631528,
      "step": 37690
    },
    {
      "epoch": 19.7562893081761,
      "grad_norm": 0.13941757380962372,
      "learning_rate": 4.541968038782596e-07,
      "loss": 0.5129,
      "num_input_tokens_seen": 24634440,
      "step": 37695
    },
    {
      "epoch": 19.758909853249477,
      "grad_norm": 0.1218484416604042,
      "learning_rate": 4.445038172399829e-07,
      "loss": 0.4166,
      "num_input_tokens_seen": 24637704,
      "step": 37700
    },
    {
      "epoch": 19.76153039832285,
      "grad_norm": 0.1997145414352417,
      "learning_rate": 4.3491533191225563e-07,
      "loss": 0.5328,
      "num_input_tokens_seen": 24640776,
      "step": 37705
    },
    {
      "epoch": 19.764150943396228,
      "grad_norm": 0.22055749595165253,
      "learning_rate": 4.254313499009177e-07,
      "loss": 0.3009,
      "num_input_tokens_seen": 24643624,
      "step": 37710
    },
    {
      "epoch": 19.7667714884696,
      "grad_norm": 0.1499493271112442,
      "learning_rate": 4.1605187318982664e-07,
      "loss": 0.4813,
      "num_input_tokens_seen": 24647496,
      "step": 37715
    },
    {
      "epoch": 19.769392033542978,
      "grad_norm": 0.14144381880760193,
      "learning_rate": 4.067769037411906e-07,
      "loss": 0.5472,
      "num_input_tokens_seen": 24651048,
      "step": 37720
    },
    {
      "epoch": 19.77201257861635,
      "grad_norm": 0.183999702334404,
      "learning_rate": 3.9760644349517984e-07,
      "loss": 0.4974,
      "num_input_tokens_seen": 24653736,
      "step": 37725
    },
    {
      "epoch": 19.77463312368973,
      "grad_norm": 0.12918120622634888,
      "learning_rate": 3.885404943700932e-07,
      "loss": 0.4234,
      "num_input_tokens_seen": 24657032,
      "step": 37730
    },
    {
      "epoch": 19.7772536687631,
      "grad_norm": 0.15602974593639374,
      "learning_rate": 3.795790582624692e-07,
      "loss": 0.4165,
      "num_input_tokens_seen": 24660136,
      "step": 37735
    },
    {
      "epoch": 19.77987421383648,
      "grad_norm": 0.12608344852924347,
      "learning_rate": 3.707221370469749e-07,
      "loss": 0.5817,
      "num_input_tokens_seen": 24663048,
      "step": 37740
    },
    {
      "epoch": 19.782494758909852,
      "grad_norm": 0.1215796172618866,
      "learning_rate": 3.6196973257629494e-07,
      "loss": 0.4177,
      "num_input_tokens_seen": 24667016,
      "step": 37745
    },
    {
      "epoch": 19.78511530398323,
      "grad_norm": 0.11971570551395416,
      "learning_rate": 3.533218466813537e-07,
      "loss": 0.4699,
      "num_input_tokens_seen": 24670568,
      "step": 37750
    },
    {
      "epoch": 19.787735849056602,
      "grad_norm": 0.1950521469116211,
      "learning_rate": 3.447784811712595e-07,
      "loss": 0.5017,
      "num_input_tokens_seen": 24674024,
      "step": 37755
    },
    {
      "epoch": 19.79035639412998,
      "grad_norm": 0.20492202043533325,
      "learning_rate": 3.363396378331385e-07,
      "loss": 0.5218,
      "num_input_tokens_seen": 24677320,
      "step": 37760
    },
    {
      "epoch": 19.792976939203353,
      "grad_norm": 0.1289101094007492,
      "learning_rate": 3.280053184323006e-07,
      "loss": 0.3892,
      "num_input_tokens_seen": 24681096,
      "step": 37765
    },
    {
      "epoch": 19.79559748427673,
      "grad_norm": 0.09452322870492935,
      "learning_rate": 3.1977552471218476e-07,
      "loss": 0.4088,
      "num_input_tokens_seen": 24684168,
      "step": 37770
    },
    {
      "epoch": 19.798218029350103,
      "grad_norm": 0.10366865992546082,
      "learning_rate": 3.116502583943581e-07,
      "loss": 0.4162,
      "num_input_tokens_seen": 24687464,
      "step": 37775
    },
    {
      "epoch": 19.80083857442348,
      "grad_norm": 0.16345974802970886,
      "learning_rate": 3.036295211785722e-07,
      "loss": 0.4763,
      "num_input_tokens_seen": 24690920,
      "step": 37780
    },
    {
      "epoch": 19.803459119496857,
      "grad_norm": 0.15845659375190735,
      "learning_rate": 2.957133147425961e-07,
      "loss": 0.2917,
      "num_input_tokens_seen": 24693768,
      "step": 37785
    },
    {
      "epoch": 19.80607966457023,
      "grad_norm": 0.29842105507850647,
      "learning_rate": 2.879016407425494e-07,
      "loss": 0.4666,
      "num_input_tokens_seen": 24696552,
      "step": 37790
    },
    {
      "epoch": 19.808700209643607,
      "grad_norm": 0.18261303007602692,
      "learning_rate": 2.8019450081240295e-07,
      "loss": 0.3854,
      "num_input_tokens_seen": 24699656,
      "step": 37795
    },
    {
      "epoch": 19.81132075471698,
      "grad_norm": 0.1716560572385788,
      "learning_rate": 2.7259189656447803e-07,
      "loss": 0.523,
      "num_input_tokens_seen": 24703496,
      "step": 37800
    },
    {
      "epoch": 19.813941299790358,
      "grad_norm": 0.13437487185001373,
      "learning_rate": 2.650938295891692e-07,
      "loss": 0.5265,
      "num_input_tokens_seen": 24706760,
      "step": 37805
    },
    {
      "epoch": 19.81656184486373,
      "grad_norm": 0.1440759003162384,
      "learning_rate": 2.5770030145494395e-07,
      "loss": 0.4718,
      "num_input_tokens_seen": 24710952,
      "step": 37810
    },
    {
      "epoch": 19.819182389937108,
      "grad_norm": 0.13737615942955017,
      "learning_rate": 2.504113137083985e-07,
      "loss": 0.3008,
      "num_input_tokens_seen": 24714088,
      "step": 37815
    },
    {
      "epoch": 19.82180293501048,
      "grad_norm": 0.33938631415367126,
      "learning_rate": 2.4322686787442425e-07,
      "loss": 0.4357,
      "num_input_tokens_seen": 24717064,
      "step": 37820
    },
    {
      "epoch": 19.82442348008386,
      "grad_norm": 0.4307537078857422,
      "learning_rate": 2.3614696545581904e-07,
      "loss": 0.4739,
      "num_input_tokens_seen": 24720712,
      "step": 37825
    },
    {
      "epoch": 19.82704402515723,
      "grad_norm": 0.23510834574699402,
      "learning_rate": 2.2917160793367585e-07,
      "loss": 0.5889,
      "num_input_tokens_seen": 24723560,
      "step": 37830
    },
    {
      "epoch": 19.82966457023061,
      "grad_norm": 0.1375724822282791,
      "learning_rate": 2.2230079676716086e-07,
      "loss": 0.5961,
      "num_input_tokens_seen": 24731656,
      "step": 37835
    },
    {
      "epoch": 19.832285115303982,
      "grad_norm": 0.2460756003856659,
      "learning_rate": 2.1553453339356875e-07,
      "loss": 0.5965,
      "num_input_tokens_seen": 24734280,
      "step": 37840
    },
    {
      "epoch": 19.83490566037736,
      "grad_norm": 0.5089045763015747,
      "learning_rate": 2.0887281922826738e-07,
      "loss": 0.5538,
      "num_input_tokens_seen": 24736840,
      "step": 37845
    },
    {
      "epoch": 19.837526205450732,
      "grad_norm": 0.10199583321809769,
      "learning_rate": 2.023156556648642e-07,
      "loss": 0.4096,
      "num_input_tokens_seen": 24740200,
      "step": 37850
    },
    {
      "epoch": 19.84014675052411,
      "grad_norm": 0.1527319699525833,
      "learning_rate": 1.9586304407503975e-07,
      "loss": 0.3832,
      "num_input_tokens_seen": 24743592,
      "step": 37855
    },
    {
      "epoch": 19.842767295597483,
      "grad_norm": 0.26362496614456177,
      "learning_rate": 1.8951498580860315e-07,
      "loss": 0.4265,
      "num_input_tokens_seen": 24746344,
      "step": 37860
    },
    {
      "epoch": 19.84538784067086,
      "grad_norm": 0.18097157776355743,
      "learning_rate": 1.832714821934922e-07,
      "loss": 0.3267,
      "num_input_tokens_seen": 24748712,
      "step": 37865
    },
    {
      "epoch": 19.848008385744233,
      "grad_norm": 0.18192294239997864,
      "learning_rate": 1.7713253453577328e-07,
      "loss": 0.4211,
      "num_input_tokens_seen": 24752264,
      "step": 37870
    },
    {
      "epoch": 19.85062893081761,
      "grad_norm": 0.2020280808210373,
      "learning_rate": 1.7109814411964132e-07,
      "loss": 0.3519,
      "num_input_tokens_seen": 24755816,
      "step": 37875
    },
    {
      "epoch": 19.853249475890987,
      "grad_norm": 0.1940641701221466,
      "learning_rate": 1.651683122074754e-07,
      "loss": 0.4483,
      "num_input_tokens_seen": 24758792,
      "step": 37880
    },
    {
      "epoch": 19.85587002096436,
      "grad_norm": 0.11001328378915787,
      "learning_rate": 1.5934304003961675e-07,
      "loss": 0.405,
      "num_input_tokens_seen": 24762504,
      "step": 37885
    },
    {
      "epoch": 19.858490566037737,
      "grad_norm": 0.15939489006996155,
      "learning_rate": 1.5362232883475713e-07,
      "loss": 0.532,
      "num_input_tokens_seen": 24766760,
      "step": 37890
    },
    {
      "epoch": 19.86111111111111,
      "grad_norm": 0.21643295884132385,
      "learning_rate": 1.4800617978949492e-07,
      "loss": 0.4646,
      "num_input_tokens_seen": 24770536,
      "step": 37895
    },
    {
      "epoch": 19.863731656184488,
      "grad_norm": 0.15023808181285858,
      "learning_rate": 1.424945940787792e-07,
      "loss": 0.3832,
      "num_input_tokens_seen": 24773960,
      "step": 37900
    },
    {
      "epoch": 19.86635220125786,
      "grad_norm": 0.1306849718093872,
      "learning_rate": 1.3708757285552098e-07,
      "loss": 0.3774,
      "num_input_tokens_seen": 24776744,
      "step": 37905
    },
    {
      "epoch": 19.868972746331238,
      "grad_norm": 0.13070817291736603,
      "learning_rate": 1.3178511725076004e-07,
      "loss": 0.4528,
      "num_input_tokens_seen": 24781128,
      "step": 37910
    },
    {
      "epoch": 19.87159329140461,
      "grad_norm": 0.11883155256509781,
      "learning_rate": 1.265872283738312e-07,
      "loss": 0.352,
      "num_input_tokens_seen": 24784072,
      "step": 37915
    },
    {
      "epoch": 19.87421383647799,
      "grad_norm": 0.18758776783943176,
      "learning_rate": 1.2149390731192033e-07,
      "loss": 0.4924,
      "num_input_tokens_seen": 24787304,
      "step": 37920
    },
    {
      "epoch": 19.87683438155136,
      "grad_norm": 0.3087802529335022,
      "learning_rate": 1.1650515513061955e-07,
      "loss": 0.3693,
      "num_input_tokens_seen": 24790216,
      "step": 37925
    },
    {
      "epoch": 19.87945492662474,
      "grad_norm": 0.13126437366008759,
      "learning_rate": 1.1162097287342743e-07,
      "loss": 0.4535,
      "num_input_tokens_seen": 24794024,
      "step": 37930
    },
    {
      "epoch": 19.882075471698112,
      "grad_norm": 0.2845197021961212,
      "learning_rate": 1.0684136156213775e-07,
      "loss": 0.3824,
      "num_input_tokens_seen": 24797032,
      "step": 37935
    },
    {
      "epoch": 19.88469601677149,
      "grad_norm": 0.17391693592071533,
      "learning_rate": 1.0216632219650634e-07,
      "loss": 0.3938,
      "num_input_tokens_seen": 24799592,
      "step": 37940
    },
    {
      "epoch": 19.887316561844862,
      "grad_norm": 0.27383798360824585,
      "learning_rate": 9.759585575458418e-08,
      "loss": 0.4282,
      "num_input_tokens_seen": 24803944,
      "step": 37945
    },
    {
      "epoch": 19.88993710691824,
      "grad_norm": 0.13359957933425903,
      "learning_rate": 9.312996319238432e-08,
      "loss": 0.4931,
      "num_input_tokens_seen": 24807816,
      "step": 37950
    },
    {
      "epoch": 19.892557651991613,
      "grad_norm": 0.25477591156959534,
      "learning_rate": 8.876864544421493e-08,
      "loss": 0.3678,
      "num_input_tokens_seen": 24811272,
      "step": 37955
    },
    {
      "epoch": 19.89517819706499,
      "grad_norm": 0.14744751155376434,
      "learning_rate": 8.451190342229077e-08,
      "loss": 0.4043,
      "num_input_tokens_seen": 24815048,
      "step": 37960
    },
    {
      "epoch": 19.897798742138363,
      "grad_norm": 0.12300986796617508,
      "learning_rate": 8.035973801717722e-08,
      "loss": 0.4652,
      "num_input_tokens_seen": 24818120,
      "step": 37965
    },
    {
      "epoch": 19.90041928721174,
      "grad_norm": 0.16781003773212433,
      "learning_rate": 7.631215009740178e-08,
      "loss": 0.4063,
      "num_input_tokens_seen": 24822280,
      "step": 37970
    },
    {
      "epoch": 19.903039832285117,
      "grad_norm": 0.09525255113840103,
      "learning_rate": 7.236914050973153e-08,
      "loss": 0.4406,
      "num_input_tokens_seen": 24826568,
      "step": 37975
    },
    {
      "epoch": 19.90566037735849,
      "grad_norm": 0.12682579457759857,
      "learning_rate": 6.853071007895117e-08,
      "loss": 0.4266,
      "num_input_tokens_seen": 24829768,
      "step": 37980
    },
    {
      "epoch": 19.908280922431867,
      "grad_norm": 0.44631996750831604,
      "learning_rate": 6.479685960797399e-08,
      "loss": 0.3858,
      "num_input_tokens_seen": 24832392,
      "step": 37985
    },
    {
      "epoch": 19.91090146750524,
      "grad_norm": 0.28614091873168945,
      "learning_rate": 6.116758987800841e-08,
      "loss": 0.5286,
      "num_input_tokens_seen": 24834856,
      "step": 37990
    },
    {
      "epoch": 19.913522012578618,
      "grad_norm": 0.09459862858057022,
      "learning_rate": 5.7642901648113924e-08,
      "loss": 0.5922,
      "num_input_tokens_seen": 24838248,
      "step": 37995
    },
    {
      "epoch": 19.91614255765199,
      "grad_norm": 0.16018067300319672,
      "learning_rate": 5.422279565570065e-08,
      "loss": 0.3673,
      "num_input_tokens_seen": 24841864,
      "step": 38000
    },
    {
      "epoch": 19.918763102725368,
      "grad_norm": 0.19829818606376648,
      "learning_rate": 5.090727261619632e-08,
      "loss": 0.397,
      "num_input_tokens_seen": 24844776,
      "step": 38005
    },
    {
      "epoch": 19.92138364779874,
      "grad_norm": 0.2570599317550659,
      "learning_rate": 4.7696333223212765e-08,
      "loss": 0.4256,
      "num_input_tokens_seen": 24848360,
      "step": 38010
    },
    {
      "epoch": 19.92400419287212,
      "grad_norm": 0.2528020441532135,
      "learning_rate": 4.4589978148323884e-08,
      "loss": 0.4665,
      "num_input_tokens_seen": 24851496,
      "step": 38015
    },
    {
      "epoch": 19.92662473794549,
      "grad_norm": 0.1204247772693634,
      "learning_rate": 4.1588208041454244e-08,
      "loss": 0.3722,
      "num_input_tokens_seen": 24855144,
      "step": 38020
    },
    {
      "epoch": 19.92924528301887,
      "grad_norm": 0.15400902926921844,
      "learning_rate": 3.8691023530545985e-08,
      "loss": 0.4078,
      "num_input_tokens_seen": 24858120,
      "step": 38025
    },
    {
      "epoch": 19.931865828092242,
      "grad_norm": 0.15505914390087128,
      "learning_rate": 3.589842522155884e-08,
      "loss": 0.4747,
      "num_input_tokens_seen": 24862248,
      "step": 38030
    },
    {
      "epoch": 19.93448637316562,
      "grad_norm": 0.0982355922460556,
      "learning_rate": 3.321041369874767e-08,
      "loss": 0.4226,
      "num_input_tokens_seen": 24864776,
      "step": 38035
    },
    {
      "epoch": 19.937106918238992,
      "grad_norm": 0.13872334361076355,
      "learning_rate": 3.0626989524384916e-08,
      "loss": 0.4438,
      "num_input_tokens_seen": 24868200,
      "step": 38040
    },
    {
      "epoch": 19.93972746331237,
      "grad_norm": 0.14660033583641052,
      "learning_rate": 2.8148153238927167e-08,
      "loss": 0.4071,
      "num_input_tokens_seen": 24870824,
      "step": 38045
    },
    {
      "epoch": 19.942348008385743,
      "grad_norm": 0.15193600952625275,
      "learning_rate": 2.5773905360904072e-08,
      "loss": 0.4357,
      "num_input_tokens_seen": 24874056,
      "step": 38050
    },
    {
      "epoch": 19.94496855345912,
      "grad_norm": 0.2818085849285126,
      "learning_rate": 2.3504246386918392e-08,
      "loss": 0.3342,
      "num_input_tokens_seen": 24877096,
      "step": 38055
    },
    {
      "epoch": 19.947589098532493,
      "grad_norm": 0.1590365469455719,
      "learning_rate": 2.133917679186803e-08,
      "loss": 0.415,
      "num_input_tokens_seen": 24880104,
      "step": 38060
    },
    {
      "epoch": 19.95020964360587,
      "grad_norm": 0.17666397988796234,
      "learning_rate": 1.9278697028557447e-08,
      "loss": 0.4887,
      "num_input_tokens_seen": 24883112,
      "step": 38065
    },
    {
      "epoch": 19.952830188679247,
      "grad_norm": 0.1329740732908249,
      "learning_rate": 1.7322807528086238e-08,
      "loss": 0.4323,
      "num_input_tokens_seen": 24886824,
      "step": 38070
    },
    {
      "epoch": 19.95545073375262,
      "grad_norm": 0.2019546926021576,
      "learning_rate": 1.547150869957159e-08,
      "loss": 0.3864,
      "num_input_tokens_seen": 24889096,
      "step": 38075
    },
    {
      "epoch": 19.958071278825997,
      "grad_norm": 0.18177570402622223,
      "learning_rate": 1.3724800930314806e-08,
      "loss": 0.4106,
      "num_input_tokens_seen": 24893640,
      "step": 38080
    },
    {
      "epoch": 19.96069182389937,
      "grad_norm": 0.17301173508167267,
      "learning_rate": 1.2082684585634773e-08,
      "loss": 0.4494,
      "num_input_tokens_seen": 24896264,
      "step": 38085
    },
    {
      "epoch": 19.963312368972748,
      "grad_norm": 0.2003718465566635,
      "learning_rate": 1.0545160009145516e-08,
      "loss": 0.3855,
      "num_input_tokens_seen": 24899080,
      "step": 38090
    },
    {
      "epoch": 19.96593291404612,
      "grad_norm": 0.1780356615781784,
      "learning_rate": 9.112227522423133e-09,
      "loss": 0.406,
      "num_input_tokens_seen": 24902024,
      "step": 38095
    },
    {
      "epoch": 19.968553459119498,
      "grad_norm": 0.1345597803592682,
      "learning_rate": 7.783887425172331e-09,
      "loss": 0.381,
      "num_input_tokens_seen": 24906088,
      "step": 38100
    },
    {
      "epoch": 19.97117400419287,
      "grad_norm": 0.23602928221225739,
      "learning_rate": 6.560139995392955e-09,
      "loss": 0.4484,
      "num_input_tokens_seen": 24908968,
      "step": 38105
    },
    {
      "epoch": 19.97379454926625,
      "grad_norm": 0.1858740746974945,
      "learning_rate": 5.440985488935901e-09,
      "loss": 0.4496,
      "num_input_tokens_seen": 24912104,
      "step": 38110
    },
    {
      "epoch": 19.97641509433962,
      "grad_norm": 0.19831109046936035,
      "learning_rate": 4.426424140058227e-09,
      "loss": 0.4769,
      "num_input_tokens_seen": 24915464,
      "step": 38115
    },
    {
      "epoch": 19.979035639413,
      "grad_norm": 0.17224830389022827,
      "learning_rate": 3.5164561608680424e-09,
      "loss": 0.3607,
      "num_input_tokens_seen": 24918632,
      "step": 38120
    },
    {
      "epoch": 19.981656184486372,
      "grad_norm": 0.18055982887744904,
      "learning_rate": 2.7110817417685953e-09,
      "loss": 0.4902,
      "num_input_tokens_seen": 24921032,
      "step": 38125
    },
    {
      "epoch": 19.98427672955975,
      "grad_norm": 0.12909641861915588,
      "learning_rate": 2.010301051291741e-09,
      "loss": 0.4057,
      "num_input_tokens_seen": 24923912,
      "step": 38130
    },
    {
      "epoch": 19.986897274633122,
      "grad_norm": 0.16939152777194977,
      "learning_rate": 1.4141142359314074e-09,
      "loss": 0.4601,
      "num_input_tokens_seen": 24926952,
      "step": 38135
    },
    {
      "epoch": 19.9895178197065,
      "grad_norm": 0.09355706721544266,
      "learning_rate": 9.22521420476663e-10,
      "loss": 0.4879,
      "num_input_tokens_seen": 24930984,
      "step": 38140
    },
    {
      "epoch": 19.992138364779873,
      "grad_norm": 0.1530226171016693,
      "learning_rate": 5.355227077341596e-10,
      "loss": 0.5484,
      "num_input_tokens_seen": 24933832,
      "step": 38145
    },
    {
      "epoch": 19.99475890985325,
      "grad_norm": 0.10974129289388657,
      "learning_rate": 2.5311817863915566e-10,
      "loss": 0.3995,
      "num_input_tokens_seen": 24936584,
      "step": 38150
    },
    {
      "epoch": 19.997379454926623,
      "grad_norm": 0.3358164429664612,
      "learning_rate": 7.53078923110273e-11,
      "loss": 0.3626,
      "num_input_tokens_seen": 24939432,
      "step": 38155
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.2745206356048584,
      "learning_rate": 2.0918859422458526e-12,
      "loss": 0.5983,
      "num_input_tokens_seen": 24941912,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.4843510091304779,
      "eval_runtime": 13.7368,
      "eval_samples_per_second": 61.732,
      "eval_steps_per_second": 15.433,
      "num_input_tokens_seen": 24941912,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "num_input_tokens_seen": 24941912,
      "step": 38160,
      "total_flos": 1.1231230244139172e+18,
      "train_loss": 0.4602901568827639,
      "train_runtime": 5912.2483,
      "train_samples_per_second": 25.807,
      "train_steps_per_second": 6.454
    }
  ],
  "logging_steps": 5,
  "max_steps": 38160,
  "num_input_tokens_seen": 24941912,
  "num_train_epochs": 20,
  "save_steps": 1908,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1231230244139172e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}