{
  "best_global_step": 25000,
  "best_metric": 0.3259987235069275,
  "best_model_checkpoint": "saves/prompt-tuning/mistral-7b-instruct/train_boolq_1745950280/checkpoint-25000",
  "epoch": 18.85902876001886,
  "eval_steps": 200,
  "global_step": 40000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0023573785950023575,
      "grad_norm": 0.33430787920951843,
      "learning_rate": 0.29999999259779675,
      "loss": 8.8046,
      "num_input_tokens_seen": 4576,
      "step": 5
    },
    {
      "epoch": 0.004714757190004715,
      "grad_norm": 0.8599618077278137,
      "learning_rate": 0.29999996252634736,
      "loss": 7.1753,
      "num_input_tokens_seen": 9008,
      "step": 10
    },
    {
      "epoch": 0.007072135785007072,
      "grad_norm": 0.9729431867599487,
      "learning_rate": 0.2999999093230187,
      "loss": 2.2257,
      "num_input_tokens_seen": 13600,
      "step": 15
    },
    {
      "epoch": 0.00942951438000943,
      "grad_norm": 0.22995910048484802,
      "learning_rate": 0.299999832987819,
      "loss": 1.0727,
      "num_input_tokens_seen": 18624,
      "step": 20
    },
    {
      "epoch": 0.011786892975011787,
      "grad_norm": 0.04951251298189163,
      "learning_rate": 0.29999973352076004,
      "loss": 0.745,
      "num_input_tokens_seen": 23376,
      "step": 25
    },
    {
      "epoch": 0.014144271570014143,
      "grad_norm": 0.030260488390922546,
      "learning_rate": 0.2999996109218572,
      "loss": 0.4143,
      "num_input_tokens_seen": 27824,
      "step": 30
    },
    {
      "epoch": 0.0165016501650165,
      "grad_norm": 0.009147812612354755,
      "learning_rate": 0.2999994651911293,
      "loss": 0.3913,
      "num_input_tokens_seen": 31648,
      "step": 35
    },
    {
      "epoch": 0.01885902876001886,
      "grad_norm": 0.033210091292858124,
      "learning_rate": 0.2999992963285989,
      "loss": 0.3601,
      "num_input_tokens_seen": 35920,
      "step": 40
    },
    {
      "epoch": 0.021216407355021217,
      "grad_norm": 0.006491045467555523,
      "learning_rate": 0.29999910433429194,
      "loss": 0.3877,
      "num_input_tokens_seen": 40240,
      "step": 45
    },
    {
      "epoch": 0.023573785950023574,
      "grad_norm": 0.0068594408221542835,
      "learning_rate": 0.29999888920823814,
      "loss": 0.355,
      "num_input_tokens_seen": 44688,
      "step": 50
    },
    {
      "epoch": 0.02593116454502593,
      "grad_norm": 0.00561863835901022,
      "learning_rate": 0.29999865095047057,
      "loss": 0.3313,
      "num_input_tokens_seen": 49536,
      "step": 55
    },
    {
      "epoch": 0.028288543140028287,
      "grad_norm": 0.012460967525839806,
      "learning_rate": 0.29999838956102604,
      "loss": 0.4659,
      "num_input_tokens_seen": 54624,
      "step": 60
    },
    {
      "epoch": 0.030645921735030647,
      "grad_norm": 0.007927211932837963,
      "learning_rate": 0.29999810503994484,
      "loss": 0.3227,
      "num_input_tokens_seen": 59456,
      "step": 65
    },
    {
      "epoch": 0.033003300330033,
      "grad_norm": 0.011650650762021542,
      "learning_rate": 0.29999779738727084,
      "loss": 0.3334,
      "num_input_tokens_seen": 64768,
      "step": 70
    },
    {
      "epoch": 0.03536067892503536,
      "grad_norm": 0.01629701256752014,
      "learning_rate": 0.29999746660305154,
      "loss": 0.3523,
      "num_input_tokens_seen": 68816,
      "step": 75
    },
    {
      "epoch": 0.03771805752003772,
      "grad_norm": 0.002335917204618454,
      "learning_rate": 0.2999971126873379,
      "loss": 0.2922,
      "num_input_tokens_seen": 73600,
      "step": 80
    },
    {
      "epoch": 0.040075436115040074,
      "grad_norm": 0.004941327031701803,
      "learning_rate": 0.2999967356401845,
      "loss": 0.3558,
      "num_input_tokens_seen": 77776,
      "step": 85
    },
    {
      "epoch": 0.042432814710042434,
      "grad_norm": 0.0044502015225589275,
      "learning_rate": 0.29999633546164944,
      "loss": 0.3124,
      "num_input_tokens_seen": 81840,
      "step": 90
    },
    {
      "epoch": 0.04479019330504479,
      "grad_norm": 0.0051016248762607574,
      "learning_rate": 0.29999591215179444,
      "loss": 0.3471,
      "num_input_tokens_seen": 85984,
      "step": 95
    },
    {
      "epoch": 0.04714757190004715,
      "grad_norm": 0.002545285504311323,
      "learning_rate": 0.2999954657106849,
      "loss": 0.3614,
      "num_input_tokens_seen": 90768,
      "step": 100
    },
    {
      "epoch": 0.04950495049504951,
      "grad_norm": 0.0037795668467879295,
      "learning_rate": 0.2999949961383896,
      "loss": 0.3597,
      "num_input_tokens_seen": 95072,
      "step": 105
    },
    {
      "epoch": 0.05186232909005186,
      "grad_norm": 0.0041952128522098064,
      "learning_rate": 0.2999945034349809,
      "loss": 0.3442,
      "num_input_tokens_seen": 99840,
      "step": 110
    },
    {
      "epoch": 0.05421970768505422,
      "grad_norm": 0.001957130618393421,
      "learning_rate": 0.2999939876005348,
      "loss": 0.2426,
      "num_input_tokens_seen": 105120,
      "step": 115
    },
    {
      "epoch": 0.056577086280056574,
      "grad_norm": 0.0025490603875368834,
      "learning_rate": 0.29999344863513094,
      "loss": 0.4444,
      "num_input_tokens_seen": 110304,
      "step": 120
    },
    {
      "epoch": 0.058934464875058934,
      "grad_norm": 0.007854728028178215,
      "learning_rate": 0.2999928865388523,
      "loss": 0.3722,
      "num_input_tokens_seen": 116144,
      "step": 125
    },
    {
      "epoch": 0.061291843470061294,
      "grad_norm": 0.003510520327836275,
      "learning_rate": 0.29999230131178567,
      "loss": 0.3274,
      "num_input_tokens_seen": 121376,
      "step": 130
    },
    {
      "epoch": 0.06364922206506365,
      "grad_norm": 0.009421180002391338,
      "learning_rate": 0.2999916929540212,
      "loss": 0.3677,
      "num_input_tokens_seen": 126432,
      "step": 135
    },
    {
      "epoch": 0.066006600660066,
      "grad_norm": 0.005844749044626951,
      "learning_rate": 0.29999106146565285,
      "loss": 0.3516,
      "num_input_tokens_seen": 131056,
      "step": 140
    },
    {
      "epoch": 0.06836397925506836,
      "grad_norm": 0.003300114767625928,
      "learning_rate": 0.29999040684677786,
      "loss": 0.333,
      "num_input_tokens_seen": 135584,
      "step": 145
    },
    {
      "epoch": 0.07072135785007072,
      "grad_norm": 0.004235754255205393,
      "learning_rate": 0.2999897290974972,
      "loss": 0.3167,
      "num_input_tokens_seen": 140064,
      "step": 150
    },
    {
      "epoch": 0.07307873644507308,
      "grad_norm": 0.002008005976676941,
      "learning_rate": 0.2999890282179155,
      "loss": 0.3075,
      "num_input_tokens_seen": 145056,
      "step": 155
    },
    {
      "epoch": 0.07543611504007544,
      "grad_norm": 0.0013251225464046001,
      "learning_rate": 0.29998830420814077,
      "loss": 0.2841,
      "num_input_tokens_seen": 149472,
      "step": 160
    },
    {
      "epoch": 0.07779349363507779,
      "grad_norm": 0.0017541453707963228,
      "learning_rate": 0.2999875570682846,
      "loss": 0.3112,
      "num_input_tokens_seen": 154720,
      "step": 165
    },
    {
      "epoch": 0.08015087223008015,
      "grad_norm": 0.004730600863695145,
      "learning_rate": 0.2999867867984623,
      "loss": 0.3448,
      "num_input_tokens_seen": 159696,
      "step": 170
    },
    {
      "epoch": 0.08250825082508251,
      "grad_norm": 0.010462909005582333,
      "learning_rate": 0.29998599339879267,
      "loss": 0.3663,
      "num_input_tokens_seen": 164784,
      "step": 175
    },
    {
      "epoch": 0.08486562942008487,
      "grad_norm": 0.004843809176236391,
      "learning_rate": 0.29998517686939796,
      "loss": 0.3636,
      "num_input_tokens_seen": 168768,
      "step": 180
    },
    {
      "epoch": 0.08722300801508723,
      "grad_norm": 0.0012744307750836015,
      "learning_rate": 0.29998433721040413,
      "loss": 0.3527,
      "num_input_tokens_seen": 173744,
      "step": 185
    },
    {
      "epoch": 0.08958038661008957,
      "grad_norm": 0.008185259997844696,
      "learning_rate": 0.29998347442194073,
      "loss": 0.356,
      "num_input_tokens_seen": 177728,
      "step": 190
    },
    {
      "epoch": 0.09193776520509193,
      "grad_norm": 0.004525322932749987,
      "learning_rate": 0.2999825885041407,
      "loss": 0.3564,
      "num_input_tokens_seen": 182128,
      "step": 195
    },
    {
      "epoch": 0.0942951438000943,
      "grad_norm": 0.0013548878487199545,
      "learning_rate": 0.29998167945714077,
      "loss": 0.3571,
      "num_input_tokens_seen": 186768,
      "step": 200
    },
    {
      "epoch": 0.0942951438000943,
      "eval_loss": 0.33534181118011475,
      "eval_runtime": 33.473,
      "eval_samples_per_second": 28.172,
      "eval_steps_per_second": 14.101,
      "num_input_tokens_seen": 186768,
      "step": 200
    },
    {
      "epoch": 0.09665252239509665,
      "grad_norm": 0.0026040172670036554,
      "learning_rate": 0.2999807472810811,
      "loss": 0.3325,
      "num_input_tokens_seen": 191696,
      "step": 205
    },
    {
      "epoch": 0.09900990099009901,
      "grad_norm": 0.001794121810235083,
      "learning_rate": 0.29997979197610536,
      "loss": 0.3346,
      "num_input_tokens_seen": 196288,
      "step": 210
    },
    {
      "epoch": 0.10136727958510136,
      "grad_norm": 0.001899594091810286,
      "learning_rate": 0.299978813542361,
      "loss": 0.3569,
      "num_input_tokens_seen": 200752,
      "step": 215
    },
    {
      "epoch": 0.10372465818010372,
      "grad_norm": 0.0020993556827306747,
      "learning_rate": 0.2999778119799988,
      "loss": 0.2861,
      "num_input_tokens_seen": 205136,
      "step": 220
    },
    {
      "epoch": 0.10608203677510608,
      "grad_norm": 0.0031987312249839306,
      "learning_rate": 0.29997678728917326,
      "loss": 0.3089,
      "num_input_tokens_seen": 209552,
      "step": 225
    },
    {
      "epoch": 0.10843941537010844,
      "grad_norm": 0.0012057984713464975,
      "learning_rate": 0.2999757394700424,
      "loss": 0.3093,
      "num_input_tokens_seen": 214176,
      "step": 230
    },
    {
      "epoch": 0.1107967939651108,
      "grad_norm": 0.0036712950095534325,
      "learning_rate": 0.29997466852276783,
      "loss": 0.3586,
      "num_input_tokens_seen": 218416,
      "step": 235
    },
    {
      "epoch": 0.11315417256011315,
      "grad_norm": 0.0032430917490273714,
      "learning_rate": 0.29997357444751466,
      "loss": 0.3074,
      "num_input_tokens_seen": 223120,
      "step": 240
    },
    {
      "epoch": 0.11551155115511551,
      "grad_norm": 0.005455018021166325,
      "learning_rate": 0.2999724572444516,
      "loss": 0.4136,
      "num_input_tokens_seen": 227408,
      "step": 245
    },
    {
      "epoch": 0.11786892975011787,
      "grad_norm": 0.006345480680465698,
      "learning_rate": 0.29997131691375095,
      "loss": 0.3174,
      "num_input_tokens_seen": 232384,
      "step": 250
    },
    {
      "epoch": 0.12022630834512023,
      "grad_norm": 0.0011439290829002857,
      "learning_rate": 0.2999701534555886,
      "loss": 0.359,
      "num_input_tokens_seen": 236784,
      "step": 255
    },
    {
      "epoch": 0.12258368694012259,
      "grad_norm": 0.00623343838378787,
      "learning_rate": 0.2999689668701439,
      "loss": 0.3343,
      "num_input_tokens_seen": 241136,
      "step": 260
    },
    {
      "epoch": 0.12494106553512493,
      "grad_norm": 0.0014192028902471066,
      "learning_rate": 0.29996775715759993,
      "loss": 0.3495,
      "num_input_tokens_seen": 245296,
      "step": 265
    },
    {
      "epoch": 0.1272984441301273,
      "grad_norm": 0.0019782469607889652,
      "learning_rate": 0.2999665243181432,
      "loss": 0.3124,
      "num_input_tokens_seen": 249632,
      "step": 270
    },
    {
      "epoch": 0.12965582272512965,
      "grad_norm": 0.0016107280971482396,
      "learning_rate": 0.2999652683519638,
      "loss": 0.2735,
      "num_input_tokens_seen": 254128,
      "step": 275
    },
    {
      "epoch": 0.132013201320132,
      "grad_norm": 0.0014401866355910897,
      "learning_rate": 0.29996398925925544,
      "loss": 0.283,
      "num_input_tokens_seen": 259472,
      "step": 280
    },
    {
      "epoch": 0.13437057991513437,
      "grad_norm": 0.008019005879759789,
      "learning_rate": 0.2999626870402154,
      "loss": 0.2977,
      "num_input_tokens_seen": 263408,
      "step": 285
    },
    {
      "epoch": 0.13672795851013672,
      "grad_norm": 0.005458638072013855,
      "learning_rate": 0.29996136169504445,
      "loss": 0.417,
      "num_input_tokens_seen": 268240,
      "step": 290
    },
    {
      "epoch": 0.1390853371051391,
      "grad_norm": 0.0033505430910736322,
      "learning_rate": 0.29996001322394694,
      "loss": 0.3387,
      "num_input_tokens_seen": 272096,
      "step": 295
    },
    {
      "epoch": 0.14144271570014144,
      "grad_norm": 0.00869831908494234,
      "learning_rate": 0.29995864162713093,
      "loss": 0.3417,
      "num_input_tokens_seen": 276672,
      "step": 300
    },
    {
      "epoch": 0.1438000942951438,
      "grad_norm": 0.0015720619121566415,
      "learning_rate": 0.2999572469048079,
      "loss": 0.3606,
      "num_input_tokens_seen": 281632,
      "step": 305
    },
    {
      "epoch": 0.14615747289014616,
      "grad_norm": 0.00236710486933589,
      "learning_rate": 0.29995582905719287,
      "loss": 0.3275,
      "num_input_tokens_seen": 286000,
      "step": 310
    },
    {
      "epoch": 0.1485148514851485,
      "grad_norm": 0.0026328573003411293,
      "learning_rate": 0.2999543880845046,
      "loss": 0.3958,
      "num_input_tokens_seen": 289808,
      "step": 315
    },
    {
      "epoch": 0.15087223008015088,
      "grad_norm": 0.00925245601683855,
      "learning_rate": 0.2999529239869652,
      "loss": 0.3791,
      "num_input_tokens_seen": 294240,
      "step": 320
    },
    {
      "epoch": 0.15322960867515323,
      "grad_norm": 0.0021155208814889193,
      "learning_rate": 0.2999514367648005,
      "loss": 0.3632,
      "num_input_tokens_seen": 298768,
      "step": 325
    },
    {
      "epoch": 0.15558698727015557,
      "grad_norm": 0.0018887680489569902,
      "learning_rate": 0.29994992641823987,
      "loss": 0.3522,
      "num_input_tokens_seen": 303664,
      "step": 330
    },
    {
      "epoch": 0.15794436586515795,
      "grad_norm": 0.0026563103310763836,
      "learning_rate": 0.29994839294751613,
      "loss": 0.336,
      "num_input_tokens_seen": 308656,
      "step": 335
    },
    {
      "epoch": 0.1603017444601603,
      "grad_norm": 0.001984589034691453,
      "learning_rate": 0.29994683635286584,
      "loss": 0.2836,
      "num_input_tokens_seen": 315200,
      "step": 340
    },
    {
      "epoch": 0.16265912305516267,
      "grad_norm": 0.019206777215003967,
      "learning_rate": 0.2999452566345291,
      "loss": 0.3912,
      "num_input_tokens_seen": 319536,
      "step": 345
    },
    {
      "epoch": 0.16501650165016502,
      "grad_norm": 0.006742631550878286,
      "learning_rate": 0.2999436537927494,
      "loss": 0.3382,
      "num_input_tokens_seen": 324432,
      "step": 350
    },
    {
      "epoch": 0.16737388024516736,
      "grad_norm": 0.0030526008922606707,
      "learning_rate": 0.299942027827774,
      "loss": 0.3305,
      "num_input_tokens_seen": 328816,
      "step": 355
    },
    {
      "epoch": 0.16973125884016974,
      "grad_norm": 0.0036015042569488287,
      "learning_rate": 0.29994037873985363,
      "loss": 0.3341,
      "num_input_tokens_seen": 333664,
      "step": 360
    },
    {
      "epoch": 0.17208863743517208,
      "grad_norm": 0.004438447300344706,
      "learning_rate": 0.29993870652924254,
      "loss": 0.3514,
      "num_input_tokens_seen": 338288,
      "step": 365
    },
    {
      "epoch": 0.17444601603017446,
      "grad_norm": 0.0016046524979174137,
      "learning_rate": 0.29993701119619876,
      "loss": 0.3417,
      "num_input_tokens_seen": 343104,
      "step": 370
    },
    {
      "epoch": 0.1768033946251768,
      "grad_norm": 0.0033581324387341738,
      "learning_rate": 0.2999352927409835,
      "loss": 0.3519,
      "num_input_tokens_seen": 347824,
      "step": 375
    },
    {
      "epoch": 0.17916077322017915,
      "grad_norm": 0.0026258511934429407,
      "learning_rate": 0.29993355116386194,
      "loss": 0.3262,
      "num_input_tokens_seen": 352048,
      "step": 380
    },
    {
      "epoch": 0.18151815181518152,
      "grad_norm": 0.0040007964707911015,
      "learning_rate": 0.29993178646510266,
      "loss": 0.2391,
      "num_input_tokens_seen": 356816,
      "step": 385
    },
    {
      "epoch": 0.18387553041018387,
      "grad_norm": 0.003007269464433193,
      "learning_rate": 0.2999299986449777,
      "loss": 0.3597,
      "num_input_tokens_seen": 361728,
      "step": 390
    },
    {
      "epoch": 0.18623290900518624,
      "grad_norm": 0.006058376748114824,
      "learning_rate": 0.29992818770376284,
      "loss": 0.2266,
      "num_input_tokens_seen": 365536,
      "step": 395
    },
    {
      "epoch": 0.1885902876001886,
      "grad_norm": 0.012701766565442085,
      "learning_rate": 0.29992635364173725,
      "loss": 0.6655,
      "num_input_tokens_seen": 369808,
      "step": 400
    },
    {
      "epoch": 0.1885902876001886,
      "eval_loss": 1.263672947883606,
      "eval_runtime": 33.5521,
      "eval_samples_per_second": 28.106,
      "eval_steps_per_second": 14.068,
      "num_input_tokens_seen": 369808,
      "step": 400
    },
    {
      "epoch": 0.19094766619519093,
      "grad_norm": 0.048771876841783524,
      "learning_rate": 0.2999244964591839,
      "loss": 0.5834,
      "num_input_tokens_seen": 374560,
      "step": 405
    },
    {
      "epoch": 0.1933050447901933,
      "grad_norm": 0.023426713421940804,
      "learning_rate": 0.2999226161563891,
      "loss": 0.4403,
      "num_input_tokens_seen": 379168,
      "step": 410
    },
    {
      "epoch": 0.19566242338519566,
      "grad_norm": 0.035177070647478104,
      "learning_rate": 0.2999207127336429,
      "loss": 0.3893,
      "num_input_tokens_seen": 383888,
      "step": 415
    },
    {
      "epoch": 0.19801980198019803,
      "grad_norm": 0.010165275074541569,
      "learning_rate": 0.2999187861912387,
      "loss": 0.4277,
      "num_input_tokens_seen": 388880,
      "step": 420
    },
    {
      "epoch": 0.20037718057520038,
      "grad_norm": 0.010132357478141785,
      "learning_rate": 0.2999168365294737,
      "loss": 0.3103,
      "num_input_tokens_seen": 394560,
      "step": 425
    },
    {
      "epoch": 0.20273455917020272,
      "grad_norm": 0.009794114157557487,
      "learning_rate": 0.29991486374864856,
      "loss": 0.3334,
      "num_input_tokens_seen": 398976,
      "step": 430
    },
    {
      "epoch": 0.2050919377652051,
      "grad_norm": 0.0016988433199003339,
      "learning_rate": 0.29991286784906745,
      "loss": 0.3164,
      "num_input_tokens_seen": 404432,
      "step": 435
    },
    {
      "epoch": 0.20744931636020744,
      "grad_norm": 0.00445991475135088,
      "learning_rate": 0.2999108488310382,
      "loss": 0.4242,
      "num_input_tokens_seen": 408672,
      "step": 440
    },
    {
      "epoch": 0.20980669495520982,
      "grad_norm": 0.004623482935130596,
      "learning_rate": 0.29990880669487213,
      "loss": 0.3759,
      "num_input_tokens_seen": 412928,
      "step": 445
    },
    {
      "epoch": 0.21216407355021216,
      "grad_norm": 0.002472479594871402,
      "learning_rate": 0.29990674144088425,
      "loss": 0.3393,
      "num_input_tokens_seen": 418288,
      "step": 450
    },
    {
      "epoch": 0.2145214521452145,
      "grad_norm": 0.0016940919449552894,
      "learning_rate": 0.299904653069393,
      "loss": 0.3116,
      "num_input_tokens_seen": 422400,
      "step": 455
    },
    {
      "epoch": 0.21687883074021688,
      "grad_norm": 0.0010321236914023757,
      "learning_rate": 0.29990254158072044,
      "loss": 0.3367,
      "num_input_tokens_seen": 426240,
      "step": 460
    },
    {
      "epoch": 0.21923620933521923,
      "grad_norm": 0.0010780765442177653,
      "learning_rate": 0.2999004069751921,
      "loss": 0.3359,
      "num_input_tokens_seen": 430816,
      "step": 465
    },
    {
      "epoch": 0.2215935879302216,
      "grad_norm": 0.008707652799785137,
      "learning_rate": 0.2998982492531373,
      "loss": 0.403,
      "num_input_tokens_seen": 435168,
      "step": 470
    },
    {
      "epoch": 0.22395096652522395,
      "grad_norm": 0.0013893981231376529,
      "learning_rate": 0.2998960684148887,
      "loss": 0.3471,
      "num_input_tokens_seen": 439712,
      "step": 475
    },
    {
      "epoch": 0.2263083451202263,
      "grad_norm": 0.0030659183394163847,
      "learning_rate": 0.29989386446078264,
      "loss": 0.3411,
      "num_input_tokens_seen": 443632,
      "step": 480
    },
    {
      "epoch": 0.22866572371522867,
      "grad_norm": 0.0008525006705895066,
      "learning_rate": 0.299891637391159,
      "loss": 0.346,
      "num_input_tokens_seen": 448320,
      "step": 485
    },
    {
      "epoch": 0.23102310231023102,
      "grad_norm": 0.0008619721047580242,
      "learning_rate": 0.2998893872063612,
      "loss": 0.3489,
      "num_input_tokens_seen": 452928,
      "step": 490
    },
    {
      "epoch": 0.2333804809052334,
      "grad_norm": 0.0009125699289143085,
      "learning_rate": 0.2998871139067363,
      "loss": 0.3468,
      "num_input_tokens_seen": 457520,
      "step": 495
    },
    {
      "epoch": 0.23573785950023574,
      "grad_norm": 0.0013898126780986786,
      "learning_rate": 0.2998848174926348,
      "loss": 0.3341,
      "num_input_tokens_seen": 462368,
      "step": 500
    },
    {
      "epoch": 0.23809523809523808,
      "grad_norm": 0.0018963743932545185,
      "learning_rate": 0.2998824979644109,
      "loss": 0.3231,
      "num_input_tokens_seen": 466544,
      "step": 505
    },
    {
      "epoch": 0.24045261669024046,
      "grad_norm": 0.004014518111944199,
      "learning_rate": 0.29988015532242224,
      "loss": 0.3268,
      "num_input_tokens_seen": 470976,
      "step": 510
    },
    {
      "epoch": 0.2428099952852428,
      "grad_norm": 0.001222137245349586,
      "learning_rate": 0.29987778956703015,
      "loss": 0.3103,
      "num_input_tokens_seen": 475424,
      "step": 515
    },
    {
      "epoch": 0.24516737388024518,
      "grad_norm": 0.0011795061873272061,
      "learning_rate": 0.2998754006985994,
      "loss": 0.3381,
      "num_input_tokens_seen": 480176,
      "step": 520
    },
    {
      "epoch": 0.24752475247524752,
      "grad_norm": 0.0011672858381643891,
      "learning_rate": 0.29987298871749846,
      "loss": 0.3273,
      "num_input_tokens_seen": 485632,
      "step": 525
    },
    {
      "epoch": 0.24988213107024987,
      "grad_norm": 0.0019695779774338007,
      "learning_rate": 0.2998705536240992,
      "loss": 0.3646,
      "num_input_tokens_seen": 489648,
      "step": 530
    },
    {
      "epoch": 0.2522395096652522,
      "grad_norm": 0.0038081940729171038,
      "learning_rate": 0.2998680954187772,
      "loss": 0.2344,
      "num_input_tokens_seen": 494224,
      "step": 535
    },
    {
      "epoch": 0.2545968882602546,
      "grad_norm": 0.002360420534387231,
      "learning_rate": 0.2998656141019115,
      "loss": 0.3096,
      "num_input_tokens_seen": 498560,
      "step": 540
    },
    {
      "epoch": 0.25695426685525696,
      "grad_norm": 0.003126238938421011,
      "learning_rate": 0.2998631096738848,
      "loss": 0.261,
      "num_input_tokens_seen": 503360,
      "step": 545
    },
    {
      "epoch": 0.2593116454502593,
      "grad_norm": 0.0006552660488523543,
      "learning_rate": 0.29986058213508326,
      "loss": 0.4214,
      "num_input_tokens_seen": 507264,
      "step": 550
    },
    {
      "epoch": 0.26166902404526166,
      "grad_norm": 0.004819876980036497,
      "learning_rate": 0.29985803148589674,
      "loss": 0.3676,
      "num_input_tokens_seen": 512160,
      "step": 555
    },
    {
      "epoch": 0.264026402640264,
      "grad_norm": 0.0013736604014411569,
      "learning_rate": 0.2998554577267185,
      "loss": 0.3755,
      "num_input_tokens_seen": 516544,
      "step": 560
    },
    {
      "epoch": 0.2663837812352664,
      "grad_norm": 0.001472347415983677,
      "learning_rate": 0.2998528608579455,
      "loss": 0.3238,
      "num_input_tokens_seen": 522176,
      "step": 565
    },
    {
      "epoch": 0.26874115983026875,
      "grad_norm": 0.0037995141465216875,
      "learning_rate": 0.2998502408799781,
      "loss": 0.3487,
      "num_input_tokens_seen": 526208,
      "step": 570
    },
    {
      "epoch": 0.2710985384252711,
      "grad_norm": 0.0014522760175168514,
      "learning_rate": 0.2998475977932205,
      "loss": 0.3234,
      "num_input_tokens_seen": 531408,
      "step": 575
    },
    {
      "epoch": 0.27345591702027344,
      "grad_norm": 0.007380456663668156,
      "learning_rate": 0.29984493159808023,
      "loss": 0.3553,
      "num_input_tokens_seen": 536848,
      "step": 580
    },
    {
      "epoch": 0.2758132956152758,
      "grad_norm": 0.004404288716614246,
      "learning_rate": 0.29984224229496836,
      "loss": 0.3297,
      "num_input_tokens_seen": 541184,
      "step": 585
    },
    {
      "epoch": 0.2781706742102782,
      "grad_norm": 0.004294331185519695,
      "learning_rate": 0.2998395298842998,
      "loss": 0.291,
      "num_input_tokens_seen": 545856,
      "step": 590
    },
    {
      "epoch": 0.28052805280528054,
      "grad_norm": 0.0011426364071667194,
      "learning_rate": 0.29983679436649263,
      "loss": 0.3389,
      "num_input_tokens_seen": 549824,
      "step": 595
    },
    {
      "epoch": 0.2828854314002829,
      "grad_norm": 0.0019927790854126215,
      "learning_rate": 0.2998340357419689,
      "loss": 0.4242,
      "num_input_tokens_seen": 554928,
      "step": 600
    },
    {
      "epoch": 0.2828854314002829,
      "eval_loss": 0.32871514558792114,
      "eval_runtime": 33.4978,
      "eval_samples_per_second": 28.151,
      "eval_steps_per_second": 14.09,
      "num_input_tokens_seen": 554928,
      "step": 600
    },
    {
      "epoch": 0.28524280999528523,
      "grad_norm": 0.002123794984072447,
      "learning_rate": 0.29983125401115385,
      "loss": 0.3456,
      "num_input_tokens_seen": 559184,
      "step": 605
    },
    {
      "epoch": 0.2876001885902876,
      "grad_norm": 0.00215711141936481,
      "learning_rate": 0.29982844917447654,
      "loss": 0.3253,
      "num_input_tokens_seen": 563840,
      "step": 610
    },
    {
      "epoch": 0.28995756718529,
      "grad_norm": 0.0011152733350172639,
      "learning_rate": 0.2998256212323695,
      "loss": 0.3425,
      "num_input_tokens_seen": 568080,
      "step": 615
    },
    {
      "epoch": 0.2923149457802923,
      "grad_norm": 0.001529980101622641,
      "learning_rate": 0.29982277018526887,
      "loss": 0.3614,
      "num_input_tokens_seen": 572624,
      "step": 620
    },
    {
      "epoch": 0.29467232437529467,
      "grad_norm": 0.0010712618241086602,
      "learning_rate": 0.2998198960336143,
      "loss": 0.3728,
      "num_input_tokens_seen": 577552,
      "step": 625
    },
    {
      "epoch": 0.297029702970297,
      "grad_norm": 0.004243182018399239,
      "learning_rate": 0.299816998777849,
      "loss": 0.3102,
      "num_input_tokens_seen": 583120,
      "step": 630
    },
    {
      "epoch": 0.29938708156529936,
      "grad_norm": 0.0016897887689992785,
      "learning_rate": 0.2998140784184197,
      "loss": 0.2972,
      "num_input_tokens_seen": 588416,
      "step": 635
    },
    {
      "epoch": 0.30174446016030176,
      "grad_norm": 0.005779348313808441,
      "learning_rate": 0.2998111349557769,
      "loss": 0.3679,
      "num_input_tokens_seen": 592928,
      "step": 640
    },
    {
      "epoch": 0.3041018387553041,
      "grad_norm": 0.004530003294348717,
      "learning_rate": 0.29980816839037444,
      "loss": 0.3656,
      "num_input_tokens_seen": 597536,
      "step": 645
    },
    {
      "epoch": 0.30645921735030646,
      "grad_norm": 0.001678461441770196,
      "learning_rate": 0.2998051787226698,
      "loss": 0.3572,
      "num_input_tokens_seen": 602576,
      "step": 650
    },
    {
      "epoch": 0.3088165959453088,
      "grad_norm": 0.0017382270889356732,
      "learning_rate": 0.29980216595312403,
      "loss": 0.3315,
      "num_input_tokens_seen": 607808,
      "step": 655
    },
    {
      "epoch": 0.31117397454031115,
      "grad_norm": 0.001787922577932477,
      "learning_rate": 0.29979913008220177,
      "loss": 0.3289,
      "num_input_tokens_seen": 611872,
      "step": 660
    },
    {
      "epoch": 0.31353135313531355,
      "grad_norm": 0.0055055017583072186,
      "learning_rate": 0.2997960711103711,
      "loss": 0.3561,
      "num_input_tokens_seen": 616336,
      "step": 665
    },
    {
      "epoch": 0.3158887317303159,
      "grad_norm": 0.0012156127486377954,
      "learning_rate": 0.29979298903810386,
      "loss": 0.3546,
      "num_input_tokens_seen": 620896,
      "step": 670
    },
    {
      "epoch": 0.31824611032531824,
      "grad_norm": 0.0008683472988195717,
      "learning_rate": 0.29978988386587524,
      "loss": 0.3352,
      "num_input_tokens_seen": 626912,
      "step": 675
    },
    {
      "epoch": 0.3206034889203206,
      "grad_norm": 0.004293828271329403,
      "learning_rate": 0.2997867555941642,
      "loss": 0.3223,
      "num_input_tokens_seen": 631424,
      "step": 680
    },
    {
      "epoch": 0.32296086751532294,
      "grad_norm": 0.0013720106799155474,
      "learning_rate": 0.299783604223453,
      "loss": 0.3419,
      "num_input_tokens_seen": 635952,
      "step": 685
    },
    {
      "epoch": 0.32531824611032534,
      "grad_norm": 0.001367791322991252,
      "learning_rate": 0.29978042975422786,
      "loss": 0.3241,
      "num_input_tokens_seen": 640496,
      "step": 690
    },
    {
      "epoch": 0.3276756247053277,
      "grad_norm": 0.00375883630476892,
      "learning_rate": 0.29977723218697816,
      "loss": 0.346,
      "num_input_tokens_seen": 645456,
      "step": 695
    },
    {
      "epoch": 0.33003300330033003,
      "grad_norm": 0.0014069010503590107,
      "learning_rate": 0.299774011522197,
      "loss": 0.3637,
      "num_input_tokens_seen": 650192,
      "step": 700
    },
    {
      "epoch": 0.3323903818953324,
      "grad_norm": 0.0019323573214933276,
      "learning_rate": 0.29977076776038114,
      "loss": 0.3306,
      "num_input_tokens_seen": 654144,
      "step": 705
    },
    {
      "epoch": 0.3347477604903347,
      "grad_norm": 0.0012280731461942196,
      "learning_rate": 0.2997675009020307,
      "loss": 0.3241,
      "num_input_tokens_seen": 658688,
      "step": 710
    },
    {
      "epoch": 0.3371051390853371,
      "grad_norm": 0.0038777394220232964,
      "learning_rate": 0.2997642109476496,
      "loss": 0.3593,
      "num_input_tokens_seen": 664096,
      "step": 715
    },
    {
      "epoch": 0.33946251768033947,
      "grad_norm": 0.0014876971254125237,
      "learning_rate": 0.299760897897745,
      "loss": 0.3515,
      "num_input_tokens_seen": 669312,
      "step": 720
    },
    {
      "epoch": 0.3418198962753418,
      "grad_norm": 0.004233703948557377,
      "learning_rate": 0.29975756175282803,
      "loss": 0.3063,
      "num_input_tokens_seen": 674752,
      "step": 725
    },
    {
      "epoch": 0.34417727487034416,
      "grad_norm": 0.004214745480567217,
      "learning_rate": 0.29975420251341306,
      "loss": 0.3034,
      "num_input_tokens_seen": 679952,
      "step": 730
    },
    {
      "epoch": 0.3465346534653465,
      "grad_norm": 0.0013600388774648309,
      "learning_rate": 0.29975082018001814,
      "loss": 0.3277,
      "num_input_tokens_seen": 684704,
      "step": 735
    },
    {
      "epoch": 0.3488920320603489,
      "grad_norm": 0.0009132089908234775,
      "learning_rate": 0.2997474147531648,
      "loss": 0.3382,
      "num_input_tokens_seen": 689216,
      "step": 740
    },
    {
      "epoch": 0.35124941065535126,
      "grad_norm": 0.001754377270117402,
      "learning_rate": 0.29974398623337833,
      "loss": 0.2958,
      "num_input_tokens_seen": 694640,
      "step": 745
    },
    {
      "epoch": 0.3536067892503536,
      "grad_norm": 0.0072180661372840405,
      "learning_rate": 0.2997405346211873,
      "loss": 0.4083,
      "num_input_tokens_seen": 700176,
      "step": 750
    },
    {
      "epoch": 0.35596416784535595,
      "grad_norm": 0.0038601229898631573,
      "learning_rate": 0.2997370599171241,
      "loss": 0.346,
      "num_input_tokens_seen": 704288,
      "step": 755
    },
    {
      "epoch": 0.3583215464403583,
      "grad_norm": 0.0022205947898328304,
      "learning_rate": 0.2997335621217246,
      "loss": 0.354,
      "num_input_tokens_seen": 708496,
      "step": 760
    },
    {
      "epoch": 0.3606789250353607,
      "grad_norm": 0.004047990310937166,
      "learning_rate": 0.29973004123552816,
      "loss": 0.3115,
      "num_input_tokens_seen": 713696,
      "step": 765
    },
    {
      "epoch": 0.36303630363036304,
      "grad_norm": 0.0015782024711370468,
      "learning_rate": 0.2997264972590777,
      "loss": 0.3396,
      "num_input_tokens_seen": 718016,
      "step": 770
    },
    {
      "epoch": 0.3653936822253654,
      "grad_norm": 0.0037923248019069433,
      "learning_rate": 0.29972293019291973,
      "loss": 0.3737,
      "num_input_tokens_seen": 722848,
      "step": 775
    },
    {
      "epoch": 0.36775106082036774,
      "grad_norm": 0.003576065879315138,
      "learning_rate": 0.2997193400376045,
      "loss": 0.2771,
      "num_input_tokens_seen": 727536,
      "step": 780
    },
    {
      "epoch": 0.3701084394153701,
      "grad_norm": 0.0019053814467042685,
      "learning_rate": 0.2997157267936854,
      "loss": 0.3443,
      "num_input_tokens_seen": 732384,
      "step": 785
    },
    {
      "epoch": 0.3724658180103725,
      "grad_norm": 0.0017049539601430297,
      "learning_rate": 0.2997120904617199,
      "loss": 0.3714,
      "num_input_tokens_seen": 736912,
      "step": 790
    },
    {
      "epoch": 0.37482319660537483,
      "grad_norm": 0.0037968826945871115,
      "learning_rate": 0.29970843104226863,
      "loss": 0.3152,
      "num_input_tokens_seen": 741824,
      "step": 795
    },
    {
      "epoch": 0.3771805752003772,
      "grad_norm": 0.003926784731447697,
      "learning_rate": 0.2997047485358959,
      "loss": 0.2999,
      "num_input_tokens_seen": 746560,
      "step": 800
    },
    {
      "epoch": 0.3771805752003772,
      "eval_loss": 0.32766789197921753,
      "eval_runtime": 33.5115,
      "eval_samples_per_second": 28.14,
      "eval_steps_per_second": 14.085,
      "num_input_tokens_seen": 746560,
      "step": 800
    },
    {
      "epoch": 0.3795379537953795,
      "grad_norm": 0.003428816329687834,
      "learning_rate": 0.2997010429431697,
      "loss": 0.326,
      "num_input_tokens_seen": 751152,
      "step": 805
    },
    {
      "epoch": 0.38189533239038187,
      "grad_norm": 0.0011939220130443573,
      "learning_rate": 0.29969731426466134,
      "loss": 0.3412,
      "num_input_tokens_seen": 755616,
      "step": 810
    },
    {
      "epoch": 0.38425271098538427,
      "grad_norm": 0.0017843515379354358,
      "learning_rate": 0.299693562500946,
      "loss": 0.3365,
      "num_input_tokens_seen": 759408,
      "step": 815
    },
    {
      "epoch": 0.3866100895803866,
      "grad_norm": 0.004139292519539595,
      "learning_rate": 0.29968978765260207,
      "loss": 0.3395,
      "num_input_tokens_seen": 764080,
      "step": 820
    },
    {
      "epoch": 0.38896746817538896,
      "grad_norm": 0.003000156721100211,
      "learning_rate": 0.2996859897202118,
      "loss": 0.2669,
      "num_input_tokens_seen": 768896,
      "step": 825
    },
    {
      "epoch": 0.3913248467703913,
      "grad_norm": 0.003983345348387957,
      "learning_rate": 0.2996821687043609,
      "loss": 0.3943,
      "num_input_tokens_seen": 773856,
      "step": 830
    },
    {
      "epoch": 0.39368222536539366,
      "grad_norm": 0.0011115659726783633,
      "learning_rate": 0.2996783246056384,
      "loss": 0.3238,
      "num_input_tokens_seen": 778304,
      "step": 835
    },
    {
      "epoch": 0.39603960396039606,
      "grad_norm": 0.0017535389633849263,
      "learning_rate": 0.29967445742463744,
      "loss": 0.3429,
      "num_input_tokens_seen": 783456,
      "step": 840
    },
    {
      "epoch": 0.3983969825553984,
      "grad_norm": 0.0014856553170830011,
      "learning_rate": 0.29967056716195417,
      "loss": 0.3683,
      "num_input_tokens_seen": 788448,
      "step": 845
    },
    {
      "epoch": 0.40075436115040075,
      "grad_norm": 0.003988800570368767,
      "learning_rate": 0.2996666538181885,
      "loss": 0.3266,
      "num_input_tokens_seen": 792928,
      "step": 850
    },
    {
      "epoch": 0.4031117397454031,
      "grad_norm": 0.003749583847820759,
      "learning_rate": 0.29966271739394407,
      "loss": 0.339,
      "num_input_tokens_seen": 797408,
      "step": 855
    },
    {
      "epoch": 0.40546911834040544,
      "grad_norm": 0.0019710897468030453,
      "learning_rate": 0.29965875788982776,
      "loss": 0.331,
      "num_input_tokens_seen": 801616,
      "step": 860
    },
    {
      "epoch": 0.40782649693540785,
      "grad_norm": 0.0011133828666061163,
      "learning_rate": 0.2996547753064503,
      "loss": 0.3501,
      "num_input_tokens_seen": 805984,
      "step": 865
    },
    {
      "epoch": 0.4101838755304102,
      "grad_norm": 0.0030272623989731073,
      "learning_rate": 0.29965076964442583,
      "loss": 0.3364,
      "num_input_tokens_seen": 810480,
      "step": 870
    },
    {
      "epoch": 0.41254125412541254,
      "grad_norm": 0.0034333334770053625,
      "learning_rate": 0.299646740904372,
      "loss": 0.3437,
      "num_input_tokens_seen": 815072,
      "step": 875
    },
    {
      "epoch": 0.4148986327204149,
      "grad_norm": 0.0012225382961332798,
      "learning_rate": 0.29964268908691016,
      "loss": 0.3345,
      "num_input_tokens_seen": 819408,
      "step": 880
    },
    {
      "epoch": 0.41725601131541723,
      "grad_norm": 0.0013394375564530492,
      "learning_rate": 0.29963861419266513,
      "loss": 0.3376,
      "num_input_tokens_seen": 825072,
      "step": 885
    },
    {
      "epoch": 0.41961338991041963,
      "grad_norm": 0.0011879304656758904,
      "learning_rate": 0.29963451622226533,
      "loss": 0.3474,
      "num_input_tokens_seen": 829776,
      "step": 890
    },
    {
      "epoch": 0.421970768505422,
      "grad_norm": 0.0030492348596453667,
      "learning_rate": 0.29963039517634277,
      "loss": 0.3602,
      "num_input_tokens_seen": 834496,
      "step": 895
    },
    {
      "epoch": 0.4243281471004243,
      "grad_norm": 0.0011653504334390163,
      "learning_rate": 0.2996262510555328,
      "loss": 0.3453,
      "num_input_tokens_seen": 841600,
      "step": 900
    },
    {
      "epoch": 0.42668552569542667,
      "grad_norm": 0.002891477895900607,
      "learning_rate": 0.2996220838604746,
      "loss": 0.3341,
      "num_input_tokens_seen": 845888,
      "step": 905
    },
    {
      "epoch": 0.429042904290429,
      "grad_norm": 0.0020050036255270243,
      "learning_rate": 0.29961789359181085,
      "loss": 0.3186,
      "num_input_tokens_seen": 851008,
      "step": 910
    },
    {
      "epoch": 0.4314002828854314,
      "grad_norm": 0.0013831771211698651,
      "learning_rate": 0.29961368025018764,
      "loss": 0.3273,
      "num_input_tokens_seen": 855984,
      "step": 915
    },
    {
      "epoch": 0.43375766148043376,
      "grad_norm": 0.003928794991225004,
      "learning_rate": 0.2996094438362548,
      "loss": 0.3603,
      "num_input_tokens_seen": 860464,
      "step": 920
    },
    {
      "epoch": 0.4361150400754361,
      "grad_norm": 0.001306679449044168,
      "learning_rate": 0.2996051843506657,
      "loss": 0.3272,
      "num_input_tokens_seen": 864976,
      "step": 925
    },
    {
      "epoch": 0.43847241867043846,
      "grad_norm": 0.001259846379980445,
      "learning_rate": 0.299600901794077,
      "loss": 0.362,
      "num_input_tokens_seen": 869120,
      "step": 930
    },
    {
      "epoch": 0.4408297972654408,
      "grad_norm": 0.001212054630741477,
      "learning_rate": 0.29959659616714923,
      "loss": 0.3521,
      "num_input_tokens_seen": 873136,
      "step": 935
    },
    {
      "epoch": 0.4431871758604432,
      "grad_norm": 0.0036681045312434435,
      "learning_rate": 0.2995922674705464,
      "loss": 0.3266,
      "num_input_tokens_seen": 877936,
      "step": 940
    },
    {
      "epoch": 0.44554455445544555,
      "grad_norm": 0.003316648304462433,
      "learning_rate": 0.2995879157049361,
      "loss": 0.3058,
      "num_input_tokens_seen": 883664,
      "step": 945
    },
    {
      "epoch": 0.4479019330504479,
      "grad_norm": 0.001272142748348415,
      "learning_rate": 0.2995835408709893,
      "loss": 0.3927,
      "num_input_tokens_seen": 887744,
      "step": 950
    },
    {
      "epoch": 0.45025931164545024,
      "grad_norm": 0.0031602384988218546,
      "learning_rate": 0.29957914296938076,
      "loss": 0.3257,
      "num_input_tokens_seen": 891824,
      "step": 955
    },
    {
      "epoch": 0.4526166902404526,
      "grad_norm": 0.0031584922689944506,
      "learning_rate": 0.2995747220007886,
      "loss": 0.3118,
      "num_input_tokens_seen": 895904,
      "step": 960
    },
    {
      "epoch": 0.454974068835455,
      "grad_norm": 0.0019205415155738592,
      "learning_rate": 0.2995702779658947,
      "loss": 0.3175,
      "num_input_tokens_seen": 900032,
      "step": 965
    },
    {
      "epoch": 0.45733144743045734,
      "grad_norm": 0.0020907658617943525,
      "learning_rate": 0.29956581086538425,
      "loss": 0.3406,
      "num_input_tokens_seen": 904544,
      "step": 970
    },
    {
      "epoch": 0.4596888260254597,
      "grad_norm": 0.006203664932399988,
      "learning_rate": 0.2995613206999462,
      "loss": 0.399,
      "num_input_tokens_seen": 909136,
      "step": 975
    },
    {
      "epoch": 0.46204620462046203,
      "grad_norm": 0.005182255059480667,
      "learning_rate": 0.29955680747027297,
      "loss": 0.3305,
      "num_input_tokens_seen": 913312,
      "step": 980
    },
    {
      "epoch": 0.4644035832154644,
      "grad_norm": 0.005124473478645086,
      "learning_rate": 0.2995522711770607,
      "loss": 0.3593,
      "num_input_tokens_seen": 918240,
      "step": 985
    },
    {
      "epoch": 0.4667609618104668,
      "grad_norm": 0.0030167794320732355,
      "learning_rate": 0.2995477118210087,
      "loss": 0.321,
      "num_input_tokens_seen": 923424,
      "step": 990
    },
    {
      "epoch": 0.4691183404054691,
      "grad_norm": 0.0014518728712573647,
      "learning_rate": 0.29954312940282024,
      "loss": 0.3221,
      "num_input_tokens_seen": 928368,
      "step": 995
    },
    {
      "epoch": 0.47147571900047147,
      "grad_norm": 0.0013448884710669518,
      "learning_rate": 0.29953852392320196,
      "loss": 0.3501,
      "num_input_tokens_seen": 932848,
      "step": 1000
    },
    {
      "epoch": 0.47147571900047147,
      "eval_loss": 0.3282974064350128,
      "eval_runtime": 33.5736,
      "eval_samples_per_second": 28.088,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 932848,
      "step": 1000
    },
    {
      "epoch": 0.4738330975954738,
      "grad_norm": 0.0009026210755109787,
      "learning_rate": 0.2995338953828641,
      "loss": 0.3369,
      "num_input_tokens_seen": 936672,
      "step": 1005
    },
    {
      "epoch": 0.47619047619047616,
      "grad_norm": 0.0031212721951305866,
      "learning_rate": 0.2995292437825204,
      "loss": 0.3644,
      "num_input_tokens_seen": 941216,
      "step": 1010
    },
    {
      "epoch": 0.47854785478547857,
      "grad_norm": 0.0018376590451225638,
      "learning_rate": 0.29952456912288816,
      "loss": 0.3721,
      "num_input_tokens_seen": 945536,
      "step": 1015
    },
    {
      "epoch": 0.4809052333804809,
      "grad_norm": 0.0021840552799403667,
      "learning_rate": 0.2995198714046884,
      "loss": 0.3421,
      "num_input_tokens_seen": 949584,
      "step": 1020
    },
    {
      "epoch": 0.48326261197548326,
      "grad_norm": 0.0019181977258995175,
      "learning_rate": 0.2995151506286454,
      "loss": 0.3545,
      "num_input_tokens_seen": 954656,
      "step": 1025
    },
    {
      "epoch": 0.4856199905704856,
      "grad_norm": 0.0020529080647975206,
      "learning_rate": 0.2995104067954873,
      "loss": 0.3507,
      "num_input_tokens_seen": 959072,
      "step": 1030
    },
    {
      "epoch": 0.48797736916548795,
      "grad_norm": 0.0009282183600589633,
      "learning_rate": 0.2995056399059456,
      "loss": 0.3495,
      "num_input_tokens_seen": 963280,
      "step": 1035
    },
    {
      "epoch": 0.49033474776049035,
      "grad_norm": 0.0010654361685737967,
      "learning_rate": 0.2995008499607554,
      "loss": 0.3322,
      "num_input_tokens_seen": 968192,
      "step": 1040
    },
    {
      "epoch": 0.4926921263554927,
      "grad_norm": 0.0010797327850013971,
      "learning_rate": 0.2994960369606554,
      "loss": 0.3315,
      "num_input_tokens_seen": 973232,
      "step": 1045
    },
    {
      "epoch": 0.49504950495049505,
      "grad_norm": 0.002720769727602601,
      "learning_rate": 0.2994912009063878,
      "loss": 0.3392,
      "num_input_tokens_seen": 978256,
      "step": 1050
    },
    {
      "epoch": 0.4974068835454974,
      "grad_norm": 0.0025262257549911737,
      "learning_rate": 0.29948634179869843,
      "loss": 0.3075,
      "num_input_tokens_seen": 982768,
      "step": 1055
    },
    {
      "epoch": 0.49976426214049974,
      "grad_norm": 0.004807708319276571,
      "learning_rate": 0.29948145963833656,
      "loss": 0.4069,
      "num_input_tokens_seen": 987200,
      "step": 1060
    },
    {
      "epoch": 0.5021216407355021,
      "grad_norm": 0.0011140615679323673,
      "learning_rate": 0.29947655442605514,
      "loss": 0.3153,
      "num_input_tokens_seen": 992176,
      "step": 1065
    },
    {
      "epoch": 0.5044790193305044,
      "grad_norm": 0.002764082280918956,
      "learning_rate": 0.2994716261626106,
      "loss": 0.3138,
      "num_input_tokens_seen": 995856,
      "step": 1070
    },
    {
      "epoch": 0.5068363979255068,
      "grad_norm": 0.002738803159445524,
      "learning_rate": 0.2994666748487629,
      "loss": 0.3064,
      "num_input_tokens_seen": 999952,
      "step": 1075
    },
    {
      "epoch": 0.5091937765205092,
      "grad_norm": 0.0012755305506289005,
      "learning_rate": 0.2994617004852756,
      "loss": 0.3795,
      "num_input_tokens_seen": 1003840,
      "step": 1080
    },
    {
      "epoch": 0.5115511551155115,
      "grad_norm": 0.0012116192374378443,
      "learning_rate": 0.2994567030729159,
      "loss": 0.3113,
      "num_input_tokens_seen": 1008544,
      "step": 1085
    },
    {
      "epoch": 0.5139085337105139,
      "grad_norm": 0.0010623331181704998,
      "learning_rate": 0.29945168261245436,
      "loss": 0.352,
      "num_input_tokens_seen": 1012576,
      "step": 1090
    },
    {
      "epoch": 0.5162659123055162,
      "grad_norm": 0.0028545393142849207,
      "learning_rate": 0.29944663910466524,
      "loss": 0.3247,
      "num_input_tokens_seen": 1018464,
      "step": 1095
    },
    {
      "epoch": 0.5186232909005186,
      "grad_norm": 0.00262465956620872,
      "learning_rate": 0.2994415725503263,
      "loss": 0.2712,
      "num_input_tokens_seen": 1022512,
      "step": 1100
    },
    {
      "epoch": 0.520980669495521,
      "grad_norm": 0.003254160052165389,
      "learning_rate": 0.29943648295021885,
      "loss": 0.3372,
      "num_input_tokens_seen": 1027360,
      "step": 1105
    },
    {
      "epoch": 0.5233380480905233,
      "grad_norm": 0.000713048386387527,
      "learning_rate": 0.2994313703051278,
      "loss": 0.3446,
      "num_input_tokens_seen": 1032640,
      "step": 1110
    },
    {
      "epoch": 0.5256954266855257,
      "grad_norm": 0.0008046419825404882,
      "learning_rate": 0.29942623461584156,
      "loss": 0.3807,
      "num_input_tokens_seen": 1037104,
      "step": 1115
    },
    {
      "epoch": 0.528052805280528,
      "grad_norm": 0.001171373762190342,
      "learning_rate": 0.29942107588315214,
      "loss": 0.2957,
      "num_input_tokens_seen": 1040560,
      "step": 1120
    },
    {
      "epoch": 0.5304101838755304,
      "grad_norm": 0.001180421095341444,
      "learning_rate": 0.29941589410785513,
      "loss": 0.3209,
      "num_input_tokens_seen": 1046368,
      "step": 1125
    },
    {
      "epoch": 0.5327675624705328,
      "grad_norm": 0.0035853669978678226,
      "learning_rate": 0.29941068929074954,
      "loss": 0.2945,
      "num_input_tokens_seen": 1051488,
      "step": 1130
    },
    {
      "epoch": 0.5351249410655351,
      "grad_norm": 0.0016054398147389293,
      "learning_rate": 0.2994054614326381,
      "loss": 0.3287,
      "num_input_tokens_seen": 1056880,
      "step": 1135
    },
    {
      "epoch": 0.5374823196605375,
      "grad_norm": 0.002481067320331931,
      "learning_rate": 0.29940021053432686,
      "loss": 0.3691,
      "num_input_tokens_seen": 1061792,
      "step": 1140
    },
    {
      "epoch": 0.5398396982555398,
      "grad_norm": 0.001152522279880941,
      "learning_rate": 0.29939493659662575,
      "loss": 0.3511,
      "num_input_tokens_seen": 1067088,
      "step": 1145
    },
    {
      "epoch": 0.5421970768505422,
      "grad_norm": 0.002978774020448327,
      "learning_rate": 0.299389639620348,
      "loss": 0.3263,
      "num_input_tokens_seen": 1072000,
      "step": 1150
    },
    {
      "epoch": 0.5445544554455446,
      "grad_norm": 0.0010994072072207928,
      "learning_rate": 0.29938431960631046,
      "loss": 0.3613,
      "num_input_tokens_seen": 1076384,
      "step": 1155
    },
    {
      "epoch": 0.5469118340405469,
      "grad_norm": 0.0007895186427049339,
      "learning_rate": 0.2993789765553335,
      "loss": 0.3543,
      "num_input_tokens_seen": 1079936,
      "step": 1160
    },
    {
      "epoch": 0.5492692126355493,
      "grad_norm": 0.0017486372962594032,
      "learning_rate": 0.2993736104682412,
      "loss": 0.3398,
      "num_input_tokens_seen": 1084256,
      "step": 1165
    },
    {
      "epoch": 0.5516265912305516,
      "grad_norm": 0.0035758204758167267,
      "learning_rate": 0.299368221345861,
      "loss": 0.3309,
      "num_input_tokens_seen": 1088928,
      "step": 1170
    },
    {
      "epoch": 0.553983969825554,
      "grad_norm": 0.0026401616632938385,
      "learning_rate": 0.29936280918902397,
      "loss": 0.3018,
      "num_input_tokens_seen": 1094064,
      "step": 1175
    },
    {
      "epoch": 0.5563413484205564,
      "grad_norm": 0.0013492064317688346,
      "learning_rate": 0.2993573739985648,
      "loss": 0.3291,
      "num_input_tokens_seen": 1098768,
      "step": 1180
    },
    {
      "epoch": 0.5586987270155587,
      "grad_norm": 0.0033756913617253304,
      "learning_rate": 0.2993519157753216,
      "loss": 0.352,
      "num_input_tokens_seen": 1103712,
      "step": 1185
    },
    {
      "epoch": 0.5610561056105611,
      "grad_norm": 0.003073120256885886,
      "learning_rate": 0.2993464345201361,
      "loss": 0.4009,
      "num_input_tokens_seen": 1107328,
      "step": 1190
    },
    {
      "epoch": 0.5634134842055634,
      "grad_norm": 0.0034312852658331394,
      "learning_rate": 0.2993409302338536,
      "loss": 0.3446,
      "num_input_tokens_seen": 1111648,
      "step": 1195
    },
    {
      "epoch": 0.5657708628005658,
      "grad_norm": 0.0015411700587719679,
      "learning_rate": 0.2993354029173229,
      "loss": 0.3099,
      "num_input_tokens_seen": 1116128,
      "step": 1200
    },
    {
      "epoch": 0.5657708628005658,
      "eval_loss": 0.33020395040512085,
      "eval_runtime": 33.5597,
      "eval_samples_per_second": 28.099,
      "eval_steps_per_second": 14.065,
      "num_input_tokens_seen": 1116128,
      "step": 1200
    },
    {
      "epoch": 0.5681282413955682,
      "grad_norm": 0.0026605657767504454,
      "learning_rate": 0.2993298525713965,
      "loss": 0.3784,
      "num_input_tokens_seen": 1120432,
      "step": 1205
    },
    {
      "epoch": 0.5704856199905705,
      "grad_norm": 0.0011644645128399134,
      "learning_rate": 0.29932427919693017,
      "loss": 0.3271,
      "num_input_tokens_seen": 1125664,
      "step": 1210
    },
    {
      "epoch": 0.5728429985855729,
      "grad_norm": 0.0009816318051889539,
      "learning_rate": 0.2993186827947834,
      "loss": 0.3154,
      "num_input_tokens_seen": 1129952,
      "step": 1215
    },
    {
      "epoch": 0.5752003771805752,
      "grad_norm": 0.0012743663974106312,
      "learning_rate": 0.2993130633658194,
      "loss": 0.3191,
      "num_input_tokens_seen": 1134928,
      "step": 1220
    },
    {
      "epoch": 0.5775577557755776,
      "grad_norm": 0.0007645924924872816,
      "learning_rate": 0.29930742091090456,
      "loss": 0.3058,
      "num_input_tokens_seen": 1139088,
      "step": 1225
    },
    {
      "epoch": 0.57991513437058,
      "grad_norm": 0.0013635344803333282,
      "learning_rate": 0.29930175543090914,
      "loss": 0.3308,
      "num_input_tokens_seen": 1143888,
      "step": 1230
    },
    {
      "epoch": 0.5822725129655822,
      "grad_norm": 0.002082626800984144,
      "learning_rate": 0.2992960669267068,
      "loss": 0.215,
      "num_input_tokens_seen": 1149056,
      "step": 1235
    },
    {
      "epoch": 0.5846298915605846,
      "grad_norm": 0.0016231334302574396,
      "learning_rate": 0.29929035539917476,
      "loss": 0.3795,
      "num_input_tokens_seen": 1153632,
      "step": 1240
    },
    {
      "epoch": 0.5869872701555869,
      "grad_norm": 0.0006263582617975771,
      "learning_rate": 0.2992846208491938,
      "loss": 0.3763,
      "num_input_tokens_seen": 1158096,
      "step": 1245
    },
    {
      "epoch": 0.5893446487505893,
      "grad_norm": 0.0029455467592924833,
      "learning_rate": 0.2992788632776483,
      "loss": 0.3263,
      "num_input_tokens_seen": 1162960,
      "step": 1250
    },
    {
      "epoch": 0.5917020273455917,
      "grad_norm": 0.0009088475489988923,
      "learning_rate": 0.29927308268542613,
      "loss": 0.3286,
      "num_input_tokens_seen": 1166800,
      "step": 1255
    },
    {
      "epoch": 0.594059405940594,
      "grad_norm": 0.002273793565109372,
      "learning_rate": 0.2992672790734187,
      "loss": 0.2921,
      "num_input_tokens_seen": 1171456,
      "step": 1260
    },
    {
      "epoch": 0.5964167845355964,
      "grad_norm": 0.0028441566973924637,
      "learning_rate": 0.299261452442521,
      "loss": 0.3108,
      "num_input_tokens_seen": 1176016,
      "step": 1265
    },
    {
      "epoch": 0.5987741631305987,
      "grad_norm": 0.0008623084286227822,
      "learning_rate": 0.29925560279363167,
      "loss": 0.342,
      "num_input_tokens_seen": 1179824,
      "step": 1270
    },
    {
      "epoch": 0.6011315417256011,
      "grad_norm": 0.0028372204396873713,
      "learning_rate": 0.29924973012765266,
      "loss": 0.3692,
      "num_input_tokens_seen": 1183760,
      "step": 1275
    },
    {
      "epoch": 0.6034889203206035,
      "grad_norm": 0.0013199439272284508,
      "learning_rate": 0.29924383444548974,
      "loss": 0.3506,
      "num_input_tokens_seen": 1187984,
      "step": 1280
    },
    {
      "epoch": 0.6058462989156058,
      "grad_norm": 0.004355447832494974,
      "learning_rate": 0.299237915748052,
      "loss": 0.3685,
      "num_input_tokens_seen": 1192544,
      "step": 1285
    },
    {
      "epoch": 0.6082036775106082,
      "grad_norm": 0.0025103494990617037,
      "learning_rate": 0.2992319740362522,
      "loss": 0.3526,
      "num_input_tokens_seen": 1196416,
      "step": 1290
    },
    {
      "epoch": 0.6105610561056105,
      "grad_norm": 0.002673013834282756,
      "learning_rate": 0.2992260093110066,
      "loss": 0.3481,
      "num_input_tokens_seen": 1200384,
      "step": 1295
    },
    {
      "epoch": 0.6129184347006129,
      "grad_norm": 0.001342449220828712,
      "learning_rate": 0.2992200215732352,
      "loss": 0.3461,
      "num_input_tokens_seen": 1205184,
      "step": 1300
    },
    {
      "epoch": 0.6152758132956153,
      "grad_norm": 0.0020151103381067514,
      "learning_rate": 0.2992140108238611,
      "loss": 0.3493,
      "num_input_tokens_seen": 1209328,
      "step": 1305
    },
    {
      "epoch": 0.6176331918906176,
      "grad_norm": 0.0010223882272839546,
      "learning_rate": 0.2992079770638115,
      "loss": 0.3461,
      "num_input_tokens_seen": 1214032,
      "step": 1310
    },
    {
      "epoch": 0.61999057048562,
      "grad_norm": 0.001947667682543397,
      "learning_rate": 0.29920192029401677,
      "loss": 0.3428,
      "num_input_tokens_seen": 1221104,
      "step": 1315
    },
    {
      "epoch": 0.6223479490806223,
      "grad_norm": 0.0013448518002405763,
      "learning_rate": 0.2991958405154109,
      "loss": 0.3374,
      "num_input_tokens_seen": 1225088,
      "step": 1320
    },
    {
      "epoch": 0.6247053276756247,
      "grad_norm": 0.0010403752094134688,
      "learning_rate": 0.29918973772893154,
      "loss": 0.3486,
      "num_input_tokens_seen": 1229744,
      "step": 1325
    },
    {
      "epoch": 0.6270627062706271,
      "grad_norm": 0.0026737372390925884,
      "learning_rate": 0.29918361193551973,
      "loss": 0.3323,
      "num_input_tokens_seen": 1234144,
      "step": 1330
    },
    {
      "epoch": 0.6294200848656294,
      "grad_norm": 0.0013730003265663981,
      "learning_rate": 0.29917746313612026,
      "loss": 0.3296,
      "num_input_tokens_seen": 1238736,
      "step": 1335
    },
    {
      "epoch": 0.6317774634606318,
      "grad_norm": 0.0014334878651425242,
      "learning_rate": 0.29917129133168124,
      "loss": 0.3385,
      "num_input_tokens_seen": 1244336,
      "step": 1340
    },
    {
      "epoch": 0.6341348420556341,
      "grad_norm": 0.0026961113326251507,
      "learning_rate": 0.2991650965231546,
      "loss": 0.303,
      "num_input_tokens_seen": 1248944,
      "step": 1345
    },
    {
      "epoch": 0.6364922206506365,
      "grad_norm": 0.00368593935854733,
      "learning_rate": 0.29915887871149544,
      "loss": 0.306,
      "num_input_tokens_seen": 1253088,
      "step": 1350
    },
    {
      "epoch": 0.6388495992456389,
      "grad_norm": 0.004118124023079872,
      "learning_rate": 0.2991526378976628,
      "loss": 0.3043,
      "num_input_tokens_seen": 1256816,
      "step": 1355
    },
    {
      "epoch": 0.6412069778406412,
      "grad_norm": 0.0012876461260020733,
      "learning_rate": 0.29914637408261896,
      "loss": 0.3758,
      "num_input_tokens_seen": 1261136,
      "step": 1360
    },
    {
      "epoch": 0.6435643564356436,
      "grad_norm": 0.0013698997208848596,
      "learning_rate": 0.29914008726733,
      "loss": 0.3957,
      "num_input_tokens_seen": 1265248,
      "step": 1365
    },
    {
      "epoch": 0.6459217350306459,
      "grad_norm": 0.0007569738081656396,
      "learning_rate": 0.2991337774527653,
      "loss": 0.3248,
      "num_input_tokens_seen": 1271248,
      "step": 1370
    },
    {
      "epoch": 0.6482791136256483,
      "grad_norm": 0.0009176426101475954,
      "learning_rate": 0.2991274446398981,
      "loss": 0.3354,
      "num_input_tokens_seen": 1275824,
      "step": 1375
    },
    {
      "epoch": 0.6506364922206507,
      "grad_norm": 0.002688433974981308,
      "learning_rate": 0.29912108882970484,
      "loss": 0.3506,
      "num_input_tokens_seen": 1279712,
      "step": 1380
    },
    {
      "epoch": 0.652993870815653,
      "grad_norm": 0.00277320365421474,
      "learning_rate": 0.2991147100231657,
      "loss": 0.3194,
      "num_input_tokens_seen": 1284720,
      "step": 1385
    },
    {
      "epoch": 0.6553512494106554,
      "grad_norm": 0.002793003572151065,
      "learning_rate": 0.2991083082212644,
      "loss": 0.3062,
      "num_input_tokens_seen": 1290624,
      "step": 1390
    },
    {
      "epoch": 0.6577086280056577,
      "grad_norm": 0.001223033876158297,
      "learning_rate": 0.2991018834249881,
      "loss": 0.4052,
      "num_input_tokens_seen": 1295040,
      "step": 1395
    },
    {
      "epoch": 0.6600660066006601,
      "grad_norm": 0.0022126648109406233,
      "learning_rate": 0.29909543563532764,
      "loss": 0.3801,
      "num_input_tokens_seen": 1299664,
      "step": 1400
    },
    {
      "epoch": 0.6600660066006601,
      "eval_loss": 0.3414253890514374,
      "eval_runtime": 33.5271,
      "eval_samples_per_second": 28.126,
      "eval_steps_per_second": 14.078,
      "num_input_tokens_seen": 1299664,
      "step": 1400
    },
    {
      "epoch": 0.6624233851956625,
      "grad_norm": 0.0009488030336797237,
      "learning_rate": 0.29908896485327746,
      "loss": 0.3459,
      "num_input_tokens_seen": 1303920,
      "step": 1405
    },
    {
      "epoch": 0.6647807637906648,
      "grad_norm": 0.003036333015188575,
      "learning_rate": 0.29908247107983527,
      "loss": 0.3369,
      "num_input_tokens_seen": 1308912,
      "step": 1410
    },
    {
      "epoch": 0.6671381423856672,
      "grad_norm": 0.0028128414414823055,
      "learning_rate": 0.29907595431600253,
      "loss": 0.3573,
      "num_input_tokens_seen": 1313440,
      "step": 1415
    },
    {
      "epoch": 0.6694955209806694,
      "grad_norm": 0.0029256921261548996,
      "learning_rate": 0.29906941456278424,
      "loss": 0.3576,
      "num_input_tokens_seen": 1317584,
      "step": 1420
    },
    {
      "epoch": 0.6718528995756718,
      "grad_norm": 0.0032293780241161585,
      "learning_rate": 0.2990628518211889,
      "loss": 0.3485,
      "num_input_tokens_seen": 1322064,
      "step": 1425
    },
    {
      "epoch": 0.6742102781706742,
      "grad_norm": 0.0013860655017197132,
      "learning_rate": 0.2990562660922286,
      "loss": 0.3381,
      "num_input_tokens_seen": 1327008,
      "step": 1430
    },
    {
      "epoch": 0.6765676567656765,
      "grad_norm": 0.0014472069451585412,
      "learning_rate": 0.2990496573769189,
      "loss": 0.3187,
      "num_input_tokens_seen": 1331088,
      "step": 1435
    },
    {
      "epoch": 0.6789250353606789,
      "grad_norm": 0.0021355245262384415,
      "learning_rate": 0.29904302567627894,
      "loss": 0.291,
      "num_input_tokens_seen": 1335664,
      "step": 1440
    },
    {
      "epoch": 0.6812824139556812,
      "grad_norm": 0.00894838385283947,
      "learning_rate": 0.2990363709913314,
      "loss": 0.276,
      "num_input_tokens_seen": 1340224,
      "step": 1445
    },
    {
      "epoch": 0.6836397925506836,
      "grad_norm": 0.0011989445192739367,
      "learning_rate": 0.29902969332310264,
      "loss": 0.2885,
      "num_input_tokens_seen": 1344528,
      "step": 1450
    },
    {
      "epoch": 0.685997171145686,
      "grad_norm": 0.005556725896894932,
      "learning_rate": 0.2990229926726223,
      "loss": 0.4245,
      "num_input_tokens_seen": 1348496,
      "step": 1455
    },
    {
      "epoch": 0.6883545497406883,
      "grad_norm": 0.0040074787102639675,
      "learning_rate": 0.29901626904092365,
      "loss": 0.3383,
      "num_input_tokens_seen": 1353264,
      "step": 1460
    },
    {
      "epoch": 0.6907119283356907,
      "grad_norm": 0.0044610025361180305,
      "learning_rate": 0.2990095224290438,
      "loss": 0.3261,
      "num_input_tokens_seen": 1357712,
      "step": 1465
    },
    {
      "epoch": 0.693069306930693,
      "grad_norm": 0.001575607224367559,
      "learning_rate": 0.29900275283802297,
      "loss": 0.3491,
      "num_input_tokens_seen": 1361856,
      "step": 1470
    },
    {
      "epoch": 0.6954266855256954,
      "grad_norm": 0.0035856368485838175,
      "learning_rate": 0.2989959602689051,
      "loss": 0.3256,
      "num_input_tokens_seen": 1366960,
      "step": 1475
    },
    {
      "epoch": 0.6977840641206978,
      "grad_norm": 0.0017035824712365866,
      "learning_rate": 0.2989891447227379,
      "loss": 0.316,
      "num_input_tokens_seen": 1371776,
      "step": 1480
    },
    {
      "epoch": 0.7001414427157001,
      "grad_norm": 0.009100579656660557,
      "learning_rate": 0.29898230620057215,
      "loss": 0.366,
      "num_input_tokens_seen": 1375632,
      "step": 1485
    },
    {
      "epoch": 0.7024988213107025,
      "grad_norm": 0.0011175137478858232,
      "learning_rate": 0.2989754447034626,
      "loss": 0.302,
      "num_input_tokens_seen": 1379776,
      "step": 1490
    },
    {
      "epoch": 0.7048561999057048,
      "grad_norm": 0.00328019168227911,
      "learning_rate": 0.2989685602324673,
      "loss": 0.3288,
      "num_input_tokens_seen": 1384272,
      "step": 1495
    },
    {
      "epoch": 0.7072135785007072,
      "grad_norm": 0.0012514012632891536,
      "learning_rate": 0.298961652788648,
      "loss": 0.3097,
      "num_input_tokens_seen": 1388304,
      "step": 1500
    },
    {
      "epoch": 0.7095709570957096,
      "grad_norm": 0.002194954315200448,
      "learning_rate": 0.29895472237306986,
      "loss": 0.3407,
      "num_input_tokens_seen": 1393120,
      "step": 1505
    },
    {
      "epoch": 0.7119283356907119,
      "grad_norm": 0.0013792496174573898,
      "learning_rate": 0.29894776898680164,
      "loss": 0.3687,
      "num_input_tokens_seen": 1397600,
      "step": 1510
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.0033429828472435474,
      "learning_rate": 0.29894079263091566,
      "loss": 0.3087,
      "num_input_tokens_seen": 1402592,
      "step": 1515
    },
    {
      "epoch": 0.7166430928807166,
      "grad_norm": 0.002000486711040139,
      "learning_rate": 0.2989337933064877,
      "loss": 0.2991,
      "num_input_tokens_seen": 1407360,
      "step": 1520
    },
    {
      "epoch": 0.719000471475719,
      "grad_norm": 0.0016007852973416448,
      "learning_rate": 0.29892677101459725,
      "loss": 0.3099,
      "num_input_tokens_seen": 1410992,
      "step": 1525
    },
    {
      "epoch": 0.7213578500707214,
      "grad_norm": 0.001398505293764174,
      "learning_rate": 0.2989197257563272,
      "loss": 0.3557,
      "num_input_tokens_seen": 1415072,
      "step": 1530
    },
    {
      "epoch": 0.7237152286657237,
      "grad_norm": 0.0014311724808067083,
      "learning_rate": 0.2989126575327639,
      "loss": 0.3415,
      "num_input_tokens_seen": 1420064,
      "step": 1535
    },
    {
      "epoch": 0.7260726072607261,
      "grad_norm": 0.001441912492737174,
      "learning_rate": 0.29890556634499754,
      "loss": 0.3273,
      "num_input_tokens_seen": 1423856,
      "step": 1540
    },
    {
      "epoch": 0.7284299858557284,
      "grad_norm": 0.0012074904516339302,
      "learning_rate": 0.2988984521941216,
      "loss": 0.3033,
      "num_input_tokens_seen": 1428016,
      "step": 1545
    },
    {
      "epoch": 0.7307873644507308,
      "grad_norm": 0.001823672791942954,
      "learning_rate": 0.29889131508123307,
      "loss": 0.3717,
      "num_input_tokens_seen": 1433376,
      "step": 1550
    },
    {
      "epoch": 0.7331447430457332,
      "grad_norm": 0.002574797486886382,
      "learning_rate": 0.2988841550074327,
      "loss": 0.3573,
      "num_input_tokens_seen": 1438240,
      "step": 1555
    },
    {
      "epoch": 0.7355021216407355,
      "grad_norm": 0.0031076734885573387,
      "learning_rate": 0.2988769719738246,
      "loss": 0.3204,
      "num_input_tokens_seen": 1442768,
      "step": 1560
    },
    {
      "epoch": 0.7378595002357379,
      "grad_norm": 0.0014278239104896784,
      "learning_rate": 0.29886976598151666,
      "loss": 0.3495,
      "num_input_tokens_seen": 1448096,
      "step": 1565
    },
    {
      "epoch": 0.7402168788307402,
      "grad_norm": 0.0029769777320325375,
      "learning_rate": 0.29886253703161986,
      "loss": 0.3235,
      "num_input_tokens_seen": 1452640,
      "step": 1570
    },
    {
      "epoch": 0.7425742574257426,
      "grad_norm": 0.0012444884050637484,
      "learning_rate": 0.29885528512524917,
      "loss": 0.3186,
      "num_input_tokens_seen": 1458032,
      "step": 1575
    },
    {
      "epoch": 0.744931636020745,
      "grad_norm": 0.0005188742652535439,
      "learning_rate": 0.29884801026352287,
      "loss": 0.2529,
      "num_input_tokens_seen": 1462512,
      "step": 1580
    },
    {
      "epoch": 0.7472890146157473,
      "grad_norm": 0.003981109242886305,
      "learning_rate": 0.2988407124475629,
      "loss": 0.3683,
      "num_input_tokens_seen": 1467536,
      "step": 1585
    },
    {
      "epoch": 0.7496463932107497,
      "grad_norm": 0.0036733157467097044,
      "learning_rate": 0.2988333916784945,
      "loss": 0.3836,
      "num_input_tokens_seen": 1472368,
      "step": 1590
    },
    {
      "epoch": 0.752003771805752,
      "grad_norm": 0.002339660655707121,
      "learning_rate": 0.2988260479574468,
      "loss": 0.2907,
      "num_input_tokens_seen": 1476464,
      "step": 1595
    },
    {
      "epoch": 0.7543611504007544,
      "grad_norm": 0.0012715079355984926,
      "learning_rate": 0.2988186812855523,
      "loss": 0.2952,
      "num_input_tokens_seen": 1481856,
      "step": 1600
    },
    {
      "epoch": 0.7543611504007544,
      "eval_loss": 0.32911041378974915,
      "eval_runtime": 33.5192,
      "eval_samples_per_second": 28.133,
      "eval_steps_per_second": 14.081,
      "num_input_tokens_seen": 1481856,
      "step": 1600
    },
    {
      "epoch": 0.7567185289957568,
      "grad_norm": 0.0006751236505806446,
      "learning_rate": 0.29881129166394693,
      "loss": 0.2893,
      "num_input_tokens_seen": 1486256,
      "step": 1605
    },
    {
      "epoch": 0.759075907590759,
      "grad_norm": 0.0007587228319607675,
      "learning_rate": 0.29880387909377026,
      "loss": 0.3055,
      "num_input_tokens_seen": 1490800,
      "step": 1610
    },
    {
      "epoch": 0.7614332861857614,
      "grad_norm": 0.0014058772940188646,
      "learning_rate": 0.2987964435761655,
      "loss": 0.3304,
      "num_input_tokens_seen": 1495056,
      "step": 1615
    },
    {
      "epoch": 0.7637906647807637,
      "grad_norm": 0.0013533371966332197,
      "learning_rate": 0.29878898511227925,
      "loss": 0.3041,
      "num_input_tokens_seen": 1499648,
      "step": 1620
    },
    {
      "epoch": 0.7661480433757661,
      "grad_norm": 0.0019292894285172224,
      "learning_rate": 0.2987815037032617,
      "loss": 0.262,
      "num_input_tokens_seen": 1504464,
      "step": 1625
    },
    {
      "epoch": 0.7685054219707685,
      "grad_norm": 0.001503610284999013,
      "learning_rate": 0.29877399935026655,
      "loss": 0.3091,
      "num_input_tokens_seen": 1509488,
      "step": 1630
    },
    {
      "epoch": 0.7708628005657708,
      "grad_norm": 0.0016248149331659079,
      "learning_rate": 0.2987664720544511,
      "loss": 0.3122,
      "num_input_tokens_seen": 1514064,
      "step": 1635
    },
    {
      "epoch": 0.7732201791607732,
      "grad_norm": 0.0014259560266509652,
      "learning_rate": 0.2987589218169761,
      "loss": 0.3338,
      "num_input_tokens_seen": 1519072,
      "step": 1640
    },
    {
      "epoch": 0.7755775577557755,
      "grad_norm": 0.001208463218063116,
      "learning_rate": 0.29875134863900604,
      "loss": 0.3496,
      "num_input_tokens_seen": 1524224,
      "step": 1645
    },
    {
      "epoch": 0.7779349363507779,
      "grad_norm": 0.0020622911397367716,
      "learning_rate": 0.29874375252170865,
      "loss": 0.2868,
      "num_input_tokens_seen": 1528528,
      "step": 1650
    },
    {
      "epoch": 0.7802923149457803,
      "grad_norm": 0.0027212672866880894,
      "learning_rate": 0.2987361334662553,
      "loss": 0.3086,
      "num_input_tokens_seen": 1533712,
      "step": 1655
    },
    {
      "epoch": 0.7826496935407826,
      "grad_norm": 0.002059413120150566,
      "learning_rate": 0.29872849147382113,
      "loss": 0.3462,
      "num_input_tokens_seen": 1539024,
      "step": 1660
    },
    {
      "epoch": 0.785007072135785,
      "grad_norm": 0.0026282425969839096,
      "learning_rate": 0.2987208265455845,
      "loss": 0.3242,
      "num_input_tokens_seen": 1544272,
      "step": 1665
    },
    {
      "epoch": 0.7873644507307873,
      "grad_norm": 0.0010448130778968334,
      "learning_rate": 0.29871313868272753,
      "loss": 0.3713,
      "num_input_tokens_seen": 1548800,
      "step": 1670
    },
    {
      "epoch": 0.7897218293257897,
      "grad_norm": 0.000859607185702771,
      "learning_rate": 0.29870542788643567,
      "loss": 0.3273,
      "num_input_tokens_seen": 1553888,
      "step": 1675
    },
    {
      "epoch": 0.7920792079207921,
      "grad_norm": 0.0010064038215205073,
      "learning_rate": 0.2986976941578981,
      "loss": 0.3429,
      "num_input_tokens_seen": 1558192,
      "step": 1680
    },
    {
      "epoch": 0.7944365865157944,
      "grad_norm": 0.002183601027354598,
      "learning_rate": 0.29868993749830747,
      "loss": 0.3318,
      "num_input_tokens_seen": 1562912,
      "step": 1685
    },
    {
      "epoch": 0.7967939651107968,
      "grad_norm": 0.0009226575493812561,
      "learning_rate": 0.2986821579088598,
      "loss": 0.3168,
      "num_input_tokens_seen": 1567728,
      "step": 1690
    },
    {
      "epoch": 0.7991513437057991,
      "grad_norm": 0.0021422968711704016,
      "learning_rate": 0.29867435539075504,
      "loss": 0.3505,
      "num_input_tokens_seen": 1572016,
      "step": 1695
    },
    {
      "epoch": 0.8015087223008015,
      "grad_norm": 0.0010366275673732162,
      "learning_rate": 0.2986665299451963,
      "loss": 0.3161,
      "num_input_tokens_seen": 1576832,
      "step": 1700
    },
    {
      "epoch": 0.8038661008958039,
      "grad_norm": 0.0008427934953942895,
      "learning_rate": 0.29865868157339037,
      "loss": 0.3209,
      "num_input_tokens_seen": 1581376,
      "step": 1705
    },
    {
      "epoch": 0.8062234794908062,
      "grad_norm": 0.0009740583482198417,
      "learning_rate": 0.2986508102765476,
      "loss": 0.3273,
      "num_input_tokens_seen": 1585872,
      "step": 1710
    },
    {
      "epoch": 0.8085808580858086,
      "grad_norm": 0.0011685614008456469,
      "learning_rate": 0.2986429160558818,
      "loss": 0.2933,
      "num_input_tokens_seen": 1591664,
      "step": 1715
    },
    {
      "epoch": 0.8109382366808109,
      "grad_norm": 0.0015841820277273655,
      "learning_rate": 0.2986349989126104,
      "loss": 0.4147,
      "num_input_tokens_seen": 1596720,
      "step": 1720
    },
    {
      "epoch": 0.8132956152758133,
      "grad_norm": 0.0025079604238271713,
      "learning_rate": 0.29862705884795426,
      "loss": 0.3306,
      "num_input_tokens_seen": 1602784,
      "step": 1725
    },
    {
      "epoch": 0.8156529938708157,
      "grad_norm": 0.002628210000693798,
      "learning_rate": 0.2986190958631379,
      "loss": 0.2992,
      "num_input_tokens_seen": 1607488,
      "step": 1730
    },
    {
      "epoch": 0.818010372465818,
      "grad_norm": 0.0024245905224233866,
      "learning_rate": 0.29861110995938933,
      "loss": 0.3387,
      "num_input_tokens_seen": 1611488,
      "step": 1735
    },
    {
      "epoch": 0.8203677510608204,
      "grad_norm": 0.0018995330901816487,
      "learning_rate": 0.29860310113794,
      "loss": 0.341,
      "num_input_tokens_seen": 1615680,
      "step": 1740
    },
    {
      "epoch": 0.8227251296558227,
      "grad_norm": 0.003073848318308592,
      "learning_rate": 0.29859506940002506,
      "loss": 0.3403,
      "num_input_tokens_seen": 1620224,
      "step": 1745
    },
    {
      "epoch": 0.8250825082508251,
      "grad_norm": 0.0007809565868228674,
      "learning_rate": 0.298587014746883,
      "loss": 0.2941,
      "num_input_tokens_seen": 1624640,
      "step": 1750
    },
    {
      "epoch": 0.8274398868458275,
      "grad_norm": 0.004190902225673199,
      "learning_rate": 0.298578937179756,
      "loss": 0.3676,
      "num_input_tokens_seen": 1629984,
      "step": 1755
    },
    {
      "epoch": 0.8297972654408298,
      "grad_norm": 0.002523979404941201,
      "learning_rate": 0.29857083669988976,
      "loss": 0.328,
      "num_input_tokens_seen": 1634480,
      "step": 1760
    },
    {
      "epoch": 0.8321546440358322,
      "grad_norm": 0.0014868302969262004,
      "learning_rate": 0.29856271330853346,
      "loss": 0.3261,
      "num_input_tokens_seen": 1639360,
      "step": 1765
    },
    {
      "epoch": 0.8345120226308345,
      "grad_norm": 0.014223870821297169,
      "learning_rate": 0.2985545670069398,
      "loss": 0.3427,
      "num_input_tokens_seen": 1644256,
      "step": 1770
    },
    {
      "epoch": 0.8368694012258369,
      "grad_norm": 0.002347873291000724,
      "learning_rate": 0.29854639779636505,
      "loss": 0.3383,
      "num_input_tokens_seen": 1649376,
      "step": 1775
    },
    {
      "epoch": 0.8392267798208393,
      "grad_norm": 0.0008729292312636971,
      "learning_rate": 0.298538205678069,
      "loss": 0.321,
      "num_input_tokens_seen": 1653472,
      "step": 1780
    },
    {
      "epoch": 0.8415841584158416,
      "grad_norm": 0.001001281081698835,
      "learning_rate": 0.298529990653315,
      "loss": 0.3464,
      "num_input_tokens_seen": 1657808,
      "step": 1785
    },
    {
      "epoch": 0.843941537010844,
      "grad_norm": 0.0008202531025744975,
      "learning_rate": 0.29852175272336984,
      "loss": 0.3284,
      "num_input_tokens_seen": 1662576,
      "step": 1790
    },
    {
      "epoch": 0.8462989156058462,
      "grad_norm": 0.0027230416890233755,
      "learning_rate": 0.29851349188950405,
      "loss": 0.3303,
      "num_input_tokens_seen": 1667216,
      "step": 1795
    },
    {
      "epoch": 0.8486562942008486,
      "grad_norm": 0.001135131809860468,
      "learning_rate": 0.2985052081529914,
      "loss": 0.3585,
      "num_input_tokens_seen": 1672160,
      "step": 1800
    },
    {
      "epoch": 0.8486562942008486,
      "eval_loss": 0.3287978768348694,
      "eval_runtime": 33.5701,
      "eval_samples_per_second": 28.09,
      "eval_steps_per_second": 14.06,
      "num_input_tokens_seen": 1672160,
      "step": 1800
    },
    {
      "epoch": 0.851013672795851,
      "grad_norm": 0.0022791498340666294,
      "learning_rate": 0.29849690151510944,
      "loss": 0.3402,
      "num_input_tokens_seen": 1676400,
      "step": 1805
    },
    {
      "epoch": 0.8533710513908533,
      "grad_norm": 0.000999532756395638,
      "learning_rate": 0.2984885719771392,
      "loss": 0.2909,
      "num_input_tokens_seen": 1680528,
      "step": 1810
    },
    {
      "epoch": 0.8557284299858557,
      "grad_norm": 0.0009344656718894839,
      "learning_rate": 0.2984802195403651,
      "loss": 0.3678,
      "num_input_tokens_seen": 1684880,
      "step": 1815
    },
    {
      "epoch": 0.858085808580858,
      "grad_norm": 0.001186990411952138,
      "learning_rate": 0.2984718442060752,
      "loss": 0.3454,
      "num_input_tokens_seen": 1689376,
      "step": 1820
    },
    {
      "epoch": 0.8604431871758604,
      "grad_norm": 0.0026030270382761955,
      "learning_rate": 0.2984634459755611,
      "loss": 0.3658,
      "num_input_tokens_seen": 1694752,
      "step": 1825
    },
    {
      "epoch": 0.8628005657708628,
      "grad_norm": 0.002830725396052003,
      "learning_rate": 0.29845502485011793,
      "loss": 0.3181,
      "num_input_tokens_seen": 1699040,
      "step": 1830
    },
    {
      "epoch": 0.8651579443658651,
      "grad_norm": 0.00114137539640069,
      "learning_rate": 0.2984465808310444,
      "loss": 0.3266,
      "num_input_tokens_seen": 1703872,
      "step": 1835
    },
    {
      "epoch": 0.8675153229608675,
      "grad_norm": 0.0007316744886338711,
      "learning_rate": 0.29843811391964253,
      "loss": 0.2902,
      "num_input_tokens_seen": 1708096,
      "step": 1840
    },
    {
      "epoch": 0.8698727015558698,
      "grad_norm": 0.000702373799867928,
      "learning_rate": 0.2984296241172182,
      "loss": 0.3231,
      "num_input_tokens_seen": 1712320,
      "step": 1845
    },
    {
      "epoch": 0.8722300801508722,
      "grad_norm": 0.0019824467599391937,
      "learning_rate": 0.29842111142508043,
      "loss": 0.306,
      "num_input_tokens_seen": 1717136,
      "step": 1850
    },
    {
      "epoch": 0.8745874587458746,
      "grad_norm": 0.0014642555033788085,
      "learning_rate": 0.29841257584454217,
      "loss": 0.4375,
      "num_input_tokens_seen": 1721952,
      "step": 1855
    },
    {
      "epoch": 0.8769448373408769,
      "grad_norm": 0.0010411691619083285,
      "learning_rate": 0.29840401737691963,
      "loss": 0.3505,
      "num_input_tokens_seen": 1726976,
      "step": 1860
    },
    {
      "epoch": 0.8793022159358793,
      "grad_norm": 0.002769376849755645,
      "learning_rate": 0.29839543602353263,
      "loss": 0.3394,
      "num_input_tokens_seen": 1732016,
      "step": 1865
    },
    {
      "epoch": 0.8816595945308816,
      "grad_norm": 0.0009478320716880262,
      "learning_rate": 0.2983868317857046,
      "loss": 0.3628,
      "num_input_tokens_seen": 1737248,
      "step": 1870
    },
    {
      "epoch": 0.884016973125884,
      "grad_norm": 0.001267736777663231,
      "learning_rate": 0.2983782046647623,
      "loss": 0.3495,
      "num_input_tokens_seen": 1741392,
      "step": 1875
    },
    {
      "epoch": 0.8863743517208864,
      "grad_norm": 0.0017870732117444277,
      "learning_rate": 0.2983695546620362,
      "loss": 0.3581,
      "num_input_tokens_seen": 1745904,
      "step": 1880
    },
    {
      "epoch": 0.8887317303158887,
      "grad_norm": 0.0016476488672196865,
      "learning_rate": 0.2983608817788603,
      "loss": 0.3462,
      "num_input_tokens_seen": 1750560,
      "step": 1885
    },
    {
      "epoch": 0.8910891089108911,
      "grad_norm": 0.001756369019858539,
      "learning_rate": 0.29835218601657193,
      "loss": 0.349,
      "num_input_tokens_seen": 1755136,
      "step": 1890
    },
    {
      "epoch": 0.8934464875058934,
      "grad_norm": 0.0012392655480653048,
      "learning_rate": 0.29834346737651224,
      "loss": 0.3332,
      "num_input_tokens_seen": 1760544,
      "step": 1895
    },
    {
      "epoch": 0.8958038661008958,
      "grad_norm": 0.0010103691602125764,
      "learning_rate": 0.29833472586002563,
      "loss": 0.3305,
      "num_input_tokens_seen": 1765232,
      "step": 1900
    },
    {
      "epoch": 0.8981612446958982,
      "grad_norm": 0.0007058290066197515,
      "learning_rate": 0.29832596146846024,
      "loss": 0.2976,
      "num_input_tokens_seen": 1769552,
      "step": 1905
    },
    {
      "epoch": 0.9005186232909005,
      "grad_norm": 0.0016885458026081324,
      "learning_rate": 0.2983171742031676,
      "loss": 0.3865,
      "num_input_tokens_seen": 1774656,
      "step": 1910
    },
    {
      "epoch": 0.9028760018859029,
      "grad_norm": 0.0015062117017805576,
      "learning_rate": 0.2983083640655028,
      "loss": 0.2937,
      "num_input_tokens_seen": 1779600,
      "step": 1915
    },
    {
      "epoch": 0.9052333804809052,
      "grad_norm": 0.000683712656609714,
      "learning_rate": 0.29829953105682455,
      "loss": 0.3215,
      "num_input_tokens_seen": 1784352,
      "step": 1920
    },
    {
      "epoch": 0.9075907590759076,
      "grad_norm": 0.0027556668501347303,
      "learning_rate": 0.29829067517849495,
      "loss": 0.3214,
      "num_input_tokens_seen": 1789440,
      "step": 1925
    },
    {
      "epoch": 0.90994813767091,
      "grad_norm": 0.0026287841610610485,
      "learning_rate": 0.2982817964318797,
      "loss": 0.3226,
      "num_input_tokens_seen": 1793920,
      "step": 1930
    },
    {
      "epoch": 0.9123055162659123,
      "grad_norm": 0.001749712391756475,
      "learning_rate": 0.298272894818348,
      "loss": 0.3264,
      "num_input_tokens_seen": 1798624,
      "step": 1935
    },
    {
      "epoch": 0.9146628948609147,
      "grad_norm": 0.0012827434111386538,
      "learning_rate": 0.2982639703392726,
      "loss": 0.3233,
      "num_input_tokens_seen": 1803184,
      "step": 1940
    },
    {
      "epoch": 0.917020273455917,
      "grad_norm": 0.0019223097478970885,
      "learning_rate": 0.29825502299602974,
      "loss": 0.3508,
      "num_input_tokens_seen": 1808192,
      "step": 1945
    },
    {
      "epoch": 0.9193776520509194,
      "grad_norm": 0.0007555926567874849,
      "learning_rate": 0.2982460527899993,
      "loss": 0.2779,
      "num_input_tokens_seen": 1813008,
      "step": 1950
    },
    {
      "epoch": 0.9217350306459218,
      "grad_norm": 0.0009770274627953768,
      "learning_rate": 0.29823705972256453,
      "loss": 0.4367,
      "num_input_tokens_seen": 1817456,
      "step": 1955
    },
    {
      "epoch": 0.9240924092409241,
      "grad_norm": 0.00105181650724262,
      "learning_rate": 0.2982280437951123,
      "loss": 0.3099,
      "num_input_tokens_seen": 1821616,
      "step": 1960
    },
    {
      "epoch": 0.9264497878359265,
      "grad_norm": 0.0021741436794400215,
      "learning_rate": 0.298219005009033,
      "loss": 0.3386,
      "num_input_tokens_seen": 1827232,
      "step": 1965
    },
    {
      "epoch": 0.9288071664309288,
      "grad_norm": 0.002369645517319441,
      "learning_rate": 0.29820994336572043,
      "loss": 0.3168,
      "num_input_tokens_seen": 1832320,
      "step": 1970
    },
    {
      "epoch": 0.9311645450259312,
      "grad_norm": 0.0008689808310009539,
      "learning_rate": 0.2982008588665721,
      "loss": 0.3162,
      "num_input_tokens_seen": 1837424,
      "step": 1975
    },
    {
      "epoch": 0.9335219236209336,
      "grad_norm": 0.0008632023818790913,
      "learning_rate": 0.2981917515129889,
      "loss": 0.3871,
      "num_input_tokens_seen": 1842304,
      "step": 1980
    },
    {
      "epoch": 0.9358793022159358,
      "grad_norm": 0.0008590960642322898,
      "learning_rate": 0.2981826213063753,
      "loss": 0.3132,
      "num_input_tokens_seen": 1847712,
      "step": 1985
    },
    {
      "epoch": 0.9382366808109383,
      "grad_norm": 0.0008218036964535713,
      "learning_rate": 0.2981734682481394,
      "loss": 0.3425,
      "num_input_tokens_seen": 1852032,
      "step": 1990
    },
    {
      "epoch": 0.9405940594059405,
      "grad_norm": 0.0010901844361796975,
      "learning_rate": 0.29816429233969255,
      "loss": 0.2964,
      "num_input_tokens_seen": 1856192,
      "step": 1995
    },
    {
      "epoch": 0.9429514380009429,
      "grad_norm": 0.00224917009472847,
      "learning_rate": 0.2981550935824499,
      "loss": 0.3976,
      "num_input_tokens_seen": 1860608,
      "step": 2000
    },
    {
      "epoch": 0.9429514380009429,
      "eval_loss": 0.32745420932769775,
      "eval_runtime": 33.5888,
      "eval_samples_per_second": 28.075,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 1860608,
      "step": 2000
    },
    {
      "epoch": 0.9453088165959453,
      "grad_norm": 0.0007364080520346761,
      "learning_rate": 0.29814587197783,
      "loss": 0.3645,
      "num_input_tokens_seen": 1864848,
      "step": 2005
    },
    {
      "epoch": 0.9476661951909476,
      "grad_norm": 0.0009173231082968414,
      "learning_rate": 0.29813662752725495,
      "loss": 0.3463,
      "num_input_tokens_seen": 1870512,
      "step": 2010
    },
    {
      "epoch": 0.95002357378595,
      "grad_norm": 0.000529613287653774,
      "learning_rate": 0.29812736023215025,
      "loss": 0.3629,
      "num_input_tokens_seen": 1875648,
      "step": 2015
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 0.0015655227471143007,
      "learning_rate": 0.29811807009394514,
      "loss": 0.3458,
      "num_input_tokens_seen": 1880384,
      "step": 2020
    },
    {
      "epoch": 0.9547383309759547,
      "grad_norm": 0.001486762659624219,
      "learning_rate": 0.2981087571140723,
      "loss": 0.3521,
      "num_input_tokens_seen": 1885296,
      "step": 2025
    },
    {
      "epoch": 0.9570957095709571,
      "grad_norm": 0.0010925979586318135,
      "learning_rate": 0.2980994212939678,
      "loss": 0.3297,
      "num_input_tokens_seen": 1889376,
      "step": 2030
    },
    {
      "epoch": 0.9594530881659594,
      "grad_norm": 0.0010049444390460849,
      "learning_rate": 0.2980900626350715,
      "loss": 0.3382,
      "num_input_tokens_seen": 1894688,
      "step": 2035
    },
    {
      "epoch": 0.9618104667609618,
      "grad_norm": 0.0009567509405314922,
      "learning_rate": 0.29808068113882646,
      "loss": 0.3231,
      "num_input_tokens_seen": 1899424,
      "step": 2040
    },
    {
      "epoch": 0.9641678453559641,
      "grad_norm": 0.0007257091929204762,
      "learning_rate": 0.2980712768066795,
      "loss": 0.337,
      "num_input_tokens_seen": 1903760,
      "step": 2045
    },
    {
      "epoch": 0.9665252239509665,
      "grad_norm": 0.00117787707131356,
      "learning_rate": 0.2980618496400809,
      "loss": 0.3463,
      "num_input_tokens_seen": 1908416,
      "step": 2050
    },
    {
      "epoch": 0.9688826025459689,
      "grad_norm": 0.0006537000299431384,
      "learning_rate": 0.2980523996404844,
      "loss": 0.3411,
      "num_input_tokens_seen": 1912928,
      "step": 2055
    },
    {
      "epoch": 0.9712399811409712,
      "grad_norm": 0.0018737325444817543,
      "learning_rate": 0.2980429268093473,
      "loss": 0.3081,
      "num_input_tokens_seen": 1917584,
      "step": 2060
    },
    {
      "epoch": 0.9735973597359736,
      "grad_norm": 0.00229787384159863,
      "learning_rate": 0.29803343114813047,
      "loss": 0.3562,
      "num_input_tokens_seen": 1922576,
      "step": 2065
    },
    {
      "epoch": 0.9759547383309759,
      "grad_norm": 0.0008368285489268601,
      "learning_rate": 0.2980239126582983,
      "loss": 0.3675,
      "num_input_tokens_seen": 1928112,
      "step": 2070
    },
    {
      "epoch": 0.9783121169259783,
      "grad_norm": 0.002778928726911545,
      "learning_rate": 0.2980143713413186,
      "loss": 0.3521,
      "num_input_tokens_seen": 1932576,
      "step": 2075
    },
    {
      "epoch": 0.9806694955209807,
      "grad_norm": 0.0020575025118887424,
      "learning_rate": 0.29800480719866274,
      "loss": 0.3568,
      "num_input_tokens_seen": 1937408,
      "step": 2080
    },
    {
      "epoch": 0.983026874115983,
      "grad_norm": 0.001624731463380158,
      "learning_rate": 0.2979952202318057,
      "loss": 0.3481,
      "num_input_tokens_seen": 1941328,
      "step": 2085
    },
    {
      "epoch": 0.9853842527109854,
      "grad_norm": 0.0008205328485928476,
      "learning_rate": 0.2979856104422259,
      "loss": 0.3437,
      "num_input_tokens_seen": 1945744,
      "step": 2090
    },
    {
      "epoch": 0.9877416313059877,
      "grad_norm": 0.0013462621718645096,
      "learning_rate": 0.2979759778314052,
      "loss": 0.3334,
      "num_input_tokens_seen": 1950240,
      "step": 2095
    },
    {
      "epoch": 0.9900990099009901,
      "grad_norm": 0.0007502309745177627,
      "learning_rate": 0.2979663224008292,
      "loss": 0.3614,
      "num_input_tokens_seen": 1954464,
      "step": 2100
    },
    {
      "epoch": 0.9924563884959925,
      "grad_norm": 0.0019022339256480336,
      "learning_rate": 0.2979566441519868,
      "loss": 0.3359,
      "num_input_tokens_seen": 1958608,
      "step": 2105
    },
    {
      "epoch": 0.9948137670909948,
      "grad_norm": 0.0016173558542504907,
      "learning_rate": 0.29794694308637054,
      "loss": 0.3461,
      "num_input_tokens_seen": 1962480,
      "step": 2110
    },
    {
      "epoch": 0.9971711456859972,
      "grad_norm": 0.0006383006693795323,
      "learning_rate": 0.2979372192054764,
      "loss": 0.3365,
      "num_input_tokens_seen": 1967264,
      "step": 2115
    },
    {
      "epoch": 0.9995285242809995,
      "grad_norm": 0.0021106423810124397,
      "learning_rate": 0.297927472510804,
      "loss": 0.3133,
      "num_input_tokens_seen": 1971952,
      "step": 2120
    },
    {
      "epoch": 1.0018859028760019,
      "grad_norm": 0.0007191105396486819,
      "learning_rate": 0.29791770300385634,
      "loss": 0.3588,
      "num_input_tokens_seen": 1976976,
      "step": 2125
    },
    {
      "epoch": 1.0042432814710043,
      "grad_norm": 0.0021986826322972775,
      "learning_rate": 0.29790791068614003,
      "loss": 0.3599,
      "num_input_tokens_seen": 1981088,
      "step": 2130
    },
    {
      "epoch": 1.0066006600660067,
      "grad_norm": 0.0011536123929545283,
      "learning_rate": 0.2978980955591652,
      "loss": 0.326,
      "num_input_tokens_seen": 1986176,
      "step": 2135
    },
    {
      "epoch": 1.0089580386610089,
      "grad_norm": 0.0007258948171511292,
      "learning_rate": 0.2978882576244454,
      "loss": 0.2708,
      "num_input_tokens_seen": 1991616,
      "step": 2140
    },
    {
      "epoch": 1.0113154172560113,
      "grad_norm": 0.0007261212449520826,
      "learning_rate": 0.2978783968834978,
      "loss": 0.325,
      "num_input_tokens_seen": 1996736,
      "step": 2145
    },
    {
      "epoch": 1.0136727958510137,
      "grad_norm": 0.002440448384732008,
      "learning_rate": 0.29786851333784303,
      "loss": 0.2841,
      "num_input_tokens_seen": 2002656,
      "step": 2150
    },
    {
      "epoch": 1.016030174446016,
      "grad_norm": 0.0030918738339096308,
      "learning_rate": 0.2978586069890053,
      "loss": 0.3129,
      "num_input_tokens_seen": 2007520,
      "step": 2155
    },
    {
      "epoch": 1.0183875530410185,
      "grad_norm": 0.0008205387857742608,
      "learning_rate": 0.29784867783851227,
      "loss": 0.4547,
      "num_input_tokens_seen": 2012320,
      "step": 2160
    },
    {
      "epoch": 1.0207449316360206,
      "grad_norm": 0.0025311841163784266,
      "learning_rate": 0.2978387258878951,
      "loss": 0.3665,
      "num_input_tokens_seen": 2017392,
      "step": 2165
    },
    {
      "epoch": 1.023102310231023,
      "grad_norm": 0.0017228273209184408,
      "learning_rate": 0.29782875113868856,
      "loss": 0.3371,
      "num_input_tokens_seen": 2022576,
      "step": 2170
    },
    {
      "epoch": 1.0254596888260255,
      "grad_norm": 0.0011019010562449694,
      "learning_rate": 0.2978187535924309,
      "loss": 0.3137,
      "num_input_tokens_seen": 2027168,
      "step": 2175
    },
    {
      "epoch": 1.0278170674210279,
      "grad_norm": 0.0009552336996421218,
      "learning_rate": 0.29780873325066376,
      "loss": 0.3073,
      "num_input_tokens_seen": 2031424,
      "step": 2180
    },
    {
      "epoch": 1.0301744460160303,
      "grad_norm": 0.004054049961268902,
      "learning_rate": 0.2977986901149325,
      "loss": 0.3291,
      "num_input_tokens_seen": 2034960,
      "step": 2185
    },
    {
      "epoch": 1.0325318246110324,
      "grad_norm": 0.0007665170123800635,
      "learning_rate": 0.29778862418678587,
      "loss": 0.3276,
      "num_input_tokens_seen": 2039952,
      "step": 2190
    },
    {
      "epoch": 1.0348892032060348,
      "grad_norm": 0.0010455090086907148,
      "learning_rate": 0.29777853546777616,
      "loss": 0.3598,
      "num_input_tokens_seen": 2043808,
      "step": 2195
    },
    {
      "epoch": 1.0372465818010372,
      "grad_norm": 0.0010561344679445028,
      "learning_rate": 0.2977684239594592,
      "loss": 0.359,
      "num_input_tokens_seen": 2047984,
      "step": 2200
    },
    {
      "epoch": 1.0372465818010372,
      "eval_loss": 0.32951706647872925,
      "eval_runtime": 33.5194,
      "eval_samples_per_second": 28.133,
      "eval_steps_per_second": 14.081,
      "num_input_tokens_seen": 2047984,
      "step": 2200
    },
    {
      "epoch": 1.0396039603960396,
      "grad_norm": 0.0006877172272652388,
      "learning_rate": 0.29775828966339424,
      "loss": 0.3737,
      "num_input_tokens_seen": 2052032,
      "step": 2205
    },
    {
      "epoch": 1.041961338991042,
      "grad_norm": 0.001753293676301837,
      "learning_rate": 0.29774813258114424,
      "loss": 0.3391,
      "num_input_tokens_seen": 2056576,
      "step": 2210
    },
    {
      "epoch": 1.0443187175860442,
      "grad_norm": 0.0015628259861841798,
      "learning_rate": 0.29773795271427544,
      "loss": 0.3448,
      "num_input_tokens_seen": 2060912,
      "step": 2215
    },
    {
      "epoch": 1.0466760961810466,
      "grad_norm": 0.00044920790242031217,
      "learning_rate": 0.2977277500643577,
      "loss": 0.3411,
      "num_input_tokens_seen": 2065568,
      "step": 2220
    },
    {
      "epoch": 1.049033474776049,
      "grad_norm": 0.0010443887440487742,
      "learning_rate": 0.29771752463296447,
      "loss": 0.3475,
      "num_input_tokens_seen": 2070288,
      "step": 2225
    },
    {
      "epoch": 1.0513908533710514,
      "grad_norm": 0.0009870881913229823,
      "learning_rate": 0.29770727642167266,
      "loss": 0.3585,
      "num_input_tokens_seen": 2074112,
      "step": 2230
    },
    {
      "epoch": 1.0537482319660538,
      "grad_norm": 0.000902745348867029,
      "learning_rate": 0.29769700543206257,
      "loss": 0.3074,
      "num_input_tokens_seen": 2078592,
      "step": 2235
    },
    {
      "epoch": 1.056105610561056,
      "grad_norm": 0.0006773360073566437,
      "learning_rate": 0.2976867116657182,
      "loss": 0.3119,
      "num_input_tokens_seen": 2083568,
      "step": 2240
    },
    {
      "epoch": 1.0584629891560584,
      "grad_norm": 0.0005790849681943655,
      "learning_rate": 0.2976763951242269,
      "loss": 0.2956,
      "num_input_tokens_seen": 2088288,
      "step": 2245
    },
    {
      "epoch": 1.0608203677510608,
      "grad_norm": 0.0023698245640844107,
      "learning_rate": 0.29766605580917965,
      "loss": 0.2846,
      "num_input_tokens_seen": 2093360,
      "step": 2250
    },
    {
      "epoch": 1.0631777463460632,
      "grad_norm": 0.0012898629065603018,
      "learning_rate": 0.29765569372217093,
      "loss": 0.3552,
      "num_input_tokens_seen": 2097680,
      "step": 2255
    },
    {
      "epoch": 1.0655351249410656,
      "grad_norm": 0.0013451799750328064,
      "learning_rate": 0.2976453088647987,
      "loss": 0.2868,
      "num_input_tokens_seen": 2101968,
      "step": 2260
    },
    {
      "epoch": 1.0678925035360678,
      "grad_norm": 0.00048540992429479957,
      "learning_rate": 0.2976349012386644,
      "loss": 0.2868,
      "num_input_tokens_seen": 2106400,
      "step": 2265
    },
    {
      "epoch": 1.0702498821310702,
      "grad_norm": 0.00043426573392935097,
      "learning_rate": 0.29762447084537297,
      "loss": 0.3107,
      "num_input_tokens_seen": 2110288,
      "step": 2270
    },
    {
      "epoch": 1.0726072607260726,
      "grad_norm": 0.0004103451210539788,
      "learning_rate": 0.29761401768653306,
      "loss": 0.3474,
      "num_input_tokens_seen": 2115536,
      "step": 2275
    },
    {
      "epoch": 1.074964639321075,
      "grad_norm": 0.0008374769822694361,
      "learning_rate": 0.29760354176375653,
      "loss": 0.3812,
      "num_input_tokens_seen": 2119296,
      "step": 2280
    },
    {
      "epoch": 1.0773220179160774,
      "grad_norm": 0.0015903353923931718,
      "learning_rate": 0.29759304307865897,
      "loss": 0.3122,
      "num_input_tokens_seen": 2123616,
      "step": 2285
    },
    {
      "epoch": 1.0796793965110796,
      "grad_norm": 0.000669107015710324,
      "learning_rate": 0.2975825216328594,
      "loss": 0.351,
      "num_input_tokens_seen": 2128592,
      "step": 2290
    },
    {
      "epoch": 1.082036775106082,
      "grad_norm": 0.0006005504983477294,
      "learning_rate": 0.2975719774279804,
      "loss": 0.3271,
      "num_input_tokens_seen": 2132992,
      "step": 2295
    },
    {
      "epoch": 1.0843941537010844,
      "grad_norm": 0.000766666722483933,
      "learning_rate": 0.29756141046564794,
      "loss": 0.3281,
      "num_input_tokens_seen": 2137200,
      "step": 2300
    },
    {
      "epoch": 1.0867515322960868,
      "grad_norm": 0.0006626266986131668,
      "learning_rate": 0.2975508207474916,
      "loss": 0.3507,
      "num_input_tokens_seen": 2142368,
      "step": 2305
    },
    {
      "epoch": 1.0891089108910892,
      "grad_norm": 0.0006525155040435493,
      "learning_rate": 0.2975402082751445,
      "loss": 0.3344,
      "num_input_tokens_seen": 2146816,
      "step": 2310
    },
    {
      "epoch": 1.0914662894860914,
      "grad_norm": 0.0015301514649763703,
      "learning_rate": 0.29752957305024313,
      "loss": 0.3219,
      "num_input_tokens_seen": 2150880,
      "step": 2315
    },
    {
      "epoch": 1.0938236680810938,
      "grad_norm": 0.001774410018697381,
      "learning_rate": 0.2975189150744277,
      "loss": 0.3388,
      "num_input_tokens_seen": 2154752,
      "step": 2320
    },
    {
      "epoch": 1.0961810466760962,
      "grad_norm": 0.0006802518619224429,
      "learning_rate": 0.29750823434934165,
      "loss": 0.3169,
      "num_input_tokens_seen": 2159024,
      "step": 2325
    },
    {
      "epoch": 1.0985384252710986,
      "grad_norm": 0.0007993755862116814,
      "learning_rate": 0.29749753087663217,
      "loss": 0.3407,
      "num_input_tokens_seen": 2164256,
      "step": 2330
    },
    {
      "epoch": 1.100895803866101,
      "grad_norm": 0.001749227405525744,
      "learning_rate": 0.29748680465794985,
      "loss": 0.3382,
      "num_input_tokens_seen": 2168512,
      "step": 2335
    },
    {
      "epoch": 1.1032531824611032,
      "grad_norm": 0.0006220301729626954,
      "learning_rate": 0.29747605569494884,
      "loss": 0.348,
      "num_input_tokens_seen": 2172768,
      "step": 2340
    },
    {
      "epoch": 1.1056105610561056,
      "grad_norm": 0.0018171350238844752,
      "learning_rate": 0.29746528398928673,
      "loss": 0.3664,
      "num_input_tokens_seen": 2178192,
      "step": 2345
    },
    {
      "epoch": 1.107967939651108,
      "grad_norm": 0.0009168416145257652,
      "learning_rate": 0.2974544895426247,
      "loss": 0.3251,
      "num_input_tokens_seen": 2181984,
      "step": 2350
    },
    {
      "epoch": 1.1103253182461104,
      "grad_norm": 0.0016276742098852992,
      "learning_rate": 0.29744367235662733,
      "loss": 0.3485,
      "num_input_tokens_seen": 2186304,
      "step": 2355
    },
    {
      "epoch": 1.1126826968411128,
      "grad_norm": 0.0015435211826115847,
      "learning_rate": 0.29743283243296276,
      "loss": 0.3621,
      "num_input_tokens_seen": 2192800,
      "step": 2360
    },
    {
      "epoch": 1.115040075436115,
      "grad_norm": 0.0004430967092048377,
      "learning_rate": 0.29742196977330276,
      "loss": 0.3502,
      "num_input_tokens_seen": 2197328,
      "step": 2365
    },
    {
      "epoch": 1.1173974540311173,
      "grad_norm": 0.0014657573774456978,
      "learning_rate": 0.2974110843793223,
      "loss": 0.3321,
      "num_input_tokens_seen": 2203216,
      "step": 2370
    },
    {
      "epoch": 1.1197548326261197,
      "grad_norm": 0.0025989303831011057,
      "learning_rate": 0.2974001762527002,
      "loss": 0.3522,
      "num_input_tokens_seen": 2207856,
      "step": 2375
    },
    {
      "epoch": 1.1221122112211221,
      "grad_norm": 0.0010499993804842234,
      "learning_rate": 0.2973892453951186,
      "loss": 0.3451,
      "num_input_tokens_seen": 2212032,
      "step": 2380
    },
    {
      "epoch": 1.1244695898161245,
      "grad_norm": 0.000998336123302579,
      "learning_rate": 0.2973782918082631,
      "loss": 0.3493,
      "num_input_tokens_seen": 2216768,
      "step": 2385
    },
    {
      "epoch": 1.1268269684111267,
      "grad_norm": 0.0018395492807030678,
      "learning_rate": 0.29736731549382295,
      "loss": 0.3082,
      "num_input_tokens_seen": 2221440,
      "step": 2390
    },
    {
      "epoch": 1.1291843470061291,
      "grad_norm": 0.0017990338383242488,
      "learning_rate": 0.2973563164534908,
      "loss": 0.3406,
      "num_input_tokens_seen": 2225520,
      "step": 2395
    },
    {
      "epoch": 1.1315417256011315,
      "grad_norm": 0.0005769074195995927,
      "learning_rate": 0.29734529468896287,
      "loss": 0.2945,
      "num_input_tokens_seen": 2230960,
      "step": 2400
    },
    {
      "epoch": 1.1315417256011315,
      "eval_loss": 0.32823577523231506,
      "eval_runtime": 33.5562,
      "eval_samples_per_second": 28.102,
      "eval_steps_per_second": 14.066,
      "num_input_tokens_seen": 2230960,
      "step": 2400
    },
    {
      "epoch": 1.133899104196134,
      "grad_norm": 0.0012728921137750149,
      "learning_rate": 0.2973342502019388,
      "loss": 0.2931,
      "num_input_tokens_seen": 2235312,
      "step": 2405
    },
    {
      "epoch": 1.1362564827911363,
      "grad_norm": 0.0005304578226059675,
      "learning_rate": 0.2973231829941219,
      "loss": 0.3242,
      "num_input_tokens_seen": 2239808,
      "step": 2410
    },
    {
      "epoch": 1.1386138613861387,
      "grad_norm": 0.001087941462174058,
      "learning_rate": 0.2973120930672188,
      "loss": 0.3463,
      "num_input_tokens_seen": 2243984,
      "step": 2415
    },
    {
      "epoch": 1.140971239981141,
      "grad_norm": 0.0006159497424960136,
      "learning_rate": 0.2973009804229397,
      "loss": 0.3158,
      "num_input_tokens_seen": 2248784,
      "step": 2420
    },
    {
      "epoch": 1.1433286185761433,
      "grad_norm": 0.0006316857761703432,
      "learning_rate": 0.29728984506299827,
      "loss": 0.3829,
      "num_input_tokens_seen": 2253376,
      "step": 2425
    },
    {
      "epoch": 1.1456859971711457,
      "grad_norm": 0.0008123802836053073,
      "learning_rate": 0.2972786869891118,
      "loss": 0.3639,
      "num_input_tokens_seen": 2257728,
      "step": 2430
    },
    {
      "epoch": 1.1480433757661481,
      "grad_norm": 0.0008435999043285847,
      "learning_rate": 0.29726750620300096,
      "loss": 0.3082,
      "num_input_tokens_seen": 2262816,
      "step": 2435
    },
    {
      "epoch": 1.1504007543611503,
      "grad_norm": 0.0006142446072772145,
      "learning_rate": 0.29725630270639003,
      "loss": 0.347,
      "num_input_tokens_seen": 2268464,
      "step": 2440
    },
    {
      "epoch": 1.1527581329561527,
      "grad_norm": 0.0007917231996543705,
      "learning_rate": 0.2972450765010067,
      "loss": 0.3296,
      "num_input_tokens_seen": 2273584,
      "step": 2445
    },
    {
      "epoch": 1.155115511551155,
      "grad_norm": 0.0007709518540650606,
      "learning_rate": 0.29723382758858213,
      "loss": 0.3325,
      "num_input_tokens_seen": 2278224,
      "step": 2450
    },
    {
      "epoch": 1.1574728901461575,
      "grad_norm": 0.0017432105960324407,
      "learning_rate": 0.29722255597085107,
      "loss": 0.3225,
      "num_input_tokens_seen": 2284000,
      "step": 2455
    },
    {
      "epoch": 1.15983026874116,
      "grad_norm": 0.001656810869462788,
      "learning_rate": 0.2972112616495518,
      "loss": 0.3419,
      "num_input_tokens_seen": 2288672,
      "step": 2460
    },
    {
      "epoch": 1.1621876473361623,
      "grad_norm": 0.001046420424245298,
      "learning_rate": 0.297199944626426,
      "loss": 0.35,
      "num_input_tokens_seen": 2294320,
      "step": 2465
    },
    {
      "epoch": 1.1645450259311645,
      "grad_norm": 0.00172089459374547,
      "learning_rate": 0.2971886049032189,
      "loss": 0.32,
      "num_input_tokens_seen": 2298496,
      "step": 2470
    },
    {
      "epoch": 1.166902404526167,
      "grad_norm": 0.0006552261183969676,
      "learning_rate": 0.29717724248167926,
      "loss": 0.3048,
      "num_input_tokens_seen": 2302928,
      "step": 2475
    },
    {
      "epoch": 1.1692597831211693,
      "grad_norm": 0.0009712156024761498,
      "learning_rate": 0.29716585736355927,
      "loss": 0.3458,
      "num_input_tokens_seen": 2306992,
      "step": 2480
    },
    {
      "epoch": 1.1716171617161717,
      "grad_norm": 0.0016511543653905392,
      "learning_rate": 0.2971544495506147,
      "loss": 0.2309,
      "num_input_tokens_seen": 2311824,
      "step": 2485
    },
    {
      "epoch": 1.1739745403111739,
      "grad_norm": 0.0021943063475191593,
      "learning_rate": 0.2971430190446048,
      "loss": 0.3479,
      "num_input_tokens_seen": 2316576,
      "step": 2490
    },
    {
      "epoch": 1.1763319189061763,
      "grad_norm": 0.00375533290207386,
      "learning_rate": 0.2971315658472921,
      "loss": 0.3071,
      "num_input_tokens_seen": 2321744,
      "step": 2495
    },
    {
      "epoch": 1.1786892975011787,
      "grad_norm": 0.0022396836429834366,
      "learning_rate": 0.2971200899604431,
      "loss": 0.3863,
      "num_input_tokens_seen": 2325824,
      "step": 2500
    },
    {
      "epoch": 1.181046676096181,
      "grad_norm": 0.0013370807282626629,
      "learning_rate": 0.29710859138582735,
      "loss": 0.3829,
      "num_input_tokens_seen": 2331664,
      "step": 2505
    },
    {
      "epoch": 1.1834040546911835,
      "grad_norm": 0.0008657741127535701,
      "learning_rate": 0.29709707012521813,
      "loss": 0.3064,
      "num_input_tokens_seen": 2336512,
      "step": 2510
    },
    {
      "epoch": 1.1857614332861859,
      "grad_norm": 0.0030586575157940388,
      "learning_rate": 0.29708552618039213,
      "loss": 0.3486,
      "num_input_tokens_seen": 2341376,
      "step": 2515
    },
    {
      "epoch": 1.188118811881188,
      "grad_norm": 0.002112599555402994,
      "learning_rate": 0.2970739595531296,
      "loss": 0.3154,
      "num_input_tokens_seen": 2345952,
      "step": 2520
    },
    {
      "epoch": 1.1904761904761905,
      "grad_norm": 0.0006559910834766924,
      "learning_rate": 0.2970623702452143,
      "loss": 0.3625,
      "num_input_tokens_seen": 2350848,
      "step": 2525
    },
    {
      "epoch": 1.1928335690711929,
      "grad_norm": 0.0009347882587462664,
      "learning_rate": 0.2970507582584334,
      "loss": 0.3311,
      "num_input_tokens_seen": 2355360,
      "step": 2530
    },
    {
      "epoch": 1.1951909476661953,
      "grad_norm": 0.0023864235263317823,
      "learning_rate": 0.2970391235945776,
      "loss": 0.3391,
      "num_input_tokens_seen": 2359824,
      "step": 2535
    },
    {
      "epoch": 1.1975483262611974,
      "grad_norm": 0.0006326520233415067,
      "learning_rate": 0.2970274662554412,
      "loss": 0.3409,
      "num_input_tokens_seen": 2363728,
      "step": 2540
    },
    {
      "epoch": 1.1999057048561999,
      "grad_norm": 0.0011299208272248507,
      "learning_rate": 0.2970157862428218,
      "loss": 0.3347,
      "num_input_tokens_seen": 2368480,
      "step": 2545
    },
    {
      "epoch": 1.2022630834512023,
      "grad_norm": 0.0009819787228479981,
      "learning_rate": 0.2970040835585206,
      "loss": 0.3111,
      "num_input_tokens_seen": 2373008,
      "step": 2550
    },
    {
      "epoch": 1.2046204620462047,
      "grad_norm": 0.0006815157830715179,
      "learning_rate": 0.2969923582043424,
      "loss": 0.3364,
      "num_input_tokens_seen": 2376912,
      "step": 2555
    },
    {
      "epoch": 1.206977840641207,
      "grad_norm": 0.0017789463745430112,
      "learning_rate": 0.2969806101820953,
      "loss": 0.2793,
      "num_input_tokens_seen": 2381120,
      "step": 2560
    },
    {
      "epoch": 1.2093352192362095,
      "grad_norm": 0.002076560165733099,
      "learning_rate": 0.2969688394935911,
      "loss": 0.3474,
      "num_input_tokens_seen": 2385536,
      "step": 2565
    },
    {
      "epoch": 1.2116925978312116,
      "grad_norm": 0.0014034000923857093,
      "learning_rate": 0.2969570461406449,
      "loss": 0.3643,
      "num_input_tokens_seen": 2389984,
      "step": 2570
    },
    {
      "epoch": 1.214049976426214,
      "grad_norm": 0.0009676700574345887,
      "learning_rate": 0.29694523012507534,
      "loss": 0.3493,
      "num_input_tokens_seen": 2394304,
      "step": 2575
    },
    {
      "epoch": 1.2164073550212164,
      "grad_norm": 0.0007118795765563846,
      "learning_rate": 0.2969333914487048,
      "loss": 0.32,
      "num_input_tokens_seen": 2398880,
      "step": 2580
    },
    {
      "epoch": 1.2187647336162188,
      "grad_norm": 0.0008247637306340039,
      "learning_rate": 0.2969215301133587,
      "loss": 0.3517,
      "num_input_tokens_seen": 2403472,
      "step": 2585
    },
    {
      "epoch": 1.221122112211221,
      "grad_norm": 0.0007056360482238233,
      "learning_rate": 0.29690964612086634,
      "loss": 0.3296,
      "num_input_tokens_seen": 2408336,
      "step": 2590
    },
    {
      "epoch": 1.2234794908062234,
      "grad_norm": 0.0008611454395577312,
      "learning_rate": 0.2968977394730604,
      "loss": 0.3236,
      "num_input_tokens_seen": 2412768,
      "step": 2595
    },
    {
      "epoch": 1.2258368694012258,
      "grad_norm": 0.000725161749869585,
      "learning_rate": 0.296885810171777,
      "loss": 0.3179,
      "num_input_tokens_seen": 2417664,
      "step": 2600
    },
    {
      "epoch": 1.2258368694012258,
      "eval_loss": 0.3286598026752472,
      "eval_runtime": 33.5839,
      "eval_samples_per_second": 28.079,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 2417664,
      "step": 2600
    },
    {
      "epoch": 1.2281942479962282,
      "grad_norm": 0.0007530698785558343,
      "learning_rate": 0.2968738582188558,
      "loss": 0.3043,
      "num_input_tokens_seen": 2422240,
      "step": 2605
    },
    {
      "epoch": 1.2305516265912306,
      "grad_norm": 0.0005812308518216014,
      "learning_rate": 0.2968618836161399,
      "loss": 0.3135,
      "num_input_tokens_seen": 2426416,
      "step": 2610
    },
    {
      "epoch": 1.232909005186233,
      "grad_norm": 0.0009182698559015989,
      "learning_rate": 0.296849886365476,
      "loss": 0.3192,
      "num_input_tokens_seen": 2430512,
      "step": 2615
    },
    {
      "epoch": 1.2352663837812352,
      "grad_norm": 0.0008824971737340093,
      "learning_rate": 0.2968378664687142,
      "loss": 0.4014,
      "num_input_tokens_seen": 2434800,
      "step": 2620
    },
    {
      "epoch": 1.2376237623762376,
      "grad_norm": 0.0006806799792684615,
      "learning_rate": 0.296825823927708,
      "loss": 0.296,
      "num_input_tokens_seen": 2439488,
      "step": 2625
    },
    {
      "epoch": 1.23998114097124,
      "grad_norm": 0.0008419912192039192,
      "learning_rate": 0.29681375874431476,
      "loss": 0.3286,
      "num_input_tokens_seen": 2443536,
      "step": 2630
    },
    {
      "epoch": 1.2423385195662424,
      "grad_norm": 0.0007952768355607986,
      "learning_rate": 0.29680167092039483,
      "loss": 0.3429,
      "num_input_tokens_seen": 2448064,
      "step": 2635
    },
    {
      "epoch": 1.2446958981612446,
      "grad_norm": 0.0016461617778986692,
      "learning_rate": 0.2967895604578125,
      "loss": 0.3156,
      "num_input_tokens_seen": 2453088,
      "step": 2640
    },
    {
      "epoch": 1.247053276756247,
      "grad_norm": 0.0006592822028324008,
      "learning_rate": 0.2967774273584352,
      "loss": 0.3713,
      "num_input_tokens_seen": 2457424,
      "step": 2645
    },
    {
      "epoch": 1.2494106553512494,
      "grad_norm": 0.0030235773883759975,
      "learning_rate": 0.2967652716241342,
      "loss": 0.3991,
      "num_input_tokens_seen": 2462960,
      "step": 2650
    },
    {
      "epoch": 1.2517680339462518,
      "grad_norm": 0.0004634458164218813,
      "learning_rate": 0.29675309325678384,
      "loss": 0.3497,
      "num_input_tokens_seen": 2467936,
      "step": 2655
    },
    {
      "epoch": 1.2541254125412542,
      "grad_norm": 0.002272189361974597,
      "learning_rate": 0.29674089225826233,
      "loss": 0.3595,
      "num_input_tokens_seen": 2472016,
      "step": 2660
    },
    {
      "epoch": 1.2564827911362566,
      "grad_norm": 0.00048219802556559443,
      "learning_rate": 0.29672866863045116,
      "loss": 0.3541,
      "num_input_tokens_seen": 2476480,
      "step": 2665
    },
    {
      "epoch": 1.2588401697312588,
      "grad_norm": 0.0012058886932209134,
      "learning_rate": 0.2967164223752354,
      "loss": 0.349,
      "num_input_tokens_seen": 2480912,
      "step": 2670
    },
    {
      "epoch": 1.2611975483262612,
      "grad_norm": 0.002453332766890526,
      "learning_rate": 0.2967041534945035,
      "loss": 0.3456,
      "num_input_tokens_seen": 2485632,
      "step": 2675
    },
    {
      "epoch": 1.2635549269212636,
      "grad_norm": 0.0007254735101014376,
      "learning_rate": 0.2966918619901476,
      "loss": 0.3245,
      "num_input_tokens_seen": 2490176,
      "step": 2680
    },
    {
      "epoch": 1.265912305516266,
      "grad_norm": 0.0007013574941083789,
      "learning_rate": 0.2966795478640631,
      "loss": 0.3002,
      "num_input_tokens_seen": 2495040,
      "step": 2685
    },
    {
      "epoch": 1.2682696841112682,
      "grad_norm": 0.0029987571761012077,
      "learning_rate": 0.29666721111814903,
      "loss": 0.4059,
      "num_input_tokens_seen": 2498832,
      "step": 2690
    },
    {
      "epoch": 1.2706270627062706,
      "grad_norm": 0.001861733035184443,
      "learning_rate": 0.2966548517543079,
      "loss": 0.361,
      "num_input_tokens_seen": 2503088,
      "step": 2695
    },
    {
      "epoch": 1.272984441301273,
      "grad_norm": 0.0019459181930869818,
      "learning_rate": 0.29664246977444564,
      "loss": 0.3402,
      "num_input_tokens_seen": 2507536,
      "step": 2700
    },
    {
      "epoch": 1.2753418198962754,
      "grad_norm": 0.0014814585447311401,
      "learning_rate": 0.2966300651804717,
      "loss": 0.3461,
      "num_input_tokens_seen": 2511824,
      "step": 2705
    },
    {
      "epoch": 1.2776991984912778,
      "grad_norm": 0.0018692661542445421,
      "learning_rate": 0.296617637974299,
      "loss": 0.322,
      "num_input_tokens_seen": 2516176,
      "step": 2710
    },
    {
      "epoch": 1.2800565770862802,
      "grad_norm": 0.0006880394066683948,
      "learning_rate": 0.2966051881578441,
      "loss": 0.3411,
      "num_input_tokens_seen": 2520576,
      "step": 2715
    },
    {
      "epoch": 1.2824139556812824,
      "grad_norm": 0.0016579537186771631,
      "learning_rate": 0.29659271573302676,
      "loss": 0.3579,
      "num_input_tokens_seen": 2525248,
      "step": 2720
    },
    {
      "epoch": 1.2847713342762848,
      "grad_norm": 0.001591829233802855,
      "learning_rate": 0.2965802207017705,
      "loss": 0.3056,
      "num_input_tokens_seen": 2529840,
      "step": 2725
    },
    {
      "epoch": 1.2871287128712872,
      "grad_norm": 0.0017426186241209507,
      "learning_rate": 0.2965677030660021,
      "loss": 0.3013,
      "num_input_tokens_seen": 2533968,
      "step": 2730
    },
    {
      "epoch": 1.2894860914662896,
      "grad_norm": 0.0009566521039232612,
      "learning_rate": 0.2965551628276521,
      "loss": 0.3215,
      "num_input_tokens_seen": 2539120,
      "step": 2735
    },
    {
      "epoch": 1.2918434700612917,
      "grad_norm": 0.001115460298024118,
      "learning_rate": 0.29654259998865423,
      "loss": 0.3661,
      "num_input_tokens_seen": 2543696,
      "step": 2740
    },
    {
      "epoch": 1.2942008486562941,
      "grad_norm": 0.0008402324165217578,
      "learning_rate": 0.2965300145509458,
      "loss": 0.3868,
      "num_input_tokens_seen": 2548464,
      "step": 2745
    },
    {
      "epoch": 1.2965582272512965,
      "grad_norm": 0.0008014168124645948,
      "learning_rate": 0.2965174065164678,
      "loss": 0.2808,
      "num_input_tokens_seen": 2553184,
      "step": 2750
    },
    {
      "epoch": 1.298915605846299,
      "grad_norm": 0.0009684404358267784,
      "learning_rate": 0.2965047758871644,
      "loss": 0.3664,
      "num_input_tokens_seen": 2558352,
      "step": 2755
    },
    {
      "epoch": 1.3012729844413014,
      "grad_norm": 0.0004355540149845183,
      "learning_rate": 0.2964921226649835,
      "loss": 0.3562,
      "num_input_tokens_seen": 2562688,
      "step": 2760
    },
    {
      "epoch": 1.3036303630363038,
      "grad_norm": 0.001103103393688798,
      "learning_rate": 0.2964794468518763,
      "loss": 0.3411,
      "num_input_tokens_seen": 2567872,
      "step": 2765
    },
    {
      "epoch": 1.305987741631306,
      "grad_norm": 0.001010249019600451,
      "learning_rate": 0.2964667484497977,
      "loss": 0.342,
      "num_input_tokens_seen": 2572448,
      "step": 2770
    },
    {
      "epoch": 1.3083451202263083,
      "grad_norm": 0.0008366577094420791,
      "learning_rate": 0.29645402746070587,
      "loss": 0.3159,
      "num_input_tokens_seen": 2577536,
      "step": 2775
    },
    {
      "epoch": 1.3107024988213107,
      "grad_norm": 0.0006056443089619279,
      "learning_rate": 0.2964412838865625,
      "loss": 0.3364,
      "num_input_tokens_seen": 2582208,
      "step": 2780
    },
    {
      "epoch": 1.3130598774163131,
      "grad_norm": 0.0017288235248997808,
      "learning_rate": 0.29642851772933293,
      "loss": 0.3661,
      "num_input_tokens_seen": 2587424,
      "step": 2785
    },
    {
      "epoch": 1.3154172560113153,
      "grad_norm": 0.0018244585953652859,
      "learning_rate": 0.29641572899098567,
      "loss": 0.3381,
      "num_input_tokens_seen": 2591584,
      "step": 2790
    },
    {
      "epoch": 1.3177746346063177,
      "grad_norm": 0.0006078686565160751,
      "learning_rate": 0.29640291767349314,
      "loss": 0.2847,
      "num_input_tokens_seen": 2595616,
      "step": 2795
    },
    {
      "epoch": 1.3201320132013201,
      "grad_norm": 0.0016401041066274047,
      "learning_rate": 0.2963900837788308,
      "loss": 0.3535,
      "num_input_tokens_seen": 2600368,
      "step": 2800
    },
    {
      "epoch": 1.3201320132013201,
      "eval_loss": 0.32707250118255615,
      "eval_runtime": 33.5934,
      "eval_samples_per_second": 28.071,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 2600368,
      "step": 2800
    },
    {
      "epoch": 1.3224893917963225,
      "grad_norm": 0.0015301528619602323,
      "learning_rate": 0.2963772273089779,
      "loss": 0.3415,
      "num_input_tokens_seen": 2605024,
      "step": 2805
    },
    {
      "epoch": 1.324846770391325,
      "grad_norm": 0.0015173725550994277,
      "learning_rate": 0.2963643482659171,
      "loss": 0.3225,
      "num_input_tokens_seen": 2609456,
      "step": 2810
    },
    {
      "epoch": 1.3272041489863273,
      "grad_norm": 0.0006098422454670072,
      "learning_rate": 0.2963514466516345,
      "loss": 0.3496,
      "num_input_tokens_seen": 2613472,
      "step": 2815
    },
    {
      "epoch": 1.3295615275813295,
      "grad_norm": 0.0006688358844257891,
      "learning_rate": 0.2963385224681196,
      "loss": 0.3526,
      "num_input_tokens_seen": 2618416,
      "step": 2820
    },
    {
      "epoch": 1.331918906176332,
      "grad_norm": 0.0006583965150639415,
      "learning_rate": 0.29632557571736556,
      "loss": 0.308,
      "num_input_tokens_seen": 2624544,
      "step": 2825
    },
    {
      "epoch": 1.3342762847713343,
      "grad_norm": 0.0016872218111529946,
      "learning_rate": 0.2963126064013689,
      "loss": 0.3266,
      "num_input_tokens_seen": 2629856,
      "step": 2830
    },
    {
      "epoch": 1.3366336633663367,
      "grad_norm": 0.0015328176086768508,
      "learning_rate": 0.29629961452212966,
      "loss": 0.3512,
      "num_input_tokens_seen": 2633984,
      "step": 2835
    },
    {
      "epoch": 1.338991041961339,
      "grad_norm": 0.000665924628265202,
      "learning_rate": 0.2962866000816513,
      "loss": 0.3357,
      "num_input_tokens_seen": 2638416,
      "step": 2840
    },
    {
      "epoch": 1.3413484205563413,
      "grad_norm": 0.0006680990336462855,
      "learning_rate": 0.2962735630819409,
      "loss": 0.3202,
      "num_input_tokens_seen": 2643008,
      "step": 2845
    },
    {
      "epoch": 1.3437057991513437,
      "grad_norm": 0.0007377355359494686,
      "learning_rate": 0.2962605035250089,
      "loss": 0.315,
      "num_input_tokens_seen": 2648576,
      "step": 2850
    },
    {
      "epoch": 1.346063177746346,
      "grad_norm": 0.0016608177684247494,
      "learning_rate": 0.29624742141286914,
      "loss": 0.3214,
      "num_input_tokens_seen": 2653296,
      "step": 2855
    },
    {
      "epoch": 1.3484205563413485,
      "grad_norm": 0.001706043491140008,
      "learning_rate": 0.29623431674753925,
      "loss": 0.3103,
      "num_input_tokens_seen": 2657312,
      "step": 2860
    },
    {
      "epoch": 1.350777934936351,
      "grad_norm": 0.0009816334350034595,
      "learning_rate": 0.29622118953103993,
      "loss": 0.3397,
      "num_input_tokens_seen": 2661600,
      "step": 2865
    },
    {
      "epoch": 1.353135313531353,
      "grad_norm": 0.0007710206555202603,
      "learning_rate": 0.2962080397653957,
      "loss": 0.3627,
      "num_input_tokens_seen": 2666496,
      "step": 2870
    },
    {
      "epoch": 1.3554926921263555,
      "grad_norm": 0.0018190654227510095,
      "learning_rate": 0.29619486745263435,
      "loss": 0.3803,
      "num_input_tokens_seen": 2671072,
      "step": 2875
    },
    {
      "epoch": 1.3578500707213579,
      "grad_norm": 0.001544359838590026,
      "learning_rate": 0.2961816725947873,
      "loss": 0.3135,
      "num_input_tokens_seen": 2675056,
      "step": 2880
    },
    {
      "epoch": 1.3602074493163603,
      "grad_norm": 0.0009295602794736624,
      "learning_rate": 0.29616845519388924,
      "loss": 0.3448,
      "num_input_tokens_seen": 2680928,
      "step": 2885
    },
    {
      "epoch": 1.3625648279113625,
      "grad_norm": 0.0027356469072401524,
      "learning_rate": 0.2961552152519785,
      "loss": 0.3292,
      "num_input_tokens_seen": 2686144,
      "step": 2890
    },
    {
      "epoch": 1.3649222065063649,
      "grad_norm": 0.0016309719067066908,
      "learning_rate": 0.29614195277109695,
      "loss": 0.3435,
      "num_input_tokens_seen": 2690416,
      "step": 2895
    },
    {
      "epoch": 1.3672795851013673,
      "grad_norm": 0.0003964797069784254,
      "learning_rate": 0.2961286677532897,
      "loss": 0.343,
      "num_input_tokens_seen": 2695168,
      "step": 2900
    },
    {
      "epoch": 1.3696369636963697,
      "grad_norm": 0.0015151449479162693,
      "learning_rate": 0.2961153602006055,
      "loss": 0.3309,
      "num_input_tokens_seen": 2700208,
      "step": 2905
    },
    {
      "epoch": 1.371994342291372,
      "grad_norm": 0.002427006373181939,
      "learning_rate": 0.29610203011509656,
      "loss": 0.366,
      "num_input_tokens_seen": 2704880,
      "step": 2910
    },
    {
      "epoch": 1.3743517208863745,
      "grad_norm": 0.0020559870172291994,
      "learning_rate": 0.29608867749881856,
      "loss": 0.3272,
      "num_input_tokens_seen": 2710336,
      "step": 2915
    },
    {
      "epoch": 1.3767090994813767,
      "grad_norm": 0.0014848436694592237,
      "learning_rate": 0.29607530235383067,
      "loss": 0.3259,
      "num_input_tokens_seen": 2714784,
      "step": 2920
    },
    {
      "epoch": 1.379066478076379,
      "grad_norm": 0.0016749046044424176,
      "learning_rate": 0.2960619046821954,
      "loss": 0.3366,
      "num_input_tokens_seen": 2719200,
      "step": 2925
    },
    {
      "epoch": 1.3814238566713815,
      "grad_norm": 0.0006387961911968887,
      "learning_rate": 0.2960484844859789,
      "loss": 0.3004,
      "num_input_tokens_seen": 2724064,
      "step": 2930
    },
    {
      "epoch": 1.3837812352663839,
      "grad_norm": 0.000857545412145555,
      "learning_rate": 0.29603504176725076,
      "loss": 0.3205,
      "num_input_tokens_seen": 2728400,
      "step": 2935
    },
    {
      "epoch": 1.386138613861386,
      "grad_norm": 0.0017816225299611688,
      "learning_rate": 0.296021576528084,
      "loss": 0.3575,
      "num_input_tokens_seen": 2732528,
      "step": 2940
    },
    {
      "epoch": 1.3884959924563884,
      "grad_norm": 0.0013307230547070503,
      "learning_rate": 0.29600808877055507,
      "loss": 0.3054,
      "num_input_tokens_seen": 2736928,
      "step": 2945
    },
    {
      "epoch": 1.3908533710513908,
      "grad_norm": 0.0013708891347050667,
      "learning_rate": 0.29599457849674404,
      "loss": 0.3417,
      "num_input_tokens_seen": 2741344,
      "step": 2950
    },
    {
      "epoch": 1.3932107496463932,
      "grad_norm": 0.0006624708184972405,
      "learning_rate": 0.2959810457087343,
      "loss": 0.3984,
      "num_input_tokens_seen": 2745808,
      "step": 2955
    },
    {
      "epoch": 1.3955681282413956,
      "grad_norm": 0.00043372472282499075,
      "learning_rate": 0.2959674904086128,
      "loss": 0.3306,
      "num_input_tokens_seen": 2750144,
      "step": 2960
    },
    {
      "epoch": 1.397925506836398,
      "grad_norm": 0.0015693744644522667,
      "learning_rate": 0.2959539125984699,
      "loss": 0.3243,
      "num_input_tokens_seen": 2755568,
      "step": 2965
    },
    {
      "epoch": 1.4002828854314002,
      "grad_norm": 0.001430126023478806,
      "learning_rate": 0.2959403122803996,
      "loss": 0.3191,
      "num_input_tokens_seen": 2760224,
      "step": 2970
    },
    {
      "epoch": 1.4026402640264026,
      "grad_norm": 0.0006651032017543912,
      "learning_rate": 0.2959266894564991,
      "loss": 0.2991,
      "num_input_tokens_seen": 2764544,
      "step": 2975
    },
    {
      "epoch": 1.404997642621405,
      "grad_norm": 0.00043966053635813296,
      "learning_rate": 0.2959130441288692,
      "loss": 0.3369,
      "num_input_tokens_seen": 2768448,
      "step": 2980
    },
    {
      "epoch": 1.4073550212164074,
      "grad_norm": 0.0005655871937051415,
      "learning_rate": 0.2958993762996143,
      "loss": 0.2719,
      "num_input_tokens_seen": 2772608,
      "step": 2985
    },
    {
      "epoch": 1.4097123998114096,
      "grad_norm": 0.0013141595991328359,
      "learning_rate": 0.2958856859708421,
      "loss": 0.3236,
      "num_input_tokens_seen": 2777840,
      "step": 2990
    },
    {
      "epoch": 1.412069778406412,
      "grad_norm": 0.001272458117455244,
      "learning_rate": 0.2958719731446638,
      "loss": 0.2838,
      "num_input_tokens_seen": 2782064,
      "step": 2995
    },
    {
      "epoch": 1.4144271570014144,
      "grad_norm": 0.001005903584882617,
      "learning_rate": 0.29585823782319404,
      "loss": 0.2831,
      "num_input_tokens_seen": 2786848,
      "step": 3000
    },
    {
      "epoch": 1.4144271570014144,
      "eval_loss": 0.3373872935771942,
      "eval_runtime": 33.5138,
      "eval_samples_per_second": 28.138,
      "eval_steps_per_second": 14.084,
      "num_input_tokens_seen": 2786848,
      "step": 3000
    },
    {
      "epoch": 1.4167845355964168,
      "grad_norm": 0.0011598067358136177,
      "learning_rate": 0.2958444800085511,
      "loss": 0.3168,
      "num_input_tokens_seen": 2790672,
      "step": 3005
    },
    {
      "epoch": 1.4191419141914192,
      "grad_norm": 0.0011478910455480218,
      "learning_rate": 0.2958306997028565,
      "loss": 0.3041,
      "num_input_tokens_seen": 2794960,
      "step": 3010
    },
    {
      "epoch": 1.4214992927864216,
      "grad_norm": 0.00033013345091603696,
      "learning_rate": 0.2958168969082354,
      "loss": 0.3758,
      "num_input_tokens_seen": 2799264,
      "step": 3015
    },
    {
      "epoch": 1.4238566713814238,
      "grad_norm": 0.0008794648456387222,
      "learning_rate": 0.2958030716268164,
      "loss": 0.3666,
      "num_input_tokens_seen": 2803600,
      "step": 3020
    },
    {
      "epoch": 1.4262140499764262,
      "grad_norm": 0.0012820569099858403,
      "learning_rate": 0.2957892238607314,
      "loss": 0.2543,
      "num_input_tokens_seen": 2807920,
      "step": 3025
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 0.0005444618873298168,
      "learning_rate": 0.2957753536121161,
      "loss": 0.3231,
      "num_input_tokens_seen": 2812528,
      "step": 3030
    },
    {
      "epoch": 1.430928807166431,
      "grad_norm": 0.0007958830101415515,
      "learning_rate": 0.29576146088310923,
      "loss": 0.2888,
      "num_input_tokens_seen": 2817312,
      "step": 3035
    },
    {
      "epoch": 1.4332861857614332,
      "grad_norm": 0.0007183038396760821,
      "learning_rate": 0.2957475456758533,
      "loss": 0.3814,
      "num_input_tokens_seen": 2821408,
      "step": 3040
    },
    {
      "epoch": 1.4356435643564356,
      "grad_norm": 0.001284101977944374,
      "learning_rate": 0.2957336079924944,
      "loss": 0.2167,
      "num_input_tokens_seen": 2826576,
      "step": 3045
    },
    {
      "epoch": 1.438000942951438,
      "grad_norm": 0.0018044398166239262,
      "learning_rate": 0.2957196478351816,
      "loss": 0.3421,
      "num_input_tokens_seen": 2831648,
      "step": 3050
    },
    {
      "epoch": 1.4403583215464404,
      "grad_norm": 0.0005606666090898216,
      "learning_rate": 0.295705665206068,
      "loss": 0.2806,
      "num_input_tokens_seen": 2835808,
      "step": 3055
    },
    {
      "epoch": 1.4427157001414428,
      "grad_norm": 0.00297626038081944,
      "learning_rate": 0.2956916601073097,
      "loss": 0.3934,
      "num_input_tokens_seen": 2839984,
      "step": 3060
    },
    {
      "epoch": 1.4450730787364452,
      "grad_norm": 0.0005728596006520092,
      "learning_rate": 0.29567763254106655,
      "loss": 0.4131,
      "num_input_tokens_seen": 2844784,
      "step": 3065
    },
    {
      "epoch": 1.4474304573314474,
      "grad_norm": 0.001379624824039638,
      "learning_rate": 0.29566358250950175,
      "loss": 0.3746,
      "num_input_tokens_seen": 2849040,
      "step": 3070
    },
    {
      "epoch": 1.4497878359264498,
      "grad_norm": 0.0013516147155314684,
      "learning_rate": 0.295649510014782,
      "loss": 0.3261,
      "num_input_tokens_seen": 2853648,
      "step": 3075
    },
    {
      "epoch": 1.4521452145214522,
      "grad_norm": 0.0009974654531106353,
      "learning_rate": 0.2956354150590775,
      "loss": 0.3559,
      "num_input_tokens_seen": 2858416,
      "step": 3080
    },
    {
      "epoch": 1.4545025931164546,
      "grad_norm": 0.0021952001843601465,
      "learning_rate": 0.2956212976445618,
      "loss": 0.3458,
      "num_input_tokens_seen": 2862800,
      "step": 3085
    },
    {
      "epoch": 1.4568599717114568,
      "grad_norm": 0.001896818052046001,
      "learning_rate": 0.295607157773412,
      "loss": 0.3367,
      "num_input_tokens_seen": 2867728,
      "step": 3090
    },
    {
      "epoch": 1.4592173503064592,
      "grad_norm": 0.0007737106643617153,
      "learning_rate": 0.2955929954478087,
      "loss": 0.3288,
      "num_input_tokens_seen": 2872416,
      "step": 3095
    },
    {
      "epoch": 1.4615747289014616,
      "grad_norm": 0.0013849284732714295,
      "learning_rate": 0.29557881066993585,
      "loss": 0.3184,
      "num_input_tokens_seen": 2877136,
      "step": 3100
    },
    {
      "epoch": 1.463932107496464,
      "grad_norm": 0.0006302854744717479,
      "learning_rate": 0.29556460344198093,
      "loss": 0.382,
      "num_input_tokens_seen": 2881344,
      "step": 3105
    },
    {
      "epoch": 1.4662894860914664,
      "grad_norm": 0.0005326950922608376,
      "learning_rate": 0.29555037376613486,
      "loss": 0.3403,
      "num_input_tokens_seen": 2885376,
      "step": 3110
    },
    {
      "epoch": 1.4686468646864688,
      "grad_norm": 0.0006589362164959311,
      "learning_rate": 0.29553612164459203,
      "loss": 0.3235,
      "num_input_tokens_seen": 2890336,
      "step": 3115
    },
    {
      "epoch": 1.471004243281471,
      "grad_norm": 0.0005832643364556134,
      "learning_rate": 0.29552184707955037,
      "loss": 0.3519,
      "num_input_tokens_seen": 2894720,
      "step": 3120
    },
    {
      "epoch": 1.4733616218764733,
      "grad_norm": 0.0007535797776654363,
      "learning_rate": 0.29550755007321117,
      "loss": 0.3391,
      "num_input_tokens_seen": 2899232,
      "step": 3125
    },
    {
      "epoch": 1.4757190004714758,
      "grad_norm": 0.0008037126972340047,
      "learning_rate": 0.29549323062777916,
      "loss": 0.3609,
      "num_input_tokens_seen": 2904032,
      "step": 3130
    },
    {
      "epoch": 1.4780763790664782,
      "grad_norm": 0.0006043007015250623,
      "learning_rate": 0.29547888874546263,
      "loss": 0.3247,
      "num_input_tokens_seen": 2908304,
      "step": 3135
    },
    {
      "epoch": 1.4804337576614803,
      "grad_norm": 0.0006142293568700552,
      "learning_rate": 0.2954645244284732,
      "loss": 0.3192,
      "num_input_tokens_seen": 2912816,
      "step": 3140
    },
    {
      "epoch": 1.4827911362564827,
      "grad_norm": 0.0006493296823464334,
      "learning_rate": 0.2954501376790261,
      "loss": 0.3408,
      "num_input_tokens_seen": 2916912,
      "step": 3145
    },
    {
      "epoch": 1.4851485148514851,
      "grad_norm": 0.0014072050107643008,
      "learning_rate": 0.29543572849933997,
      "loss": 0.3221,
      "num_input_tokens_seen": 2921616,
      "step": 3150
    },
    {
      "epoch": 1.4875058934464875,
      "grad_norm": 0.0013073680456727743,
      "learning_rate": 0.2954212968916368,
      "loss": 0.2646,
      "num_input_tokens_seen": 2925472,
      "step": 3155
    },
    {
      "epoch": 1.48986327204149,
      "grad_norm": 0.0008622588939033449,
      "learning_rate": 0.29540684285814217,
      "loss": 0.3378,
      "num_input_tokens_seen": 2930144,
      "step": 3160
    },
    {
      "epoch": 1.4922206506364923,
      "grad_norm": 0.0008062444976530969,
      "learning_rate": 0.2953923664010851,
      "loss": 0.3835,
      "num_input_tokens_seen": 2935616,
      "step": 3165
    },
    {
      "epoch": 1.4945780292314945,
      "grad_norm": 0.0015048370696604252,
      "learning_rate": 0.295377867522698,
      "loss": 0.294,
      "num_input_tokens_seen": 2940896,
      "step": 3170
    },
    {
      "epoch": 1.496935407826497,
      "grad_norm": 0.00046064157504588366,
      "learning_rate": 0.2953633462252168,
      "loss": 0.369,
      "num_input_tokens_seen": 2945344,
      "step": 3175
    },
    {
      "epoch": 1.4992927864214993,
      "grad_norm": 0.0008781656506471336,
      "learning_rate": 0.2953488025108809,
      "loss": 0.2907,
      "num_input_tokens_seen": 2951440,
      "step": 3180
    },
    {
      "epoch": 1.5016501650165015,
      "grad_norm": 0.001561294891871512,
      "learning_rate": 0.295334236381933,
      "loss": 0.2806,
      "num_input_tokens_seen": 2957472,
      "step": 3185
    },
    {
      "epoch": 1.504007543611504,
      "grad_norm": 0.002671104157343507,
      "learning_rate": 0.29531964784061954,
      "loss": 0.3117,
      "num_input_tokens_seen": 2962880,
      "step": 3190
    },
    {
      "epoch": 1.5063649222065063,
      "grad_norm": 0.0029527160804718733,
      "learning_rate": 0.2953050368891902,
      "loss": 0.391,
      "num_input_tokens_seen": 2967936,
      "step": 3195
    },
    {
      "epoch": 1.5087223008015087,
      "grad_norm": 0.0008093948126770556,
      "learning_rate": 0.29529040352989805,
      "loss": 0.3071,
      "num_input_tokens_seen": 2972672,
      "step": 3200
    },
    {
      "epoch": 1.5087223008015087,
      "eval_loss": 0.3291572332382202,
      "eval_runtime": 33.5427,
      "eval_samples_per_second": 28.113,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 2972672,
      "step": 3200
    },
    {
      "epoch": 1.511079679396511,
      "grad_norm": 0.0007112721214070916,
      "learning_rate": 0.29527574776499993,
      "loss": 0.3043,
      "num_input_tokens_seen": 2977504,
      "step": 3205
    },
    {
      "epoch": 1.5134370579915135,
      "grad_norm": 0.0011246574576944113,
      "learning_rate": 0.2952610695967558,
      "loss": 0.344,
      "num_input_tokens_seen": 2982976,
      "step": 3210
    },
    {
      "epoch": 1.515794436586516,
      "grad_norm": 0.0011239954037591815,
      "learning_rate": 0.29524636902742935,
      "loss": 0.338,
      "num_input_tokens_seen": 2987344,
      "step": 3215
    },
    {
      "epoch": 1.5181518151815183,
      "grad_norm": 0.0006766761653125286,
      "learning_rate": 0.2952316460592875,
      "loss": 0.3504,
      "num_input_tokens_seen": 2992112,
      "step": 3220
    },
    {
      "epoch": 1.5205091937765205,
      "grad_norm": 0.0006501871976070106,
      "learning_rate": 0.29521690069460066,
      "loss": 0.3375,
      "num_input_tokens_seen": 2996160,
      "step": 3225
    },
    {
      "epoch": 1.522866572371523,
      "grad_norm": 0.0015793911879882216,
      "learning_rate": 0.29520213293564285,
      "loss": 0.3105,
      "num_input_tokens_seen": 3000544,
      "step": 3230
    },
    {
      "epoch": 1.525223950966525,
      "grad_norm": 0.0013393406989052892,
      "learning_rate": 0.29518734278469144,
      "loss": 0.3299,
      "num_input_tokens_seen": 3004576,
      "step": 3235
    },
    {
      "epoch": 1.5275813295615275,
      "grad_norm": 0.001346125965937972,
      "learning_rate": 0.29517253024402723,
      "loss": 0.3123,
      "num_input_tokens_seen": 3009408,
      "step": 3240
    },
    {
      "epoch": 1.5299387081565299,
      "grad_norm": 0.0004665075393859297,
      "learning_rate": 0.2951576953159345,
      "loss": 0.3212,
      "num_input_tokens_seen": 3014000,
      "step": 3245
    },
    {
      "epoch": 1.5322960867515323,
      "grad_norm": 0.0004335396515671164,
      "learning_rate": 0.29514283800270097,
      "loss": 0.4033,
      "num_input_tokens_seen": 3018432,
      "step": 3250
    },
    {
      "epoch": 1.5346534653465347,
      "grad_norm": 0.0014840626390650868,
      "learning_rate": 0.2951279583066179,
      "loss": 0.3118,
      "num_input_tokens_seen": 3023440,
      "step": 3255
    },
    {
      "epoch": 1.537010843941537,
      "grad_norm": 0.0007734315586276352,
      "learning_rate": 0.2951130562299798,
      "loss": 0.3399,
      "num_input_tokens_seen": 3028176,
      "step": 3260
    },
    {
      "epoch": 1.5393682225365395,
      "grad_norm": 0.0013196023646742105,
      "learning_rate": 0.29509813177508487,
      "loss": 0.3328,
      "num_input_tokens_seen": 3032192,
      "step": 3265
    },
    {
      "epoch": 1.541725601131542,
      "grad_norm": 0.0005889503518119454,
      "learning_rate": 0.2950831849442346,
      "loss": 0.3602,
      "num_input_tokens_seen": 3036208,
      "step": 3270
    },
    {
      "epoch": 1.544082979726544,
      "grad_norm": 0.0005610797670669854,
      "learning_rate": 0.2950682157397339,
      "loss": 0.3479,
      "num_input_tokens_seen": 3041008,
      "step": 3275
    },
    {
      "epoch": 1.5464403583215465,
      "grad_norm": 0.0008357508340850472,
      "learning_rate": 0.2950532241638914,
      "loss": 0.3264,
      "num_input_tokens_seen": 3045376,
      "step": 3280
    },
    {
      "epoch": 1.5487977369165487,
      "grad_norm": 0.0005148329655639827,
      "learning_rate": 0.2950382102190188,
      "loss": 0.3412,
      "num_input_tokens_seen": 3049200,
      "step": 3285
    },
    {
      "epoch": 1.551155115511551,
      "grad_norm": 0.0006305245333351195,
      "learning_rate": 0.2950231739074316,
      "loss": 0.3574,
      "num_input_tokens_seen": 3054720,
      "step": 3290
    },
    {
      "epoch": 1.5535124941065535,
      "grad_norm": 0.0007618063827976584,
      "learning_rate": 0.29500811523144843,
      "loss": 0.3403,
      "num_input_tokens_seen": 3059424,
      "step": 3295
    },
    {
      "epoch": 1.5558698727015559,
      "grad_norm": 0.0014184259343892336,
      "learning_rate": 0.2949930341933917,
      "loss": 0.3363,
      "num_input_tokens_seen": 3064592,
      "step": 3300
    },
    {
      "epoch": 1.5582272512965583,
      "grad_norm": 0.0006686263368465006,
      "learning_rate": 0.29497793079558693,
      "loss": 0.3242,
      "num_input_tokens_seen": 3069312,
      "step": 3305
    },
    {
      "epoch": 1.5605846298915607,
      "grad_norm": 0.0009709391742944717,
      "learning_rate": 0.2949628050403633,
      "loss": 0.344,
      "num_input_tokens_seen": 3073440,
      "step": 3310
    },
    {
      "epoch": 1.562942008486563,
      "grad_norm": 0.0017512135673314333,
      "learning_rate": 0.2949476569300535,
      "loss": 0.3198,
      "num_input_tokens_seen": 3077104,
      "step": 3315
    },
    {
      "epoch": 1.5652993870815655,
      "grad_norm": 0.0007883835933171213,
      "learning_rate": 0.29493248646699344,
      "loss": 0.263,
      "num_input_tokens_seen": 3081552,
      "step": 3320
    },
    {
      "epoch": 1.5676567656765676,
      "grad_norm": 0.0007265892345458269,
      "learning_rate": 0.29491729365352265,
      "loss": 0.3389,
      "num_input_tokens_seen": 3086944,
      "step": 3325
    },
    {
      "epoch": 1.57001414427157,
      "grad_norm": 0.0008694501593708992,
      "learning_rate": 0.29490207849198397,
      "loss": 0.3484,
      "num_input_tokens_seen": 3091472,
      "step": 3330
    },
    {
      "epoch": 1.5723715228665722,
      "grad_norm": 0.0017575833480805159,
      "learning_rate": 0.29488684098472384,
      "loss": 0.3115,
      "num_input_tokens_seen": 3096544,
      "step": 3335
    },
    {
      "epoch": 1.5747289014615746,
      "grad_norm": 0.0013522914377972484,
      "learning_rate": 0.2948715811340921,
      "loss": 0.2669,
      "num_input_tokens_seen": 3101440,
      "step": 3340
    },
    {
      "epoch": 1.577086280056577,
      "grad_norm": 0.0010281275026500225,
      "learning_rate": 0.294856298942442,
      "loss": 0.2896,
      "num_input_tokens_seen": 3105968,
      "step": 3345
    },
    {
      "epoch": 1.5794436586515794,
      "grad_norm": 0.002527958946302533,
      "learning_rate": 0.2948409944121302,
      "loss": 0.3419,
      "num_input_tokens_seen": 3110272,
      "step": 3350
    },
    {
      "epoch": 1.5818010372465818,
      "grad_norm": 0.0004226562741678208,
      "learning_rate": 0.29482566754551687,
      "loss": 0.3524,
      "num_input_tokens_seen": 3114656,
      "step": 3355
    },
    {
      "epoch": 1.5841584158415842,
      "grad_norm": 0.0004072903539054096,
      "learning_rate": 0.2948103183449656,
      "loss": 0.3431,
      "num_input_tokens_seen": 3119600,
      "step": 3360
    },
    {
      "epoch": 1.5865157944365866,
      "grad_norm": 0.001328345388174057,
      "learning_rate": 0.2947949468128435,
      "loss": 0.3095,
      "num_input_tokens_seen": 3124032,
      "step": 3365
    },
    {
      "epoch": 1.588873173031589,
      "grad_norm": 0.0006054875557310879,
      "learning_rate": 0.2947795529515209,
      "loss": 0.3486,
      "num_input_tokens_seen": 3128400,
      "step": 3370
    },
    {
      "epoch": 1.5912305516265912,
      "grad_norm": 0.0020909111481159925,
      "learning_rate": 0.29476413676337193,
      "loss": 0.3854,
      "num_input_tokens_seen": 3132288,
      "step": 3375
    },
    {
      "epoch": 1.5935879302215936,
      "grad_norm": 0.0004418823809828609,
      "learning_rate": 0.2947486982507738,
      "loss": 0.3569,
      "num_input_tokens_seen": 3136256,
      "step": 3380
    },
    {
      "epoch": 1.5959453088165958,
      "grad_norm": 0.0016658907989040017,
      "learning_rate": 0.29473323741610735,
      "loss": 0.332,
      "num_input_tokens_seen": 3141312,
      "step": 3385
    },
    {
      "epoch": 1.5983026874115982,
      "grad_norm": 0.0010582866379991174,
      "learning_rate": 0.2947177542617569,
      "loss": 0.3621,
      "num_input_tokens_seen": 3145920,
      "step": 3390
    },
    {
      "epoch": 1.6006600660066006,
      "grad_norm": 0.0007320994045585394,
      "learning_rate": 0.2947022487901101,
      "loss": 0.3291,
      "num_input_tokens_seen": 3150592,
      "step": 3395
    },
    {
      "epoch": 1.603017444601603,
      "grad_norm": 0.0007645041332580149,
      "learning_rate": 0.2946867210035581,
      "loss": 0.3365,
      "num_input_tokens_seen": 3154640,
      "step": 3400
    },
    {
      "epoch": 1.603017444601603,
      "eval_loss": 0.3337741196155548,
      "eval_runtime": 33.5854,
      "eval_samples_per_second": 28.078,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 3154640,
      "step": 3400
    },
    {
      "epoch": 1.6053748231966054,
      "grad_norm": 0.0004120844532735646,
      "learning_rate": 0.2946711709044954,
      "loss": 0.344,
      "num_input_tokens_seen": 3159408,
      "step": 3405
    },
    {
      "epoch": 1.6077322017916078,
      "grad_norm": 0.0005191084346733987,
      "learning_rate": 0.2946555984953202,
      "loss": 0.3056,
      "num_input_tokens_seen": 3163904,
      "step": 3410
    },
    {
      "epoch": 1.6100895803866102,
      "grad_norm": 0.000560266082175076,
      "learning_rate": 0.2946400037784338,
      "loss": 0.3109,
      "num_input_tokens_seen": 3168848,
      "step": 3415
    },
    {
      "epoch": 1.6124469589816126,
      "grad_norm": 0.00043913142872042954,
      "learning_rate": 0.29462438675624114,
      "loss": 0.3467,
      "num_input_tokens_seen": 3173168,
      "step": 3420
    },
    {
      "epoch": 1.6148043375766148,
      "grad_norm": 0.0004504957178141922,
      "learning_rate": 0.2946087474311506,
      "loss": 0.3202,
      "num_input_tokens_seen": 3177488,
      "step": 3425
    },
    {
      "epoch": 1.6171617161716172,
      "grad_norm": 0.0007617223309352994,
      "learning_rate": 0.294593085805574,
      "loss": 0.3564,
      "num_input_tokens_seen": 3182448,
      "step": 3430
    },
    {
      "epoch": 1.6195190947666194,
      "grad_norm": 0.001419432694092393,
      "learning_rate": 0.2945774018819264,
      "loss": 0.3358,
      "num_input_tokens_seen": 3186768,
      "step": 3435
    },
    {
      "epoch": 1.6218764733616218,
      "grad_norm": 0.0005967900506220758,
      "learning_rate": 0.2945616956626266,
      "loss": 0.3102,
      "num_input_tokens_seen": 3190800,
      "step": 3440
    },
    {
      "epoch": 1.6242338519566242,
      "grad_norm": 0.0006089987000450492,
      "learning_rate": 0.2945459671500966,
      "loss": 0.2924,
      "num_input_tokens_seen": 3195712,
      "step": 3445
    },
    {
      "epoch": 1.6265912305516266,
      "grad_norm": 0.0006497091380879283,
      "learning_rate": 0.2945302163467621,
      "loss": 0.372,
      "num_input_tokens_seen": 3200480,
      "step": 3450
    },
    {
      "epoch": 1.628948609146629,
      "grad_norm": 0.0004950871225446463,
      "learning_rate": 0.2945144432550519,
      "loss": 0.2933,
      "num_input_tokens_seen": 3204720,
      "step": 3455
    },
    {
      "epoch": 1.6313059877416314,
      "grad_norm": 0.0024160321336239576,
      "learning_rate": 0.29449864787739843,
      "loss": 0.3574,
      "num_input_tokens_seen": 3209472,
      "step": 3460
    },
    {
      "epoch": 1.6336633663366338,
      "grad_norm": 0.0007247604662552476,
      "learning_rate": 0.2944828302162376,
      "loss": 0.351,
      "num_input_tokens_seen": 3213728,
      "step": 3465
    },
    {
      "epoch": 1.6360207449316362,
      "grad_norm": 0.0006542729097418487,
      "learning_rate": 0.2944669902740087,
      "loss": 0.3052,
      "num_input_tokens_seen": 3217520,
      "step": 3470
    },
    {
      "epoch": 1.6383781235266384,
      "grad_norm": 0.0015423616860061884,
      "learning_rate": 0.2944511280531544,
      "loss": 0.339,
      "num_input_tokens_seen": 3222720,
      "step": 3475
    },
    {
      "epoch": 1.6407355021216408,
      "grad_norm": 0.0006666749832220376,
      "learning_rate": 0.29443524355612083,
      "loss": 0.3564,
      "num_input_tokens_seen": 3227552,
      "step": 3480
    },
    {
      "epoch": 1.643092880716643,
      "grad_norm": 0.0005904610152356327,
      "learning_rate": 0.29441933678535764,
      "loss": 0.3274,
      "num_input_tokens_seen": 3233312,
      "step": 3485
    },
    {
      "epoch": 1.6454502593116453,
      "grad_norm": 0.0011148987105116248,
      "learning_rate": 0.29440340774331786,
      "loss": 0.3539,
      "num_input_tokens_seen": 3237056,
      "step": 3490
    },
    {
      "epoch": 1.6478076379066477,
      "grad_norm": 0.0024144891649484634,
      "learning_rate": 0.2943874564324579,
      "loss": 0.354,
      "num_input_tokens_seen": 3242000,
      "step": 3495
    },
    {
      "epoch": 1.6501650165016502,
      "grad_norm": 0.0022523622028529644,
      "learning_rate": 0.2943714828552376,
      "loss": 0.3352,
      "num_input_tokens_seen": 3246768,
      "step": 3500
    },
    {
      "epoch": 1.6525223950966526,
      "grad_norm": 0.0016918162582442164,
      "learning_rate": 0.29435548701412045,
      "loss": 0.3378,
      "num_input_tokens_seen": 3251232,
      "step": 3505
    },
    {
      "epoch": 1.654879773691655,
      "grad_norm": 0.0006303279078565538,
      "learning_rate": 0.2943394689115731,
      "loss": 0.3031,
      "num_input_tokens_seen": 3255408,
      "step": 3510
    },
    {
      "epoch": 1.6572371522866574,
      "grad_norm": 0.0017624730244278908,
      "learning_rate": 0.29432342855006577,
      "loss": 0.3937,
      "num_input_tokens_seen": 3259648,
      "step": 3515
    },
    {
      "epoch": 1.6595945308816598,
      "grad_norm": 0.0008000654052011669,
      "learning_rate": 0.294307365932072,
      "loss": 0.3347,
      "num_input_tokens_seen": 3264064,
      "step": 3520
    },
    {
      "epoch": 1.661951909476662,
      "grad_norm": 0.0018728122813627124,
      "learning_rate": 0.294291281060069,
      "loss": 0.3024,
      "num_input_tokens_seen": 3269344,
      "step": 3525
    },
    {
      "epoch": 1.6643092880716643,
      "grad_norm": 0.0022039704490453005,
      "learning_rate": 0.29427517393653724,
      "loss": 0.3433,
      "num_input_tokens_seen": 3274544,
      "step": 3530
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.0007714197272434831,
      "learning_rate": 0.29425904456396046,
      "loss": 0.3085,
      "num_input_tokens_seen": 3278704,
      "step": 3535
    },
    {
      "epoch": 1.669024045261669,
      "grad_norm": 0.0007064076489768922,
      "learning_rate": 0.2942428929448262,
      "loss": 0.3184,
      "num_input_tokens_seen": 3282480,
      "step": 3540
    },
    {
      "epoch": 1.6713814238566713,
      "grad_norm": 0.0017251154640689492,
      "learning_rate": 0.2942267190816252,
      "loss": 0.2335,
      "num_input_tokens_seen": 3286672,
      "step": 3545
    },
    {
      "epoch": 1.6737388024516737,
      "grad_norm": 0.0006279684021137655,
      "learning_rate": 0.2942105229768516,
      "loss": 0.2811,
      "num_input_tokens_seen": 3291408,
      "step": 3550
    },
    {
      "epoch": 1.6760961810466761,
      "grad_norm": 0.0021541414316743612,
      "learning_rate": 0.29419430463300306,
      "loss": 0.2474,
      "num_input_tokens_seen": 3295824,
      "step": 3555
    },
    {
      "epoch": 1.6784535596416785,
      "grad_norm": 0.0054678646847605705,
      "learning_rate": 0.2941780640525808,
      "loss": 0.3687,
      "num_input_tokens_seen": 3300768,
      "step": 3560
    },
    {
      "epoch": 1.680810938236681,
      "grad_norm": 0.0011803105007857084,
      "learning_rate": 0.2941618012380891,
      "loss": 0.3201,
      "num_input_tokens_seen": 3306160,
      "step": 3565
    },
    {
      "epoch": 1.6831683168316833,
      "grad_norm": 0.0013020801125094295,
      "learning_rate": 0.29414551619203605,
      "loss": 0.2617,
      "num_input_tokens_seen": 3310864,
      "step": 3570
    },
    {
      "epoch": 1.6855256954266855,
      "grad_norm": 0.00136716035194695,
      "learning_rate": 0.29412920891693295,
      "loss": 0.2823,
      "num_input_tokens_seen": 3316064,
      "step": 3575
    },
    {
      "epoch": 1.687883074021688,
      "grad_norm": 0.0012351791374385357,
      "learning_rate": 0.2941128794152946,
      "loss": 0.4162,
      "num_input_tokens_seen": 3321248,
      "step": 3580
    },
    {
      "epoch": 1.69024045261669,
      "grad_norm": 0.0006875171675346792,
      "learning_rate": 0.2940965276896392,
      "loss": 0.4228,
      "num_input_tokens_seen": 3325872,
      "step": 3585
    },
    {
      "epoch": 1.6925978312116925,
      "grad_norm": 0.0019690683111548424,
      "learning_rate": 0.2940801537424884,
      "loss": 0.3464,
      "num_input_tokens_seen": 3330816,
      "step": 3590
    },
    {
      "epoch": 1.694955209806695,
      "grad_norm": 0.001990183722227812,
      "learning_rate": 0.2940637575763673,
      "loss": 0.34,
      "num_input_tokens_seen": 3335136,
      "step": 3595
    },
    {
      "epoch": 1.6973125884016973,
      "grad_norm": 0.0011707325465977192,
      "learning_rate": 0.2940473391938043,
      "loss": 0.3532,
      "num_input_tokens_seen": 3339328,
      "step": 3600
    },
    {
      "epoch": 1.6973125884016973,
      "eval_loss": 0.34582948684692383,
      "eval_runtime": 33.5925,
      "eval_samples_per_second": 28.072,
      "eval_steps_per_second": 14.051,
      "num_input_tokens_seen": 3339328,
      "step": 3600
    },
    {
      "epoch": 1.6996699669966997,
      "grad_norm": 0.000548082054592669,
      "learning_rate": 0.29403089859733145,
      "loss": 0.3461,
      "num_input_tokens_seen": 3344528,
      "step": 3605
    },
    {
      "epoch": 1.702027345591702,
      "grad_norm": 0.0008823553798720241,
      "learning_rate": 0.294014435789484,
      "loss": 0.3395,
      "num_input_tokens_seen": 3348912,
      "step": 3610
    },
    {
      "epoch": 1.7043847241867045,
      "grad_norm": 0.0007989132427610457,
      "learning_rate": 0.2939979507728007,
      "loss": 0.3203,
      "num_input_tokens_seen": 3354368,
      "step": 3615
    },
    {
      "epoch": 1.706742102781707,
      "grad_norm": 0.0007661431445740163,
      "learning_rate": 0.2939814435498239,
      "loss": 0.2951,
      "num_input_tokens_seen": 3359296,
      "step": 3620
    },
    {
      "epoch": 1.709099481376709,
      "grad_norm": 0.0025041319895535707,
      "learning_rate": 0.29396491412309905,
      "loss": 0.3966,
      "num_input_tokens_seen": 3363648,
      "step": 3625
    },
    {
      "epoch": 1.7114568599717115,
      "grad_norm": 0.0010689652990549803,
      "learning_rate": 0.2939483624951753,
      "loss": 0.3474,
      "num_input_tokens_seen": 3367792,
      "step": 3630
    },
    {
      "epoch": 1.7138142385667137,
      "grad_norm": 0.002698895987123251,
      "learning_rate": 0.2939317886686051,
      "loss": 0.3516,
      "num_input_tokens_seen": 3372880,
      "step": 3635
    },
    {
      "epoch": 1.716171617161716,
      "grad_norm": 0.003326830454170704,
      "learning_rate": 0.2939151926459443,
      "loss": 0.3469,
      "num_input_tokens_seen": 3377296,
      "step": 3640
    },
    {
      "epoch": 1.7185289957567185,
      "grad_norm": 0.0014602907467633486,
      "learning_rate": 0.2938985744297522,
      "loss": 0.3474,
      "num_input_tokens_seen": 3381808,
      "step": 3645
    },
    {
      "epoch": 1.7208863743517209,
      "grad_norm": 0.000548659183550626,
      "learning_rate": 0.29388193402259166,
      "loss": 0.3438,
      "num_input_tokens_seen": 3385920,
      "step": 3650
    },
    {
      "epoch": 1.7232437529467233,
      "grad_norm": 0.0005706205265596509,
      "learning_rate": 0.29386527142702873,
      "loss": 0.3395,
      "num_input_tokens_seen": 3389600,
      "step": 3655
    },
    {
      "epoch": 1.7256011315417257,
      "grad_norm": 0.0009644468082115054,
      "learning_rate": 0.293848586645633,
      "loss": 0.3809,
      "num_input_tokens_seen": 3394960,
      "step": 3660
    },
    {
      "epoch": 1.727958510136728,
      "grad_norm": 0.0005844941479153931,
      "learning_rate": 0.2938318796809775,
      "loss": 0.3574,
      "num_input_tokens_seen": 3399136,
      "step": 3665
    },
    {
      "epoch": 1.7303158887317305,
      "grad_norm": 0.0007524824468418956,
      "learning_rate": 0.29381515053563867,
      "loss": 0.3448,
      "num_input_tokens_seen": 3404288,
      "step": 3670
    },
    {
      "epoch": 1.7326732673267327,
      "grad_norm": 0.0010223786812275648,
      "learning_rate": 0.29379839921219636,
      "loss": 0.337,
      "num_input_tokens_seen": 3409136,
      "step": 3675
    },
    {
      "epoch": 1.735030645921735,
      "grad_norm": 0.0005731748533435166,
      "learning_rate": 0.2937816257132338,
      "loss": 0.3434,
      "num_input_tokens_seen": 3414048,
      "step": 3680
    },
    {
      "epoch": 1.7373880245167372,
      "grad_norm": 0.0014688203809782863,
      "learning_rate": 0.2937648300413376,
      "loss": 0.3306,
      "num_input_tokens_seen": 3418384,
      "step": 3685
    },
    {
      "epoch": 1.7397454031117396,
      "grad_norm": 0.0004944918327964842,
      "learning_rate": 0.293748012199098,
      "loss": 0.3464,
      "num_input_tokens_seen": 3422496,
      "step": 3690
    },
    {
      "epoch": 1.742102781706742,
      "grad_norm": 0.0012720652157440782,
      "learning_rate": 0.29373117218910844,
      "loss": 0.3132,
      "num_input_tokens_seen": 3426784,
      "step": 3695
    },
    {
      "epoch": 1.7444601603017444,
      "grad_norm": 0.0015457073459401727,
      "learning_rate": 0.2937143100139659,
      "loss": 0.3518,
      "num_input_tokens_seen": 3431520,
      "step": 3700
    },
    {
      "epoch": 1.7468175388967468,
      "grad_norm": 0.0007974884356372058,
      "learning_rate": 0.29369742567627083,
      "loss": 0.3419,
      "num_input_tokens_seen": 3435712,
      "step": 3705
    },
    {
      "epoch": 1.7491749174917492,
      "grad_norm": 0.0005136951804161072,
      "learning_rate": 0.29368051917862675,
      "loss": 0.3129,
      "num_input_tokens_seen": 3440592,
      "step": 3710
    },
    {
      "epoch": 1.7515322960867516,
      "grad_norm": 0.0007479639025405049,
      "learning_rate": 0.2936635905236411,
      "loss": 0.3337,
      "num_input_tokens_seen": 3445184,
      "step": 3715
    },
    {
      "epoch": 1.753889674681754,
      "grad_norm": 0.0005779566708952188,
      "learning_rate": 0.2936466397139244,
      "loss": 0.3528,
      "num_input_tokens_seen": 3449264,
      "step": 3720
    },
    {
      "epoch": 1.7562470532767562,
      "grad_norm": 0.0014391704462468624,
      "learning_rate": 0.2936296667520907,
      "loss": 0.3672,
      "num_input_tokens_seen": 3453232,
      "step": 3725
    },
    {
      "epoch": 1.7586044318717586,
      "grad_norm": 0.00040278982487507164,
      "learning_rate": 0.2936126716407574,
      "loss": 0.3656,
      "num_input_tokens_seen": 3457840,
      "step": 3730
    },
    {
      "epoch": 1.7609618104667608,
      "grad_norm": 0.0008813929744064808,
      "learning_rate": 0.29359565438254537,
      "loss": 0.3339,
      "num_input_tokens_seen": 3462240,
      "step": 3735
    },
    {
      "epoch": 1.7633191890617632,
      "grad_norm": 0.000518277520313859,
      "learning_rate": 0.29357861498007887,
      "loss": 0.3572,
      "num_input_tokens_seen": 3466848,
      "step": 3740
    },
    {
      "epoch": 1.7656765676567656,
      "grad_norm": 0.000599664228502661,
      "learning_rate": 0.29356155343598567,
      "loss": 0.3387,
      "num_input_tokens_seen": 3471712,
      "step": 3745
    },
    {
      "epoch": 1.768033946251768,
      "grad_norm": 0.00039564064354635775,
      "learning_rate": 0.2935444697528968,
      "loss": 0.3418,
      "num_input_tokens_seen": 3475824,
      "step": 3750
    },
    {
      "epoch": 1.7703913248467704,
      "grad_norm": 0.001405048300512135,
      "learning_rate": 0.2935273639334468,
      "loss": 0.3272,
      "num_input_tokens_seen": 3480656,
      "step": 3755
    },
    {
      "epoch": 1.7727487034417728,
      "grad_norm": 0.0005188470822758973,
      "learning_rate": 0.29351023598027365,
      "loss": 0.2991,
      "num_input_tokens_seen": 3484480,
      "step": 3760
    },
    {
      "epoch": 1.7751060820367752,
      "grad_norm": 0.0012393764918670058,
      "learning_rate": 0.2934930858960186,
      "loss": 0.2799,
      "num_input_tokens_seen": 3488352,
      "step": 3765
    },
    {
      "epoch": 1.7774634606317776,
      "grad_norm": 0.00042869089520536363,
      "learning_rate": 0.29347591368332643,
      "loss": 0.3735,
      "num_input_tokens_seen": 3493456,
      "step": 3770
    },
    {
      "epoch": 1.7798208392267798,
      "grad_norm": 0.0006400645361281931,
      "learning_rate": 0.2934587193448454,
      "loss": 0.338,
      "num_input_tokens_seen": 3497600,
      "step": 3775
    },
    {
      "epoch": 1.7821782178217822,
      "grad_norm": 0.0014716475270688534,
      "learning_rate": 0.29344150288322696,
      "loss": 0.4038,
      "num_input_tokens_seen": 3503552,
      "step": 3780
    },
    {
      "epoch": 1.7845355964167844,
      "grad_norm": 0.000575117242988199,
      "learning_rate": 0.2934242643011263,
      "loss": 0.3113,
      "num_input_tokens_seen": 3508640,
      "step": 3785
    },
    {
      "epoch": 1.7868929750117868,
      "grad_norm": 0.0005854589398950338,
      "learning_rate": 0.2934070036012016,
      "loss": 0.3552,
      "num_input_tokens_seen": 3513264,
      "step": 3790
    },
    {
      "epoch": 1.7892503536067892,
      "grad_norm": 0.001323037315160036,
      "learning_rate": 0.29338972078611475,
      "loss": 0.2959,
      "num_input_tokens_seen": 3517760,
      "step": 3795
    },
    {
      "epoch": 1.7916077322017916,
      "grad_norm": 0.0006728402222506702,
      "learning_rate": 0.2933724158585311,
      "loss": 0.3734,
      "num_input_tokens_seen": 3522384,
      "step": 3800
    },
    {
      "epoch": 1.7916077322017916,
      "eval_loss": 0.3275451362133026,
      "eval_runtime": 33.5274,
      "eval_samples_per_second": 28.126,
      "eval_steps_per_second": 14.078,
      "num_input_tokens_seen": 3522384,
      "step": 3800
    },
    {
      "epoch": 1.793965110796794,
      "grad_norm": 0.0007023833459243178,
      "learning_rate": 0.29335508882111916,
      "loss": 0.3114,
      "num_input_tokens_seen": 3527216,
      "step": 3805
    },
    {
      "epoch": 1.7963224893917964,
      "grad_norm": 0.0005898504168726504,
      "learning_rate": 0.29333773967655097,
      "loss": 0.3209,
      "num_input_tokens_seen": 3532240,
      "step": 3810
    },
    {
      "epoch": 1.7986798679867988,
      "grad_norm": 0.0004876596503891051,
      "learning_rate": 0.2933203684275021,
      "loss": 0.3506,
      "num_input_tokens_seen": 3536192,
      "step": 3815
    },
    {
      "epoch": 1.8010372465818012,
      "grad_norm": 0.0014748265966773033,
      "learning_rate": 0.2933029750766513,
      "loss": 0.3132,
      "num_input_tokens_seen": 3540352,
      "step": 3820
    },
    {
      "epoch": 1.8033946251768034,
      "grad_norm": 0.001941409194841981,
      "learning_rate": 0.2932855596266809,
      "loss": 0.4112,
      "num_input_tokens_seen": 3544976,
      "step": 3825
    },
    {
      "epoch": 1.8057520037718058,
      "grad_norm": 0.0005114049417898059,
      "learning_rate": 0.2932681220802765,
      "loss": 0.3476,
      "num_input_tokens_seen": 3549920,
      "step": 3830
    },
    {
      "epoch": 1.808109382366808,
      "grad_norm": 0.0007558243232779205,
      "learning_rate": 0.2932506624401274,
      "loss": 0.3576,
      "num_input_tokens_seen": 3555200,
      "step": 3835
    },
    {
      "epoch": 1.8104667609618104,
      "grad_norm": 0.0007001924095675349,
      "learning_rate": 0.29323318070892584,
      "loss": 0.3388,
      "num_input_tokens_seen": 3559680,
      "step": 3840
    },
    {
      "epoch": 1.8128241395568128,
      "grad_norm": 0.0009392719948664308,
      "learning_rate": 0.29321567688936784,
      "loss": 0.333,
      "num_input_tokens_seen": 3564304,
      "step": 3845
    },
    {
      "epoch": 1.8151815181518152,
      "grad_norm": 0.0006191290449351072,
      "learning_rate": 0.29319815098415275,
      "loss": 0.3112,
      "num_input_tokens_seen": 3570128,
      "step": 3850
    },
    {
      "epoch": 1.8175388967468176,
      "grad_norm": 0.00044218613766133785,
      "learning_rate": 0.2931806029959832,
      "loss": 0.2977,
      "num_input_tokens_seen": 3574992,
      "step": 3855
    },
    {
      "epoch": 1.81989627534182,
      "grad_norm": 0.0008363845990970731,
      "learning_rate": 0.29316303292756535,
      "loss": 0.2945,
      "num_input_tokens_seen": 3580672,
      "step": 3860
    },
    {
      "epoch": 1.8222536539368224,
      "grad_norm": 0.000594274781178683,
      "learning_rate": 0.29314544078160876,
      "loss": 0.3493,
      "num_input_tokens_seen": 3585632,
      "step": 3865
    },
    {
      "epoch": 1.8246110325318248,
      "grad_norm": 0.0002532626094762236,
      "learning_rate": 0.2931278265608263,
      "loss": 0.2865,
      "num_input_tokens_seen": 3589984,
      "step": 3870
    },
    {
      "epoch": 1.826968411126827,
      "grad_norm": 0.0014606670010834932,
      "learning_rate": 0.29311019026793433,
      "loss": 0.347,
      "num_input_tokens_seen": 3594672,
      "step": 3875
    },
    {
      "epoch": 1.8293257897218294,
      "grad_norm": 0.0007763470057398081,
      "learning_rate": 0.29309253190565254,
      "loss": 0.3491,
      "num_input_tokens_seen": 3599568,
      "step": 3880
    },
    {
      "epoch": 1.8316831683168315,
      "grad_norm": 0.00032367624226026237,
      "learning_rate": 0.2930748514767042,
      "loss": 0.3395,
      "num_input_tokens_seen": 3604000,
      "step": 3885
    },
    {
      "epoch": 1.834040546911834,
      "grad_norm": 0.000745602766983211,
      "learning_rate": 0.29305714898381574,
      "loss": 0.3741,
      "num_input_tokens_seen": 3609104,
      "step": 3890
    },
    {
      "epoch": 1.8363979255068363,
      "grad_norm": 0.0006835366366431117,
      "learning_rate": 0.29303942442971714,
      "loss": 0.3267,
      "num_input_tokens_seen": 3614528,
      "step": 3895
    },
    {
      "epoch": 1.8387553041018387,
      "grad_norm": 0.001250922679901123,
      "learning_rate": 0.2930216778171417,
      "loss": 0.3468,
      "num_input_tokens_seen": 3619088,
      "step": 3900
    },
    {
      "epoch": 1.8411126826968411,
      "grad_norm": 0.0014670206001028419,
      "learning_rate": 0.2930039091488263,
      "loss": 0.311,
      "num_input_tokens_seen": 3623616,
      "step": 3905
    },
    {
      "epoch": 1.8434700612918435,
      "grad_norm": 0.000487210025312379,
      "learning_rate": 0.29298611842751093,
      "loss": 0.3282,
      "num_input_tokens_seen": 3628528,
      "step": 3910
    },
    {
      "epoch": 1.845827439886846,
      "grad_norm": 0.00132307643070817,
      "learning_rate": 0.29296830565593923,
      "loss": 0.307,
      "num_input_tokens_seen": 3633232,
      "step": 3915
    },
    {
      "epoch": 1.8481848184818483,
      "grad_norm": 0.0012439308920875192,
      "learning_rate": 0.2929504708368582,
      "loss": 0.3833,
      "num_input_tokens_seen": 3637648,
      "step": 3920
    },
    {
      "epoch": 1.8505421970768505,
      "grad_norm": 0.0013845039065927267,
      "learning_rate": 0.29293261397301806,
      "loss": 0.3442,
      "num_input_tokens_seen": 3643040,
      "step": 3925
    },
    {
      "epoch": 1.852899575671853,
      "grad_norm": 0.0012910666409879923,
      "learning_rate": 0.29291473506717275,
      "loss": 0.3698,
      "num_input_tokens_seen": 3647648,
      "step": 3930
    },
    {
      "epoch": 1.855256954266855,
      "grad_norm": 0.0009471097146160901,
      "learning_rate": 0.29289683412207923,
      "loss": 0.3049,
      "num_input_tokens_seen": 3652368,
      "step": 3935
    },
    {
      "epoch": 1.8576143328618575,
      "grad_norm": 0.0004187542654108256,
      "learning_rate": 0.29287891114049813,
      "loss": 0.3317,
      "num_input_tokens_seen": 3656704,
      "step": 3940
    },
    {
      "epoch": 1.85997171145686,
      "grad_norm": 0.0005473711644299328,
      "learning_rate": 0.29286096612519347,
      "loss": 0.3148,
      "num_input_tokens_seen": 3661040,
      "step": 3945
    },
    {
      "epoch": 1.8623290900518623,
      "grad_norm": 0.0011177468113601208,
      "learning_rate": 0.2928429990789325,
      "loss": 0.3251,
      "num_input_tokens_seen": 3666064,
      "step": 3950
    },
    {
      "epoch": 1.8646864686468647,
      "grad_norm": 0.0004418600001372397,
      "learning_rate": 0.29282501000448596,
      "loss": 0.278,
      "num_input_tokens_seen": 3670288,
      "step": 3955
    },
    {
      "epoch": 1.8670438472418671,
      "grad_norm": 0.0006071640527807176,
      "learning_rate": 0.2928069989046281,
      "loss": 0.3231,
      "num_input_tokens_seen": 3676224,
      "step": 3960
    },
    {
      "epoch": 1.8694012258368695,
      "grad_norm": 0.0009398493566550314,
      "learning_rate": 0.2927889657821363,
      "loss": 0.3094,
      "num_input_tokens_seen": 3681536,
      "step": 3965
    },
    {
      "epoch": 1.871758604431872,
      "grad_norm": 0.00026502201217226684,
      "learning_rate": 0.2927709106397916,
      "loss": 0.3885,
      "num_input_tokens_seen": 3686080,
      "step": 3970
    },
    {
      "epoch": 1.874115983026874,
      "grad_norm": 0.00040156071190722287,
      "learning_rate": 0.29275283348037834,
      "loss": 0.3032,
      "num_input_tokens_seen": 3690384,
      "step": 3975
    },
    {
      "epoch": 1.8764733616218765,
      "grad_norm": 0.0003624171658884734,
      "learning_rate": 0.29273473430668423,
      "loss": 0.3271,
      "num_input_tokens_seen": 3695104,
      "step": 3980
    },
    {
      "epoch": 1.8788307402168787,
      "grad_norm": 0.0003397473192308098,
      "learning_rate": 0.2927166131215003,
      "loss": 0.3334,
      "num_input_tokens_seen": 3699200,
      "step": 3985
    },
    {
      "epoch": 1.881188118811881,
      "grad_norm": 0.0004282458685338497,
      "learning_rate": 0.2926984699276212,
      "loss": 0.3725,
      "num_input_tokens_seen": 3703728,
      "step": 3990
    },
    {
      "epoch": 1.8835454974068835,
      "grad_norm": 0.0005199284059926867,
      "learning_rate": 0.29268030472784473,
      "loss": 0.3378,
      "num_input_tokens_seen": 3707696,
      "step": 3995
    },
    {
      "epoch": 1.8859028760018859,
      "grad_norm": 0.0005231445538811386,
      "learning_rate": 0.2926621175249723,
      "loss": 0.294,
      "num_input_tokens_seen": 3712352,
      "step": 4000
    },
    {
      "epoch": 1.8859028760018859,
      "eval_loss": 0.32809823751449585,
      "eval_runtime": 33.5539,
      "eval_samples_per_second": 28.104,
      "eval_steps_per_second": 14.067,
      "num_input_tokens_seen": 3712352,
      "step": 4000
    },
    {
      "epoch": 1.8882602545968883,
      "grad_norm": 0.0004312072414904833,
      "learning_rate": 0.29264390832180853,
      "loss": 0.3572,
      "num_input_tokens_seen": 3716528,
      "step": 4005
    },
    {
      "epoch": 1.8906176331918907,
      "grad_norm": 0.0006354266661219299,
      "learning_rate": 0.29262567712116144,
      "loss": 0.3193,
      "num_input_tokens_seen": 3720976,
      "step": 4010
    },
    {
      "epoch": 1.892975011786893,
      "grad_norm": 0.0010775915579870343,
      "learning_rate": 0.29260742392584266,
      "loss": 0.31,
      "num_input_tokens_seen": 3725536,
      "step": 4015
    },
    {
      "epoch": 1.8953323903818955,
      "grad_norm": 0.0005156929255463183,
      "learning_rate": 0.292589148738667,
      "loss": 0.2925,
      "num_input_tokens_seen": 3730080,
      "step": 4020
    },
    {
      "epoch": 1.8976897689768977,
      "grad_norm": 0.0005851315218023956,
      "learning_rate": 0.2925708515624527,
      "loss": 0.3898,
      "num_input_tokens_seen": 3734480,
      "step": 4025
    },
    {
      "epoch": 1.9000471475719,
      "grad_norm": 0.0004946418339386582,
      "learning_rate": 0.29255253240002144,
      "loss": 0.3279,
      "num_input_tokens_seen": 3740048,
      "step": 4030
    },
    {
      "epoch": 1.9024045261669023,
      "grad_norm": 0.00046103811473585665,
      "learning_rate": 0.2925341912541983,
      "loss": 0.3228,
      "num_input_tokens_seen": 3745424,
      "step": 4035
    },
    {
      "epoch": 1.9047619047619047,
      "grad_norm": 0.000519347726367414,
      "learning_rate": 0.2925158281278116,
      "loss": 0.3242,
      "num_input_tokens_seen": 3749376,
      "step": 4040
    },
    {
      "epoch": 1.907119283356907,
      "grad_norm": 0.0005051956395618618,
      "learning_rate": 0.29249744302369324,
      "loss": 0.344,
      "num_input_tokens_seen": 3754512,
      "step": 4045
    },
    {
      "epoch": 1.9094766619519095,
      "grad_norm": 0.0012804461875930429,
      "learning_rate": 0.29247903594467844,
      "loss": 0.3189,
      "num_input_tokens_seen": 3758848,
      "step": 4050
    },
    {
      "epoch": 1.9118340405469119,
      "grad_norm": 0.0005008411244489253,
      "learning_rate": 0.2924606068936058,
      "loss": 0.3223,
      "num_input_tokens_seen": 3762992,
      "step": 4055
    },
    {
      "epoch": 1.9141914191419143,
      "grad_norm": 0.0006379918777383864,
      "learning_rate": 0.2924421558733173,
      "loss": 0.3409,
      "num_input_tokens_seen": 3768240,
      "step": 4060
    },
    {
      "epoch": 1.9165487977369167,
      "grad_norm": 0.0008272385457530618,
      "learning_rate": 0.2924236828866583,
      "loss": 0.3039,
      "num_input_tokens_seen": 3772656,
      "step": 4065
    },
    {
      "epoch": 1.918906176331919,
      "grad_norm": 0.0010651255724951625,
      "learning_rate": 0.29240518793647763,
      "loss": 0.2367,
      "num_input_tokens_seen": 3776960,
      "step": 4070
    },
    {
      "epoch": 1.9212635549269212,
      "grad_norm": 0.0009953463450074196,
      "learning_rate": 0.29238667102562743,
      "loss": 0.3838,
      "num_input_tokens_seen": 3781584,
      "step": 4075
    },
    {
      "epoch": 1.9236209335219236,
      "grad_norm": 0.00040870317025110126,
      "learning_rate": 0.29236813215696317,
      "loss": 0.3833,
      "num_input_tokens_seen": 3786256,
      "step": 4080
    },
    {
      "epoch": 1.9259783121169258,
      "grad_norm": 0.0005435068160295486,
      "learning_rate": 0.2923495713333439,
      "loss": 0.3525,
      "num_input_tokens_seen": 3791232,
      "step": 4085
    },
    {
      "epoch": 1.9283356907119282,
      "grad_norm": 0.0005343425436876714,
      "learning_rate": 0.29233098855763173,
      "loss": 0.355,
      "num_input_tokens_seen": 3795984,
      "step": 4090
    },
    {
      "epoch": 1.9306930693069306,
      "grad_norm": 0.0007761603337712586,
      "learning_rate": 0.29231238383269254,
      "loss": 0.3274,
      "num_input_tokens_seen": 3801056,
      "step": 4095
    },
    {
      "epoch": 1.933050447901933,
      "grad_norm": 0.0017457042122259736,
      "learning_rate": 0.2922937571613954,
      "loss": 0.3518,
      "num_input_tokens_seen": 3805328,
      "step": 4100
    },
    {
      "epoch": 1.9354078264969354,
      "grad_norm": 0.0009714410407468677,
      "learning_rate": 0.29227510854661265,
      "loss": 0.3562,
      "num_input_tokens_seen": 3810000,
      "step": 4105
    },
    {
      "epoch": 1.9377652050919378,
      "grad_norm": 0.0005597067065536976,
      "learning_rate": 0.29225643799122025,
      "loss": 0.3489,
      "num_input_tokens_seen": 3814720,
      "step": 4110
    },
    {
      "epoch": 1.9401225836869402,
      "grad_norm": 0.0011273791315034032,
      "learning_rate": 0.2922377454980974,
      "loss": 0.3536,
      "num_input_tokens_seen": 3818768,
      "step": 4115
    },
    {
      "epoch": 1.9424799622819426,
      "grad_norm": 0.001136656617745757,
      "learning_rate": 0.29221903107012676,
      "loss": 0.3474,
      "num_input_tokens_seen": 3822864,
      "step": 4120
    },
    {
      "epoch": 1.9448373408769448,
      "grad_norm": 0.0017677897121757269,
      "learning_rate": 0.29220029471019426,
      "loss": 0.3487,
      "num_input_tokens_seen": 3826976,
      "step": 4125
    },
    {
      "epoch": 1.9471947194719472,
      "grad_norm": 0.0011757755419239402,
      "learning_rate": 0.2921815364211893,
      "loss": 0.3598,
      "num_input_tokens_seen": 3832064,
      "step": 4130
    },
    {
      "epoch": 1.9495520980669494,
      "grad_norm": 0.0002860789536498487,
      "learning_rate": 0.29216275620600474,
      "loss": 0.3604,
      "num_input_tokens_seen": 3836304,
      "step": 4135
    },
    {
      "epoch": 1.9519094766619518,
      "grad_norm": 0.000583023764193058,
      "learning_rate": 0.29214395406753657,
      "loss": 0.3431,
      "num_input_tokens_seen": 3842624,
      "step": 4140
    },
    {
      "epoch": 1.9542668552569542,
      "grad_norm": 0.0017651693196967244,
      "learning_rate": 0.2921251300086844,
      "loss": 0.3519,
      "num_input_tokens_seen": 3846832,
      "step": 4145
    },
    {
      "epoch": 1.9566242338519566,
      "grad_norm": 0.0010861990740522742,
      "learning_rate": 0.2921062840323511,
      "loss": 0.2909,
      "num_input_tokens_seen": 3851600,
      "step": 4150
    },
    {
      "epoch": 1.958981612446959,
      "grad_norm": 0.0012266698759049177,
      "learning_rate": 0.29208741614144307,
      "loss": 0.3593,
      "num_input_tokens_seen": 3856832,
      "step": 4155
    },
    {
      "epoch": 1.9613389910419614,
      "grad_norm": 0.0005356980254873633,
      "learning_rate": 0.2920685263388698,
      "loss": 0.3277,
      "num_input_tokens_seen": 3862896,
      "step": 4160
    },
    {
      "epoch": 1.9636963696369638,
      "grad_norm": 0.0003848083724733442,
      "learning_rate": 0.2920496146275445,
      "loss": 0.3015,
      "num_input_tokens_seen": 3867952,
      "step": 4165
    },
    {
      "epoch": 1.9660537482319662,
      "grad_norm": 0.0012182497885078192,
      "learning_rate": 0.29203068101038343,
      "loss": 0.4214,
      "num_input_tokens_seen": 3872880,
      "step": 4170
    },
    {
      "epoch": 1.9684111268269684,
      "grad_norm": 0.0012408471666276455,
      "learning_rate": 0.2920117254903065,
      "loss": 0.3563,
      "num_input_tokens_seen": 3877248,
      "step": 4175
    },
    {
      "epoch": 1.9707685054219708,
      "grad_norm": 0.0005993511877022684,
      "learning_rate": 0.29199274807023695,
      "loss": 0.3326,
      "num_input_tokens_seen": 3881168,
      "step": 4180
    },
    {
      "epoch": 1.973125884016973,
      "grad_norm": 0.0007447289535775781,
      "learning_rate": 0.29197374875310117,
      "loss": 0.3443,
      "num_input_tokens_seen": 3886128,
      "step": 4185
    },
    {
      "epoch": 1.9754832626119754,
      "grad_norm": 0.0006859703571535647,
      "learning_rate": 0.2919547275418292,
      "loss": 0.337,
      "num_input_tokens_seen": 3890816,
      "step": 4190
    },
    {
      "epoch": 1.9778406412069778,
      "grad_norm": 0.00040659328806214035,
      "learning_rate": 0.29193568443935436,
      "loss": 0.3364,
      "num_input_tokens_seen": 3895152,
      "step": 4195
    },
    {
      "epoch": 1.9801980198019802,
      "grad_norm": 0.0005490731564350426,
      "learning_rate": 0.2919166194486133,
      "loss": 0.3144,
      "num_input_tokens_seen": 3899328,
      "step": 4200
    },
    {
      "epoch": 1.9801980198019802,
      "eval_loss": 0.33021771907806396,
      "eval_runtime": 33.5838,
      "eval_samples_per_second": 28.079,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 3899328,
      "step": 4200
    },
    {
      "epoch": 1.9825553983969826,
      "grad_norm": 0.0004494386666920036,
      "learning_rate": 0.2918975325725461,
      "loss": 0.3156,
      "num_input_tokens_seen": 3904064,
      "step": 4205
    },
    {
      "epoch": 1.984912776991985,
      "grad_norm": 0.0006677923374809325,
      "learning_rate": 0.29187842381409607,
      "loss": 0.3224,
      "num_input_tokens_seen": 3908864,
      "step": 4210
    },
    {
      "epoch": 1.9872701555869874,
      "grad_norm": 0.00048781721852719784,
      "learning_rate": 0.29185929317621023,
      "loss": 0.3654,
      "num_input_tokens_seen": 3912560,
      "step": 4215
    },
    {
      "epoch": 1.9896275341819898,
      "grad_norm": 0.0004160495300311595,
      "learning_rate": 0.29184014066183867,
      "loss": 0.2805,
      "num_input_tokens_seen": 3917344,
      "step": 4220
    },
    {
      "epoch": 1.991984912776992,
      "grad_norm": 0.001385014969855547,
      "learning_rate": 0.2918209662739349,
      "loss": 0.3721,
      "num_input_tokens_seen": 3922272,
      "step": 4225
    },
    {
      "epoch": 1.9943422913719944,
      "grad_norm": 0.0010132449679076672,
      "learning_rate": 0.29180177001545593,
      "loss": 0.3254,
      "num_input_tokens_seen": 3927216,
      "step": 4230
    },
    {
      "epoch": 1.9966996699669965,
      "grad_norm": 0.0005601259181275964,
      "learning_rate": 0.29178255188936203,
      "loss": 0.3403,
      "num_input_tokens_seen": 3931952,
      "step": 4235
    },
    {
      "epoch": 1.999057048561999,
      "grad_norm": 0.0012939708540216088,
      "learning_rate": 0.2917633118986169,
      "loss": 0.3094,
      "num_input_tokens_seen": 3936944,
      "step": 4240
    },
    {
      "epoch": 2.0014144271570014,
      "grad_norm": 0.000619134574662894,
      "learning_rate": 0.2917440500461875,
      "loss": 0.3392,
      "num_input_tokens_seen": 3941840,
      "step": 4245
    },
    {
      "epoch": 2.0037718057520038,
      "grad_norm": 0.0007497835322283208,
      "learning_rate": 0.29172476633504435,
      "loss": 0.3093,
      "num_input_tokens_seen": 3946336,
      "step": 4250
    },
    {
      "epoch": 2.006129184347006,
      "grad_norm": 0.00037625603727065027,
      "learning_rate": 0.2917054607681612,
      "loss": 0.318,
      "num_input_tokens_seen": 3951616,
      "step": 4255
    },
    {
      "epoch": 2.0084865629420086,
      "grad_norm": 0.0012734634801745415,
      "learning_rate": 0.29168613334851523,
      "loss": 0.3553,
      "num_input_tokens_seen": 3955584,
      "step": 4260
    },
    {
      "epoch": 2.010843941537011,
      "grad_norm": 0.00040921784238889813,
      "learning_rate": 0.2916667840790869,
      "loss": 0.2959,
      "num_input_tokens_seen": 3960080,
      "step": 4265
    },
    {
      "epoch": 2.0132013201320134,
      "grad_norm": 0.0010165268322452903,
      "learning_rate": 0.2916474129628603,
      "loss": 0.2742,
      "num_input_tokens_seen": 3964880,
      "step": 4270
    },
    {
      "epoch": 2.0155586987270158,
      "grad_norm": 0.000558532599825412,
      "learning_rate": 0.29162802000282245,
      "loss": 0.3501,
      "num_input_tokens_seen": 3969952,
      "step": 4275
    },
    {
      "epoch": 2.0179160773220177,
      "grad_norm": 0.0007117665372788906,
      "learning_rate": 0.2916086052019642,
      "loss": 0.3264,
      "num_input_tokens_seen": 3975104,
      "step": 4280
    },
    {
      "epoch": 2.02027345591702,
      "grad_norm": 0.0007105499971657991,
      "learning_rate": 0.2915891685632794,
      "loss": 0.3078,
      "num_input_tokens_seen": 3980512,
      "step": 4285
    },
    {
      "epoch": 2.0226308345120225,
      "grad_norm": 0.00042613083496689796,
      "learning_rate": 0.29156971008976545,
      "loss": 0.3615,
      "num_input_tokens_seen": 3985136,
      "step": 4290
    },
    {
      "epoch": 2.024988213107025,
      "grad_norm": 0.00044970313319936395,
      "learning_rate": 0.2915502297844232,
      "loss": 0.3399,
      "num_input_tokens_seen": 3989840,
      "step": 4295
    },
    {
      "epoch": 2.0273455917020273,
      "grad_norm": 0.001197685138322413,
      "learning_rate": 0.2915307276502566,
      "loss": 0.3093,
      "num_input_tokens_seen": 3994352,
      "step": 4300
    },
    {
      "epoch": 2.0297029702970297,
      "grad_norm": 0.0012812112690880895,
      "learning_rate": 0.29151120369027334,
      "loss": 0.3255,
      "num_input_tokens_seen": 3999104,
      "step": 4305
    },
    {
      "epoch": 2.032060348892032,
      "grad_norm": 0.0005932415369898081,
      "learning_rate": 0.29149165790748405,
      "loss": 0.3497,
      "num_input_tokens_seen": 4003696,
      "step": 4310
    },
    {
      "epoch": 2.0344177274870345,
      "grad_norm": 0.000511081307195127,
      "learning_rate": 0.291472090304903,
      "loss": 0.3654,
      "num_input_tokens_seen": 4008240,
      "step": 4315
    },
    {
      "epoch": 2.036775106082037,
      "grad_norm": 0.0013951603323221207,
      "learning_rate": 0.2914525008855478,
      "loss": 0.3331,
      "num_input_tokens_seen": 4013040,
      "step": 4320
    },
    {
      "epoch": 2.0391324846770393,
      "grad_norm": 0.00037235821946524084,
      "learning_rate": 0.2914328896524394,
      "loss": 0.3496,
      "num_input_tokens_seen": 4017920,
      "step": 4325
    },
    {
      "epoch": 2.0414898632720413,
      "grad_norm": 0.0013582793762907386,
      "learning_rate": 0.291413256608602,
      "loss": 0.281,
      "num_input_tokens_seen": 4022352,
      "step": 4330
    },
    {
      "epoch": 2.0438472418670437,
      "grad_norm": 0.0004653563955798745,
      "learning_rate": 0.29139360175706336,
      "loss": 0.3509,
      "num_input_tokens_seen": 4027600,
      "step": 4335
    },
    {
      "epoch": 2.046204620462046,
      "grad_norm": 0.0010539303766563535,
      "learning_rate": 0.2913739251008544,
      "loss": 0.2914,
      "num_input_tokens_seen": 4031696,
      "step": 4340
    },
    {
      "epoch": 2.0485619990570485,
      "grad_norm": 0.00037460849853232503,
      "learning_rate": 0.29135422664300964,
      "loss": 0.3387,
      "num_input_tokens_seen": 4036272,
      "step": 4345
    },
    {
      "epoch": 2.050919377652051,
      "grad_norm": 0.0004312103264965117,
      "learning_rate": 0.29133450638656677,
      "loss": 0.3722,
      "num_input_tokens_seen": 4040800,
      "step": 4350
    },
    {
      "epoch": 2.0532767562470533,
      "grad_norm": 0.0011321291094645858,
      "learning_rate": 0.2913147643345669,
      "loss": 0.3527,
      "num_input_tokens_seen": 4045200,
      "step": 4355
    },
    {
      "epoch": 2.0556341348420557,
      "grad_norm": 0.0004709014610853046,
      "learning_rate": 0.29129500049005447,
      "loss": 0.3005,
      "num_input_tokens_seen": 4049360,
      "step": 4360
    },
    {
      "epoch": 2.057991513437058,
      "grad_norm": 0.0009702217648737133,
      "learning_rate": 0.2912752148560773,
      "loss": 0.313,
      "num_input_tokens_seen": 4053472,
      "step": 4365
    },
    {
      "epoch": 2.0603488920320605,
      "grad_norm": 0.0004102165694348514,
      "learning_rate": 0.2912554074356866,
      "loss": 0.3571,
      "num_input_tokens_seen": 4058000,
      "step": 4370
    },
    {
      "epoch": 2.062706270627063,
      "grad_norm": 0.0004951044684275985,
      "learning_rate": 0.2912355782319371,
      "loss": 0.3845,
      "num_input_tokens_seen": 4062160,
      "step": 4375
    },
    {
      "epoch": 2.065063649222065,
      "grad_norm": 0.0005250634858384728,
      "learning_rate": 0.2912157272478864,
      "loss": 0.3226,
      "num_input_tokens_seen": 4067008,
      "step": 4380
    },
    {
      "epoch": 2.0674210278170673,
      "grad_norm": 0.00031829162617214024,
      "learning_rate": 0.291195854486596,
      "loss": 0.3349,
      "num_input_tokens_seen": 4071696,
      "step": 4385
    },
    {
      "epoch": 2.0697784064120697,
      "grad_norm": 0.0005311949644237757,
      "learning_rate": 0.2911759599511305,
      "loss": 0.3335,
      "num_input_tokens_seen": 4076464,
      "step": 4390
    },
    {
      "epoch": 2.072135785007072,
      "grad_norm": 0.0010129599831998348,
      "learning_rate": 0.29115604364455777,
      "loss": 0.2674,
      "num_input_tokens_seen": 4081600,
      "step": 4395
    },
    {
      "epoch": 2.0744931636020745,
      "grad_norm": 0.0005212658434174955,
      "learning_rate": 0.2911361055699493,
      "loss": 0.3425,
      "num_input_tokens_seen": 4085888,
      "step": 4400
    },
    {
      "epoch": 2.0744931636020745,
      "eval_loss": 0.32725974917411804,
      "eval_runtime": 33.5744,
      "eval_samples_per_second": 28.087,
      "eval_steps_per_second": 14.058,
      "num_input_tokens_seen": 4085888,
      "step": 4400
    },
    {
      "epoch": 2.076850542197077,
      "grad_norm": 0.0003295020724181086,
      "learning_rate": 0.2911161457303797,
      "loss": 0.3043,
      "num_input_tokens_seen": 4090096,
      "step": 4405
    },
    {
      "epoch": 2.0792079207920793,
      "grad_norm": 0.0005313731380738318,
      "learning_rate": 0.291096164128927,
      "loss": 0.3459,
      "num_input_tokens_seen": 4095136,
      "step": 4410
    },
    {
      "epoch": 2.0815652993870817,
      "grad_norm": 0.0003312290646135807,
      "learning_rate": 0.2910761607686727,
      "loss": 0.3793,
      "num_input_tokens_seen": 4099552,
      "step": 4415
    },
    {
      "epoch": 2.083922677982084,
      "grad_norm": 0.00045827782014384866,
      "learning_rate": 0.2910561356527016,
      "loss": 0.3263,
      "num_input_tokens_seen": 4104112,
      "step": 4420
    },
    {
      "epoch": 2.0862800565770865,
      "grad_norm": 0.001211156020872295,
      "learning_rate": 0.2910360887841017,
      "loss": 0.3382,
      "num_input_tokens_seen": 4108560,
      "step": 4425
    },
    {
      "epoch": 2.0886374351720884,
      "grad_norm": 0.000471474981168285,
      "learning_rate": 0.2910160201659645,
      "loss": 0.3119,
      "num_input_tokens_seen": 4113664,
      "step": 4430
    },
    {
      "epoch": 2.090994813767091,
      "grad_norm": 0.00036222345079295337,
      "learning_rate": 0.29099592980138494,
      "loss": 0.2717,
      "num_input_tokens_seen": 4118368,
      "step": 4435
    },
    {
      "epoch": 2.0933521923620932,
      "grad_norm": 0.0005339769413694739,
      "learning_rate": 0.29097581769346115,
      "loss": 0.3251,
      "num_input_tokens_seen": 4123680,
      "step": 4440
    },
    {
      "epoch": 2.0957095709570956,
      "grad_norm": 0.00046295413631014526,
      "learning_rate": 0.29095568384529463,
      "loss": 0.3793,
      "num_input_tokens_seen": 4129536,
      "step": 4445
    },
    {
      "epoch": 2.098066949552098,
      "grad_norm": 0.0005380364018492401,
      "learning_rate": 0.2909355282599903,
      "loss": 0.323,
      "num_input_tokens_seen": 4134064,
      "step": 4450
    },
    {
      "epoch": 2.1004243281471005,
      "grad_norm": 0.0004019822517875582,
      "learning_rate": 0.29091535094065635,
      "loss": 0.3066,
      "num_input_tokens_seen": 4138368,
      "step": 4455
    },
    {
      "epoch": 2.102781706742103,
      "grad_norm": 0.0003753489290829748,
      "learning_rate": 0.2908951518904045,
      "loss": 0.2918,
      "num_input_tokens_seen": 4142896,
      "step": 4460
    },
    {
      "epoch": 2.1051390853371053,
      "grad_norm": 0.00029273072141222656,
      "learning_rate": 0.29087493111234963,
      "loss": 0.2656,
      "num_input_tokens_seen": 4147968,
      "step": 4465
    },
    {
      "epoch": 2.1074964639321077,
      "grad_norm": 0.0013913429575040936,
      "learning_rate": 0.29085468860961,
      "loss": 0.3339,
      "num_input_tokens_seen": 4153024,
      "step": 4470
    },
    {
      "epoch": 2.10985384252711,
      "grad_norm": 0.0002991998044308275,
      "learning_rate": 0.2908344243853073,
      "loss": 0.3246,
      "num_input_tokens_seen": 4157280,
      "step": 4475
    },
    {
      "epoch": 2.112211221122112,
      "grad_norm": 0.00029221849399618804,
      "learning_rate": 0.2908141384425666,
      "loss": 0.261,
      "num_input_tokens_seen": 4161824,
      "step": 4480
    },
    {
      "epoch": 2.1145685997171144,
      "grad_norm": 0.0008480196120217443,
      "learning_rate": 0.2907938307845161,
      "loss": 0.3032,
      "num_input_tokens_seen": 4167152,
      "step": 4485
    },
    {
      "epoch": 2.116925978312117,
      "grad_norm": 0.0006839123088866472,
      "learning_rate": 0.2907735014142876,
      "loss": 0.3699,
      "num_input_tokens_seen": 4172192,
      "step": 4490
    },
    {
      "epoch": 2.119283356907119,
      "grad_norm": 0.000621325452812016,
      "learning_rate": 0.2907531503350161,
      "loss": 0.3466,
      "num_input_tokens_seen": 4175920,
      "step": 4495
    },
    {
      "epoch": 2.1216407355021216,
      "grad_norm": 0.00036235727020539343,
      "learning_rate": 0.29073277754983995,
      "loss": 0.3472,
      "num_input_tokens_seen": 4180224,
      "step": 4500
    },
    {
      "epoch": 2.123998114097124,
      "grad_norm": 0.0006624109810218215,
      "learning_rate": 0.290712383061901,
      "loss": 0.3301,
      "num_input_tokens_seen": 4184528,
      "step": 4505
    },
    {
      "epoch": 2.1263554926921264,
      "grad_norm": 0.00047076758346520364,
      "learning_rate": 0.2906919668743443,
      "loss": 0.3224,
      "num_input_tokens_seen": 4189408,
      "step": 4510
    },
    {
      "epoch": 2.128712871287129,
      "grad_norm": 0.0010846353834494948,
      "learning_rate": 0.29067152899031823,
      "loss": 0.3354,
      "num_input_tokens_seen": 4193952,
      "step": 4515
    },
    {
      "epoch": 2.1310702498821312,
      "grad_norm": 0.0011289439862594008,
      "learning_rate": 0.2906510694129746,
      "loss": 0.3514,
      "num_input_tokens_seen": 4198320,
      "step": 4520
    },
    {
      "epoch": 2.1334276284771336,
      "grad_norm": 0.0005006834981031716,
      "learning_rate": 0.2906305881454685,
      "loss": 0.3234,
      "num_input_tokens_seen": 4203152,
      "step": 4525
    },
    {
      "epoch": 2.1357850070721356,
      "grad_norm": 0.0007503482629545033,
      "learning_rate": 0.2906100851909585,
      "loss": 0.3497,
      "num_input_tokens_seen": 4208176,
      "step": 4530
    },
    {
      "epoch": 2.138142385667138,
      "grad_norm": 0.0006666271365247667,
      "learning_rate": 0.29058956055260626,
      "loss": 0.345,
      "num_input_tokens_seen": 4212832,
      "step": 4535
    },
    {
      "epoch": 2.1404997642621404,
      "grad_norm": 0.001088055083528161,
      "learning_rate": 0.2905690142335771,
      "loss": 0.3537,
      "num_input_tokens_seen": 4217824,
      "step": 4540
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 0.0013919094344601035,
      "learning_rate": 0.29054844623703946,
      "loss": 0.3354,
      "num_input_tokens_seen": 4222848,
      "step": 4545
    },
    {
      "epoch": 2.145214521452145,
      "grad_norm": 0.0009673124295659363,
      "learning_rate": 0.2905278565661651,
      "loss": 0.3538,
      "num_input_tokens_seen": 4227488,
      "step": 4550
    },
    {
      "epoch": 2.1475719000471476,
      "grad_norm": 0.0005222531617619097,
      "learning_rate": 0.2905072452241293,
      "loss": 0.3279,
      "num_input_tokens_seen": 4231632,
      "step": 4555
    },
    {
      "epoch": 2.14992927864215,
      "grad_norm": 0.0010849855607375503,
      "learning_rate": 0.2904866122141106,
      "loss": 0.3487,
      "num_input_tokens_seen": 4236208,
      "step": 4560
    },
    {
      "epoch": 2.1522866572371524,
      "grad_norm": 0.0007161469548009336,
      "learning_rate": 0.2904659575392908,
      "loss": 0.3512,
      "num_input_tokens_seen": 4240288,
      "step": 4565
    },
    {
      "epoch": 2.154644035832155,
      "grad_norm": 0.0007929434650577605,
      "learning_rate": 0.2904452812028551,
      "loss": 0.356,
      "num_input_tokens_seen": 4244624,
      "step": 4570
    },
    {
      "epoch": 2.157001414427157,
      "grad_norm": 0.0015363793354481459,
      "learning_rate": 0.2904245832079922,
      "loss": 0.3397,
      "num_input_tokens_seen": 4248544,
      "step": 4575
    },
    {
      "epoch": 2.159358793022159,
      "grad_norm": 0.0010770951630547643,
      "learning_rate": 0.29040386355789377,
      "loss": 0.3556,
      "num_input_tokens_seen": 4253728,
      "step": 4580
    },
    {
      "epoch": 2.1617161716171616,
      "grad_norm": 0.0011840339284390211,
      "learning_rate": 0.29038312225575524,
      "loss": 0.3221,
      "num_input_tokens_seen": 4258144,
      "step": 4585
    },
    {
      "epoch": 2.164073550212164,
      "grad_norm": 0.0010846697259694338,
      "learning_rate": 0.29036235930477505,
      "loss": 0.3044,
      "num_input_tokens_seen": 4262640,
      "step": 4590
    },
    {
      "epoch": 2.1664309288071664,
      "grad_norm": 0.00037887427606619895,
      "learning_rate": 0.29034157470815514,
      "loss": 0.3576,
      "num_input_tokens_seen": 4267024,
      "step": 4595
    },
    {
      "epoch": 2.1687883074021688,
      "grad_norm": 0.001173457014374435,
      "learning_rate": 0.2903207684691008,
      "loss": 0.4222,
      "num_input_tokens_seen": 4271936,
      "step": 4600
    },
    {
      "epoch": 2.1687883074021688,
      "eval_loss": 0.32656148076057434,
      "eval_runtime": 33.5224,
      "eval_samples_per_second": 28.13,
      "eval_steps_per_second": 14.08,
      "num_input_tokens_seen": 4271936,
      "step": 4600
    },
    {
      "epoch": 2.171145685997171,
      "grad_norm": 0.000744846707675606,
      "learning_rate": 0.29029994059082054,
      "loss": 0.398,
      "num_input_tokens_seen": 4276608,
      "step": 4605
    },
    {
      "epoch": 2.1735030645921736,
      "grad_norm": 0.0006026483606547117,
      "learning_rate": 0.2902790910765264,
      "loss": 0.3355,
      "num_input_tokens_seen": 4281360,
      "step": 4610
    },
    {
      "epoch": 2.175860443187176,
      "grad_norm": 0.0009191129356622696,
      "learning_rate": 0.29025821992943346,
      "loss": 0.3443,
      "num_input_tokens_seen": 4286192,
      "step": 4615
    },
    {
      "epoch": 2.1782178217821784,
      "grad_norm": 0.000675099203363061,
      "learning_rate": 0.29023732715276046,
      "loss": 0.3349,
      "num_input_tokens_seen": 4290864,
      "step": 4620
    },
    {
      "epoch": 2.1805752003771808,
      "grad_norm": 0.0007344585028477013,
      "learning_rate": 0.2902164127497293,
      "loss": 0.3311,
      "num_input_tokens_seen": 4295952,
      "step": 4625
    },
    {
      "epoch": 2.1829325789721827,
      "grad_norm": 0.0004982978571206331,
      "learning_rate": 0.2901954767235652,
      "loss": 0.334,
      "num_input_tokens_seen": 4300208,
      "step": 4630
    },
    {
      "epoch": 2.185289957567185,
      "grad_norm": 0.0010584696428850293,
      "learning_rate": 0.2901745190774968,
      "loss": 0.3137,
      "num_input_tokens_seen": 4305024,
      "step": 4635
    },
    {
      "epoch": 2.1876473361621875,
      "grad_norm": 0.0010441869962960482,
      "learning_rate": 0.290153539814756,
      "loss": 0.3546,
      "num_input_tokens_seen": 4309920,
      "step": 4640
    },
    {
      "epoch": 2.19000471475719,
      "grad_norm": 0.0005471967742778361,
      "learning_rate": 0.2901325389385781,
      "loss": 0.2608,
      "num_input_tokens_seen": 4314752,
      "step": 4645
    },
    {
      "epoch": 2.1923620933521923,
      "grad_norm": 0.0006208121194504201,
      "learning_rate": 0.2901115164522016,
      "loss": 0.3838,
      "num_input_tokens_seen": 4319040,
      "step": 4650
    },
    {
      "epoch": 2.1947194719471947,
      "grad_norm": 0.0009427589830011129,
      "learning_rate": 0.29009047235886865,
      "loss": 0.3232,
      "num_input_tokens_seen": 4323488,
      "step": 4655
    },
    {
      "epoch": 2.197076850542197,
      "grad_norm": 0.0005125474999658763,
      "learning_rate": 0.2900694066618243,
      "loss": 0.3404,
      "num_input_tokens_seen": 4327600,
      "step": 4660
    },
    {
      "epoch": 2.1994342291371995,
      "grad_norm": 0.000627735280431807,
      "learning_rate": 0.2900483193643172,
      "loss": 0.3139,
      "num_input_tokens_seen": 4331888,
      "step": 4665
    },
    {
      "epoch": 2.201791607732202,
      "grad_norm": 0.00046152411960065365,
      "learning_rate": 0.29002721046959934,
      "loss": 0.3089,
      "num_input_tokens_seen": 4336128,
      "step": 4670
    },
    {
      "epoch": 2.2041489863272044,
      "grad_norm": 0.0022313478402793407,
      "learning_rate": 0.29000607998092587,
      "loss": 0.3848,
      "num_input_tokens_seen": 4340160,
      "step": 4675
    },
    {
      "epoch": 2.2065063649222063,
      "grad_norm": 0.0013043646467849612,
      "learning_rate": 0.2899849279015555,
      "loss": 0.321,
      "num_input_tokens_seen": 4345264,
      "step": 4680
    },
    {
      "epoch": 2.2088637435172087,
      "grad_norm": 0.0013018983881920576,
      "learning_rate": 0.28996375423475007,
      "loss": 0.3205,
      "num_input_tokens_seen": 4350112,
      "step": 4685
    },
    {
      "epoch": 2.211221122112211,
      "grad_norm": 0.000781942275352776,
      "learning_rate": 0.28994255898377486,
      "loss": 0.2961,
      "num_input_tokens_seen": 4354400,
      "step": 4690
    },
    {
      "epoch": 2.2135785007072135,
      "grad_norm": 0.0007381723262369633,
      "learning_rate": 0.2899213421518984,
      "loss": 0.3256,
      "num_input_tokens_seen": 4358432,
      "step": 4695
    },
    {
      "epoch": 2.215935879302216,
      "grad_norm": 0.0008484988356940448,
      "learning_rate": 0.2899001037423926,
      "loss": 0.3408,
      "num_input_tokens_seen": 4362432,
      "step": 4700
    },
    {
      "epoch": 2.2182932578972183,
      "grad_norm": 0.0013138544745743275,
      "learning_rate": 0.28987884375853273,
      "loss": 0.3065,
      "num_input_tokens_seen": 4367552,
      "step": 4705
    },
    {
      "epoch": 2.2206506364922207,
      "grad_norm": 0.0007285140454769135,
      "learning_rate": 0.2898575622035974,
      "loss": 0.3531,
      "num_input_tokens_seen": 4371808,
      "step": 4710
    },
    {
      "epoch": 2.223008015087223,
      "grad_norm": 0.0010650893673300743,
      "learning_rate": 0.2898362590808683,
      "loss": 0.3522,
      "num_input_tokens_seen": 4376176,
      "step": 4715
    },
    {
      "epoch": 2.2253653936822255,
      "grad_norm": 0.003927308600395918,
      "learning_rate": 0.2898149343936308,
      "loss": 0.3423,
      "num_input_tokens_seen": 4379840,
      "step": 4720
    },
    {
      "epoch": 2.227722772277228,
      "grad_norm": 0.0010933317244052887,
      "learning_rate": 0.2897935881451734,
      "loss": 0.3168,
      "num_input_tokens_seen": 4384688,
      "step": 4725
    },
    {
      "epoch": 2.23008015087223,
      "grad_norm": 0.0006373464711941779,
      "learning_rate": 0.28977222033878797,
      "loss": 0.3402,
      "num_input_tokens_seen": 4389376,
      "step": 4730
    },
    {
      "epoch": 2.2324375294672323,
      "grad_norm": 0.0005117717082612216,
      "learning_rate": 0.28975083097776966,
      "loss": 0.3342,
      "num_input_tokens_seen": 4393568,
      "step": 4735
    },
    {
      "epoch": 2.2347949080622347,
      "grad_norm": 0.0014926823787391186,
      "learning_rate": 0.28972942006541696,
      "loss": 0.3105,
      "num_input_tokens_seen": 4400304,
      "step": 4740
    },
    {
      "epoch": 2.237152286657237,
      "grad_norm": 0.0004923623637296259,
      "learning_rate": 0.2897079876050318,
      "loss": 0.3807,
      "num_input_tokens_seen": 4406080,
      "step": 4745
    },
    {
      "epoch": 2.2395096652522395,
      "grad_norm": 0.0005560540012083948,
      "learning_rate": 0.2896865335999192,
      "loss": 0.3571,
      "num_input_tokens_seen": 4410704,
      "step": 4750
    },
    {
      "epoch": 2.241867043847242,
      "grad_norm": 0.0012946849456056952,
      "learning_rate": 0.28966505805338777,
      "loss": 0.3428,
      "num_input_tokens_seen": 4415552,
      "step": 4755
    },
    {
      "epoch": 2.2442244224422443,
      "grad_norm": 0.0003199493221472949,
      "learning_rate": 0.2896435609687492,
      "loss": 0.332,
      "num_input_tokens_seen": 4420528,
      "step": 4760
    },
    {
      "epoch": 2.2465818010372467,
      "grad_norm": 0.00031537594622932374,
      "learning_rate": 0.2896220423493187,
      "loss": 0.3216,
      "num_input_tokens_seen": 4424512,
      "step": 4765
    },
    {
      "epoch": 2.248939179632249,
      "grad_norm": 0.0004171939508523792,
      "learning_rate": 0.28960050219841466,
      "loss": 0.3223,
      "num_input_tokens_seen": 4429072,
      "step": 4770
    },
    {
      "epoch": 2.251296558227251,
      "grad_norm": 0.0010132177267223597,
      "learning_rate": 0.28957894051935884,
      "loss": 0.3468,
      "num_input_tokens_seen": 4432896,
      "step": 4775
    },
    {
      "epoch": 2.2536539368222535,
      "grad_norm": 0.0004279844870325178,
      "learning_rate": 0.2895573573154764,
      "loss": 0.2978,
      "num_input_tokens_seen": 4437792,
      "step": 4780
    },
    {
      "epoch": 2.256011315417256,
      "grad_norm": 0.0006925704656168818,
      "learning_rate": 0.28953575259009556,
      "loss": 0.3151,
      "num_input_tokens_seen": 4442736,
      "step": 4785
    },
    {
      "epoch": 2.2583686940122583,
      "grad_norm": 0.0011390859726816416,
      "learning_rate": 0.2895141263465482,
      "loss": 0.2729,
      "num_input_tokens_seen": 4447824,
      "step": 4790
    },
    {
      "epoch": 2.2607260726072607,
      "grad_norm": 0.0003275278431829065,
      "learning_rate": 0.28949247858816934,
      "loss": 0.3435,
      "num_input_tokens_seen": 4451936,
      "step": 4795
    },
    {
      "epoch": 2.263083451202263,
      "grad_norm": 0.0008746245875954628,
      "learning_rate": 0.2894708093182973,
      "loss": 0.2797,
      "num_input_tokens_seen": 4456320,
      "step": 4800
    },
    {
      "epoch": 2.263083451202263,
      "eval_loss": 0.3313846290111542,
      "eval_runtime": 33.5734,
      "eval_samples_per_second": 28.088,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 4456320,
      "step": 4800
    },
    {
      "epoch": 2.2654408297972655,
      "grad_norm": 0.0012951039243489504,
      "learning_rate": 0.2894491185402737,
      "loss": 0.4447,
      "num_input_tokens_seen": 4461184,
      "step": 4805
    },
    {
      "epoch": 2.267798208392268,
      "grad_norm": 0.0012331658508628607,
      "learning_rate": 0.2894274062574437,
      "loss": 0.3832,
      "num_input_tokens_seen": 4465088,
      "step": 4810
    },
    {
      "epoch": 2.2701555869872703,
      "grad_norm": 0.0004749911604449153,
      "learning_rate": 0.2894056724731554,
      "loss": 0.3223,
      "num_input_tokens_seen": 4469360,
      "step": 4815
    },
    {
      "epoch": 2.2725129655822727,
      "grad_norm": 0.00034625461557880044,
      "learning_rate": 0.28938391719076056,
      "loss": 0.3328,
      "num_input_tokens_seen": 4473840,
      "step": 4820
    },
    {
      "epoch": 2.274870344177275,
      "grad_norm": 0.0003445517795626074,
      "learning_rate": 0.28936214041361413,
      "loss": 0.3171,
      "num_input_tokens_seen": 4478640,
      "step": 4825
    },
    {
      "epoch": 2.2772277227722775,
      "grad_norm": 0.0004142574325669557,
      "learning_rate": 0.2893403421450743,
      "loss": 0.2942,
      "num_input_tokens_seen": 4483344,
      "step": 4830
    },
    {
      "epoch": 2.2795851013672794,
      "grad_norm": 0.001670635538175702,
      "learning_rate": 0.2893185223885026,
      "loss": 0.3648,
      "num_input_tokens_seen": 4487680,
      "step": 4835
    },
    {
      "epoch": 2.281942479962282,
      "grad_norm": 0.000993689289316535,
      "learning_rate": 0.289296681147264,
      "loss": 0.372,
      "num_input_tokens_seen": 4492176,
      "step": 4840
    },
    {
      "epoch": 2.2842998585572842,
      "grad_norm": 0.0004567044379655272,
      "learning_rate": 0.28927481842472663,
      "loss": 0.3167,
      "num_input_tokens_seen": 4496912,
      "step": 4845
    },
    {
      "epoch": 2.2866572371522866,
      "grad_norm": 0.0004932140000164509,
      "learning_rate": 0.28925293422426207,
      "loss": 0.3654,
      "num_input_tokens_seen": 4501920,
      "step": 4850
    },
    {
      "epoch": 2.289014615747289,
      "grad_norm": 0.00042449383181519806,
      "learning_rate": 0.28923102854924504,
      "loss": 0.3108,
      "num_input_tokens_seen": 4506624,
      "step": 4855
    },
    {
      "epoch": 2.2913719943422914,
      "grad_norm": 0.00039843289414420724,
      "learning_rate": 0.2892091014030537,
      "loss": 0.3815,
      "num_input_tokens_seen": 4509984,
      "step": 4860
    },
    {
      "epoch": 2.293729372937294,
      "grad_norm": 0.0005139590357430279,
      "learning_rate": 0.2891871527890696,
      "loss": 0.3222,
      "num_input_tokens_seen": 4515008,
      "step": 4865
    },
    {
      "epoch": 2.2960867515322962,
      "grad_norm": 0.0009830149356275797,
      "learning_rate": 0.2891651827106773,
      "loss": 0.2947,
      "num_input_tokens_seen": 4520432,
      "step": 4870
    },
    {
      "epoch": 2.298444130127298,
      "grad_norm": 0.0009463283349759877,
      "learning_rate": 0.2891431911712651,
      "loss": 0.3283,
      "num_input_tokens_seen": 4524752,
      "step": 4875
    },
    {
      "epoch": 2.3008015087223006,
      "grad_norm": 0.001810486544854939,
      "learning_rate": 0.2891211781742241,
      "loss": 0.3579,
      "num_input_tokens_seen": 4528880,
      "step": 4880
    },
    {
      "epoch": 2.303158887317303,
      "grad_norm": 0.0003255919727962464,
      "learning_rate": 0.2890991437229492,
      "loss": 0.3414,
      "num_input_tokens_seen": 4532912,
      "step": 4885
    },
    {
      "epoch": 2.3055162659123054,
      "grad_norm": 0.0003965021460317075,
      "learning_rate": 0.2890770878208383,
      "loss": 0.3401,
      "num_input_tokens_seen": 4537312,
      "step": 4890
    },
    {
      "epoch": 2.307873644507308,
      "grad_norm": 0.00035305091296322644,
      "learning_rate": 0.28905501047129273,
      "loss": 0.3391,
      "num_input_tokens_seen": 4542128,
      "step": 4895
    },
    {
      "epoch": 2.31023102310231,
      "grad_norm": 0.0003776109660975635,
      "learning_rate": 0.289032911677717,
      "loss": 0.2712,
      "num_input_tokens_seen": 4546224,
      "step": 4900
    },
    {
      "epoch": 2.3125884016973126,
      "grad_norm": 0.0004892190336249769,
      "learning_rate": 0.28901079144351915,
      "loss": 0.32,
      "num_input_tokens_seen": 4551200,
      "step": 4905
    },
    {
      "epoch": 2.314945780292315,
      "grad_norm": 0.0005584369064308703,
      "learning_rate": 0.2889886497721103,
      "loss": 0.3335,
      "num_input_tokens_seen": 4556336,
      "step": 4910
    },
    {
      "epoch": 2.3173031588873174,
      "grad_norm": 0.00026682321913540363,
      "learning_rate": 0.28896648666690505,
      "loss": 0.3646,
      "num_input_tokens_seen": 4561408,
      "step": 4915
    },
    {
      "epoch": 2.31966053748232,
      "grad_norm": 0.0013424219796434045,
      "learning_rate": 0.2889443021313212,
      "loss": 0.3439,
      "num_input_tokens_seen": 4566032,
      "step": 4920
    },
    {
      "epoch": 2.322017916077322,
      "grad_norm": 0.0003563074569683522,
      "learning_rate": 0.28892209616877984,
      "loss": 0.2977,
      "num_input_tokens_seen": 4570368,
      "step": 4925
    },
    {
      "epoch": 2.3243752946723246,
      "grad_norm": 0.0003152435820084065,
      "learning_rate": 0.28889986878270546,
      "loss": 0.317,
      "num_input_tokens_seen": 4573840,
      "step": 4930
    },
    {
      "epoch": 2.3267326732673266,
      "grad_norm": 0.00038280669832602143,
      "learning_rate": 0.28887761997652583,
      "loss": 0.3069,
      "num_input_tokens_seen": 4578224,
      "step": 4935
    },
    {
      "epoch": 2.329090051862329,
      "grad_norm": 0.0010323559399694204,
      "learning_rate": 0.2888553497536719,
      "loss": 0.3995,
      "num_input_tokens_seen": 4582176,
      "step": 4940
    },
    {
      "epoch": 2.3314474304573314,
      "grad_norm": 0.000466240308014676,
      "learning_rate": 0.2888330581175781,
      "loss": 0.3317,
      "num_input_tokens_seen": 4586480,
      "step": 4945
    },
    {
      "epoch": 2.333804809052334,
      "grad_norm": 0.00039337502676062286,
      "learning_rate": 0.28881074507168203,
      "loss": 0.3448,
      "num_input_tokens_seen": 4591152,
      "step": 4950
    },
    {
      "epoch": 2.336162187647336,
      "grad_norm": 0.00031029645469971,
      "learning_rate": 0.2887884106194247,
      "loss": 0.364,
      "num_input_tokens_seen": 4595424,
      "step": 4955
    },
    {
      "epoch": 2.3385195662423386,
      "grad_norm": 0.000695997616276145,
      "learning_rate": 0.28876605476425027,
      "loss": 0.3412,
      "num_input_tokens_seen": 4600176,
      "step": 4960
    },
    {
      "epoch": 2.340876944837341,
      "grad_norm": 0.00026365069788880646,
      "learning_rate": 0.2887436775096064,
      "loss": 0.3581,
      "num_input_tokens_seen": 4604688,
      "step": 4965
    },
    {
      "epoch": 2.3432343234323434,
      "grad_norm": 0.0007064339006319642,
      "learning_rate": 0.2887212788589439,
      "loss": 0.3357,
      "num_input_tokens_seen": 4610416,
      "step": 4970
    },
    {
      "epoch": 2.3455917020273453,
      "grad_norm": 0.0012350620236247778,
      "learning_rate": 0.2886988588157169,
      "loss": 0.3401,
      "num_input_tokens_seen": 4615840,
      "step": 4975
    },
    {
      "epoch": 2.3479490806223478,
      "grad_norm": 0.000647037522867322,
      "learning_rate": 0.28867641738338284,
      "loss": 0.3344,
      "num_input_tokens_seen": 4620256,
      "step": 4980
    },
    {
      "epoch": 2.35030645921735,
      "grad_norm": 0.00031331280479207635,
      "learning_rate": 0.2886539545654026,
      "loss": 0.3479,
      "num_input_tokens_seen": 4624448,
      "step": 4985
    },
    {
      "epoch": 2.3526638378123526,
      "grad_norm": 0.0003928408841602504,
      "learning_rate": 0.28863147036524006,
      "loss": 0.3272,
      "num_input_tokens_seen": 4629024,
      "step": 4990
    },
    {
      "epoch": 2.355021216407355,
      "grad_norm": 0.00046619042404927313,
      "learning_rate": 0.2886089647863626,
      "loss": 0.3365,
      "num_input_tokens_seen": 4633680,
      "step": 4995
    },
    {
      "epoch": 2.3573785950023574,
      "grad_norm": 0.0003624492383096367,
      "learning_rate": 0.288586437832241,
      "loss": 0.3179,
      "num_input_tokens_seen": 4638512,
      "step": 5000
    },
    {
      "epoch": 2.3573785950023574,
      "eval_loss": 0.32777705788612366,
      "eval_runtime": 33.5735,
      "eval_samples_per_second": 28.088,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 4638512,
      "step": 5000
    },
    {
      "epoch": 2.3597359735973598,
      "grad_norm": 0.000940831727348268,
      "learning_rate": 0.28856388950634904,
      "loss": 0.3385,
      "num_input_tokens_seen": 4642288,
      "step": 5005
    },
    {
      "epoch": 2.362093352192362,
      "grad_norm": 0.0004358153964858502,
      "learning_rate": 0.288541319812164,
      "loss": 0.3345,
      "num_input_tokens_seen": 4647056,
      "step": 5010
    },
    {
      "epoch": 2.3644507307873646,
      "grad_norm": 0.00039568162173964083,
      "learning_rate": 0.2885187287531665,
      "loss": 0.3235,
      "num_input_tokens_seen": 4651040,
      "step": 5015
    },
    {
      "epoch": 2.366808109382367,
      "grad_norm": 0.0003735830541700125,
      "learning_rate": 0.2884961163328402,
      "loss": 0.3655,
      "num_input_tokens_seen": 4656624,
      "step": 5020
    },
    {
      "epoch": 2.3691654879773694,
      "grad_norm": 0.0009514371631667018,
      "learning_rate": 0.28847348255467237,
      "loss": 0.3186,
      "num_input_tokens_seen": 4662144,
      "step": 5025
    },
    {
      "epoch": 2.3715228665723718,
      "grad_norm": 0.001219304045662284,
      "learning_rate": 0.28845082742215333,
      "loss": 0.3015,
      "num_input_tokens_seen": 4666992,
      "step": 5030
    },
    {
      "epoch": 2.3738802451673737,
      "grad_norm": 0.0009352687047794461,
      "learning_rate": 0.2884281509387769,
      "loss": 0.3356,
      "num_input_tokens_seen": 4671344,
      "step": 5035
    },
    {
      "epoch": 2.376237623762376,
      "grad_norm": 0.0005445389542728662,
      "learning_rate": 0.2884054531080399,
      "loss": 0.3079,
      "num_input_tokens_seen": 4675648,
      "step": 5040
    },
    {
      "epoch": 2.3785950023573785,
      "grad_norm": 0.0009654434397816658,
      "learning_rate": 0.28838273393344277,
      "loss": 0.3199,
      "num_input_tokens_seen": 4680576,
      "step": 5045
    },
    {
      "epoch": 2.380952380952381,
      "grad_norm": 0.0005918371025472879,
      "learning_rate": 0.288359993418489,
      "loss": 0.3448,
      "num_input_tokens_seen": 4686032,
      "step": 5050
    },
    {
      "epoch": 2.3833097595473833,
      "grad_norm": 0.00042762490920722485,
      "learning_rate": 0.28833723156668556,
      "loss": 0.3584,
      "num_input_tokens_seen": 4690032,
      "step": 5055
    },
    {
      "epoch": 2.3856671381423857,
      "grad_norm": 0.0009222652297466993,
      "learning_rate": 0.2883144483815425,
      "loss": 0.3729,
      "num_input_tokens_seen": 4694784,
      "step": 5060
    },
    {
      "epoch": 2.388024516737388,
      "grad_norm": 0.0008888925658538938,
      "learning_rate": 0.28829164386657335,
      "loss": 0.3462,
      "num_input_tokens_seen": 4699040,
      "step": 5065
    },
    {
      "epoch": 2.3903818953323905,
      "grad_norm": 0.000974099850282073,
      "learning_rate": 0.28826881802529486,
      "loss": 0.3127,
      "num_input_tokens_seen": 4703648,
      "step": 5070
    },
    {
      "epoch": 2.3927392739273925,
      "grad_norm": 0.00035457624471746385,
      "learning_rate": 0.28824597086122705,
      "loss": 0.3687,
      "num_input_tokens_seen": 4708112,
      "step": 5075
    },
    {
      "epoch": 2.395096652522395,
      "grad_norm": 0.0011220156447961926,
      "learning_rate": 0.28822310237789317,
      "loss": 0.3382,
      "num_input_tokens_seen": 4712640,
      "step": 5080
    },
    {
      "epoch": 2.3974540311173973,
      "grad_norm": 0.00030890776542946696,
      "learning_rate": 0.2882002125788199,
      "loss": 0.3318,
      "num_input_tokens_seen": 4717600,
      "step": 5085
    },
    {
      "epoch": 2.3998114097123997,
      "grad_norm": 0.0013337121345102787,
      "learning_rate": 0.2881773014675371,
      "loss": 0.379,
      "num_input_tokens_seen": 4722144,
      "step": 5090
    },
    {
      "epoch": 2.402168788307402,
      "grad_norm": 0.0006034150719642639,
      "learning_rate": 0.288154369047578,
      "loss": 0.3264,
      "num_input_tokens_seen": 4727344,
      "step": 5095
    },
    {
      "epoch": 2.4045261669024045,
      "grad_norm": 0.001084864023141563,
      "learning_rate": 0.28813141532247905,
      "loss": 0.3191,
      "num_input_tokens_seen": 4731936,
      "step": 5100
    },
    {
      "epoch": 2.406883545497407,
      "grad_norm": 0.00041332360706292093,
      "learning_rate": 0.28810844029578,
      "loss": 0.3012,
      "num_input_tokens_seen": 4736832,
      "step": 5105
    },
    {
      "epoch": 2.4092409240924093,
      "grad_norm": 0.0006556926527991891,
      "learning_rate": 0.2880854439710238,
      "loss": 0.3149,
      "num_input_tokens_seen": 4740848,
      "step": 5110
    },
    {
      "epoch": 2.4115983026874117,
      "grad_norm": 0.000996165326796472,
      "learning_rate": 0.28806242635175694,
      "loss": 0.3378,
      "num_input_tokens_seen": 4747168,
      "step": 5115
    },
    {
      "epoch": 2.413955681282414,
      "grad_norm": 0.0014282891061156988,
      "learning_rate": 0.2880393874415289,
      "loss": 0.3993,
      "num_input_tokens_seen": 4752288,
      "step": 5120
    },
    {
      "epoch": 2.4163130598774165,
      "grad_norm": 0.0010422617197036743,
      "learning_rate": 0.2880163272438926,
      "loss": 0.3177,
      "num_input_tokens_seen": 4757856,
      "step": 5125
    },
    {
      "epoch": 2.418670438472419,
      "grad_norm": 0.0010666917078197002,
      "learning_rate": 0.2879932457624042,
      "loss": 0.2644,
      "num_input_tokens_seen": 4762832,
      "step": 5130
    },
    {
      "epoch": 2.421027817067421,
      "grad_norm": 0.0003952036495320499,
      "learning_rate": 0.2879701430006232,
      "loss": 0.3734,
      "num_input_tokens_seen": 4767616,
      "step": 5135
    },
    {
      "epoch": 2.4233851956624233,
      "grad_norm": 0.001055356115102768,
      "learning_rate": 0.28794701896211233,
      "loss": 0.3766,
      "num_input_tokens_seen": 4772736,
      "step": 5140
    },
    {
      "epoch": 2.4257425742574257,
      "grad_norm": 0.00042624594061635435,
      "learning_rate": 0.28792387365043753,
      "loss": 0.3512,
      "num_input_tokens_seen": 4776224,
      "step": 5145
    },
    {
      "epoch": 2.428099952852428,
      "grad_norm": 0.000922289676964283,
      "learning_rate": 0.28790070706916815,
      "loss": 0.3469,
      "num_input_tokens_seen": 4782192,
      "step": 5150
    },
    {
      "epoch": 2.4304573314474305,
      "grad_norm": 0.0005102012655697763,
      "learning_rate": 0.2878775192218768,
      "loss": 0.3426,
      "num_input_tokens_seen": 4788992,
      "step": 5155
    },
    {
      "epoch": 2.432814710042433,
      "grad_norm": 0.0009912396781146526,
      "learning_rate": 0.2878543101121393,
      "loss": 0.3138,
      "num_input_tokens_seen": 4793936,
      "step": 5160
    },
    {
      "epoch": 2.4351720886374353,
      "grad_norm": 0.0003338093520142138,
      "learning_rate": 0.28783107974353483,
      "loss": 0.3533,
      "num_input_tokens_seen": 4798400,
      "step": 5165
    },
    {
      "epoch": 2.4375294672324377,
      "grad_norm": 0.0004451108106877655,
      "learning_rate": 0.2878078281196457,
      "loss": 0.3342,
      "num_input_tokens_seen": 4803296,
      "step": 5170
    },
    {
      "epoch": 2.4398868458274396,
      "grad_norm": 0.000345653883414343,
      "learning_rate": 0.28778455524405777,
      "loss": 0.388,
      "num_input_tokens_seen": 4807312,
      "step": 5175
    },
    {
      "epoch": 2.442244224422442,
      "grad_norm": 0.0008570115314796567,
      "learning_rate": 0.2877612611203598,
      "loss": 0.3177,
      "num_input_tokens_seen": 4811328,
      "step": 5180
    },
    {
      "epoch": 2.4446016030174444,
      "grad_norm": 0.0004237669054418802,
      "learning_rate": 0.28773794575214423,
      "loss": 0.3325,
      "num_input_tokens_seen": 4816112,
      "step": 5185
    },
    {
      "epoch": 2.446958981612447,
      "grad_norm": 0.00041808123933151364,
      "learning_rate": 0.28771460914300645,
      "loss": 0.3179,
      "num_input_tokens_seen": 4820384,
      "step": 5190
    },
    {
      "epoch": 2.4493163602074493,
      "grad_norm": 0.0006030116346664727,
      "learning_rate": 0.2876912512965454,
      "loss": 0.348,
      "num_input_tokens_seen": 4826160,
      "step": 5195
    },
    {
      "epoch": 2.4516737388024517,
      "grad_norm": 0.0008089568000286818,
      "learning_rate": 0.287667872216363,
      "loss": 0.3202,
      "num_input_tokens_seen": 4830688,
      "step": 5200
    },
    {
      "epoch": 2.4516737388024517,
      "eval_loss": 0.3283120095729828,
      "eval_runtime": 33.5709,
      "eval_samples_per_second": 28.09,
      "eval_steps_per_second": 14.06,
      "num_input_tokens_seen": 4830688,
      "step": 5200
    },
    {
      "epoch": 2.454031117397454,
      "grad_norm": 0.0005368787096813321,
      "learning_rate": 0.2876444719060647,
      "loss": 0.3373,
      "num_input_tokens_seen": 4835520,
      "step": 5205
    },
    {
      "epoch": 2.4563884959924565,
      "grad_norm": 0.0007875020382925868,
      "learning_rate": 0.287621050369259,
      "loss": 0.3587,
      "num_input_tokens_seen": 4839280,
      "step": 5210
    },
    {
      "epoch": 2.458745874587459,
      "grad_norm": 0.0004379508027341217,
      "learning_rate": 0.28759760760955794,
      "loss": 0.3389,
      "num_input_tokens_seen": 4843904,
      "step": 5215
    },
    {
      "epoch": 2.4611032531824613,
      "grad_norm": 0.0003718930820468813,
      "learning_rate": 0.2875741436305766,
      "loss": 0.3598,
      "num_input_tokens_seen": 4848400,
      "step": 5220
    },
    {
      "epoch": 2.4634606317774637,
      "grad_norm": 0.0009815380908548832,
      "learning_rate": 0.28755065843593347,
      "loss": 0.341,
      "num_input_tokens_seen": 4852528,
      "step": 5225
    },
    {
      "epoch": 2.465818010372466,
      "grad_norm": 0.0010978671489283442,
      "learning_rate": 0.2875271520292502,
      "loss": 0.3292,
      "num_input_tokens_seen": 4856848,
      "step": 5230
    },
    {
      "epoch": 2.468175388967468,
      "grad_norm": 0.0003869474458042532,
      "learning_rate": 0.28750362441415184,
      "loss": 0.3431,
      "num_input_tokens_seen": 4861680,
      "step": 5235
    },
    {
      "epoch": 2.4705327675624704,
      "grad_norm": 0.00039909707265906036,
      "learning_rate": 0.28748007559426664,
      "loss": 0.3283,
      "num_input_tokens_seen": 4867440,
      "step": 5240
    },
    {
      "epoch": 2.472890146157473,
      "grad_norm": 0.0008902017725631595,
      "learning_rate": 0.2874565055732261,
      "loss": 0.3561,
      "num_input_tokens_seen": 4873488,
      "step": 5245
    },
    {
      "epoch": 2.4752475247524752,
      "grad_norm": 0.00046390315401367843,
      "learning_rate": 0.28743291435466495,
      "loss": 0.318,
      "num_input_tokens_seen": 4878768,
      "step": 5250
    },
    {
      "epoch": 2.4776049033474776,
      "grad_norm": 0.00035371744888834655,
      "learning_rate": 0.2874093019422214,
      "loss": 0.3432,
      "num_input_tokens_seen": 4883440,
      "step": 5255
    },
    {
      "epoch": 2.47996228194248,
      "grad_norm": 0.0008179498836398125,
      "learning_rate": 0.28738566833953666,
      "loss": 0.3597,
      "num_input_tokens_seen": 4888272,
      "step": 5260
    },
    {
      "epoch": 2.4823196605374824,
      "grad_norm": 0.00047225263551808894,
      "learning_rate": 0.28736201355025537,
      "loss": 0.3391,
      "num_input_tokens_seen": 4892992,
      "step": 5265
    },
    {
      "epoch": 2.484677039132485,
      "grad_norm": 0.000960125878918916,
      "learning_rate": 0.28733833757802535,
      "loss": 0.3114,
      "num_input_tokens_seen": 4898352,
      "step": 5270
    },
    {
      "epoch": 2.487034417727487,
      "grad_norm": 0.0003762214910238981,
      "learning_rate": 0.28731464042649785,
      "loss": 0.3447,
      "num_input_tokens_seen": 4903696,
      "step": 5275
    },
    {
      "epoch": 2.489391796322489,
      "grad_norm": 0.0003775651566684246,
      "learning_rate": 0.2872909220993271,
      "loss": 0.3404,
      "num_input_tokens_seen": 4908688,
      "step": 5280
    },
    {
      "epoch": 2.4917491749174916,
      "grad_norm": 0.00044885894749313593,
      "learning_rate": 0.287267182600171,
      "loss": 0.2921,
      "num_input_tokens_seen": 4913200,
      "step": 5285
    },
    {
      "epoch": 2.494106553512494,
      "grad_norm": 0.0005067434394732118,
      "learning_rate": 0.2872434219326902,
      "loss": 0.3442,
      "num_input_tokens_seen": 4919120,
      "step": 5290
    },
    {
      "epoch": 2.4964639321074964,
      "grad_norm": 0.0004901603679172695,
      "learning_rate": 0.28721964010054907,
      "loss": 0.3671,
      "num_input_tokens_seen": 4923568,
      "step": 5295
    },
    {
      "epoch": 2.498821310702499,
      "grad_norm": 0.00037902971962466836,
      "learning_rate": 0.28719583710741503,
      "loss": 0.3375,
      "num_input_tokens_seen": 4928224,
      "step": 5300
    },
    {
      "epoch": 2.501178689297501,
      "grad_norm": 0.00046530948020517826,
      "learning_rate": 0.28717201295695877,
      "loss": 0.3429,
      "num_input_tokens_seen": 4932736,
      "step": 5305
    },
    {
      "epoch": 2.5035360678925036,
      "grad_norm": 0.00036840460961684585,
      "learning_rate": 0.28714816765285434,
      "loss": 0.3083,
      "num_input_tokens_seen": 4937344,
      "step": 5310
    },
    {
      "epoch": 2.505893446487506,
      "grad_norm": 0.0004988592700101435,
      "learning_rate": 0.28712430119877896,
      "loss": 0.3218,
      "num_input_tokens_seen": 4942192,
      "step": 5315
    },
    {
      "epoch": 2.5082508250825084,
      "grad_norm": 0.0005651742685586214,
      "learning_rate": 0.28710041359841304,
      "loss": 0.322,
      "num_input_tokens_seen": 4946288,
      "step": 5320
    },
    {
      "epoch": 2.510608203677511,
      "grad_norm": 0.001192040159367025,
      "learning_rate": 0.28707650485544056,
      "loss": 0.2838,
      "num_input_tokens_seen": 4950432,
      "step": 5325
    },
    {
      "epoch": 2.512965582272513,
      "grad_norm": 0.00047335014096461236,
      "learning_rate": 0.28705257497354836,
      "loss": 0.3144,
      "num_input_tokens_seen": 4954384,
      "step": 5330
    },
    {
      "epoch": 2.515322960867515,
      "grad_norm": 0.0009556649602018297,
      "learning_rate": 0.28702862395642675,
      "loss": 0.3642,
      "num_input_tokens_seen": 4958768,
      "step": 5335
    },
    {
      "epoch": 2.5176803394625176,
      "grad_norm": 0.0006045996560715139,
      "learning_rate": 0.28700465180776935,
      "loss": 0.2951,
      "num_input_tokens_seen": 4963360,
      "step": 5340
    },
    {
      "epoch": 2.52003771805752,
      "grad_norm": 0.0013992663007229567,
      "learning_rate": 0.2869806585312729,
      "loss": 0.3624,
      "num_input_tokens_seen": 4967696,
      "step": 5345
    },
    {
      "epoch": 2.5223950966525224,
      "grad_norm": 0.0011294602882117033,
      "learning_rate": 0.28695664413063754,
      "loss": 0.3307,
      "num_input_tokens_seen": 4972320,
      "step": 5350
    },
    {
      "epoch": 2.5247524752475248,
      "grad_norm": 0.0012297499924898148,
      "learning_rate": 0.28693260860956654,
      "loss": 0.3273,
      "num_input_tokens_seen": 4976032,
      "step": 5355
    },
    {
      "epoch": 2.527109853842527,
      "grad_norm": 0.0012562532210722566,
      "learning_rate": 0.2869085519717665,
      "loss": 0.413,
      "num_input_tokens_seen": 4981008,
      "step": 5360
    },
    {
      "epoch": 2.5294672324375296,
      "grad_norm": 0.002415180206298828,
      "learning_rate": 0.28688447422094726,
      "loss": 0.3591,
      "num_input_tokens_seen": 4984656,
      "step": 5365
    },
    {
      "epoch": 2.531824611032532,
      "grad_norm": 0.001059749280102551,
      "learning_rate": 0.2868603753608219,
      "loss": 0.3491,
      "num_input_tokens_seen": 4989296,
      "step": 5370
    },
    {
      "epoch": 2.534181989627534,
      "grad_norm": 0.0014179127756506205,
      "learning_rate": 0.28683625539510665,
      "loss": 0.342,
      "num_input_tokens_seen": 4993520,
      "step": 5375
    },
    {
      "epoch": 2.5365393682225363,
      "grad_norm": 0.0003927628858946264,
      "learning_rate": 0.28681211432752135,
      "loss": 0.3371,
      "num_input_tokens_seen": 4998512,
      "step": 5380
    },
    {
      "epoch": 2.5388967468175387,
      "grad_norm": 0.00033720312057994306,
      "learning_rate": 0.2867879521617887,
      "loss": 0.3343,
      "num_input_tokens_seen": 5003024,
      "step": 5385
    },
    {
      "epoch": 2.541254125412541,
      "grad_norm": 0.00040796809480525553,
      "learning_rate": 0.28676376890163485,
      "loss": 0.3381,
      "num_input_tokens_seen": 5008080,
      "step": 5390
    },
    {
      "epoch": 2.5436115040075435,
      "grad_norm": 0.0003423486487008631,
      "learning_rate": 0.2867395645507891,
      "loss": 0.3111,
      "num_input_tokens_seen": 5011872,
      "step": 5395
    },
    {
      "epoch": 2.545968882602546,
      "grad_norm": 0.0005815046024508774,
      "learning_rate": 0.2867153391129842,
      "loss": 0.304,
      "num_input_tokens_seen": 5016480,
      "step": 5400
    },
    {
      "epoch": 2.545968882602546,
      "eval_loss": 0.32689982652664185,
      "eval_runtime": 33.5132,
      "eval_samples_per_second": 28.138,
      "eval_steps_per_second": 14.084,
      "num_input_tokens_seen": 5016480,
      "step": 5400
    },
    {
      "epoch": 2.5483262611975483,
      "grad_norm": 0.0004223784781061113,
      "learning_rate": 0.28669109259195585,
      "loss": 0.3113,
      "num_input_tokens_seen": 5020896,
      "step": 5405
    },
    {
      "epoch": 2.5506836397925507,
      "grad_norm": 0.0007013995782472193,
      "learning_rate": 0.2866668249914433,
      "loss": 0.2899,
      "num_input_tokens_seen": 5025888,
      "step": 5410
    },
    {
      "epoch": 2.553041018387553,
      "grad_norm": 0.0004330759111326188,
      "learning_rate": 0.2866425363151889,
      "loss": 0.2875,
      "num_input_tokens_seen": 5031136,
      "step": 5415
    },
    {
      "epoch": 2.5553983969825556,
      "grad_norm": 0.0008615573751740158,
      "learning_rate": 0.2866182265669382,
      "loss": 0.3153,
      "num_input_tokens_seen": 5034912,
      "step": 5420
    },
    {
      "epoch": 2.557755775577558,
      "grad_norm": 0.0011720983311533928,
      "learning_rate": 0.28659389575044014,
      "loss": 0.2239,
      "num_input_tokens_seen": 5039312,
      "step": 5425
    },
    {
      "epoch": 2.5601131541725604,
      "grad_norm": 0.0008304403745569289,
      "learning_rate": 0.28656954386944683,
      "loss": 0.302,
      "num_input_tokens_seen": 5043632,
      "step": 5430
    },
    {
      "epoch": 2.5624705327675623,
      "grad_norm": 0.01589055359363556,
      "learning_rate": 0.28654517092771353,
      "loss": 0.4253,
      "num_input_tokens_seen": 5047632,
      "step": 5435
    },
    {
      "epoch": 2.5648279113625647,
      "grad_norm": 1.9122463464736938,
      "learning_rate": 0.286520776928999,
      "loss": 1.728,
      "num_input_tokens_seen": 5052464,
      "step": 5440
    },
    {
      "epoch": 2.567185289957567,
      "grad_norm": 0.007031003478914499,
      "learning_rate": 0.286496361877065,
      "loss": 1.3214,
      "num_input_tokens_seen": 5057424,
      "step": 5445
    },
    {
      "epoch": 2.5695426685525695,
      "grad_norm": 0.5410842299461365,
      "learning_rate": 0.28647192577567676,
      "loss": 2.3797,
      "num_input_tokens_seen": 5062720,
      "step": 5450
    },
    {
      "epoch": 2.571900047147572,
      "grad_norm": 0.08674337714910507,
      "learning_rate": 0.28644746862860254,
      "loss": 2.8453,
      "num_input_tokens_seen": 5068704,
      "step": 5455
    },
    {
      "epoch": 2.5742574257425743,
      "grad_norm": 0.011085191741585732,
      "learning_rate": 0.2864229904396139,
      "loss": 0.7116,
      "num_input_tokens_seen": 5073056,
      "step": 5460
    },
    {
      "epoch": 2.5766148043375767,
      "grad_norm": 0.006555632222443819,
      "learning_rate": 0.28639849121248573,
      "loss": 0.4212,
      "num_input_tokens_seen": 5077568,
      "step": 5465
    },
    {
      "epoch": 2.578972182932579,
      "grad_norm": 0.011554434895515442,
      "learning_rate": 0.28637397095099615,
      "loss": 0.373,
      "num_input_tokens_seen": 5082448,
      "step": 5470
    },
    {
      "epoch": 2.581329561527581,
      "grad_norm": 0.049673642963171005,
      "learning_rate": 0.28634942965892646,
      "loss": 0.3556,
      "num_input_tokens_seen": 5086064,
      "step": 5475
    },
    {
      "epoch": 2.5836869401225835,
      "grad_norm": 0.0029194701928645372,
      "learning_rate": 0.28632486734006124,
      "loss": 0.3844,
      "num_input_tokens_seen": 5090496,
      "step": 5480
    },
    {
      "epoch": 2.586044318717586,
      "grad_norm": 0.005468866787850857,
      "learning_rate": 0.28630028399818835,
      "loss": 0.3434,
      "num_input_tokens_seen": 5096336,
      "step": 5485
    },
    {
      "epoch": 2.5884016973125883,
      "grad_norm": 0.015894770622253418,
      "learning_rate": 0.2862756796370987,
      "loss": 0.3371,
      "num_input_tokens_seen": 5100448,
      "step": 5490
    },
    {
      "epoch": 2.5907590759075907,
      "grad_norm": 0.013919076882302761,
      "learning_rate": 0.2862510542605868,
      "loss": 0.4139,
      "num_input_tokens_seen": 5105824,
      "step": 5495
    },
    {
      "epoch": 2.593116454502593,
      "grad_norm": 0.009754986502230167,
      "learning_rate": 0.2862264078724501,
      "loss": 0.2962,
      "num_input_tokens_seen": 5110016,
      "step": 5500
    },
    {
      "epoch": 2.5954738330975955,
      "grad_norm": 0.0020731838885694742,
      "learning_rate": 0.28620174047648933,
      "loss": 0.368,
      "num_input_tokens_seen": 5115120,
      "step": 5505
    },
    {
      "epoch": 2.597831211692598,
      "grad_norm": 0.0019740948919206858,
      "learning_rate": 0.2861770520765086,
      "loss": 0.3166,
      "num_input_tokens_seen": 5119264,
      "step": 5510
    },
    {
      "epoch": 2.6001885902876003,
      "grad_norm": 0.0018775154603645205,
      "learning_rate": 0.2861523426763151,
      "loss": 0.3562,
      "num_input_tokens_seen": 5123568,
      "step": 5515
    },
    {
      "epoch": 2.6025459688826027,
      "grad_norm": 0.0007818337180651724,
      "learning_rate": 0.2861276122797194,
      "loss": 0.3733,
      "num_input_tokens_seen": 5128400,
      "step": 5520
    },
    {
      "epoch": 2.604903347477605,
      "grad_norm": 0.0030940293800085783,
      "learning_rate": 0.28610286089053516,
      "loss": 0.3547,
      "num_input_tokens_seen": 5132720,
      "step": 5525
    },
    {
      "epoch": 2.6072607260726075,
      "grad_norm": 0.0015388904139399529,
      "learning_rate": 0.28607808851257943,
      "loss": 0.3348,
      "num_input_tokens_seen": 5137328,
      "step": 5530
    },
    {
      "epoch": 2.6096181046676095,
      "grad_norm": 0.0007465629023499787,
      "learning_rate": 0.28605329514967237,
      "loss": 0.3118,
      "num_input_tokens_seen": 5141424,
      "step": 5535
    },
    {
      "epoch": 2.611975483262612,
      "grad_norm": 0.004233842715620995,
      "learning_rate": 0.2860284808056374,
      "loss": 0.4147,
      "num_input_tokens_seen": 5145840,
      "step": 5540
    },
    {
      "epoch": 2.6143328618576143,
      "grad_norm": 0.0014447688590735197,
      "learning_rate": 0.28600364548430135,
      "loss": 0.3901,
      "num_input_tokens_seen": 5150928,
      "step": 5545
    },
    {
      "epoch": 2.6166902404526167,
      "grad_norm": 0.002520099049434066,
      "learning_rate": 0.28597878918949393,
      "loss": 0.403,
      "num_input_tokens_seen": 5155840,
      "step": 5550
    },
    {
      "epoch": 2.619047619047619,
      "grad_norm": 0.0014968300238251686,
      "learning_rate": 0.2859539119250485,
      "loss": 0.3489,
      "num_input_tokens_seen": 5160384,
      "step": 5555
    },
    {
      "epoch": 2.6214049976426215,
      "grad_norm": 0.0012338577071204782,
      "learning_rate": 0.2859290136948013,
      "loss": 0.3406,
      "num_input_tokens_seen": 5165424,
      "step": 5560
    },
    {
      "epoch": 2.623762376237624,
      "grad_norm": 0.0033065960742533207,
      "learning_rate": 0.28590409450259197,
      "loss": 0.3073,
      "num_input_tokens_seen": 5170736,
      "step": 5565
    },
    {
      "epoch": 2.6261197548326263,
      "grad_norm": 0.0022463698405772448,
      "learning_rate": 0.28587915435226346,
      "loss": 0.312,
      "num_input_tokens_seen": 5174672,
      "step": 5570
    },
    {
      "epoch": 2.6284771334276282,
      "grad_norm": 0.0015220876084640622,
      "learning_rate": 0.2858541932476617,
      "loss": 0.3001,
      "num_input_tokens_seen": 5179392,
      "step": 5575
    },
    {
      "epoch": 2.6308345120226306,
      "grad_norm": 0.0016095854807645082,
      "learning_rate": 0.2858292111926361,
      "loss": 0.3161,
      "num_input_tokens_seen": 5184128,
      "step": 5580
    },
    {
      "epoch": 2.633191890617633,
      "grad_norm": 0.0005200877203606069,
      "learning_rate": 0.28580420819103924,
      "loss": 0.3329,
      "num_input_tokens_seen": 5188832,
      "step": 5585
    },
    {
      "epoch": 2.6355492692126354,
      "grad_norm": 0.0011425362899899483,
      "learning_rate": 0.2857791842467269,
      "loss": 0.3698,
      "num_input_tokens_seen": 5194032,
      "step": 5590
    },
    {
      "epoch": 2.637906647807638,
      "grad_norm": 0.0007136868080124259,
      "learning_rate": 0.2857541393635579,
      "loss": 0.3134,
      "num_input_tokens_seen": 5199056,
      "step": 5595
    },
    {
      "epoch": 2.6402640264026402,
      "grad_norm": 0.0009527934016659856,
      "learning_rate": 0.2857290735453948,
      "loss": 0.3414,
      "num_input_tokens_seen": 5204048,
      "step": 5600
    },
    {
      "epoch": 2.6402640264026402,
      "eval_loss": 0.32878053188323975,
      "eval_runtime": 33.4687,
      "eval_samples_per_second": 28.176,
      "eval_steps_per_second": 14.103,
      "num_input_tokens_seen": 5204048,
      "step": 5600
    },
    {
      "epoch": 2.6426214049976426,
      "grad_norm": 0.0007019216427579522,
      "learning_rate": 0.28570398679610276,
      "loss": 0.286,
      "num_input_tokens_seen": 5208768,
      "step": 5605
    },
    {
      "epoch": 2.644978783592645,
      "grad_norm": 0.0019293692894279957,
      "learning_rate": 0.2856788791195506,
      "loss": 0.2863,
      "num_input_tokens_seen": 5213184,
      "step": 5610
    },
    {
      "epoch": 2.6473361621876474,
      "grad_norm": 0.0014756562886759639,
      "learning_rate": 0.28565375051961023,
      "loss": 0.3339,
      "num_input_tokens_seen": 5217632,
      "step": 5615
    },
    {
      "epoch": 2.64969354078265,
      "grad_norm": 0.0004768880025949329,
      "learning_rate": 0.28562860100015686,
      "loss": 0.3522,
      "num_input_tokens_seen": 5222736,
      "step": 5620
    },
    {
      "epoch": 2.6520509193776522,
      "grad_norm": 0.0010454836301505566,
      "learning_rate": 0.2856034305650687,
      "loss": 0.3677,
      "num_input_tokens_seen": 5226608,
      "step": 5625
    },
    {
      "epoch": 2.6544082979726547,
      "grad_norm": 0.00128517288248986,
      "learning_rate": 0.28557823921822756,
      "loss": 0.362,
      "num_input_tokens_seen": 5230688,
      "step": 5630
    },
    {
      "epoch": 2.6567656765676566,
      "grad_norm": 0.0004826377553399652,
      "learning_rate": 0.2855530269635181,
      "loss": 0.3246,
      "num_input_tokens_seen": 5235376,
      "step": 5635
    },
    {
      "epoch": 2.659123055162659,
      "grad_norm": 0.0008886624709703028,
      "learning_rate": 0.2855277938048284,
      "loss": 0.3268,
      "num_input_tokens_seen": 5240256,
      "step": 5640
    },
    {
      "epoch": 2.6614804337576614,
      "grad_norm": 0.0009367933962494135,
      "learning_rate": 0.2855025397460498,
      "loss": 0.3431,
      "num_input_tokens_seen": 5244496,
      "step": 5645
    },
    {
      "epoch": 2.663837812352664,
      "grad_norm": 0.0017961852718144655,
      "learning_rate": 0.28547726479107666,
      "loss": 0.3268,
      "num_input_tokens_seen": 5249824,
      "step": 5650
    },
    {
      "epoch": 2.666195190947666,
      "grad_norm": 0.0007279280107468367,
      "learning_rate": 0.2854519689438068,
      "loss": 0.3752,
      "num_input_tokens_seen": 5253872,
      "step": 5655
    },
    {
      "epoch": 2.6685525695426686,
      "grad_norm": 0.002065676497295499,
      "learning_rate": 0.2854266522081412,
      "loss": 0.3121,
      "num_input_tokens_seen": 5257888,
      "step": 5660
    },
    {
      "epoch": 2.670909948137671,
      "grad_norm": 0.002101457677781582,
      "learning_rate": 0.28540131458798385,
      "loss": 0.2974,
      "num_input_tokens_seen": 5262480,
      "step": 5665
    },
    {
      "epoch": 2.6732673267326734,
      "grad_norm": 0.0005329066189005971,
      "learning_rate": 0.28537595608724226,
      "loss": 0.3437,
      "num_input_tokens_seen": 5267856,
      "step": 5670
    },
    {
      "epoch": 2.6756247053276754,
      "grad_norm": 0.0009074744302779436,
      "learning_rate": 0.28535057670982705,
      "loss": 0.278,
      "num_input_tokens_seen": 5272192,
      "step": 5675
    },
    {
      "epoch": 2.677982083922678,
      "grad_norm": 0.0009992045816034079,
      "learning_rate": 0.285325176459652,
      "loss": 0.3749,
      "num_input_tokens_seen": 5276528,
      "step": 5680
    },
    {
      "epoch": 2.68033946251768,
      "grad_norm": 0.0006474113906733692,
      "learning_rate": 0.28529975534063406,
      "loss": 0.3116,
      "num_input_tokens_seen": 5280928,
      "step": 5685
    },
    {
      "epoch": 2.6826968411126826,
      "grad_norm": 0.0007290068315342069,
      "learning_rate": 0.2852743133566936,
      "loss": 0.3458,
      "num_input_tokens_seen": 5286176,
      "step": 5690
    },
    {
      "epoch": 2.685054219707685,
      "grad_norm": 0.0005522191640920937,
      "learning_rate": 0.2852488505117541,
      "loss": 0.3409,
      "num_input_tokens_seen": 5289856,
      "step": 5695
    },
    {
      "epoch": 2.6874115983026874,
      "grad_norm": 0.0012006873730570078,
      "learning_rate": 0.28522336680974214,
      "loss": 0.3661,
      "num_input_tokens_seen": 5294976,
      "step": 5700
    },
    {
      "epoch": 2.68976897689769,
      "grad_norm": 0.0009943239856511354,
      "learning_rate": 0.2851978622545877,
      "loss": 0.3385,
      "num_input_tokens_seen": 5298832,
      "step": 5705
    },
    {
      "epoch": 2.692126355492692,
      "grad_norm": 0.0019808700308203697,
      "learning_rate": 0.285172336850224,
      "loss": 0.32,
      "num_input_tokens_seen": 5302848,
      "step": 5710
    },
    {
      "epoch": 2.6944837340876946,
      "grad_norm": 0.0007753113750368357,
      "learning_rate": 0.2851467906005871,
      "loss": 0.3871,
      "num_input_tokens_seen": 5307344,
      "step": 5715
    },
    {
      "epoch": 2.696841112682697,
      "grad_norm": 0.001861104159615934,
      "learning_rate": 0.28512122350961683,
      "loss": 0.3116,
      "num_input_tokens_seen": 5312432,
      "step": 5720
    },
    {
      "epoch": 2.6991984912776994,
      "grad_norm": 0.0006999231409281492,
      "learning_rate": 0.2850956355812559,
      "loss": 0.3581,
      "num_input_tokens_seen": 5317088,
      "step": 5725
    },
    {
      "epoch": 2.701555869872702,
      "grad_norm": 0.0006525728385895491,
      "learning_rate": 0.28507002681945015,
      "loss": 0.3433,
      "num_input_tokens_seen": 5321648,
      "step": 5730
    },
    {
      "epoch": 2.7039132484677038,
      "grad_norm": 0.0021018662955611944,
      "learning_rate": 0.28504439722814895,
      "loss": 0.3476,
      "num_input_tokens_seen": 5326096,
      "step": 5735
    },
    {
      "epoch": 2.706270627062706,
      "grad_norm": 0.0005905411089770496,
      "learning_rate": 0.28501874681130457,
      "loss": 0.3385,
      "num_input_tokens_seen": 5330736,
      "step": 5740
    },
    {
      "epoch": 2.7086280056577086,
      "grad_norm": 0.000698222138453275,
      "learning_rate": 0.2849930755728727,
      "loss": 0.3297,
      "num_input_tokens_seen": 5334704,
      "step": 5745
    },
    {
      "epoch": 2.710985384252711,
      "grad_norm": 0.0007488296250812709,
      "learning_rate": 0.28496738351681217,
      "loss": 0.337,
      "num_input_tokens_seen": 5339280,
      "step": 5750
    },
    {
      "epoch": 2.7133427628477134,
      "grad_norm": 0.0008322976063936949,
      "learning_rate": 0.284941670647085,
      "loss": 0.3151,
      "num_input_tokens_seen": 5343664,
      "step": 5755
    },
    {
      "epoch": 2.7157001414427158,
      "grad_norm": 0.0005439819651655853,
      "learning_rate": 0.2849159369676563,
      "loss": 0.3262,
      "num_input_tokens_seen": 5347568,
      "step": 5760
    },
    {
      "epoch": 2.718057520037718,
      "grad_norm": 0.000900173035915941,
      "learning_rate": 0.2848901824824948,
      "loss": 0.2787,
      "num_input_tokens_seen": 5351632,
      "step": 5765
    },
    {
      "epoch": 2.7204148986327206,
      "grad_norm": 0.0011536120437085629,
      "learning_rate": 0.284864407195572,
      "loss": 0.3509,
      "num_input_tokens_seen": 5356032,
      "step": 5770
    },
    {
      "epoch": 2.7227722772277225,
      "grad_norm": 0.0002926317974925041,
      "learning_rate": 0.28483861111086284,
      "loss": 0.3474,
      "num_input_tokens_seen": 5361040,
      "step": 5775
    },
    {
      "epoch": 2.725129655822725,
      "grad_norm": 0.000843232439365238,
      "learning_rate": 0.2848127942323453,
      "loss": 0.3884,
      "num_input_tokens_seen": 5366624,
      "step": 5780
    },
    {
      "epoch": 2.7274870344177273,
      "grad_norm": 0.0016837463481351733,
      "learning_rate": 0.2847869565640007,
      "loss": 0.2963,
      "num_input_tokens_seen": 5371136,
      "step": 5785
    },
    {
      "epoch": 2.7298444130127297,
      "grad_norm": 0.0005531804636120796,
      "learning_rate": 0.2847610981098136,
      "loss": 0.3278,
      "num_input_tokens_seen": 5375472,
      "step": 5790
    },
    {
      "epoch": 2.732201791607732,
      "grad_norm": 0.0018331923056393862,
      "learning_rate": 0.2847352188737716,
      "loss": 0.3295,
      "num_input_tokens_seen": 5379840,
      "step": 5795
    },
    {
      "epoch": 2.7345591702027345,
      "grad_norm": 0.0017721853218972683,
      "learning_rate": 0.2847093188598658,
      "loss": 0.3502,
      "num_input_tokens_seen": 5383984,
      "step": 5800
    },
    {
      "epoch": 2.7345591702027345,
      "eval_loss": 0.32813048362731934,
      "eval_runtime": 33.4722,
      "eval_samples_per_second": 28.173,
      "eval_steps_per_second": 14.101,
      "num_input_tokens_seen": 5383984,
      "step": 5800
    },
    {
      "epoch": 2.736916548797737,
      "grad_norm": 0.0007500264327973127,
      "learning_rate": 0.28468339807209003,
      "loss": 0.3568,
      "num_input_tokens_seen": 5389440,
      "step": 5805
    },
    {
      "epoch": 2.7392739273927393,
      "grad_norm": 0.0005116124521009624,
      "learning_rate": 0.2846574565144418,
      "loss": 0.3199,
      "num_input_tokens_seen": 5393904,
      "step": 5810
    },
    {
      "epoch": 2.7416313059877417,
      "grad_norm": 0.0009911138331517577,
      "learning_rate": 0.28463149419092154,
      "loss": 0.3289,
      "num_input_tokens_seen": 5397776,
      "step": 5815
    },
    {
      "epoch": 2.743988684582744,
      "grad_norm": 0.0006225823890417814,
      "learning_rate": 0.284605511105533,
      "loss": 0.3568,
      "num_input_tokens_seen": 5402784,
      "step": 5820
    },
    {
      "epoch": 2.7463460631777465,
      "grad_norm": 0.000662450969684869,
      "learning_rate": 0.28457950726228315,
      "loss": 0.2971,
      "num_input_tokens_seen": 5408096,
      "step": 5825
    },
    {
      "epoch": 2.748703441772749,
      "grad_norm": 0.000523373659234494,
      "learning_rate": 0.28455348266518193,
      "loss": 0.3012,
      "num_input_tokens_seen": 5412528,
      "step": 5830
    },
    {
      "epoch": 2.751060820367751,
      "grad_norm": 0.0020930867176502943,
      "learning_rate": 0.28452743731824287,
      "loss": 0.4075,
      "num_input_tokens_seen": 5416832,
      "step": 5835
    },
    {
      "epoch": 2.7534181989627533,
      "grad_norm": 0.0005460801185108721,
      "learning_rate": 0.28450137122548236,
      "loss": 0.2987,
      "num_input_tokens_seen": 5421680,
      "step": 5840
    },
    {
      "epoch": 2.7557755775577557,
      "grad_norm": 0.0005663937772624195,
      "learning_rate": 0.2844752843909201,
      "loss": 0.349,
      "num_input_tokens_seen": 5427072,
      "step": 5845
    },
    {
      "epoch": 2.758132956152758,
      "grad_norm": 0.001743117580190301,
      "learning_rate": 0.28444917681857923,
      "loss": 0.3154,
      "num_input_tokens_seen": 5431888,
      "step": 5850
    },
    {
      "epoch": 2.7604903347477605,
      "grad_norm": 0.0007132417522370815,
      "learning_rate": 0.28442304851248557,
      "loss": 0.3604,
      "num_input_tokens_seen": 5436416,
      "step": 5855
    },
    {
      "epoch": 2.762847713342763,
      "grad_norm": 0.0018885093741118908,
      "learning_rate": 0.2843968994766686,
      "loss": 0.332,
      "num_input_tokens_seen": 5440960,
      "step": 5860
    },
    {
      "epoch": 2.7652050919377653,
      "grad_norm": 0.001648976351134479,
      "learning_rate": 0.28437072971516075,
      "loss": 0.3314,
      "num_input_tokens_seen": 5445104,
      "step": 5865
    },
    {
      "epoch": 2.7675624705327677,
      "grad_norm": 0.0016764526953920722,
      "learning_rate": 0.2843445392319979,
      "loss": 0.311,
      "num_input_tokens_seen": 5449552,
      "step": 5870
    },
    {
      "epoch": 2.7699198491277697,
      "grad_norm": 0.0007036786410026252,
      "learning_rate": 0.28431832803121865,
      "loss": 0.3611,
      "num_input_tokens_seen": 5454064,
      "step": 5875
    },
    {
      "epoch": 2.772277227722772,
      "grad_norm": 0.0007087194826453924,
      "learning_rate": 0.28429209611686534,
      "loss": 0.3258,
      "num_input_tokens_seen": 5458944,
      "step": 5880
    },
    {
      "epoch": 2.7746346063177745,
      "grad_norm": 0.00048210175009444356,
      "learning_rate": 0.28426584349298323,
      "loss": 0.3751,
      "num_input_tokens_seen": 5463472,
      "step": 5885
    },
    {
      "epoch": 2.776991984912777,
      "grad_norm": 0.0004112401802558452,
      "learning_rate": 0.2842395701636207,
      "loss": 0.3564,
      "num_input_tokens_seen": 5467744,
      "step": 5890
    },
    {
      "epoch": 2.7793493635077793,
      "grad_norm": 0.0003433091624174267,
      "learning_rate": 0.28421327613282954,
      "loss": 0.339,
      "num_input_tokens_seen": 5472640,
      "step": 5895
    },
    {
      "epoch": 2.7817067421027817,
      "grad_norm": 0.000331616320181638,
      "learning_rate": 0.28418696140466454,
      "loss": 0.3385,
      "num_input_tokens_seen": 5477600,
      "step": 5900
    },
    {
      "epoch": 2.784064120697784,
      "grad_norm": 0.0012528077932074666,
      "learning_rate": 0.2841606259831838,
      "loss": 0.3431,
      "num_input_tokens_seen": 5482000,
      "step": 5905
    },
    {
      "epoch": 2.7864214992927865,
      "grad_norm": 0.001276882947422564,
      "learning_rate": 0.2841342698724486,
      "loss": 0.3438,
      "num_input_tokens_seen": 5486656,
      "step": 5910
    },
    {
      "epoch": 2.788778877887789,
      "grad_norm": 0.0014369020937010646,
      "learning_rate": 0.28410789307652334,
      "loss": 0.3523,
      "num_input_tokens_seen": 5491600,
      "step": 5915
    },
    {
      "epoch": 2.7911362564827913,
      "grad_norm": 0.0004933428717777133,
      "learning_rate": 0.2840814955994756,
      "loss": 0.3333,
      "num_input_tokens_seen": 5497104,
      "step": 5920
    },
    {
      "epoch": 2.7934936350777937,
      "grad_norm": 0.00198163790628314,
      "learning_rate": 0.2840550774453763,
      "loss": 0.3411,
      "num_input_tokens_seen": 5501888,
      "step": 5925
    },
    {
      "epoch": 2.795851013672796,
      "grad_norm": 0.0006373528740368783,
      "learning_rate": 0.28402863861829947,
      "loss": 0.3206,
      "num_input_tokens_seen": 5506256,
      "step": 5930
    },
    {
      "epoch": 2.798208392267798,
      "grad_norm": 0.0007240835693664849,
      "learning_rate": 0.2840021791223222,
      "loss": 0.3457,
      "num_input_tokens_seen": 5511328,
      "step": 5935
    },
    {
      "epoch": 2.8005657708628005,
      "grad_norm": 0.0015394787769764662,
      "learning_rate": 0.2839756989615249,
      "loss": 0.352,
      "num_input_tokens_seen": 5516000,
      "step": 5940
    },
    {
      "epoch": 2.802923149457803,
      "grad_norm": 0.0007355326088145375,
      "learning_rate": 0.28394919813999125,
      "loss": 0.3034,
      "num_input_tokens_seen": 5521344,
      "step": 5945
    },
    {
      "epoch": 2.8052805280528053,
      "grad_norm": 0.0005162341403774917,
      "learning_rate": 0.28392267666180787,
      "loss": 0.3068,
      "num_input_tokens_seen": 5526208,
      "step": 5950
    },
    {
      "epoch": 2.8076379066478077,
      "grad_norm": 0.0007497802143916488,
      "learning_rate": 0.2838961345310648,
      "loss": 0.3528,
      "num_input_tokens_seen": 5531376,
      "step": 5955
    },
    {
      "epoch": 2.80999528524281,
      "grad_norm": 0.0014977826504036784,
      "learning_rate": 0.2838695717518552,
      "loss": 0.2579,
      "num_input_tokens_seen": 5536464,
      "step": 5960
    },
    {
      "epoch": 2.8123526638378125,
      "grad_norm": 0.0003759034734684974,
      "learning_rate": 0.28384298832827526,
      "loss": 0.2994,
      "num_input_tokens_seen": 5541104,
      "step": 5965
    },
    {
      "epoch": 2.814710042432815,
      "grad_norm": 0.0012608794495463371,
      "learning_rate": 0.28381638426442457,
      "loss": 0.3125,
      "num_input_tokens_seen": 5545792,
      "step": 5970
    },
    {
      "epoch": 2.817067421027817,
      "grad_norm": 0.002389310160651803,
      "learning_rate": 0.2837897595644057,
      "loss": 0.3405,
      "num_input_tokens_seen": 5550000,
      "step": 5975
    },
    {
      "epoch": 2.8194247996228192,
      "grad_norm": 0.0002653328119777143,
      "learning_rate": 0.28376311423232475,
      "loss": 0.3889,
      "num_input_tokens_seen": 5554560,
      "step": 5980
    },
    {
      "epoch": 2.8217821782178216,
      "grad_norm": 0.0006633526063524187,
      "learning_rate": 0.2837364482722905,
      "loss": 0.3959,
      "num_input_tokens_seen": 5560128,
      "step": 5985
    },
    {
      "epoch": 2.824139556812824,
      "grad_norm": 0.0018207543762400746,
      "learning_rate": 0.28370976168841533,
      "loss": 0.2937,
      "num_input_tokens_seen": 5564560,
      "step": 5990
    },
    {
      "epoch": 2.8264969354078264,
      "grad_norm": 0.0015778833767399192,
      "learning_rate": 0.2836830544848146,
      "loss": 0.3233,
      "num_input_tokens_seen": 5569696,
      "step": 5995
    },
    {
      "epoch": 2.828854314002829,
      "grad_norm": 0.0015408466570079327,
      "learning_rate": 0.2836563266656069,
      "loss": 0.376,
      "num_input_tokens_seen": 5574016,
      "step": 6000
    },
    {
      "epoch": 2.828854314002829,
      "eval_loss": 0.3293037712574005,
      "eval_runtime": 33.4872,
      "eval_samples_per_second": 28.16,
      "eval_steps_per_second": 14.095,
      "num_input_tokens_seen": 5574016,
      "step": 6000
    },
    {
      "epoch": 2.8312116925978312,
      "grad_norm": 0.0016256901435554028,
      "learning_rate": 0.283629578234914,
      "loss": 0.2952,
      "num_input_tokens_seen": 5578288,
      "step": 6005
    },
    {
      "epoch": 2.8335690711928336,
      "grad_norm": 0.00041359176975674927,
      "learning_rate": 0.2836028091968608,
      "loss": 0.2973,
      "num_input_tokens_seen": 5582288,
      "step": 6010
    },
    {
      "epoch": 2.835926449787836,
      "grad_norm": 0.00030515261460095644,
      "learning_rate": 0.28357601955557554,
      "loss": 0.2658,
      "num_input_tokens_seen": 5587120,
      "step": 6015
    },
    {
      "epoch": 2.8382838283828384,
      "grad_norm": 0.0018505589105188847,
      "learning_rate": 0.2835492093151894,
      "loss": 0.4035,
      "num_input_tokens_seen": 5591552,
      "step": 6020
    },
    {
      "epoch": 2.840641206977841,
      "grad_norm": 0.0001908236154122278,
      "learning_rate": 0.2835223784798369,
      "loss": 0.2358,
      "num_input_tokens_seen": 5596192,
      "step": 6025
    },
    {
      "epoch": 2.8429985855728432,
      "grad_norm": 0.00024354613560717553,
      "learning_rate": 0.2834955270536557,
      "loss": 0.3856,
      "num_input_tokens_seen": 5600832,
      "step": 6030
    },
    {
      "epoch": 2.845355964167845,
      "grad_norm": 0.000535080733243376,
      "learning_rate": 0.2834686550407866,
      "loss": 0.2885,
      "num_input_tokens_seen": 5606272,
      "step": 6035
    },
    {
      "epoch": 2.8477133427628476,
      "grad_norm": 0.0004622150445356965,
      "learning_rate": 0.28344176244537367,
      "loss": 0.2843,
      "num_input_tokens_seen": 5611616,
      "step": 6040
    },
    {
      "epoch": 2.85007072135785,
      "grad_norm": 0.0008987509645521641,
      "learning_rate": 0.28341484927156396,
      "loss": 0.3887,
      "num_input_tokens_seen": 5616320,
      "step": 6045
    },
    {
      "epoch": 2.8524280999528524,
      "grad_norm": 0.0007741654990240932,
      "learning_rate": 0.28338791552350795,
      "loss": 0.3629,
      "num_input_tokens_seen": 5620400,
      "step": 6050
    },
    {
      "epoch": 2.854785478547855,
      "grad_norm": 0.0016765119507908821,
      "learning_rate": 0.28336096120535914,
      "loss": 0.3047,
      "num_input_tokens_seen": 5625840,
      "step": 6055
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 0.0005895097274333239,
      "learning_rate": 0.2833339863212741,
      "loss": 0.3507,
      "num_input_tokens_seen": 5630432,
      "step": 6060
    },
    {
      "epoch": 2.8595002357378596,
      "grad_norm": 0.001653575454838574,
      "learning_rate": 0.28330699087541283,
      "loss": 0.3259,
      "num_input_tokens_seen": 5635616,
      "step": 6065
    },
    {
      "epoch": 2.861857614332862,
      "grad_norm": 0.000635448086541146,
      "learning_rate": 0.2832799748719384,
      "loss": 0.3403,
      "num_input_tokens_seen": 5640144,
      "step": 6070
    },
    {
      "epoch": 2.864214992927864,
      "grad_norm": 0.0006364876171573997,
      "learning_rate": 0.28325293831501686,
      "loss": 0.3362,
      "num_input_tokens_seen": 5644544,
      "step": 6075
    },
    {
      "epoch": 2.8665723715228664,
      "grad_norm": 0.0005722296191379428,
      "learning_rate": 0.2832258812088177,
      "loss": 0.3674,
      "num_input_tokens_seen": 5649440,
      "step": 6080
    },
    {
      "epoch": 2.8689297501178688,
      "grad_norm": 0.0014606023905798793,
      "learning_rate": 0.2831988035575134,
      "loss": 0.3346,
      "num_input_tokens_seen": 5653680,
      "step": 6085
    },
    {
      "epoch": 2.871287128712871,
      "grad_norm": 0.0007569685112684965,
      "learning_rate": 0.28317170536527975,
      "loss": 0.3175,
      "num_input_tokens_seen": 5658672,
      "step": 6090
    },
    {
      "epoch": 2.8736445073078736,
      "grad_norm": 0.0024433054495602846,
      "learning_rate": 0.2831445866362956,
      "loss": 0.3024,
      "num_input_tokens_seen": 5662672,
      "step": 6095
    },
    {
      "epoch": 2.876001885902876,
      "grad_norm": 0.0026464087422937155,
      "learning_rate": 0.2831174473747429,
      "loss": 0.3035,
      "num_input_tokens_seen": 5667664,
      "step": 6100
    },
    {
      "epoch": 2.8783592644978784,
      "grad_norm": 0.003642070572823286,
      "learning_rate": 0.2830902875848071,
      "loss": 0.3524,
      "num_input_tokens_seen": 5673072,
      "step": 6105
    },
    {
      "epoch": 2.880716643092881,
      "grad_norm": 0.0013031921116635203,
      "learning_rate": 0.28306310727067635,
      "loss": 0.3159,
      "num_input_tokens_seen": 5678080,
      "step": 6110
    },
    {
      "epoch": 2.883074021687883,
      "grad_norm": 0.003994347993284464,
      "learning_rate": 0.2830359064365423,
      "loss": 0.4391,
      "num_input_tokens_seen": 5682832,
      "step": 6115
    },
    {
      "epoch": 2.8854314002828856,
      "grad_norm": 0.003339915769174695,
      "learning_rate": 0.28300868508659965,
      "loss": 0.3351,
      "num_input_tokens_seen": 5688016,
      "step": 6120
    },
    {
      "epoch": 2.887788778877888,
      "grad_norm": 0.00038362902705557644,
      "learning_rate": 0.28298144322504626,
      "loss": 0.347,
      "num_input_tokens_seen": 5691840,
      "step": 6125
    },
    {
      "epoch": 2.8901461574728904,
      "grad_norm": 0.0003787115856539458,
      "learning_rate": 0.2829541808560832,
      "loss": 0.3484,
      "num_input_tokens_seen": 5696064,
      "step": 6130
    },
    {
      "epoch": 2.8925035360678923,
      "grad_norm": 0.00033424151479266584,
      "learning_rate": 0.2829268979839146,
      "loss": 0.3498,
      "num_input_tokens_seen": 5701024,
      "step": 6135
    },
    {
      "epoch": 2.8948609146628947,
      "grad_norm": 0.0009159775800071657,
      "learning_rate": 0.2828995946127479,
      "loss": 0.349,
      "num_input_tokens_seen": 5705456,
      "step": 6140
    },
    {
      "epoch": 2.897218293257897,
      "grad_norm": 0.0011939991964027286,
      "learning_rate": 0.2828722707467936,
      "loss": 0.3504,
      "num_input_tokens_seen": 5709248,
      "step": 6145
    },
    {
      "epoch": 2.8995756718528995,
      "grad_norm": 0.0021442004945129156,
      "learning_rate": 0.2828449263902653,
      "loss": 0.3468,
      "num_input_tokens_seen": 5713856,
      "step": 6150
    },
    {
      "epoch": 2.901933050447902,
      "grad_norm": 0.000981904100626707,
      "learning_rate": 0.28281756154738,
      "loss": 0.3444,
      "num_input_tokens_seen": 5719344,
      "step": 6155
    },
    {
      "epoch": 2.9042904290429044,
      "grad_norm": 0.0008642451139166951,
      "learning_rate": 0.28279017622235764,
      "loss": 0.3189,
      "num_input_tokens_seen": 5724304,
      "step": 6160
    },
    {
      "epoch": 2.9066478076379068,
      "grad_norm": 0.0006056948332116008,
      "learning_rate": 0.28276277041942127,
      "loss": 0.3261,
      "num_input_tokens_seen": 5728672,
      "step": 6165
    },
    {
      "epoch": 2.909005186232909,
      "grad_norm": 0.000523712660651654,
      "learning_rate": 0.2827353441427974,
      "loss": 0.3719,
      "num_input_tokens_seen": 5733424,
      "step": 6170
    },
    {
      "epoch": 2.911362564827911,
      "grad_norm": 0.0005301037454046309,
      "learning_rate": 0.2827078973967153,
      "loss": 0.2728,
      "num_input_tokens_seen": 5737600,
      "step": 6175
    },
    {
      "epoch": 2.9137199434229135,
      "grad_norm": 0.0005799143691547215,
      "learning_rate": 0.2826804301854078,
      "loss": 0.3803,
      "num_input_tokens_seen": 5742416,
      "step": 6180
    },
    {
      "epoch": 2.916077322017916,
      "grad_norm": 0.001602625590749085,
      "learning_rate": 0.2826529425131105,
      "loss": 0.3237,
      "num_input_tokens_seen": 5747648,
      "step": 6185
    },
    {
      "epoch": 2.9184347006129183,
      "grad_norm": 0.0014859481016173959,
      "learning_rate": 0.2826254343840625,
      "loss": 0.3396,
      "num_input_tokens_seen": 5751936,
      "step": 6190
    },
    {
      "epoch": 2.9207920792079207,
      "grad_norm": 0.0005503223510459065,
      "learning_rate": 0.2825979058025059,
      "loss": 0.4074,
      "num_input_tokens_seen": 5756688,
      "step": 6195
    },
    {
      "epoch": 2.923149457802923,
      "grad_norm": 0.00024591339752078056,
      "learning_rate": 0.2825703567726858,
      "loss": 0.3344,
      "num_input_tokens_seen": 5761616,
      "step": 6200
    },
    {
      "epoch": 2.923149457802923,
      "eval_loss": 0.3377496898174286,
      "eval_runtime": 33.4142,
      "eval_samples_per_second": 28.222,
      "eval_steps_per_second": 14.126,
      "num_input_tokens_seen": 5761616,
      "step": 6200
    },
    {
      "epoch": 2.9255068363979255,
      "grad_norm": 0.0008027727017179132,
      "learning_rate": 0.2825427872988508,
      "loss": 0.3318,
      "num_input_tokens_seen": 5765600,
      "step": 6205
    },
    {
      "epoch": 2.927864214992928,
      "grad_norm": 0.0011860367376357317,
      "learning_rate": 0.28251519738525227,
      "loss": 0.359,
      "num_input_tokens_seen": 5770048,
      "step": 6210
    },
    {
      "epoch": 2.9302215935879303,
      "grad_norm": 0.0003791844646912068,
      "learning_rate": 0.28248758703614507,
      "loss": 0.345,
      "num_input_tokens_seen": 5774800,
      "step": 6215
    },
    {
      "epoch": 2.9325789721829327,
      "grad_norm": 0.00037948504905216396,
      "learning_rate": 0.28245995625578696,
      "loss": 0.3456,
      "num_input_tokens_seen": 5779248,
      "step": 6220
    },
    {
      "epoch": 2.934936350777935,
      "grad_norm": 0.00016023982607293874,
      "learning_rate": 0.282432305048439,
      "loss": 0.3496,
      "num_input_tokens_seen": 5783728,
      "step": 6225
    },
    {
      "epoch": 2.9372937293729375,
      "grad_norm": 0.0017829224234446883,
      "learning_rate": 0.28240463341836536,
      "loss": 0.3448,
      "num_input_tokens_seen": 5788496,
      "step": 6230
    },
    {
      "epoch": 2.9396511079679395,
      "grad_norm": 0.0007206877926364541,
      "learning_rate": 0.2823769413698334,
      "loss": 0.3417,
      "num_input_tokens_seen": 5793392,
      "step": 6235
    },
    {
      "epoch": 2.942008486562942,
      "grad_norm": 0.0005615462432615459,
      "learning_rate": 0.2823492289071135,
      "loss": 0.3337,
      "num_input_tokens_seen": 5798016,
      "step": 6240
    },
    {
      "epoch": 2.9443658651579443,
      "grad_norm": 0.001421129098162055,
      "learning_rate": 0.2823214960344793,
      "loss": 0.3734,
      "num_input_tokens_seen": 5802320,
      "step": 6245
    },
    {
      "epoch": 2.9467232437529467,
      "grad_norm": 0.0007665565353818238,
      "learning_rate": 0.28229374275620756,
      "loss": 0.3423,
      "num_input_tokens_seen": 5807680,
      "step": 6250
    },
    {
      "epoch": 2.949080622347949,
      "grad_norm": 0.0004160597163718194,
      "learning_rate": 0.28226596907657814,
      "loss": 0.2702,
      "num_input_tokens_seen": 5811936,
      "step": 6255
    },
    {
      "epoch": 2.9514380009429515,
      "grad_norm": 0.0012102910550311208,
      "learning_rate": 0.28223817499987414,
      "loss": 0.3619,
      "num_input_tokens_seen": 5816592,
      "step": 6260
    },
    {
      "epoch": 2.953795379537954,
      "grad_norm": 0.0014615175314247608,
      "learning_rate": 0.2822103605303818,
      "loss": 0.4412,
      "num_input_tokens_seen": 5822656,
      "step": 6265
    },
    {
      "epoch": 2.9561527581329563,
      "grad_norm": 0.0006484282785095274,
      "learning_rate": 0.2821825256723903,
      "loss": 0.3306,
      "num_input_tokens_seen": 5826752,
      "step": 6270
    },
    {
      "epoch": 2.9585101367279583,
      "grad_norm": 0.001599958399310708,
      "learning_rate": 0.2821546704301923,
      "loss": 0.3186,
      "num_input_tokens_seen": 5831488,
      "step": 6275
    },
    {
      "epoch": 2.9608675153229607,
      "grad_norm": 0.0007077016052789986,
      "learning_rate": 0.2821267948080834,
      "loss": 0.3335,
      "num_input_tokens_seen": 5835760,
      "step": 6280
    },
    {
      "epoch": 2.963224893917963,
      "grad_norm": 0.0004124624247197062,
      "learning_rate": 0.28209889881036226,
      "loss": 0.3533,
      "num_input_tokens_seen": 5840272,
      "step": 6285
    },
    {
      "epoch": 2.9655822725129655,
      "grad_norm": 0.0020943013951182365,
      "learning_rate": 0.28207098244133094,
      "loss": 0.358,
      "num_input_tokens_seen": 5845552,
      "step": 6290
    },
    {
      "epoch": 2.967939651107968,
      "grad_norm": 0.0019830013625323772,
      "learning_rate": 0.2820430457052943,
      "loss": 0.3787,
      "num_input_tokens_seen": 5849856,
      "step": 6295
    },
    {
      "epoch": 2.9702970297029703,
      "grad_norm": 0.0010590937454253435,
      "learning_rate": 0.28201508860656077,
      "loss": 0.338,
      "num_input_tokens_seen": 5853392,
      "step": 6300
    },
    {
      "epoch": 2.9726544082979727,
      "grad_norm": 0.0018068845383822918,
      "learning_rate": 0.2819871111494415,
      "loss": 0.3431,
      "num_input_tokens_seen": 5857968,
      "step": 6305
    },
    {
      "epoch": 2.975011786892975,
      "grad_norm": 0.0008458157535642385,
      "learning_rate": 0.28195911333825113,
      "loss": 0.3429,
      "num_input_tokens_seen": 5861808,
      "step": 6310
    },
    {
      "epoch": 2.9773691654879775,
      "grad_norm": 0.00033609505044296384,
      "learning_rate": 0.28193109517730713,
      "loss": 0.3406,
      "num_input_tokens_seen": 5866864,
      "step": 6315
    },
    {
      "epoch": 2.97972654408298,
      "grad_norm": 0.0006005226750858128,
      "learning_rate": 0.2819030566709303,
      "loss": 0.3393,
      "num_input_tokens_seen": 5871760,
      "step": 6320
    },
    {
      "epoch": 2.9820839226779823,
      "grad_norm": 0.00039466118323616683,
      "learning_rate": 0.2818749978234445,
      "loss": 0.3033,
      "num_input_tokens_seen": 5876064,
      "step": 6325
    },
    {
      "epoch": 2.9844413012729847,
      "grad_norm": 0.000579965824726969,
      "learning_rate": 0.2818469186391768,
      "loss": 0.3623,
      "num_input_tokens_seen": 5880576,
      "step": 6330
    },
    {
      "epoch": 2.9867986798679866,
      "grad_norm": 0.00040615754551254213,
      "learning_rate": 0.28181881912245743,
      "loss": 0.325,
      "num_input_tokens_seen": 5884800,
      "step": 6335
    },
    {
      "epoch": 2.989156058462989,
      "grad_norm": 0.0005233724368736148,
      "learning_rate": 0.2817906992776195,
      "loss": 0.3531,
      "num_input_tokens_seen": 5890432,
      "step": 6340
    },
    {
      "epoch": 2.9915134370579914,
      "grad_norm": 0.0004260526620782912,
      "learning_rate": 0.28176255910899967,
      "loss": 0.3372,
      "num_input_tokens_seen": 5894512,
      "step": 6345
    },
    {
      "epoch": 2.993870815652994,
      "grad_norm": 0.00046661889064125717,
      "learning_rate": 0.2817343986209373,
      "loss": 0.3517,
      "num_input_tokens_seen": 5898704,
      "step": 6350
    },
    {
      "epoch": 2.9962281942479962,
      "grad_norm": 0.0012000409187749028,
      "learning_rate": 0.2817062178177753,
      "loss": 0.378,
      "num_input_tokens_seen": 5903104,
      "step": 6355
    },
    {
      "epoch": 2.9985855728429986,
      "grad_norm": 0.0008334671147167683,
      "learning_rate": 0.2816780167038593,
      "loss": 0.3414,
      "num_input_tokens_seen": 5907280,
      "step": 6360
    },
    {
      "epoch": 3.000942951438001,
      "grad_norm": 0.0010444533545523882,
      "learning_rate": 0.28164979528353834,
      "loss": 0.3501,
      "num_input_tokens_seen": 5911760,
      "step": 6365
    },
    {
      "epoch": 3.0033003300330035,
      "grad_norm": 0.00029933679616078734,
      "learning_rate": 0.28162155356116453,
      "loss": 0.3464,
      "num_input_tokens_seen": 5916224,
      "step": 6370
    },
    {
      "epoch": 3.005657708628006,
      "grad_norm": 0.0021567740477621555,
      "learning_rate": 0.28159329154109314,
      "loss": 0.3542,
      "num_input_tokens_seen": 5922032,
      "step": 6375
    },
    {
      "epoch": 3.008015087223008,
      "grad_norm": 0.001109480857849121,
      "learning_rate": 0.28156500922768246,
      "loss": 0.3414,
      "num_input_tokens_seen": 5927504,
      "step": 6380
    },
    {
      "epoch": 3.01037246581801,
      "grad_norm": 0.001262107864022255,
      "learning_rate": 0.28153670662529406,
      "loss": 0.3563,
      "num_input_tokens_seen": 5932336,
      "step": 6385
    },
    {
      "epoch": 3.0127298444130126,
      "grad_norm": 0.0019104244420304894,
      "learning_rate": 0.28150838373829246,
      "loss": 0.3398,
      "num_input_tokens_seen": 5937152,
      "step": 6390
    },
    {
      "epoch": 3.015087223008015,
      "grad_norm": 0.00030311328009702265,
      "learning_rate": 0.2814800405710455,
      "loss": 0.3408,
      "num_input_tokens_seen": 5943520,
      "step": 6395
    },
    {
      "epoch": 3.0174446016030174,
      "grad_norm": 0.0015103303594514728,
      "learning_rate": 0.2814516771279239,
      "loss": 0.3395,
      "num_input_tokens_seen": 5948128,
      "step": 6400
    },
    {
      "epoch": 3.0174446016030174,
      "eval_loss": 0.32894036173820496,
      "eval_runtime": 33.4848,
      "eval_samples_per_second": 28.162,
      "eval_steps_per_second": 14.096,
      "num_input_tokens_seen": 5948128,
      "step": 6400
    },
    {
      "epoch": 3.01980198019802,
      "grad_norm": 0.0012717219069600105,
      "learning_rate": 0.28142329341330186,
      "loss": 0.3387,
      "num_input_tokens_seen": 5951888,
      "step": 6405
    },
    {
      "epoch": 3.022159358793022,
      "grad_norm": 0.0004988843575119972,
      "learning_rate": 0.2813948894315564,
      "loss": 0.3486,
      "num_input_tokens_seen": 5956112,
      "step": 6410
    },
    {
      "epoch": 3.0245167373880246,
      "grad_norm": 0.0004905707901343703,
      "learning_rate": 0.2813664651870677,
      "loss": 0.3765,
      "num_input_tokens_seen": 5961264,
      "step": 6415
    },
    {
      "epoch": 3.026874115983027,
      "grad_norm": 0.00042542762821540236,
      "learning_rate": 0.28133802068421926,
      "loss": 0.3346,
      "num_input_tokens_seen": 5965792,
      "step": 6420
    },
    {
      "epoch": 3.0292314945780294,
      "grad_norm": 0.0005791764706373215,
      "learning_rate": 0.28130955592739754,
      "loss": 0.3064,
      "num_input_tokens_seen": 5970832,
      "step": 6425
    },
    {
      "epoch": 3.0315888731730314,
      "grad_norm": 0.0004074614553246647,
      "learning_rate": 0.2812810709209922,
      "loss": 0.3492,
      "num_input_tokens_seen": 5975680,
      "step": 6430
    },
    {
      "epoch": 3.033946251768034,
      "grad_norm": 0.0005528598558157682,
      "learning_rate": 0.2812525656693959,
      "loss": 0.3398,
      "num_input_tokens_seen": 5981104,
      "step": 6435
    },
    {
      "epoch": 3.036303630363036,
      "grad_norm": 0.0005039939424023032,
      "learning_rate": 0.28122404017700453,
      "loss": 0.3252,
      "num_input_tokens_seen": 5986624,
      "step": 6440
    },
    {
      "epoch": 3.0386610089580386,
      "grad_norm": 0.0012797873932868242,
      "learning_rate": 0.2811954944482171,
      "loss": 0.2979,
      "num_input_tokens_seen": 5990352,
      "step": 6445
    },
    {
      "epoch": 3.041018387553041,
      "grad_norm": 0.0010719564743340015,
      "learning_rate": 0.2811669284874358,
      "loss": 0.2904,
      "num_input_tokens_seen": 5995392,
      "step": 6450
    },
    {
      "epoch": 3.0433757661480434,
      "grad_norm": 0.0010509504936635494,
      "learning_rate": 0.2811383422990657,
      "loss": 0.308,
      "num_input_tokens_seen": 6000048,
      "step": 6455
    },
    {
      "epoch": 3.045733144743046,
      "grad_norm": 0.0006762858829461038,
      "learning_rate": 0.2811097358875152,
      "loss": 0.3778,
      "num_input_tokens_seen": 6004976,
      "step": 6460
    },
    {
      "epoch": 3.048090523338048,
      "grad_norm": 0.0013858728343620896,
      "learning_rate": 0.2810811092571959,
      "loss": 0.3773,
      "num_input_tokens_seen": 6010176,
      "step": 6465
    },
    {
      "epoch": 3.0504479019330506,
      "grad_norm": 0.00045461655827239156,
      "learning_rate": 0.28105246241252224,
      "loss": 0.3522,
      "num_input_tokens_seen": 6014640,
      "step": 6470
    },
    {
      "epoch": 3.052805280528053,
      "grad_norm": 0.0013912757858633995,
      "learning_rate": 0.28102379535791194,
      "loss": 0.3334,
      "num_input_tokens_seen": 6019200,
      "step": 6475
    },
    {
      "epoch": 3.055162659123055,
      "grad_norm": 0.000677175703458488,
      "learning_rate": 0.2809951080977859,
      "loss": 0.3142,
      "num_input_tokens_seen": 6023504,
      "step": 6480
    },
    {
      "epoch": 3.0575200377180574,
      "grad_norm": 0.0005821343511343002,
      "learning_rate": 0.28096640063656797,
      "loss": 0.3393,
      "num_input_tokens_seen": 6028288,
      "step": 6485
    },
    {
      "epoch": 3.0598774163130598,
      "grad_norm": 0.0005362437223084271,
      "learning_rate": 0.2809376729786852,
      "loss": 0.3528,
      "num_input_tokens_seen": 6032400,
      "step": 6490
    },
    {
      "epoch": 3.062234794908062,
      "grad_norm": 0.0013565538683906198,
      "learning_rate": 0.28090892512856785,
      "loss": 0.334,
      "num_input_tokens_seen": 6037136,
      "step": 6495
    },
    {
      "epoch": 3.0645921735030646,
      "grad_norm": 0.0004896592581644654,
      "learning_rate": 0.2808801570906491,
      "loss": 0.3501,
      "num_input_tokens_seen": 6041600,
      "step": 6500
    },
    {
      "epoch": 3.066949552098067,
      "grad_norm": 0.0005319683696143329,
      "learning_rate": 0.2808513688693654,
      "loss": 0.3007,
      "num_input_tokens_seen": 6045888,
      "step": 6505
    },
    {
      "epoch": 3.0693069306930694,
      "grad_norm": 0.0014650837983936071,
      "learning_rate": 0.28082256046915627,
      "loss": 0.2832,
      "num_input_tokens_seen": 6050512,
      "step": 6510
    },
    {
      "epoch": 3.0716643092880718,
      "grad_norm": 0.0006988757522776723,
      "learning_rate": 0.28079373189446427,
      "loss": 0.3588,
      "num_input_tokens_seen": 6055280,
      "step": 6515
    },
    {
      "epoch": 3.074021687883074,
      "grad_norm": 0.00044099200749769807,
      "learning_rate": 0.28076488314973513,
      "loss": 0.2879,
      "num_input_tokens_seen": 6060112,
      "step": 6520
    },
    {
      "epoch": 3.0763790664780766,
      "grad_norm": 0.0017546671442687511,
      "learning_rate": 0.28073601423941774,
      "loss": 0.3849,
      "num_input_tokens_seen": 6064176,
      "step": 6525
    },
    {
      "epoch": 3.0787364450730785,
      "grad_norm": 0.0006893179379403591,
      "learning_rate": 0.28070712516796403,
      "loss": 0.3599,
      "num_input_tokens_seen": 6069120,
      "step": 6530
    },
    {
      "epoch": 3.081093823668081,
      "grad_norm": 0.0013611945323646069,
      "learning_rate": 0.28067821593982906,
      "loss": 0.3795,
      "num_input_tokens_seen": 6073248,
      "step": 6535
    },
    {
      "epoch": 3.0834512022630833,
      "grad_norm": 0.0016936565516516566,
      "learning_rate": 0.28064928655947097,
      "loss": 0.2847,
      "num_input_tokens_seen": 6078480,
      "step": 6540
    },
    {
      "epoch": 3.0858085808580857,
      "grad_norm": 0.0005425396957434714,
      "learning_rate": 0.28062033703135103,
      "loss": 0.3247,
      "num_input_tokens_seen": 6083360,
      "step": 6545
    },
    {
      "epoch": 3.088165959453088,
      "grad_norm": 0.0012814250076189637,
      "learning_rate": 0.2805913673599337,
      "loss": 0.3634,
      "num_input_tokens_seen": 6086992,
      "step": 6550
    },
    {
      "epoch": 3.0905233380480905,
      "grad_norm": 0.00043560602352954447,
      "learning_rate": 0.2805623775496864,
      "loss": 0.3093,
      "num_input_tokens_seen": 6092144,
      "step": 6555
    },
    {
      "epoch": 3.092880716643093,
      "grad_norm": 0.00045816137571819127,
      "learning_rate": 0.2805333676050797,
      "loss": 0.3664,
      "num_input_tokens_seen": 6096160,
      "step": 6560
    },
    {
      "epoch": 3.0952380952380953,
      "grad_norm": 0.0011809910647571087,
      "learning_rate": 0.2805043375305873,
      "loss": 0.3211,
      "num_input_tokens_seen": 6100512,
      "step": 6565
    },
    {
      "epoch": 3.0975954738330977,
      "grad_norm": 0.0006048380746506155,
      "learning_rate": 0.2804752873306861,
      "loss": 0.3594,
      "num_input_tokens_seen": 6105248,
      "step": 6570
    },
    {
      "epoch": 3.0999528524281,
      "grad_norm": 0.0018609989201650023,
      "learning_rate": 0.2804462170098559,
      "loss": 0.3331,
      "num_input_tokens_seen": 6109664,
      "step": 6575
    },
    {
      "epoch": 3.102310231023102,
      "grad_norm": 0.0005646491190418601,
      "learning_rate": 0.2804171265725797,
      "loss": 0.312,
      "num_input_tokens_seen": 6115264,
      "step": 6580
    },
    {
      "epoch": 3.1046676096181045,
      "grad_norm": 0.0012670583091676235,
      "learning_rate": 0.28038801602334373,
      "loss": 0.3281,
      "num_input_tokens_seen": 6119888,
      "step": 6585
    },
    {
      "epoch": 3.107024988213107,
      "grad_norm": 0.0005568562191911042,
      "learning_rate": 0.28035888536663717,
      "loss": 0.333,
      "num_input_tokens_seen": 6125024,
      "step": 6590
    },
    {
      "epoch": 3.1093823668081093,
      "grad_norm": 0.001162243541330099,
      "learning_rate": 0.2803297346069522,
      "loss": 0.3388,
      "num_input_tokens_seen": 6129680,
      "step": 6595
    },
    {
      "epoch": 3.1117397454031117,
      "grad_norm": 0.00115584721788764,
      "learning_rate": 0.28030056374878437,
      "loss": 0.352,
      "num_input_tokens_seen": 6134304,
      "step": 6600
    },
    {
      "epoch": 3.1117397454031117,
      "eval_loss": 0.3286130130290985,
      "eval_runtime": 33.4712,
      "eval_samples_per_second": 28.173,
      "eval_steps_per_second": 14.102,
      "num_input_tokens_seen": 6134304,
      "step": 6600
    },
    {
      "epoch": 3.114097123998114,
      "grad_norm": 0.0004764320619869977,
      "learning_rate": 0.2802713727966321,
      "loss": 0.2841,
      "num_input_tokens_seen": 6138720,
      "step": 6605
    },
    {
      "epoch": 3.1164545025931165,
      "grad_norm": 0.0003942529147025198,
      "learning_rate": 0.28024216175499717,
      "loss": 0.3076,
      "num_input_tokens_seen": 6143568,
      "step": 6610
    },
    {
      "epoch": 3.118811881188119,
      "grad_norm": 0.001357363536953926,
      "learning_rate": 0.2802129306283841,
      "loss": 0.3255,
      "num_input_tokens_seen": 6147072,
      "step": 6615
    },
    {
      "epoch": 3.1211692597831213,
      "grad_norm": 0.0003777545935008675,
      "learning_rate": 0.28018367942130074,
      "loss": 0.3641,
      "num_input_tokens_seen": 6151456,
      "step": 6620
    },
    {
      "epoch": 3.1235266383781237,
      "grad_norm": 0.0005262906779535115,
      "learning_rate": 0.28015440813825804,
      "loss": 0.3378,
      "num_input_tokens_seen": 6155472,
      "step": 6625
    },
    {
      "epoch": 3.1258840169731257,
      "grad_norm": 0.0012124814093112946,
      "learning_rate": 0.28012511678377006,
      "loss": 0.3623,
      "num_input_tokens_seen": 6160032,
      "step": 6630
    },
    {
      "epoch": 3.128241395568128,
      "grad_norm": 0.0012811720371246338,
      "learning_rate": 0.28009580536235373,
      "loss": 0.3212,
      "num_input_tokens_seen": 6164832,
      "step": 6635
    },
    {
      "epoch": 3.1305987741631305,
      "grad_norm": 0.001275444868952036,
      "learning_rate": 0.28006647387852934,
      "loss": 0.326,
      "num_input_tokens_seen": 6170016,
      "step": 6640
    },
    {
      "epoch": 3.132956152758133,
      "grad_norm": 0.00044059735955670476,
      "learning_rate": 0.28003712233682015,
      "loss": 0.3304,
      "num_input_tokens_seen": 6175568,
      "step": 6645
    },
    {
      "epoch": 3.1353135313531353,
      "grad_norm": 0.0004895885940641165,
      "learning_rate": 0.2800077507417526,
      "loss": 0.3167,
      "num_input_tokens_seen": 6180016,
      "step": 6650
    },
    {
      "epoch": 3.1376709099481377,
      "grad_norm": 0.000488077785121277,
      "learning_rate": 0.2799783590978561,
      "loss": 0.3443,
      "num_input_tokens_seen": 6184320,
      "step": 6655
    },
    {
      "epoch": 3.14002828854314,
      "grad_norm": 0.00036027925671078265,
      "learning_rate": 0.2799489474096632,
      "loss": 0.3582,
      "num_input_tokens_seen": 6189296,
      "step": 6660
    },
    {
      "epoch": 3.1423856671381425,
      "grad_norm": 0.0004175576032139361,
      "learning_rate": 0.27991951568170953,
      "loss": 0.3267,
      "num_input_tokens_seen": 6193472,
      "step": 6665
    },
    {
      "epoch": 3.144743045733145,
      "grad_norm": 0.0011357403127476573,
      "learning_rate": 0.2798900639185339,
      "loss": 0.3095,
      "num_input_tokens_seen": 6198480,
      "step": 6670
    },
    {
      "epoch": 3.1471004243281473,
      "grad_norm": 0.0004390960675664246,
      "learning_rate": 0.2798605921246781,
      "loss": 0.2657,
      "num_input_tokens_seen": 6203408,
      "step": 6675
    },
    {
      "epoch": 3.1494578029231493,
      "grad_norm": 0.000325357133988291,
      "learning_rate": 0.2798311003046871,
      "loss": 0.3223,
      "num_input_tokens_seen": 6208432,
      "step": 6680
    },
    {
      "epoch": 3.1518151815181517,
      "grad_norm": 0.000653024937491864,
      "learning_rate": 0.2798015884631089,
      "loss": 0.3407,
      "num_input_tokens_seen": 6214432,
      "step": 6685
    },
    {
      "epoch": 3.154172560113154,
      "grad_norm": 0.0006160585908219218,
      "learning_rate": 0.27977205660449445,
      "loss": 0.3197,
      "num_input_tokens_seen": 6219936,
      "step": 6690
    },
    {
      "epoch": 3.1565299387081565,
      "grad_norm": 0.0010218898532912135,
      "learning_rate": 0.2797425047333981,
      "loss": 0.3735,
      "num_input_tokens_seen": 6224672,
      "step": 6695
    },
    {
      "epoch": 3.158887317303159,
      "grad_norm": 0.0004606071743182838,
      "learning_rate": 0.27971293285437715,
      "loss": 0.3442,
      "num_input_tokens_seen": 6229088,
      "step": 6700
    },
    {
      "epoch": 3.1612446958981613,
      "grad_norm": 0.00042440934339538217,
      "learning_rate": 0.2796833409719918,
      "loss": 0.3117,
      "num_input_tokens_seen": 6234208,
      "step": 6705
    },
    {
      "epoch": 3.1636020744931637,
      "grad_norm": 0.00041050248546525836,
      "learning_rate": 0.27965372909080566,
      "loss": 0.3113,
      "num_input_tokens_seen": 6238144,
      "step": 6710
    },
    {
      "epoch": 3.165959453088166,
      "grad_norm": 0.0003676996857393533,
      "learning_rate": 0.27962409721538506,
      "loss": 0.3641,
      "num_input_tokens_seen": 6242416,
      "step": 6715
    },
    {
      "epoch": 3.1683168316831685,
      "grad_norm": 0.0012936309212818742,
      "learning_rate": 0.27959444535029976,
      "loss": 0.3818,
      "num_input_tokens_seen": 6246864,
      "step": 6720
    },
    {
      "epoch": 3.170674210278171,
      "grad_norm": 0.0009455333347432315,
      "learning_rate": 0.27956477350012243,
      "loss": 0.3652,
      "num_input_tokens_seen": 6250816,
      "step": 6725
    },
    {
      "epoch": 3.173031588873173,
      "grad_norm": 0.00016581873933319002,
      "learning_rate": 0.27953508166942875,
      "loss": 0.351,
      "num_input_tokens_seen": 6255232,
      "step": 6730
    },
    {
      "epoch": 3.1753889674681752,
      "grad_norm": 0.0008294981089420617,
      "learning_rate": 0.27950536986279767,
      "loss": 0.3536,
      "num_input_tokens_seen": 6259392,
      "step": 6735
    },
    {
      "epoch": 3.1777463460631776,
      "grad_norm": 0.0008308448013849556,
      "learning_rate": 0.2794756380848111,
      "loss": 0.3538,
      "num_input_tokens_seen": 6263216,
      "step": 6740
    },
    {
      "epoch": 3.18010372465818,
      "grad_norm": 0.0007062103250063956,
      "learning_rate": 0.279445886340054,
      "loss": 0.3314,
      "num_input_tokens_seen": 6267808,
      "step": 6745
    },
    {
      "epoch": 3.1824611032531824,
      "grad_norm": 0.00044468670967034996,
      "learning_rate": 0.27941611463311455,
      "loss": 0.3297,
      "num_input_tokens_seen": 6272768,
      "step": 6750
    },
    {
      "epoch": 3.184818481848185,
      "grad_norm": 0.0006634331657551229,
      "learning_rate": 0.2793863229685839,
      "loss": 0.3605,
      "num_input_tokens_seen": 6277680,
      "step": 6755
    },
    {
      "epoch": 3.1871758604431872,
      "grad_norm": 0.0005053635104559362,
      "learning_rate": 0.27935651135105627,
      "loss": 0.3537,
      "num_input_tokens_seen": 6282768,
      "step": 6760
    },
    {
      "epoch": 3.1895332390381896,
      "grad_norm": 0.0010384557535871863,
      "learning_rate": 0.279326679785129,
      "loss": 0.3426,
      "num_input_tokens_seen": 6287104,
      "step": 6765
    },
    {
      "epoch": 3.191890617633192,
      "grad_norm": 0.0004885767702944577,
      "learning_rate": 0.2792968282754024,
      "loss": 0.2977,
      "num_input_tokens_seen": 6292800,
      "step": 6770
    },
    {
      "epoch": 3.1942479962281944,
      "grad_norm": 0.0011409330181777477,
      "learning_rate": 0.2792669568264801,
      "loss": 0.3608,
      "num_input_tokens_seen": 6298096,
      "step": 6775
    },
    {
      "epoch": 3.1966053748231964,
      "grad_norm": 0.0004393315757624805,
      "learning_rate": 0.27923706544296856,
      "loss": 0.3115,
      "num_input_tokens_seen": 6302016,
      "step": 6780
    },
    {
      "epoch": 3.198962753418199,
      "grad_norm": 0.000457602582173422,
      "learning_rate": 0.2792071541294775,
      "loss": 0.3136,
      "num_input_tokens_seen": 6306176,
      "step": 6785
    },
    {
      "epoch": 3.201320132013201,
      "grad_norm": 0.00044790402171202004,
      "learning_rate": 0.27917722289061947,
      "loss": 0.3408,
      "num_input_tokens_seen": 6310592,
      "step": 6790
    },
    {
      "epoch": 3.2036775106082036,
      "grad_norm": 0.00039481930434703827,
      "learning_rate": 0.27914727173101034,
      "loss": 0.3244,
      "num_input_tokens_seen": 6315440,
      "step": 6795
    },
    {
      "epoch": 3.206034889203206,
      "grad_norm": 0.00039271824061870575,
      "learning_rate": 0.279117300655269,
      "loss": 0.3654,
      "num_input_tokens_seen": 6319616,
      "step": 6800
    },
    {
      "epoch": 3.206034889203206,
      "eval_loss": 0.32705023884773254,
      "eval_runtime": 33.5004,
      "eval_samples_per_second": 28.149,
      "eval_steps_per_second": 14.089,
      "num_input_tokens_seen": 6319616,
      "step": 6800
    },
    {
      "epoch": 3.2083922677982084,
      "grad_norm": 0.0010870755650103092,
      "learning_rate": 0.2790873096680173,
      "loss": 0.3205,
      "num_input_tokens_seen": 6324784,
      "step": 6805
    },
    {
      "epoch": 3.210749646393211,
      "grad_norm": 0.0003688315046019852,
      "learning_rate": 0.2790572987738802,
      "loss": 0.3277,
      "num_input_tokens_seen": 6329536,
      "step": 6810
    },
    {
      "epoch": 3.213107024988213,
      "grad_norm": 0.0010902159847319126,
      "learning_rate": 0.27902726797748584,
      "loss": 0.2999,
      "num_input_tokens_seen": 6333664,
      "step": 6815
    },
    {
      "epoch": 3.2154644035832156,
      "grad_norm": 0.0010011479025706649,
      "learning_rate": 0.2789972172834652,
      "loss": 0.2979,
      "num_input_tokens_seen": 6338976,
      "step": 6820
    },
    {
      "epoch": 3.217821782178218,
      "grad_norm": 0.0009687397978268564,
      "learning_rate": 0.2789671466964527,
      "loss": 0.341,
      "num_input_tokens_seen": 6343904,
      "step": 6825
    },
    {
      "epoch": 3.22017916077322,
      "grad_norm": 0.00033921244903467596,
      "learning_rate": 0.2789370562210854,
      "loss": 0.3786,
      "num_input_tokens_seen": 6349232,
      "step": 6830
    },
    {
      "epoch": 3.2225365393682224,
      "grad_norm": 0.00037023541517555714,
      "learning_rate": 0.27890694586200376,
      "loss": 0.3226,
      "num_input_tokens_seen": 6353968,
      "step": 6835
    },
    {
      "epoch": 3.2248939179632248,
      "grad_norm": 0.000540912093129009,
      "learning_rate": 0.2788768156238511,
      "loss": 0.39,
      "num_input_tokens_seen": 6358640,
      "step": 6840
    },
    {
      "epoch": 3.227251296558227,
      "grad_norm": 0.0004078771162312478,
      "learning_rate": 0.27884666551127385,
      "loss": 0.367,
      "num_input_tokens_seen": 6362832,
      "step": 6845
    },
    {
      "epoch": 3.2296086751532296,
      "grad_norm": 0.0005917249945923686,
      "learning_rate": 0.2788164955289217,
      "loss": 0.3348,
      "num_input_tokens_seen": 6367280,
      "step": 6850
    },
    {
      "epoch": 3.231966053748232,
      "grad_norm": 0.0006453784881159663,
      "learning_rate": 0.27878630568144697,
      "loss": 0.3429,
      "num_input_tokens_seen": 6371760,
      "step": 6855
    },
    {
      "epoch": 3.2343234323432344,
      "grad_norm": 0.0001875765301520005,
      "learning_rate": 0.2787560959735056,
      "loss": 0.3474,
      "num_input_tokens_seen": 6376592,
      "step": 6860
    },
    {
      "epoch": 3.236680810938237,
      "grad_norm": 0.0008471531327813864,
      "learning_rate": 0.27872586640975616,
      "loss": 0.3612,
      "num_input_tokens_seen": 6380544,
      "step": 6865
    },
    {
      "epoch": 3.239038189533239,
      "grad_norm": 0.0002498670946806669,
      "learning_rate": 0.27869561699486045,
      "loss": 0.3478,
      "num_input_tokens_seen": 6384896,
      "step": 6870
    },
    {
      "epoch": 3.2413955681282416,
      "grad_norm": 0.0006617127219215035,
      "learning_rate": 0.2786653477334833,
      "loss": 0.34,
      "num_input_tokens_seen": 6388720,
      "step": 6875
    },
    {
      "epoch": 3.2437529467232435,
      "grad_norm": 0.0006447118357755244,
      "learning_rate": 0.2786350586302926,
      "loss": 0.337,
      "num_input_tokens_seen": 6394176,
      "step": 6880
    },
    {
      "epoch": 3.246110325318246,
      "grad_norm": 0.0006385213928297162,
      "learning_rate": 0.27860474968995935,
      "loss": 0.3402,
      "num_input_tokens_seen": 6398272,
      "step": 6885
    },
    {
      "epoch": 3.2484677039132484,
      "grad_norm": 0.000296257552690804,
      "learning_rate": 0.27857442091715756,
      "loss": 0.3229,
      "num_input_tokens_seen": 6403936,
      "step": 6890
    },
    {
      "epoch": 3.2508250825082508,
      "grad_norm": 0.0012324510607868433,
      "learning_rate": 0.27854407231656425,
      "loss": 0.3526,
      "num_input_tokens_seen": 6408368,
      "step": 6895
    },
    {
      "epoch": 3.253182461103253,
      "grad_norm": 0.0023715610150247812,
      "learning_rate": 0.2785137038928596,
      "loss": 0.3579,
      "num_input_tokens_seen": 6413888,
      "step": 6900
    },
    {
      "epoch": 3.2555398396982556,
      "grad_norm": 0.0005479201790876687,
      "learning_rate": 0.27848331565072687,
      "loss": 0.3621,
      "num_input_tokens_seen": 6419872,
      "step": 6905
    },
    {
      "epoch": 3.257897218293258,
      "grad_norm": 0.0008832195308059454,
      "learning_rate": 0.27845290759485225,
      "loss": 0.3195,
      "num_input_tokens_seen": 6424720,
      "step": 6910
    },
    {
      "epoch": 3.2602545968882604,
      "grad_norm": 0.0014793737791478634,
      "learning_rate": 0.278422479729925,
      "loss": 0.3694,
      "num_input_tokens_seen": 6429536,
      "step": 6915
    },
    {
      "epoch": 3.2626119754832628,
      "grad_norm": 0.0018543583573773503,
      "learning_rate": 0.2783920320606375,
      "loss": 0.3468,
      "num_input_tokens_seen": 6434080,
      "step": 6920
    },
    {
      "epoch": 3.264969354078265,
      "grad_norm": 0.0006046277703717351,
      "learning_rate": 0.2783615645916852,
      "loss": 0.3597,
      "num_input_tokens_seen": 6439264,
      "step": 6925
    },
    {
      "epoch": 3.2673267326732676,
      "grad_norm": 0.0014001368544995785,
      "learning_rate": 0.2783310773277666,
      "loss": 0.3339,
      "num_input_tokens_seen": 6443088,
      "step": 6930
    },
    {
      "epoch": 3.2696841112682695,
      "grad_norm": 0.0007806034991517663,
      "learning_rate": 0.2783005702735831,
      "loss": 0.34,
      "num_input_tokens_seen": 6448592,
      "step": 6935
    },
    {
      "epoch": 3.272041489863272,
      "grad_norm": 0.00114888371899724,
      "learning_rate": 0.2782700434338394,
      "loss": 0.3477,
      "num_input_tokens_seen": 6453104,
      "step": 6940
    },
    {
      "epoch": 3.2743988684582743,
      "grad_norm": 0.0005364081589505076,
      "learning_rate": 0.278239496813243,
      "loss": 0.3464,
      "num_input_tokens_seen": 6457408,
      "step": 6945
    },
    {
      "epoch": 3.2767562470532767,
      "grad_norm": 0.0010402922052890062,
      "learning_rate": 0.27820893041650463,
      "loss": 0.3417,
      "num_input_tokens_seen": 6461952,
      "step": 6950
    },
    {
      "epoch": 3.279113625648279,
      "grad_norm": 0.0006699529476463795,
      "learning_rate": 0.27817834424833804,
      "loss": 0.3225,
      "num_input_tokens_seen": 6466816,
      "step": 6955
    },
    {
      "epoch": 3.2814710042432815,
      "grad_norm": 0.0003591636777855456,
      "learning_rate": 0.27814773831345996,
      "loss": 0.3269,
      "num_input_tokens_seen": 6471104,
      "step": 6960
    },
    {
      "epoch": 3.283828382838284,
      "grad_norm": 0.0005837203352712095,
      "learning_rate": 0.2781171126165902,
      "loss": 0.3318,
      "num_input_tokens_seen": 6475200,
      "step": 6965
    },
    {
      "epoch": 3.2861857614332863,
      "grad_norm": 0.0011373587185516953,
      "learning_rate": 0.2780864671624517,
      "loss": 0.3876,
      "num_input_tokens_seen": 6479312,
      "step": 6970
    },
    {
      "epoch": 3.2885431400282887,
      "grad_norm": 0.0012077452847734094,
      "learning_rate": 0.27805580195577034,
      "loss": 0.3361,
      "num_input_tokens_seen": 6483664,
      "step": 6975
    },
    {
      "epoch": 3.2909005186232907,
      "grad_norm": 0.0005487556336447597,
      "learning_rate": 0.2780251170012751,
      "loss": 0.3452,
      "num_input_tokens_seen": 6488096,
      "step": 6980
    },
    {
      "epoch": 3.293257897218293,
      "grad_norm": 0.00026068935403600335,
      "learning_rate": 0.27799441230369787,
      "loss": 0.3192,
      "num_input_tokens_seen": 6492656,
      "step": 6985
    },
    {
      "epoch": 3.2956152758132955,
      "grad_norm": 0.0013354661641642451,
      "learning_rate": 0.27796368786777387,
      "loss": 0.3436,
      "num_input_tokens_seen": 6496768,
      "step": 6990
    },
    {
      "epoch": 3.297972654408298,
      "grad_norm": 0.001348852994851768,
      "learning_rate": 0.277932943698241,
      "loss": 0.3312,
      "num_input_tokens_seen": 6500656,
      "step": 6995
    },
    {
      "epoch": 3.3003300330033003,
      "grad_norm": 0.0011436972999945283,
      "learning_rate": 0.2779021797998406,
      "loss": 0.3445,
      "num_input_tokens_seen": 6505744,
      "step": 7000
    },
    {
      "epoch": 3.3003300330033003,
      "eval_loss": 0.3292427062988281,
      "eval_runtime": 33.3888,
      "eval_samples_per_second": 28.243,
      "eval_steps_per_second": 14.136,
      "num_input_tokens_seen": 6505744,
      "step": 7000
    },
    {
      "epoch": 3.3026874115983027,
      "grad_norm": 0.001141281332820654,
      "learning_rate": 0.2778713961773167,
      "loss": 0.3412,
      "num_input_tokens_seen": 6510528,
      "step": 7005
    },
    {
      "epoch": 3.305044790193305,
      "grad_norm": 0.001198300626128912,
      "learning_rate": 0.2778405928354166,
      "loss": 0.2833,
      "num_input_tokens_seen": 6514832,
      "step": 7010
    },
    {
      "epoch": 3.3074021687883075,
      "grad_norm": 0.0013040329795330763,
      "learning_rate": 0.27780976977889055,
      "loss": 0.3723,
      "num_input_tokens_seen": 6518400,
      "step": 7015
    },
    {
      "epoch": 3.30975954738331,
      "grad_norm": 0.0012615653686225414,
      "learning_rate": 0.27777892701249185,
      "loss": 0.37,
      "num_input_tokens_seen": 6523152,
      "step": 7020
    },
    {
      "epoch": 3.3121169259783123,
      "grad_norm": 0.0012097287690266967,
      "learning_rate": 0.2777480645409768,
      "loss": 0.3548,
      "num_input_tokens_seen": 6528432,
      "step": 7025
    },
    {
      "epoch": 3.3144743045733147,
      "grad_norm": 0.00028915845905430615,
      "learning_rate": 0.27771718236910486,
      "loss": 0.3493,
      "num_input_tokens_seen": 6532304,
      "step": 7030
    },
    {
      "epoch": 3.3168316831683167,
      "grad_norm": 0.0006235881592147052,
      "learning_rate": 0.27768628050163835,
      "loss": 0.345,
      "num_input_tokens_seen": 6537696,
      "step": 7035
    },
    {
      "epoch": 3.319189061763319,
      "grad_norm": 0.00020513350318651646,
      "learning_rate": 0.2776553589433428,
      "loss": 0.3468,
      "num_input_tokens_seen": 6542720,
      "step": 7040
    },
    {
      "epoch": 3.3215464403583215,
      "grad_norm": 0.00024514400865882635,
      "learning_rate": 0.27762441769898666,
      "loss": 0.3343,
      "num_input_tokens_seen": 6546896,
      "step": 7045
    },
    {
      "epoch": 3.323903818953324,
      "grad_norm": 0.0005308067193254828,
      "learning_rate": 0.2775934567733415,
      "loss": 0.352,
      "num_input_tokens_seen": 6551680,
      "step": 7050
    },
    {
      "epoch": 3.3262611975483263,
      "grad_norm": 0.0006046982016414404,
      "learning_rate": 0.2775624761711819,
      "loss": 0.331,
      "num_input_tokens_seen": 6556384,
      "step": 7055
    },
    {
      "epoch": 3.3286185761433287,
      "grad_norm": 0.00037229707231745124,
      "learning_rate": 0.2775314758972854,
      "loss": 0.3282,
      "num_input_tokens_seen": 6561184,
      "step": 7060
    },
    {
      "epoch": 3.330975954738331,
      "grad_norm": 0.000416870869230479,
      "learning_rate": 0.2775004559564327,
      "loss": 0.3275,
      "num_input_tokens_seen": 6565728,
      "step": 7065
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.00048288924153894186,
      "learning_rate": 0.2774694163534073,
      "loss": 0.3612,
      "num_input_tokens_seen": 6570384,
      "step": 7070
    },
    {
      "epoch": 3.335690711928336,
      "grad_norm": 0.0004200038965791464,
      "learning_rate": 0.27743835709299614,
      "loss": 0.3421,
      "num_input_tokens_seen": 6574864,
      "step": 7075
    },
    {
      "epoch": 3.338048090523338,
      "grad_norm": 0.00042515830136835575,
      "learning_rate": 0.2774072781799888,
      "loss": 0.3031,
      "num_input_tokens_seen": 6579408,
      "step": 7080
    },
    {
      "epoch": 3.3404054691183402,
      "grad_norm": 0.00037259317468851805,
      "learning_rate": 0.27737617961917804,
      "loss": 0.3109,
      "num_input_tokens_seen": 6583392,
      "step": 7085
    },
    {
      "epoch": 3.3427628477133426,
      "grad_norm": 0.00041015303577296436,
      "learning_rate": 0.27734506141535964,
      "loss": 0.372,
      "num_input_tokens_seen": 6588912,
      "step": 7090
    },
    {
      "epoch": 3.345120226308345,
      "grad_norm": 0.0003360736300237477,
      "learning_rate": 0.2773139235733325,
      "loss": 0.3484,
      "num_input_tokens_seen": 6593568,
      "step": 7095
    },
    {
      "epoch": 3.3474776049033474,
      "grad_norm": 0.000338043988449499,
      "learning_rate": 0.2772827660978984,
      "loss": 0.3466,
      "num_input_tokens_seen": 6598096,
      "step": 7100
    },
    {
      "epoch": 3.34983498349835,
      "grad_norm": 0.0005519305705092847,
      "learning_rate": 0.27725158899386226,
      "loss": 0.3506,
      "num_input_tokens_seen": 6602368,
      "step": 7105
    },
    {
      "epoch": 3.3521923620933523,
      "grad_norm": 0.00020476638746913522,
      "learning_rate": 0.27722039226603196,
      "loss": 0.3381,
      "num_input_tokens_seen": 6606896,
      "step": 7110
    },
    {
      "epoch": 3.3545497406883547,
      "grad_norm": 0.0003255469200666994,
      "learning_rate": 0.2771891759192184,
      "loss": 0.3301,
      "num_input_tokens_seen": 6611808,
      "step": 7115
    },
    {
      "epoch": 3.356907119283357,
      "grad_norm": 0.0009569344110786915,
      "learning_rate": 0.2771579399582355,
      "loss": 0.3409,
      "num_input_tokens_seen": 6615984,
      "step": 7120
    },
    {
      "epoch": 3.3592644978783595,
      "grad_norm": 0.0017865928821265697,
      "learning_rate": 0.2771266843879004,
      "loss": 0.3417,
      "num_input_tokens_seen": 6620848,
      "step": 7125
    },
    {
      "epoch": 3.361621876473362,
      "grad_norm": 0.000498883833643049,
      "learning_rate": 0.2770954092130329,
      "loss": 0.3241,
      "num_input_tokens_seen": 6625360,
      "step": 7130
    },
    {
      "epoch": 3.363979255068364,
      "grad_norm": 0.00034022631007246673,
      "learning_rate": 0.27706411443845613,
      "loss": 0.3659,
      "num_input_tokens_seen": 6630032,
      "step": 7135
    },
    {
      "epoch": 3.366336633663366,
      "grad_norm": 0.0012323163682594895,
      "learning_rate": 0.27703280006899617,
      "loss": 0.313,
      "num_input_tokens_seen": 6634688,
      "step": 7140
    },
    {
      "epoch": 3.3686940122583686,
      "grad_norm": 0.00046187223051674664,
      "learning_rate": 0.277001466109482,
      "loss": 0.3555,
      "num_input_tokens_seen": 6638496,
      "step": 7145
    },
    {
      "epoch": 3.371051390853371,
      "grad_norm": 0.0005180164007470012,
      "learning_rate": 0.2769701125647458,
      "loss": 0.3344,
      "num_input_tokens_seen": 6643760,
      "step": 7150
    },
    {
      "epoch": 3.3734087694483734,
      "grad_norm": 0.0010442648781463504,
      "learning_rate": 0.27693873943962266,
      "loss": 0.3873,
      "num_input_tokens_seen": 6647872,
      "step": 7155
    },
    {
      "epoch": 3.375766148043376,
      "grad_norm": 0.0005721607012674212,
      "learning_rate": 0.2769073467389506,
      "loss": 0.3319,
      "num_input_tokens_seen": 6653440,
      "step": 7160
    },
    {
      "epoch": 3.3781235266383782,
      "grad_norm": 0.0005514575750567019,
      "learning_rate": 0.2768759344675709,
      "loss": 0.3136,
      "num_input_tokens_seen": 6658528,
      "step": 7165
    },
    {
      "epoch": 3.3804809052333806,
      "grad_norm": 0.0004843217902816832,
      "learning_rate": 0.27684450263032767,
      "loss": 0.3388,
      "num_input_tokens_seen": 6663408,
      "step": 7170
    },
    {
      "epoch": 3.382838283828383,
      "grad_norm": 0.0004155293572694063,
      "learning_rate": 0.2768130512320682,
      "loss": 0.3306,
      "num_input_tokens_seen": 6668096,
      "step": 7175
    },
    {
      "epoch": 3.385195662423385,
      "grad_norm": 0.001871942076832056,
      "learning_rate": 0.27678158027764244,
      "loss": 0.3441,
      "num_input_tokens_seen": 6672672,
      "step": 7180
    },
    {
      "epoch": 3.3875530410183874,
      "grad_norm": 0.00030195844010449946,
      "learning_rate": 0.27675008977190385,
      "loss": 0.2743,
      "num_input_tokens_seen": 6677840,
      "step": 7185
    },
    {
      "epoch": 3.38991041961339,
      "grad_norm": 0.0002069099573418498,
      "learning_rate": 0.2767185797197086,
      "loss": 0.3242,
      "num_input_tokens_seen": 6683040,
      "step": 7190
    },
    {
      "epoch": 3.392267798208392,
      "grad_norm": 0.0011875415220856667,
      "learning_rate": 0.2766870501259159,
      "loss": 0.4347,
      "num_input_tokens_seen": 6687088,
      "step": 7195
    },
    {
      "epoch": 3.3946251768033946,
      "grad_norm": 0.00044821883784607053,
      "learning_rate": 0.276655500995388,
      "loss": 0.3611,
      "num_input_tokens_seen": 6692208,
      "step": 7200
    },
    {
      "epoch": 3.3946251768033946,
      "eval_loss": 0.32903265953063965,
      "eval_runtime": 33.5247,
      "eval_samples_per_second": 28.129,
      "eval_steps_per_second": 14.079,
      "num_input_tokens_seen": 6692208,
      "step": 7200
    },
    {
      "epoch": 3.396982555398397,
      "grad_norm": 0.0009222084190696478,
      "learning_rate": 0.27662393233299015,
      "loss": 0.3431,
      "num_input_tokens_seen": 6696624,
      "step": 7205
    },
    {
      "epoch": 3.3993399339933994,
      "grad_norm": 0.0002572966041043401,
      "learning_rate": 0.27659234414359074,
      "loss": 0.3455,
      "num_input_tokens_seen": 6700800,
      "step": 7210
    },
    {
      "epoch": 3.401697312588402,
      "grad_norm": 0.00019321597937960178,
      "learning_rate": 0.27656073643206097,
      "loss": 0.3535,
      "num_input_tokens_seen": 6705040,
      "step": 7215
    },
    {
      "epoch": 3.404054691183404,
      "grad_norm": 0.0007023201324045658,
      "learning_rate": 0.27652910920327517,
      "loss": 0.3524,
      "num_input_tokens_seen": 6708688,
      "step": 7220
    },
    {
      "epoch": 3.4064120697784066,
      "grad_norm": 0.0006888559437356889,
      "learning_rate": 0.2764974624621107,
      "loss": 0.3413,
      "num_input_tokens_seen": 6712816,
      "step": 7225
    },
    {
      "epoch": 3.408769448373409,
      "grad_norm": 0.0012560066534206271,
      "learning_rate": 0.2764657962134479,
      "loss": 0.338,
      "num_input_tokens_seen": 6717200,
      "step": 7230
    },
    {
      "epoch": 3.411126826968411,
      "grad_norm": 0.0003044821205548942,
      "learning_rate": 0.27643411046217,
      "loss": 0.3228,
      "num_input_tokens_seen": 6722192,
      "step": 7235
    },
    {
      "epoch": 3.4134842055634134,
      "grad_norm": 0.00030947502818889916,
      "learning_rate": 0.27640240521316334,
      "loss": 0.3717,
      "num_input_tokens_seen": 6727296,
      "step": 7240
    },
    {
      "epoch": 3.4158415841584158,
      "grad_norm": 0.00041863819933496416,
      "learning_rate": 0.2763706804713174,
      "loss": 0.3063,
      "num_input_tokens_seen": 6732848,
      "step": 7245
    },
    {
      "epoch": 3.418198962753418,
      "grad_norm": 0.00037680810783058405,
      "learning_rate": 0.2763389362415245,
      "loss": 0.3528,
      "num_input_tokens_seen": 6738256,
      "step": 7250
    },
    {
      "epoch": 3.4205563413484206,
      "grad_norm": 0.0003486588248051703,
      "learning_rate": 0.27630717252867987,
      "loss": 0.2691,
      "num_input_tokens_seen": 6743024,
      "step": 7255
    },
    {
      "epoch": 3.422913719943423,
      "grad_norm": 0.00028852029936388135,
      "learning_rate": 0.276275389337682,
      "loss": 0.3088,
      "num_input_tokens_seen": 6747328,
      "step": 7260
    },
    {
      "epoch": 3.4252710985384254,
      "grad_norm": 0.00022062611242290586,
      "learning_rate": 0.2762435866734322,
      "loss": 0.29,
      "num_input_tokens_seen": 6752352,
      "step": 7265
    },
    {
      "epoch": 3.4276284771334278,
      "grad_norm": 0.000603372638579458,
      "learning_rate": 0.27621176454083485,
      "loss": 0.367,
      "num_input_tokens_seen": 6756624,
      "step": 7270
    },
    {
      "epoch": 3.42998585572843,
      "grad_norm": 0.00027490014326758683,
      "learning_rate": 0.2761799229447973,
      "loss": 0.3218,
      "num_input_tokens_seen": 6761392,
      "step": 7275
    },
    {
      "epoch": 3.432343234323432,
      "grad_norm": 0.0005767496186308563,
      "learning_rate": 0.27614806189023006,
      "loss": 0.3047,
      "num_input_tokens_seen": 6766672,
      "step": 7280
    },
    {
      "epoch": 3.4347006129184345,
      "grad_norm": 0.0005212030955590308,
      "learning_rate": 0.27611618138204636,
      "loss": 0.3035,
      "num_input_tokens_seen": 6771376,
      "step": 7285
    },
    {
      "epoch": 3.437057991513437,
      "grad_norm": 0.00026422334485687315,
      "learning_rate": 0.2760842814251626,
      "loss": 0.3087,
      "num_input_tokens_seen": 6775744,
      "step": 7290
    },
    {
      "epoch": 3.4394153701084393,
      "grad_norm": 0.0009024105966091156,
      "learning_rate": 0.2760523620244982,
      "loss": 0.3107,
      "num_input_tokens_seen": 6779744,
      "step": 7295
    },
    {
      "epoch": 3.4417727487034417,
      "grad_norm": 0.0009140587062574923,
      "learning_rate": 0.27602042318497544,
      "loss": 0.3442,
      "num_input_tokens_seen": 6783792,
      "step": 7300
    },
    {
      "epoch": 3.444130127298444,
      "grad_norm": 0.00023159250849857926,
      "learning_rate": 0.2759884649115198,
      "loss": 0.29,
      "num_input_tokens_seen": 6788128,
      "step": 7305
    },
    {
      "epoch": 3.4464875058934465,
      "grad_norm": 0.0002118518459610641,
      "learning_rate": 0.2759564872090596,
      "loss": 0.311,
      "num_input_tokens_seen": 6792496,
      "step": 7310
    },
    {
      "epoch": 3.448844884488449,
      "grad_norm": 0.0008846670971252024,
      "learning_rate": 0.2759244900825262,
      "loss": 0.3136,
      "num_input_tokens_seen": 6797328,
      "step": 7315
    },
    {
      "epoch": 3.4512022630834513,
      "grad_norm": 0.0005589252687059343,
      "learning_rate": 0.2758924735368539,
      "loss": 0.354,
      "num_input_tokens_seen": 6801664,
      "step": 7320
    },
    {
      "epoch": 3.4535596416784538,
      "grad_norm": 0.00022318284027278423,
      "learning_rate": 0.27586043757698014,
      "loss": 0.3447,
      "num_input_tokens_seen": 6806448,
      "step": 7325
    },
    {
      "epoch": 3.455917020273456,
      "grad_norm": 0.000956936099100858,
      "learning_rate": 0.27582838220784534,
      "loss": 0.2855,
      "num_input_tokens_seen": 6810752,
      "step": 7330
    },
    {
      "epoch": 3.458274398868458,
      "grad_norm": 0.0009727692231535912,
      "learning_rate": 0.27579630743439265,
      "loss": 0.2575,
      "num_input_tokens_seen": 6814560,
      "step": 7335
    },
    {
      "epoch": 3.4606317774634605,
      "grad_norm": 0.00019993443856947124,
      "learning_rate": 0.2757642132615686,
      "loss": 0.3008,
      "num_input_tokens_seen": 6819104,
      "step": 7340
    },
    {
      "epoch": 3.462989156058463,
      "grad_norm": 0.0006674634059891105,
      "learning_rate": 0.2757320996943223,
      "loss": 0.3502,
      "num_input_tokens_seen": 6824256,
      "step": 7345
    },
    {
      "epoch": 3.4653465346534653,
      "grad_norm": 0.0006425976753234863,
      "learning_rate": 0.2756999667376062,
      "loss": 0.3954,
      "num_input_tokens_seen": 6828464,
      "step": 7350
    },
    {
      "epoch": 3.4677039132484677,
      "grad_norm": 0.0010499762138351798,
      "learning_rate": 0.2756678143963756,
      "loss": 0.3649,
      "num_input_tokens_seen": 6832960,
      "step": 7355
    },
    {
      "epoch": 3.47006129184347,
      "grad_norm": 0.0011655886191874743,
      "learning_rate": 0.2756356426755888,
      "loss": 0.3333,
      "num_input_tokens_seen": 6837712,
      "step": 7360
    },
    {
      "epoch": 3.4724186704384725,
      "grad_norm": 0.00044683049782179296,
      "learning_rate": 0.27560345158020705,
      "loss": 0.2946,
      "num_input_tokens_seen": 6843200,
      "step": 7365
    },
    {
      "epoch": 3.474776049033475,
      "grad_norm": 0.000500668422318995,
      "learning_rate": 0.27557124111519465,
      "loss": 0.3192,
      "num_input_tokens_seen": 6848480,
      "step": 7370
    },
    {
      "epoch": 3.4771334276284773,
      "grad_norm": 0.0009187315590679646,
      "learning_rate": 0.27553901128551883,
      "loss": 0.3585,
      "num_input_tokens_seen": 6852672,
      "step": 7375
    },
    {
      "epoch": 3.4794908062234793,
      "grad_norm": 0.000325986446114257,
      "learning_rate": 0.2755067620961498,
      "loss": 0.3591,
      "num_input_tokens_seen": 6857472,
      "step": 7380
    },
    {
      "epoch": 3.4818481848184817,
      "grad_norm": 0.001639852998778224,
      "learning_rate": 0.27547449355206094,
      "loss": 0.4008,
      "num_input_tokens_seen": 6862368,
      "step": 7385
    },
    {
      "epoch": 3.484205563413484,
      "grad_norm": 0.0005392979364842176,
      "learning_rate": 0.2754422056582283,
      "loss": 0.3236,
      "num_input_tokens_seen": 6867040,
      "step": 7390
    },
    {
      "epoch": 3.4865629420084865,
      "grad_norm": 0.0011958788381889462,
      "learning_rate": 0.27540989841963115,
      "loss": 0.3354,
      "num_input_tokens_seen": 6871424,
      "step": 7395
    },
    {
      "epoch": 3.488920320603489,
      "grad_norm": 0.00021978007862344384,
      "learning_rate": 0.27537757184125167,
      "loss": 0.3608,
      "num_input_tokens_seen": 6875616,
      "step": 7400
    },
    {
      "epoch": 3.488920320603489,
      "eval_loss": 0.3350490629673004,
      "eval_runtime": 33.4705,
      "eval_samples_per_second": 28.174,
      "eval_steps_per_second": 14.102,
      "num_input_tokens_seen": 6875616,
      "step": 7400
    },
    {
      "epoch": 3.4912776991984913,
      "grad_norm": 0.0006025228649377823,
      "learning_rate": 0.275345225928075,
      "loss": 0.3433,
      "num_input_tokens_seen": 6880080,
      "step": 7405
    },
    {
      "epoch": 3.4936350777934937,
      "grad_norm": 0.0005149265634827316,
      "learning_rate": 0.2753128606850893,
      "loss": 0.3272,
      "num_input_tokens_seen": 6884480,
      "step": 7410
    },
    {
      "epoch": 3.495992456388496,
      "grad_norm": 0.00026879686629399657,
      "learning_rate": 0.2752804761172858,
      "loss": 0.3374,
      "num_input_tokens_seen": 6889520,
      "step": 7415
    },
    {
      "epoch": 3.4983498349834985,
      "grad_norm": 0.0009427524637430906,
      "learning_rate": 0.27524807222965836,
      "loss": 0.3623,
      "num_input_tokens_seen": 6894288,
      "step": 7420
    },
    {
      "epoch": 3.500707213578501,
      "grad_norm": 0.000478199654025957,
      "learning_rate": 0.27521564902720436,
      "loss": 0.3141,
      "num_input_tokens_seen": 6898640,
      "step": 7425
    },
    {
      "epoch": 3.5030645921735033,
      "grad_norm": 0.00038509423029609025,
      "learning_rate": 0.2751832065149236,
      "loss": 0.2854,
      "num_input_tokens_seen": 6902832,
      "step": 7430
    },
    {
      "epoch": 3.5054219707685053,
      "grad_norm": 0.0005676053115166724,
      "learning_rate": 0.2751507446978193,
      "loss": 0.2909,
      "num_input_tokens_seen": 6906784,
      "step": 7435
    },
    {
      "epoch": 3.5077793493635077,
      "grad_norm": 0.00024406866577919573,
      "learning_rate": 0.2751182635808974,
      "loss": 0.2835,
      "num_input_tokens_seen": 6911664,
      "step": 7440
    },
    {
      "epoch": 3.51013672795851,
      "grad_norm": 0.0014143661828711629,
      "learning_rate": 0.27508576316916694,
      "loss": 0.2888,
      "num_input_tokens_seen": 6916096,
      "step": 7445
    },
    {
      "epoch": 3.5124941065535125,
      "grad_norm": 0.0007048466359265149,
      "learning_rate": 0.2750532434676399,
      "loss": 0.3615,
      "num_input_tokens_seen": 6920368,
      "step": 7450
    },
    {
      "epoch": 3.514851485148515,
      "grad_norm": 0.00014092723722569644,
      "learning_rate": 0.27502070448133115,
      "loss": 0.3054,
      "num_input_tokens_seen": 6926112,
      "step": 7455
    },
    {
      "epoch": 3.5172088637435173,
      "grad_norm": 0.0006581756751984358,
      "learning_rate": 0.2749881462152587,
      "loss": 0.2856,
      "num_input_tokens_seen": 6931120,
      "step": 7460
    },
    {
      "epoch": 3.5195662423385197,
      "grad_norm": 0.001923330477438867,
      "learning_rate": 0.2749555686744434,
      "loss": 0.3958,
      "num_input_tokens_seen": 6935472,
      "step": 7465
    },
    {
      "epoch": 3.521923620933522,
      "grad_norm": 0.00043589400593191385,
      "learning_rate": 0.2749229718639091,
      "loss": 0.3672,
      "num_input_tokens_seen": 6939904,
      "step": 7470
    },
    {
      "epoch": 3.524280999528524,
      "grad_norm": 0.00036789648584090173,
      "learning_rate": 0.27489035578868265,
      "loss": 0.3659,
      "num_input_tokens_seen": 6944208,
      "step": 7475
    },
    {
      "epoch": 3.5266383781235264,
      "grad_norm": 0.001061439048498869,
      "learning_rate": 0.2748577204537939,
      "loss": 0.3368,
      "num_input_tokens_seen": 6948768,
      "step": 7480
    },
    {
      "epoch": 3.528995756718529,
      "grad_norm": 0.0004609517636708915,
      "learning_rate": 0.2748250658642756,
      "loss": 0.3285,
      "num_input_tokens_seen": 6953888,
      "step": 7485
    },
    {
      "epoch": 3.5313531353135312,
      "grad_norm": 0.0004429292748682201,
      "learning_rate": 0.2747923920251634,
      "loss": 0.3169,
      "num_input_tokens_seen": 6958640,
      "step": 7490
    },
    {
      "epoch": 3.5337105139085336,
      "grad_norm": 0.0004278825072105974,
      "learning_rate": 0.27475969894149627,
      "loss": 0.3456,
      "num_input_tokens_seen": 6964128,
      "step": 7495
    },
    {
      "epoch": 3.536067892503536,
      "grad_norm": 0.00048333421000279486,
      "learning_rate": 0.2747269866183156,
      "loss": 0.3468,
      "num_input_tokens_seen": 6968496,
      "step": 7500
    },
    {
      "epoch": 3.5384252710985384,
      "grad_norm": 0.00042587099596858025,
      "learning_rate": 0.27469425506066625,
      "loss": 0.3161,
      "num_input_tokens_seen": 6973728,
      "step": 7505
    },
    {
      "epoch": 3.540782649693541,
      "grad_norm": 0.00040336293750442564,
      "learning_rate": 0.27466150427359576,
      "loss": 0.3504,
      "num_input_tokens_seen": 6978096,
      "step": 7510
    },
    {
      "epoch": 3.5431400282885432,
      "grad_norm": 0.0003604175290092826,
      "learning_rate": 0.2746287342621547,
      "loss": 0.3155,
      "num_input_tokens_seen": 6982272,
      "step": 7515
    },
    {
      "epoch": 3.5454974068835456,
      "grad_norm": 0.0009642152581363916,
      "learning_rate": 0.2745959450313966,
      "loss": 0.3006,
      "num_input_tokens_seen": 6986560,
      "step": 7520
    },
    {
      "epoch": 3.547854785478548,
      "grad_norm": 0.0016689995536580682,
      "learning_rate": 0.27456313658637804,
      "loss": 0.387,
      "num_input_tokens_seen": 6992080,
      "step": 7525
    },
    {
      "epoch": 3.5502121640735504,
      "grad_norm": 0.0003305624704807997,
      "learning_rate": 0.27453030893215846,
      "loss": 0.3251,
      "num_input_tokens_seen": 6996704,
      "step": 7530
    },
    {
      "epoch": 3.5525695426685524,
      "grad_norm": 0.00034019339364022017,
      "learning_rate": 0.2744974620738003,
      "loss": 0.337,
      "num_input_tokens_seen": 7001584,
      "step": 7535
    },
    {
      "epoch": 3.554926921263555,
      "grad_norm": 0.0009002278093248606,
      "learning_rate": 0.27446459601636897,
      "loss": 0.3675,
      "num_input_tokens_seen": 7006384,
      "step": 7540
    },
    {
      "epoch": 3.557284299858557,
      "grad_norm": 0.0004320394655223936,
      "learning_rate": 0.2744317107649328,
      "loss": 0.3104,
      "num_input_tokens_seen": 7011072,
      "step": 7545
    },
    {
      "epoch": 3.5596416784535596,
      "grad_norm": 0.00024752947501838207,
      "learning_rate": 0.2743988063245631,
      "loss": 0.3781,
      "num_input_tokens_seen": 7015600,
      "step": 7550
    },
    {
      "epoch": 3.561999057048562,
      "grad_norm": 0.0010814904235303402,
      "learning_rate": 0.2743658827003342,
      "loss": 0.3244,
      "num_input_tokens_seen": 7019696,
      "step": 7555
    },
    {
      "epoch": 3.5643564356435644,
      "grad_norm": 0.0010546399280428886,
      "learning_rate": 0.27433293989732327,
      "loss": 0.3172,
      "num_input_tokens_seen": 7024064,
      "step": 7560
    },
    {
      "epoch": 3.566713814238567,
      "grad_norm": 0.00033145028282888234,
      "learning_rate": 0.27429997792061056,
      "loss": 0.3172,
      "num_input_tokens_seen": 7029216,
      "step": 7565
    },
    {
      "epoch": 3.569071192833569,
      "grad_norm": 0.0002990816137753427,
      "learning_rate": 0.27426699677527927,
      "loss": 0.3387,
      "num_input_tokens_seen": 7033264,
      "step": 7570
    },
    {
      "epoch": 3.571428571428571,
      "grad_norm": 0.00038741240859963,
      "learning_rate": 0.2742339964664154,
      "loss": 0.3685,
      "num_input_tokens_seen": 7037424,
      "step": 7575
    },
    {
      "epoch": 3.5737859500235736,
      "grad_norm": 0.0009442874579690397,
      "learning_rate": 0.274200976999108,
      "loss": 0.3432,
      "num_input_tokens_seen": 7042544,
      "step": 7580
    },
    {
      "epoch": 3.576143328618576,
      "grad_norm": 0.0009767170995473862,
      "learning_rate": 0.27416793837844916,
      "loss": 0.2892,
      "num_input_tokens_seen": 7046768,
      "step": 7585
    },
    {
      "epoch": 3.5785007072135784,
      "grad_norm": 0.000933323404751718,
      "learning_rate": 0.27413488060953384,
      "loss": 0.3696,
      "num_input_tokens_seen": 7050656,
      "step": 7590
    },
    {
      "epoch": 3.580858085808581,
      "grad_norm": 0.0003453513782005757,
      "learning_rate": 0.27410180369745996,
      "loss": 0.3405,
      "num_input_tokens_seen": 7055056,
      "step": 7595
    },
    {
      "epoch": 3.583215464403583,
      "grad_norm": 0.0002899340761359781,
      "learning_rate": 0.27406870764732844,
      "loss": 0.3623,
      "num_input_tokens_seen": 7059472,
      "step": 7600
    },
    {
      "epoch": 3.583215464403583,
      "eval_loss": 0.3288579285144806,
      "eval_runtime": 33.4114,
      "eval_samples_per_second": 28.224,
      "eval_steps_per_second": 14.127,
      "num_input_tokens_seen": 7059472,
      "step": 7600
    },
    {
      "epoch": 3.5855728429985856,
      "grad_norm": 0.0002321567153558135,
      "learning_rate": 0.27403559246424297,
      "loss": 0.3476,
      "num_input_tokens_seen": 7063760,
      "step": 7605
    },
    {
      "epoch": 3.587930221593588,
      "grad_norm": 0.00045190000673756003,
      "learning_rate": 0.2740024581533105,
      "loss": 0.323,
      "num_input_tokens_seen": 7067696,
      "step": 7610
    },
    {
      "epoch": 3.5902876001885904,
      "grad_norm": 0.0004277000844012946,
      "learning_rate": 0.2739693047196406,
      "loss": 0.3071,
      "num_input_tokens_seen": 7071296,
      "step": 7615
    },
    {
      "epoch": 3.592644978783593,
      "grad_norm": 0.00039097489207051694,
      "learning_rate": 0.27393613216834606,
      "loss": 0.3679,
      "num_input_tokens_seen": 7075776,
      "step": 7620
    },
    {
      "epoch": 3.595002357378595,
      "grad_norm": 0.0009546118672005832,
      "learning_rate": 0.2739029405045424,
      "loss": 0.3653,
      "num_input_tokens_seen": 7080016,
      "step": 7625
    },
    {
      "epoch": 3.5973597359735976,
      "grad_norm": 0.0009657223708927631,
      "learning_rate": 0.2738697297333483,
      "loss": 0.2775,
      "num_input_tokens_seen": 7085264,
      "step": 7630
    },
    {
      "epoch": 3.5997171145685996,
      "grad_norm": 0.00031251952168531716,
      "learning_rate": 0.2738364998598852,
      "loss": 0.3538,
      "num_input_tokens_seen": 7090384,
      "step": 7635
    },
    {
      "epoch": 3.602074493163602,
      "grad_norm": 0.0003842128498945385,
      "learning_rate": 0.27380325088927765,
      "loss": 0.3218,
      "num_input_tokens_seen": 7094720,
      "step": 7640
    },
    {
      "epoch": 3.6044318717586044,
      "grad_norm": 0.0003886324411723763,
      "learning_rate": 0.27376998282665294,
      "loss": 0.325,
      "num_input_tokens_seen": 7098976,
      "step": 7645
    },
    {
      "epoch": 3.6067892503536068,
      "grad_norm": 0.00042641189065761864,
      "learning_rate": 0.27373669567714154,
      "loss": 0.342,
      "num_input_tokens_seen": 7103536,
      "step": 7650
    },
    {
      "epoch": 3.609146628948609,
      "grad_norm": 0.0004160230455454439,
      "learning_rate": 0.27370338944587663,
      "loss": 0.3566,
      "num_input_tokens_seen": 7108640,
      "step": 7655
    },
    {
      "epoch": 3.6115040075436116,
      "grad_norm": 0.0009350707987323403,
      "learning_rate": 0.27367006413799455,
      "loss": 0.3225,
      "num_input_tokens_seen": 7113440,
      "step": 7660
    },
    {
      "epoch": 3.613861386138614,
      "grad_norm": 0.0004903597291558981,
      "learning_rate": 0.2736367197586345,
      "loss": 0.3513,
      "num_input_tokens_seen": 7118896,
      "step": 7665
    },
    {
      "epoch": 3.6162187647336164,
      "grad_norm": 0.0008892054320313036,
      "learning_rate": 0.2736033563129385,
      "loss": 0.3381,
      "num_input_tokens_seen": 7123488,
      "step": 7670
    },
    {
      "epoch": 3.6185761433286183,
      "grad_norm": 0.00034307679743506014,
      "learning_rate": 0.27356997380605164,
      "loss": 0.3184,
      "num_input_tokens_seen": 7128640,
      "step": 7675
    },
    {
      "epoch": 3.6209335219236207,
      "grad_norm": 0.0003603905497584492,
      "learning_rate": 0.27353657224312194,
      "loss": 0.313,
      "num_input_tokens_seen": 7132976,
      "step": 7680
    },
    {
      "epoch": 3.623290900518623,
      "grad_norm": 0.0003392187354620546,
      "learning_rate": 0.2735031516293004,
      "loss": 0.3159,
      "num_input_tokens_seen": 7137856,
      "step": 7685
    },
    {
      "epoch": 3.6256482791136255,
      "grad_norm": 0.00030958300339989364,
      "learning_rate": 0.2734697119697408,
      "loss": 0.3186,
      "num_input_tokens_seen": 7142128,
      "step": 7690
    },
    {
      "epoch": 3.628005657708628,
      "grad_norm": 0.0004988667205907404,
      "learning_rate": 0.27343625326959997,
      "loss": 0.2966,
      "num_input_tokens_seen": 7146368,
      "step": 7695
    },
    {
      "epoch": 3.6303630363036303,
      "grad_norm": 0.00021368225861806422,
      "learning_rate": 0.27340277553403775,
      "loss": 0.3048,
      "num_input_tokens_seen": 7151872,
      "step": 7700
    },
    {
      "epoch": 3.6327204148986327,
      "grad_norm": 0.0001770689559634775,
      "learning_rate": 0.2733692787682167,
      "loss": 0.2493,
      "num_input_tokens_seen": 7156240,
      "step": 7705
    },
    {
      "epoch": 3.635077793493635,
      "grad_norm": 0.0008014112245291471,
      "learning_rate": 0.27333576297730255,
      "loss": 0.287,
      "num_input_tokens_seen": 7160816,
      "step": 7710
    },
    {
      "epoch": 3.6374351720886375,
      "grad_norm": 0.00076538126450032,
      "learning_rate": 0.2733022281664638,
      "loss": 0.3457,
      "num_input_tokens_seen": 7165712,
      "step": 7715
    },
    {
      "epoch": 3.63979255068364,
      "grad_norm": 0.00014925975119695067,
      "learning_rate": 0.273268674340872,
      "loss": 0.2352,
      "num_input_tokens_seen": 7170960,
      "step": 7720
    },
    {
      "epoch": 3.6421499292786423,
      "grad_norm": 0.00019417864677961916,
      "learning_rate": 0.27323510150570146,
      "loss": 0.3311,
      "num_input_tokens_seen": 7175664,
      "step": 7725
    },
    {
      "epoch": 3.6445073078736447,
      "grad_norm": 0.00024487145128659904,
      "learning_rate": 0.27320150966612966,
      "loss": 0.3673,
      "num_input_tokens_seen": 7180000,
      "step": 7730
    },
    {
      "epoch": 3.6468646864686467,
      "grad_norm": 0.001241894788108766,
      "learning_rate": 0.2731678988273368,
      "loss": 0.3748,
      "num_input_tokens_seen": 7184064,
      "step": 7735
    },
    {
      "epoch": 3.649222065063649,
      "grad_norm": 0.0003699868975672871,
      "learning_rate": 0.27313426899450605,
      "loss": 0.3683,
      "num_input_tokens_seen": 7189280,
      "step": 7740
    },
    {
      "epoch": 3.6515794436586515,
      "grad_norm": 0.0005232110852375627,
      "learning_rate": 0.27310062017282366,
      "loss": 0.3229,
      "num_input_tokens_seen": 7193840,
      "step": 7745
    },
    {
      "epoch": 3.653936822253654,
      "grad_norm": 0.0007770595839247108,
      "learning_rate": 0.2730669523674787,
      "loss": 0.3382,
      "num_input_tokens_seen": 7198416,
      "step": 7750
    },
    {
      "epoch": 3.6562942008486563,
      "grad_norm": 0.001347412820905447,
      "learning_rate": 0.2730332655836631,
      "loss": 0.3253,
      "num_input_tokens_seen": 7202160,
      "step": 7755
    },
    {
      "epoch": 3.6586515794436587,
      "grad_norm": 0.0009648898849263787,
      "learning_rate": 0.2729995598265718,
      "loss": 0.3643,
      "num_input_tokens_seen": 7206368,
      "step": 7760
    },
    {
      "epoch": 3.661008958038661,
      "grad_norm": 0.00039416475920006633,
      "learning_rate": 0.2729658351014027,
      "loss": 0.3183,
      "num_input_tokens_seen": 7210768,
      "step": 7765
    },
    {
      "epoch": 3.6633663366336635,
      "grad_norm": 0.00033470673952251673,
      "learning_rate": 0.27293209141335656,
      "loss": 0.3144,
      "num_input_tokens_seen": 7214784,
      "step": 7770
    },
    {
      "epoch": 3.6657237152286655,
      "grad_norm": 0.000354907417204231,
      "learning_rate": 0.27289832876763703,
      "loss": 0.3585,
      "num_input_tokens_seen": 7219664,
      "step": 7775
    },
    {
      "epoch": 3.668081093823668,
      "grad_norm": 0.0004406171210575849,
      "learning_rate": 0.27286454716945074,
      "loss": 0.3248,
      "num_input_tokens_seen": 7224320,
      "step": 7780
    },
    {
      "epoch": 3.6704384724186703,
      "grad_norm": 0.00040403485763818026,
      "learning_rate": 0.27283074662400725,
      "loss": 0.3633,
      "num_input_tokens_seen": 7228768,
      "step": 7785
    },
    {
      "epoch": 3.6727958510136727,
      "grad_norm": 0.0003801805432885885,
      "learning_rate": 0.2727969271365191,
      "loss": 0.3147,
      "num_input_tokens_seen": 7233232,
      "step": 7790
    },
    {
      "epoch": 3.675153229608675,
      "grad_norm": 0.00032245382317341864,
      "learning_rate": 0.2727630887122016,
      "loss": 0.3176,
      "num_input_tokens_seen": 7238112,
      "step": 7795
    },
    {
      "epoch": 3.6775106082036775,
      "grad_norm": 0.0004623924905899912,
      "learning_rate": 0.27272923135627314,
      "loss": 0.2933,
      "num_input_tokens_seen": 7243472,
      "step": 7800
    },
    {
      "epoch": 3.6775106082036775,
      "eval_loss": 0.32784199714660645,
      "eval_runtime": 33.3684,
      "eval_samples_per_second": 28.26,
      "eval_steps_per_second": 14.145,
      "num_input_tokens_seen": 7243472,
      "step": 7800
    },
    {
      "epoch": 3.67986798679868,
      "grad_norm": 0.00026365008670836687,
      "learning_rate": 0.2726953550739548,
      "loss": 0.3453,
      "num_input_tokens_seen": 7247648,
      "step": 7805
    },
    {
      "epoch": 3.6822253653936823,
      "grad_norm": 0.0002486209268681705,
      "learning_rate": 0.27266145987047086,
      "loss": 0.3243,
      "num_input_tokens_seen": 7251520,
      "step": 7810
    },
    {
      "epoch": 3.6845827439886847,
      "grad_norm": 0.0004451635468285531,
      "learning_rate": 0.27262754575104836,
      "loss": 0.3439,
      "num_input_tokens_seen": 7256432,
      "step": 7815
    },
    {
      "epoch": 3.686940122583687,
      "grad_norm": 0.0009883084567263722,
      "learning_rate": 0.27259361272091726,
      "loss": 0.3894,
      "num_input_tokens_seen": 7261008,
      "step": 7820
    },
    {
      "epoch": 3.6892975011786895,
      "grad_norm": 0.0009492583340033889,
      "learning_rate": 0.27255966078531046,
      "loss": 0.3182,
      "num_input_tokens_seen": 7265760,
      "step": 7825
    },
    {
      "epoch": 3.691654879773692,
      "grad_norm": 0.0003834457602351904,
      "learning_rate": 0.2725256899494638,
      "loss": 0.2993,
      "num_input_tokens_seen": 7270288,
      "step": 7830
    },
    {
      "epoch": 3.694012258368694,
      "grad_norm": 0.00033010393963195384,
      "learning_rate": 0.272491700218616,
      "loss": 0.2978,
      "num_input_tokens_seen": 7274528,
      "step": 7835
    },
    {
      "epoch": 3.6963696369636962,
      "grad_norm": 0.001144860521890223,
      "learning_rate": 0.27245769159800876,
      "loss": 0.3274,
      "num_input_tokens_seen": 7278480,
      "step": 7840
    },
    {
      "epoch": 3.6987270155586986,
      "grad_norm": 0.0002236016734968871,
      "learning_rate": 0.2724236640928865,
      "loss": 0.3222,
      "num_input_tokens_seen": 7282816,
      "step": 7845
    },
    {
      "epoch": 3.701084394153701,
      "grad_norm": 0.0008769353153184056,
      "learning_rate": 0.27238961770849673,
      "loss": 0.3417,
      "num_input_tokens_seen": 7287008,
      "step": 7850
    },
    {
      "epoch": 3.7034417727487035,
      "grad_norm": 0.00031667135772295296,
      "learning_rate": 0.27235555245008997,
      "loss": 0.3767,
      "num_input_tokens_seen": 7291808,
      "step": 7855
    },
    {
      "epoch": 3.705799151343706,
      "grad_norm": 0.00030674232402816415,
      "learning_rate": 0.2723214683229193,
      "loss": 0.2919,
      "num_input_tokens_seen": 7296416,
      "step": 7860
    },
    {
      "epoch": 3.7081565299387083,
      "grad_norm": 0.0005381538067013025,
      "learning_rate": 0.27228736533224107,
      "loss": 0.3602,
      "num_input_tokens_seen": 7301408,
      "step": 7865
    },
    {
      "epoch": 3.7105139085337107,
      "grad_norm": 0.00040164575329981744,
      "learning_rate": 0.27225324348331437,
      "loss": 0.3391,
      "num_input_tokens_seen": 7305920,
      "step": 7870
    },
    {
      "epoch": 3.7128712871287126,
      "grad_norm": 0.0003972688573412597,
      "learning_rate": 0.27221910278140116,
      "loss": 0.3296,
      "num_input_tokens_seen": 7311312,
      "step": 7875
    },
    {
      "epoch": 3.715228665723715,
      "grad_norm": 0.0004411212867125869,
      "learning_rate": 0.2721849432317664,
      "loss": 0.3628,
      "num_input_tokens_seen": 7316192,
      "step": 7880
    },
    {
      "epoch": 3.7175860443187174,
      "grad_norm": 0.0008548677433282137,
      "learning_rate": 0.2721507648396779,
      "loss": 0.3646,
      "num_input_tokens_seen": 7320832,
      "step": 7885
    },
    {
      "epoch": 3.71994342291372,
      "grad_norm": 0.0013643974671140313,
      "learning_rate": 0.27211656761040653,
      "loss": 0.3616,
      "num_input_tokens_seen": 7324688,
      "step": 7890
    },
    {
      "epoch": 3.7223008015087222,
      "grad_norm": 0.0012899638386443257,
      "learning_rate": 0.2720823515492257,
      "loss": 0.3473,
      "num_input_tokens_seen": 7329408,
      "step": 7895
    },
    {
      "epoch": 3.7246581801037246,
      "grad_norm": 0.0014315767912194133,
      "learning_rate": 0.27204811666141215,
      "loss": 0.3571,
      "num_input_tokens_seen": 7333472,
      "step": 7900
    },
    {
      "epoch": 3.727015558698727,
      "grad_norm": 0.00017287192167714238,
      "learning_rate": 0.2720138629522452,
      "loss": 0.3383,
      "num_input_tokens_seen": 7338080,
      "step": 7905
    },
    {
      "epoch": 3.7293729372937294,
      "grad_norm": 0.0014110347256064415,
      "learning_rate": 0.2719795904270073,
      "loss": 0.3625,
      "num_input_tokens_seen": 7342656,
      "step": 7910
    },
    {
      "epoch": 3.731730315888732,
      "grad_norm": 0.00023876968771219254,
      "learning_rate": 0.2719452990909837,
      "loss": 0.3553,
      "num_input_tokens_seen": 7348272,
      "step": 7915
    },
    {
      "epoch": 3.7340876944837342,
      "grad_norm": 0.000197991103050299,
      "learning_rate": 0.2719109889494625,
      "loss": 0.335,
      "num_input_tokens_seen": 7353472,
      "step": 7920
    },
    {
      "epoch": 3.7364450730787366,
      "grad_norm": 0.0011554565280675888,
      "learning_rate": 0.27187666000773475,
      "loss": 0.3302,
      "num_input_tokens_seen": 7358272,
      "step": 7925
    },
    {
      "epoch": 3.738802451673739,
      "grad_norm": 0.0002811123849824071,
      "learning_rate": 0.2718423122710944,
      "loss": 0.3202,
      "num_input_tokens_seen": 7363760,
      "step": 7930
    },
    {
      "epoch": 3.741159830268741,
      "grad_norm": 0.0008779158815741539,
      "learning_rate": 0.2718079457448384,
      "loss": 0.3398,
      "num_input_tokens_seen": 7368288,
      "step": 7935
    },
    {
      "epoch": 3.7435172088637434,
      "grad_norm": 0.00031940621556714177,
      "learning_rate": 0.27177356043426637,
      "loss": 0.3508,
      "num_input_tokens_seen": 7374272,
      "step": 7940
    },
    {
      "epoch": 3.745874587458746,
      "grad_norm": 0.0008962390711531043,
      "learning_rate": 0.27173915634468104,
      "loss": 0.3369,
      "num_input_tokens_seen": 7378480,
      "step": 7945
    },
    {
      "epoch": 3.748231966053748,
      "grad_norm": 0.000324619555613026,
      "learning_rate": 0.27170473348138796,
      "loss": 0.3153,
      "num_input_tokens_seen": 7383664,
      "step": 7950
    },
    {
      "epoch": 3.7505893446487506,
      "grad_norm": 0.0008902655681595206,
      "learning_rate": 0.27167029184969554,
      "loss": 0.3391,
      "num_input_tokens_seen": 7388544,
      "step": 7955
    },
    {
      "epoch": 3.752946723243753,
      "grad_norm": 0.00030182540649548173,
      "learning_rate": 0.27163583145491504,
      "loss": 0.3234,
      "num_input_tokens_seen": 7393248,
      "step": 7960
    },
    {
      "epoch": 3.7553041018387554,
      "grad_norm": 0.0003234590112697333,
      "learning_rate": 0.2716013523023608,
      "loss": 0.3281,
      "num_input_tokens_seen": 7397360,
      "step": 7965
    },
    {
      "epoch": 3.757661480433758,
      "grad_norm": 0.0003748746821656823,
      "learning_rate": 0.27156685439734995,
      "loss": 0.3199,
      "num_input_tokens_seen": 7401632,
      "step": 7970
    },
    {
      "epoch": 3.7600188590287598,
      "grad_norm": 0.000296729092951864,
      "learning_rate": 0.2715323377452024,
      "loss": 0.2913,
      "num_input_tokens_seen": 7406288,
      "step": 7975
    },
    {
      "epoch": 3.762376237623762,
      "grad_norm": 0.00024634230067022145,
      "learning_rate": 0.2714978023512411,
      "loss": 0.2522,
      "num_input_tokens_seen": 7411088,
      "step": 7980
    },
    {
      "epoch": 3.7647336162187646,
      "grad_norm": 0.00017651218513492495,
      "learning_rate": 0.2714632482207918,
      "loss": 0.3419,
      "num_input_tokens_seen": 7414896,
      "step": 7985
    },
    {
      "epoch": 3.767090994813767,
      "grad_norm": 0.000549566640984267,
      "learning_rate": 0.2714286753591833,
      "loss": 0.3109,
      "num_input_tokens_seen": 7419360,
      "step": 7990
    },
    {
      "epoch": 3.7694483734087694,
      "grad_norm": 0.000741468567866832,
      "learning_rate": 0.27139408377174706,
      "loss": 0.351,
      "num_input_tokens_seen": 7424000,
      "step": 7995
    },
    {
      "epoch": 3.7718057520037718,
      "grad_norm": 0.0001898415357572958,
      "learning_rate": 0.27135947346381756,
      "loss": 0.3393,
      "num_input_tokens_seen": 7428048,
      "step": 8000
    },
    {
      "epoch": 3.7718057520037718,
      "eval_loss": 0.3299442231655121,
      "eval_runtime": 33.497,
      "eval_samples_per_second": 28.152,
      "eval_steps_per_second": 14.091,
      "num_input_tokens_seen": 7428048,
      "step": 8000
    },
    {
      "epoch": 3.774163130598774,
      "grad_norm": 0.0004483495431486517,
      "learning_rate": 0.2713248444407322,
      "loss": 0.3623,
      "num_input_tokens_seen": 7433408,
      "step": 8005
    },
    {
      "epoch": 3.7765205091937766,
      "grad_norm": 0.00041769820381887257,
      "learning_rate": 0.27129019670783106,
      "loss": 0.2974,
      "num_input_tokens_seen": 7438624,
      "step": 8010
    },
    {
      "epoch": 3.778877887788779,
      "grad_norm": 0.0003340884286444634,
      "learning_rate": 0.27125553027045746,
      "loss": 0.3324,
      "num_input_tokens_seen": 7443328,
      "step": 8015
    },
    {
      "epoch": 3.7812352663837814,
      "grad_norm": 0.0008826734265312552,
      "learning_rate": 0.2712208451339572,
      "loss": 0.3037,
      "num_input_tokens_seen": 7448432,
      "step": 8020
    },
    {
      "epoch": 3.783592644978784,
      "grad_norm": 0.0009604713413864374,
      "learning_rate": 0.27118614130367935,
      "loss": 0.367,
      "num_input_tokens_seen": 7452688,
      "step": 8025
    },
    {
      "epoch": 3.785950023573786,
      "grad_norm": 0.0003146468079648912,
      "learning_rate": 0.2711514187849756,
      "loss": 0.2811,
      "num_input_tokens_seen": 7457936,
      "step": 8030
    },
    {
      "epoch": 3.7883074021687886,
      "grad_norm": 0.0003232822928112,
      "learning_rate": 0.27111667758320057,
      "loss": 0.2904,
      "num_input_tokens_seen": 7462096,
      "step": 8035
    },
    {
      "epoch": 3.7906647807637905,
      "grad_norm": 0.0007678649271838367,
      "learning_rate": 0.27108191770371176,
      "loss": 0.3121,
      "num_input_tokens_seen": 7467184,
      "step": 8040
    },
    {
      "epoch": 3.793022159358793,
      "grad_norm": 0.00022632526815868914,
      "learning_rate": 0.2710471391518697,
      "loss": 0.3778,
      "num_input_tokens_seen": 7471504,
      "step": 8045
    },
    {
      "epoch": 3.7953795379537953,
      "grad_norm": 0.0008918778039515018,
      "learning_rate": 0.2710123419330375,
      "loss": 0.2753,
      "num_input_tokens_seen": 7475648,
      "step": 8050
    },
    {
      "epoch": 3.7977369165487977,
      "grad_norm": 0.0002506989403627813,
      "learning_rate": 0.2709775260525816,
      "loss": 0.3071,
      "num_input_tokens_seen": 7480864,
      "step": 8055
    },
    {
      "epoch": 3.8000942951438,
      "grad_norm": 0.0005328568513505161,
      "learning_rate": 0.27094269151587075,
      "loss": 0.3573,
      "num_input_tokens_seen": 7485680,
      "step": 8060
    },
    {
      "epoch": 3.8024516737388026,
      "grad_norm": 0.0003196418401785195,
      "learning_rate": 0.27090783832827703,
      "loss": 0.3194,
      "num_input_tokens_seen": 7489776,
      "step": 8065
    },
    {
      "epoch": 3.804809052333805,
      "grad_norm": 0.00018183693464379758,
      "learning_rate": 0.2708729664951753,
      "loss": 0.2779,
      "num_input_tokens_seen": 7493808,
      "step": 8070
    },
    {
      "epoch": 3.807166430928807,
      "grad_norm": 0.0011548219481483102,
      "learning_rate": 0.27083807602194304,
      "loss": 0.3542,
      "num_input_tokens_seen": 7498544,
      "step": 8075
    },
    {
      "epoch": 3.8095238095238093,
      "grad_norm": 0.0002183560427511111,
      "learning_rate": 0.270803166913961,
      "loss": 0.2831,
      "num_input_tokens_seen": 7503232,
      "step": 8080
    },
    {
      "epoch": 3.8118811881188117,
      "grad_norm": 0.000463721138658002,
      "learning_rate": 0.27076823917661247,
      "loss": 0.331,
      "num_input_tokens_seen": 7508048,
      "step": 8085
    },
    {
      "epoch": 3.814238566713814,
      "grad_norm": 0.000432492233812809,
      "learning_rate": 0.2707332928152838,
      "loss": 0.3624,
      "num_input_tokens_seen": 7512656,
      "step": 8090
    },
    {
      "epoch": 3.8165959453088165,
      "grad_norm": 0.00033767943386919796,
      "learning_rate": 0.2706983278353641,
      "loss": 0.3025,
      "num_input_tokens_seen": 7517248,
      "step": 8095
    },
    {
      "epoch": 3.818953323903819,
      "grad_norm": 0.00037640592199750245,
      "learning_rate": 0.27066334424224553,
      "loss": 0.3138,
      "num_input_tokens_seen": 7521888,
      "step": 8100
    },
    {
      "epoch": 3.8213107024988213,
      "grad_norm": 0.00027695417520590127,
      "learning_rate": 0.27062834204132297,
      "loss": 0.3167,
      "num_input_tokens_seen": 7526544,
      "step": 8105
    },
    {
      "epoch": 3.8236680810938237,
      "grad_norm": 0.000429630366852507,
      "learning_rate": 0.27059332123799407,
      "loss": 0.3168,
      "num_input_tokens_seen": 7530384,
      "step": 8110
    },
    {
      "epoch": 3.826025459688826,
      "grad_norm": 0.0001977466745302081,
      "learning_rate": 0.27055828183765956,
      "loss": 0.2684,
      "num_input_tokens_seen": 7534688,
      "step": 8115
    },
    {
      "epoch": 3.8283828382838285,
      "grad_norm": 0.0006013475940562785,
      "learning_rate": 0.270523223845723,
      "loss": 0.3469,
      "num_input_tokens_seen": 7539920,
      "step": 8120
    },
    {
      "epoch": 3.830740216878831,
      "grad_norm": 0.0007641144911758602,
      "learning_rate": 0.2704881472675907,
      "loss": 0.313,
      "num_input_tokens_seen": 7544608,
      "step": 8125
    },
    {
      "epoch": 3.8330975954738333,
      "grad_norm": 0.00018350692698732018,
      "learning_rate": 0.270453052108672,
      "loss": 0.324,
      "num_input_tokens_seen": 7548976,
      "step": 8130
    },
    {
      "epoch": 3.8354549740688357,
      "grad_norm": 0.0007629038882441819,
      "learning_rate": 0.2704179383743789,
      "loss": 0.2904,
      "num_input_tokens_seen": 7553600,
      "step": 8135
    },
    {
      "epoch": 3.8378123526638377,
      "grad_norm": 0.00022142035595607013,
      "learning_rate": 0.27038280607012644,
      "loss": 0.4111,
      "num_input_tokens_seen": 7558448,
      "step": 8140
    },
    {
      "epoch": 3.84016973125884,
      "grad_norm": 0.0003264245460741222,
      "learning_rate": 0.27034765520133247,
      "loss": 0.3226,
      "num_input_tokens_seen": 7562240,
      "step": 8145
    },
    {
      "epoch": 3.8425271098538425,
      "grad_norm": 0.000280639564152807,
      "learning_rate": 0.2703124857734177,
      "loss": 0.3717,
      "num_input_tokens_seen": 7566720,
      "step": 8150
    },
    {
      "epoch": 3.844884488448845,
      "grad_norm": 0.00019572218297980726,
      "learning_rate": 0.27027729779180565,
      "loss": 0.3641,
      "num_input_tokens_seen": 7571008,
      "step": 8155
    },
    {
      "epoch": 3.8472418670438473,
      "grad_norm": 0.00076295156031847,
      "learning_rate": 0.27024209126192283,
      "loss": 0.3204,
      "num_input_tokens_seen": 7575536,
      "step": 8160
    },
    {
      "epoch": 3.8495992456388497,
      "grad_norm": 0.0002245338400825858,
      "learning_rate": 0.2702068661891984,
      "loss": 0.3591,
      "num_input_tokens_seen": 7580144,
      "step": 8165
    },
    {
      "epoch": 3.851956624233852,
      "grad_norm": 0.0003021625161636621,
      "learning_rate": 0.2701716225790647,
      "loss": 0.3455,
      "num_input_tokens_seen": 7584080,
      "step": 8170
    },
    {
      "epoch": 3.854314002828854,
      "grad_norm": 0.00018384224676992744,
      "learning_rate": 0.27013636043695655,
      "loss": 0.331,
      "num_input_tokens_seen": 7587776,
      "step": 8175
    },
    {
      "epoch": 3.8566713814238565,
      "grad_norm": 0.0008327392279170454,
      "learning_rate": 0.27010107976831194,
      "loss": 0.3392,
      "num_input_tokens_seen": 7592736,
      "step": 8180
    },
    {
      "epoch": 3.859028760018859,
      "grad_norm": 0.0007449529366567731,
      "learning_rate": 0.2700657805785715,
      "loss": 0.3392,
      "num_input_tokens_seen": 7597328,
      "step": 8185
    },
    {
      "epoch": 3.8613861386138613,
      "grad_norm": 0.0003898128925357014,
      "learning_rate": 0.2700304628731789,
      "loss": 0.3298,
      "num_input_tokens_seen": 7601488,
      "step": 8190
    },
    {
      "epoch": 3.8637435172088637,
      "grad_norm": 0.00027371637406758964,
      "learning_rate": 0.26999512665758046,
      "loss": 0.3372,
      "num_input_tokens_seen": 7606832,
      "step": 8195
    },
    {
      "epoch": 3.866100895803866,
      "grad_norm": 0.0002493864740245044,
      "learning_rate": 0.2699597719372256,
      "loss": 0.3473,
      "num_input_tokens_seen": 7611184,
      "step": 8200
    },
    {
      "epoch": 3.866100895803866,
      "eval_loss": 0.32907000184059143,
      "eval_runtime": 33.5035,
      "eval_samples_per_second": 28.146,
      "eval_steps_per_second": 14.088,
      "num_input_tokens_seen": 7611184,
      "step": 8200
    },
    {
      "epoch": 3.8684582743988685,
      "grad_norm": 0.000280821172054857,
      "learning_rate": 0.26992439871756635,
      "loss": 0.3436,
      "num_input_tokens_seen": 7615760,
      "step": 8205
    },
    {
      "epoch": 3.870815652993871,
      "grad_norm": 0.0007714686798863113,
      "learning_rate": 0.2698890070040578,
      "loss": 0.3411,
      "num_input_tokens_seen": 7620384,
      "step": 8210
    },
    {
      "epoch": 3.8731730315888733,
      "grad_norm": 0.0008465374121442437,
      "learning_rate": 0.2698535968021577,
      "loss": 0.3205,
      "num_input_tokens_seen": 7624480,
      "step": 8215
    },
    {
      "epoch": 3.8755304101838757,
      "grad_norm": 0.0002680537581909448,
      "learning_rate": 0.26981816811732684,
      "loss": 0.3456,
      "num_input_tokens_seen": 7628944,
      "step": 8220
    },
    {
      "epoch": 3.877887788778878,
      "grad_norm": 0.0002947988687083125,
      "learning_rate": 0.26978272095502875,
      "loss": 0.3368,
      "num_input_tokens_seen": 7633408,
      "step": 8225
    },
    {
      "epoch": 3.8802451673738805,
      "grad_norm": 0.0003098547167610377,
      "learning_rate": 0.26974725532072974,
      "loss": 0.3594,
      "num_input_tokens_seen": 7638560,
      "step": 8230
    },
    {
      "epoch": 3.882602545968883,
      "grad_norm": 0.0002755983150564134,
      "learning_rate": 0.26971177121989914,
      "loss": 0.3275,
      "num_input_tokens_seen": 7644256,
      "step": 8235
    },
    {
      "epoch": 3.884959924563885,
      "grad_norm": 0.00031987277907319367,
      "learning_rate": 0.2696762686580091,
      "loss": 0.3286,
      "num_input_tokens_seen": 7649456,
      "step": 8240
    },
    {
      "epoch": 3.8873173031588872,
      "grad_norm": 0.00031057713204063475,
      "learning_rate": 0.26964074764053436,
      "loss": 0.2934,
      "num_input_tokens_seen": 7654704,
      "step": 8245
    },
    {
      "epoch": 3.8896746817538896,
      "grad_norm": 0.001066414755769074,
      "learning_rate": 0.2696052081729529,
      "loss": 0.3663,
      "num_input_tokens_seen": 7659632,
      "step": 8250
    },
    {
      "epoch": 3.892032060348892,
      "grad_norm": 0.0010115065379068255,
      "learning_rate": 0.2695696502607453,
      "loss": 0.3368,
      "num_input_tokens_seen": 7665888,
      "step": 8255
    },
    {
      "epoch": 3.8943894389438944,
      "grad_norm": 0.00042789275175891817,
      "learning_rate": 0.26953407390939504,
      "loss": 0.3556,
      "num_input_tokens_seen": 7671104,
      "step": 8260
    },
    {
      "epoch": 3.896746817538897,
      "grad_norm": 0.0009394038934260607,
      "learning_rate": 0.26949847912438835,
      "loss": 0.3326,
      "num_input_tokens_seen": 7677280,
      "step": 8265
    },
    {
      "epoch": 3.8991041961338992,
      "grad_norm": 0.00035107930307276547,
      "learning_rate": 0.26946286591121454,
      "loss": 0.3004,
      "num_input_tokens_seen": 7681792,
      "step": 8270
    },
    {
      "epoch": 3.901461574728901,
      "grad_norm": 0.00043985634692944586,
      "learning_rate": 0.2694272342753655,
      "loss": 0.3701,
      "num_input_tokens_seen": 7686752,
      "step": 8275
    },
    {
      "epoch": 3.9038189533239036,
      "grad_norm": 0.00037314597284421325,
      "learning_rate": 0.26939158422233617,
      "loss": 0.3456,
      "num_input_tokens_seen": 7691360,
      "step": 8280
    },
    {
      "epoch": 3.906176331918906,
      "grad_norm": 0.000988546060398221,
      "learning_rate": 0.26935591575762413,
      "loss": 0.3206,
      "num_input_tokens_seen": 7695744,
      "step": 8285
    },
    {
      "epoch": 3.9085337105139084,
      "grad_norm": 0.00039223552448675036,
      "learning_rate": 0.26932022888672996,
      "loss": 0.322,
      "num_input_tokens_seen": 7700480,
      "step": 8290
    },
    {
      "epoch": 3.910891089108911,
      "grad_norm": 0.0009420368587598205,
      "learning_rate": 0.26928452361515703,
      "loss": 0.3791,
      "num_input_tokens_seen": 7705664,
      "step": 8295
    },
    {
      "epoch": 3.913248467703913,
      "grad_norm": 0.00040919712046161294,
      "learning_rate": 0.26924879994841155,
      "loss": 0.3572,
      "num_input_tokens_seen": 7709568,
      "step": 8300
    },
    {
      "epoch": 3.9156058462989156,
      "grad_norm": 0.00044829328544437885,
      "learning_rate": 0.2692130578920025,
      "loss": 0.3399,
      "num_input_tokens_seen": 7713664,
      "step": 8305
    },
    {
      "epoch": 3.917963224893918,
      "grad_norm": 0.001098559470847249,
      "learning_rate": 0.26917729745144187,
      "loss": 0.3395,
      "num_input_tokens_seen": 7717856,
      "step": 8310
    },
    {
      "epoch": 3.9203206034889204,
      "grad_norm": 0.00040623644599691033,
      "learning_rate": 0.2691415186322443,
      "loss": 0.3071,
      "num_input_tokens_seen": 7723152,
      "step": 8315
    },
    {
      "epoch": 3.922677982083923,
      "grad_norm": 0.0002957569668069482,
      "learning_rate": 0.2691057214399273,
      "loss": 0.306,
      "num_input_tokens_seen": 7726896,
      "step": 8320
    },
    {
      "epoch": 3.9250353606789252,
      "grad_norm": 0.0002748729311861098,
      "learning_rate": 0.2690699058800113,
      "loss": 0.3665,
      "num_input_tokens_seen": 7731568,
      "step": 8325
    },
    {
      "epoch": 3.9273927392739276,
      "grad_norm": 0.00039355893386527896,
      "learning_rate": 0.2690340719580194,
      "loss": 0.3015,
      "num_input_tokens_seen": 7735248,
      "step": 8330
    },
    {
      "epoch": 3.92975011786893,
      "grad_norm": 0.001552291796542704,
      "learning_rate": 0.2689982196794778,
      "loss": 0.3606,
      "num_input_tokens_seen": 7739936,
      "step": 8335
    },
    {
      "epoch": 3.932107496463932,
      "grad_norm": 0.0003050668747164309,
      "learning_rate": 0.2689623490499153,
      "loss": 0.275,
      "num_input_tokens_seen": 7744016,
      "step": 8340
    },
    {
      "epoch": 3.9344648750589344,
      "grad_norm": 0.0004886484239250422,
      "learning_rate": 0.2689264600748636,
      "loss": 0.2961,
      "num_input_tokens_seen": 7748496,
      "step": 8345
    },
    {
      "epoch": 3.936822253653937,
      "grad_norm": 0.0001848732790676877,
      "learning_rate": 0.26889055275985724,
      "loss": 0.2481,
      "num_input_tokens_seen": 7752784,
      "step": 8350
    },
    {
      "epoch": 3.939179632248939,
      "grad_norm": 0.0002704726066440344,
      "learning_rate": 0.2688546271104335,
      "loss": 0.3123,
      "num_input_tokens_seen": 7757760,
      "step": 8355
    },
    {
      "epoch": 3.9415370108439416,
      "grad_norm": 0.0006403755396604538,
      "learning_rate": 0.26881868313213275,
      "loss": 0.3589,
      "num_input_tokens_seen": 7761920,
      "step": 8360
    },
    {
      "epoch": 3.943894389438944,
      "grad_norm": 0.0011134938104078174,
      "learning_rate": 0.2687827208304978,
      "loss": 0.378,
      "num_input_tokens_seen": 7766416,
      "step": 8365
    },
    {
      "epoch": 3.9462517680339464,
      "grad_norm": 0.00018771798931993544,
      "learning_rate": 0.26874674021107464,
      "loss": 0.3276,
      "num_input_tokens_seen": 7770432,
      "step": 8370
    },
    {
      "epoch": 3.9486091466289484,
      "grad_norm": 0.00037684477865695953,
      "learning_rate": 0.2687107412794118,
      "loss": 0.3335,
      "num_input_tokens_seen": 7775696,
      "step": 8375
    },
    {
      "epoch": 3.9509665252239508,
      "grad_norm": 0.00030874391086399555,
      "learning_rate": 0.26867472404106096,
      "loss": 0.3457,
      "num_input_tokens_seen": 7780032,
      "step": 8380
    },
    {
      "epoch": 3.953323903818953,
      "grad_norm": 0.0003306962316855788,
      "learning_rate": 0.26863868850157624,
      "loss": 0.3099,
      "num_input_tokens_seen": 7784160,
      "step": 8385
    },
    {
      "epoch": 3.9556812824139556,
      "grad_norm": 0.00026025064289569855,
      "learning_rate": 0.26860263466651485,
      "loss": 0.3417,
      "num_input_tokens_seen": 7788448,
      "step": 8390
    },
    {
      "epoch": 3.958038661008958,
      "grad_norm": 0.0008114713127724826,
      "learning_rate": 0.26856656254143674,
      "loss": 0.3409,
      "num_input_tokens_seen": 7792112,
      "step": 8395
    },
    {
      "epoch": 3.9603960396039604,
      "grad_norm": 0.0007936967886053026,
      "learning_rate": 0.2685304721319047,
      "loss": 0.3928,
      "num_input_tokens_seen": 7796112,
      "step": 8400
    },
    {
      "epoch": 3.9603960396039604,
      "eval_loss": 0.33529940247535706,
      "eval_runtime": 33.4536,
      "eval_samples_per_second": 28.188,
      "eval_steps_per_second": 14.109,
      "num_input_tokens_seen": 7796112,
      "step": 8400
    },
    {
      "epoch": 3.9627534181989628,
      "grad_norm": 0.0011105724843218923,
      "learning_rate": 0.2684943634434843,
      "loss": 0.3231,
      "num_input_tokens_seen": 7801616,
      "step": 8405
    },
    {
      "epoch": 3.965110796793965,
      "grad_norm": 0.0004593806224875152,
      "learning_rate": 0.268458236481744,
      "loss": 0.3434,
      "num_input_tokens_seen": 7806736,
      "step": 8410
    },
    {
      "epoch": 3.9674681753889676,
      "grad_norm": 0.0003769592149183154,
      "learning_rate": 0.2684220912522549,
      "loss": 0.3332,
      "num_input_tokens_seen": 7811008,
      "step": 8415
    },
    {
      "epoch": 3.96982555398397,
      "grad_norm": 0.00041828403482213616,
      "learning_rate": 0.2683859277605913,
      "loss": 0.3257,
      "num_input_tokens_seen": 7815296,
      "step": 8420
    },
    {
      "epoch": 3.9721829325789724,
      "grad_norm": 0.00033403519773855805,
      "learning_rate": 0.2683497460123298,
      "loss": 0.2992,
      "num_input_tokens_seen": 7820832,
      "step": 8425
    },
    {
      "epoch": 3.9745403111739748,
      "grad_norm": 0.0003559388860594481,
      "learning_rate": 0.26831354601305013,
      "loss": 0.3031,
      "num_input_tokens_seen": 7824864,
      "step": 8430
    },
    {
      "epoch": 3.976897689768977,
      "grad_norm": 0.0007266617030836642,
      "learning_rate": 0.26827732776833496,
      "loss": 0.2896,
      "num_input_tokens_seen": 7829440,
      "step": 8435
    },
    {
      "epoch": 3.979255068363979,
      "grad_norm": 0.0004655473167076707,
      "learning_rate": 0.26824109128376944,
      "loss": 0.4007,
      "num_input_tokens_seen": 7834512,
      "step": 8440
    },
    {
      "epoch": 3.9816124469589815,
      "grad_norm": 0.0007592840702272952,
      "learning_rate": 0.2682048365649417,
      "loss": 0.3255,
      "num_input_tokens_seen": 7838928,
      "step": 8445
    },
    {
      "epoch": 3.983969825553984,
      "grad_norm": 0.00037266442086547613,
      "learning_rate": 0.2681685636174428,
      "loss": 0.3557,
      "num_input_tokens_seen": 7844032,
      "step": 8450
    },
    {
      "epoch": 3.9863272041489863,
      "grad_norm": 0.0007997420034371316,
      "learning_rate": 0.2681322724468663,
      "loss": 0.3812,
      "num_input_tokens_seen": 7848176,
      "step": 8455
    },
    {
      "epoch": 3.9886845827439887,
      "grad_norm": 0.00027893640799447894,
      "learning_rate": 0.2680959630588089,
      "loss": 0.3185,
      "num_input_tokens_seen": 7852528,
      "step": 8460
    },
    {
      "epoch": 3.991041961338991,
      "grad_norm": 0.00043557133176364005,
      "learning_rate": 0.26805963545886985,
      "loss": 0.3251,
      "num_input_tokens_seen": 7858704,
      "step": 8465
    },
    {
      "epoch": 3.9933993399339935,
      "grad_norm": 0.0002883334818761796,
      "learning_rate": 0.26802328965265143,
      "loss": 0.3518,
      "num_input_tokens_seen": 7862592,
      "step": 8470
    },
    {
      "epoch": 3.9957567185289955,
      "grad_norm": 0.0004111873859073967,
      "learning_rate": 0.26798692564575854,
      "loss": 0.3398,
      "num_input_tokens_seen": 7866976,
      "step": 8475
    },
    {
      "epoch": 3.998114097123998,
      "grad_norm": 0.00034767165197990835,
      "learning_rate": 0.26795054344379904,
      "loss": 0.3496,
      "num_input_tokens_seen": 7871616,
      "step": 8480
    },
    {
      "epoch": 4.000471475719,
      "grad_norm": 0.00021401894628070295,
      "learning_rate": 0.2679141430523835,
      "loss": 0.3333,
      "num_input_tokens_seen": 7875264,
      "step": 8485
    },
    {
      "epoch": 4.002828854314003,
      "grad_norm": 0.00039544401806779206,
      "learning_rate": 0.2678777244771252,
      "loss": 0.3176,
      "num_input_tokens_seen": 7879728,
      "step": 8490
    },
    {
      "epoch": 4.005186232909005,
      "grad_norm": 0.0002929831389337778,
      "learning_rate": 0.2678412877236405,
      "loss": 0.3413,
      "num_input_tokens_seen": 7883856,
      "step": 8495
    },
    {
      "epoch": 4.0075436115040075,
      "grad_norm": 0.0002921987324953079,
      "learning_rate": 0.2678048327975484,
      "loss": 0.3072,
      "num_input_tokens_seen": 7888272,
      "step": 8500
    },
    {
      "epoch": 4.00990099009901,
      "grad_norm": 0.0008057438535615802,
      "learning_rate": 0.2677683597044706,
      "loss": 0.2899,
      "num_input_tokens_seen": 7893088,
      "step": 8505
    },
    {
      "epoch": 4.012258368694012,
      "grad_norm": 0.0005252835690043867,
      "learning_rate": 0.2677318684500318,
      "loss": 0.2869,
      "num_input_tokens_seen": 7897696,
      "step": 8510
    },
    {
      "epoch": 4.014615747289015,
      "grad_norm": 0.0010577572975307703,
      "learning_rate": 0.2676953590398593,
      "loss": 0.4676,
      "num_input_tokens_seen": 7901984,
      "step": 8515
    },
    {
      "epoch": 4.016973125884017,
      "grad_norm": 0.0003410234348848462,
      "learning_rate": 0.2676588314795834,
      "loss": 0.315,
      "num_input_tokens_seen": 7906384,
      "step": 8520
    },
    {
      "epoch": 4.0193305044790195,
      "grad_norm": 0.0003885889600496739,
      "learning_rate": 0.26762228577483715,
      "loss": 0.3143,
      "num_input_tokens_seen": 7910592,
      "step": 8525
    },
    {
      "epoch": 4.021687883074022,
      "grad_norm": 0.00033035376691259444,
      "learning_rate": 0.2675857219312563,
      "loss": 0.3053,
      "num_input_tokens_seen": 7914560,
      "step": 8530
    },
    {
      "epoch": 4.024045261669024,
      "grad_norm": 0.0003896326234098524,
      "learning_rate": 0.2675491399544794,
      "loss": 0.3528,
      "num_input_tokens_seen": 7919424,
      "step": 8535
    },
    {
      "epoch": 4.026402640264027,
      "grad_norm": 0.0003409609489608556,
      "learning_rate": 0.2675125398501479,
      "loss": 0.3515,
      "num_input_tokens_seen": 7923664,
      "step": 8540
    },
    {
      "epoch": 4.028760018859029,
      "grad_norm": 0.0008135039824992418,
      "learning_rate": 0.26747592162390604,
      "loss": 0.2644,
      "num_input_tokens_seen": 7927888,
      "step": 8545
    },
    {
      "epoch": 4.0311173974540315,
      "grad_norm": 0.00043334547081030905,
      "learning_rate": 0.26743928528140076,
      "loss": 0.2941,
      "num_input_tokens_seen": 7933408,
      "step": 8550
    },
    {
      "epoch": 4.033474776049033,
      "grad_norm": 0.00016896896704565734,
      "learning_rate": 0.26740263082828186,
      "loss": 0.2996,
      "num_input_tokens_seen": 7937664,
      "step": 8555
    },
    {
      "epoch": 4.035832154644035,
      "grad_norm": 0.0011162321316078305,
      "learning_rate": 0.2673659582702019,
      "loss": 0.3721,
      "num_input_tokens_seen": 7942544,
      "step": 8560
    },
    {
      "epoch": 4.038189533239038,
      "grad_norm": 0.0010078178020194173,
      "learning_rate": 0.2673292676128163,
      "loss": 0.4426,
      "num_input_tokens_seen": 7947008,
      "step": 8565
    },
    {
      "epoch": 4.04054691183404,
      "grad_norm": 0.00079910340718925,
      "learning_rate": 0.2672925588617831,
      "loss": 0.4046,
      "num_input_tokens_seen": 7952032,
      "step": 8570
    },
    {
      "epoch": 4.042904290429043,
      "grad_norm": 0.0006765066646039486,
      "learning_rate": 0.2672558320227634,
      "loss": 0.3427,
      "num_input_tokens_seen": 7956832,
      "step": 8575
    },
    {
      "epoch": 4.045261669024045,
      "grad_norm": 0.0005927084130235016,
      "learning_rate": 0.2672190871014209,
      "loss": 0.3489,
      "num_input_tokens_seen": 7961104,
      "step": 8580
    },
    {
      "epoch": 4.0476190476190474,
      "grad_norm": 0.0005683728959411383,
      "learning_rate": 0.267182324103422,
      "loss": 0.3491,
      "num_input_tokens_seen": 7966432,
      "step": 8585
    },
    {
      "epoch": 4.04997642621405,
      "grad_norm": 0.00027704352396540344,
      "learning_rate": 0.2671455430344362,
      "loss": 0.3492,
      "num_input_tokens_seen": 7970352,
      "step": 8590
    },
    {
      "epoch": 4.052333804809052,
      "grad_norm": 0.00047339205048047006,
      "learning_rate": 0.2671087439001355,
      "loss": 0.3421,
      "num_input_tokens_seen": 7974976,
      "step": 8595
    },
    {
      "epoch": 4.054691183404055,
      "grad_norm": 0.00015832082135602832,
      "learning_rate": 0.2670719267061948,
      "loss": 0.3407,
      "num_input_tokens_seen": 7979520,
      "step": 8600
    },
    {
      "epoch": 4.054691183404055,
      "eval_loss": 0.3320295512676239,
      "eval_runtime": 33.4,
      "eval_samples_per_second": 28.234,
      "eval_steps_per_second": 14.132,
      "num_input_tokens_seen": 7979520,
      "step": 8600
    },
    {
      "epoch": 4.057048561999057,
      "grad_norm": 0.00027476210379973054,
      "learning_rate": 0.2670350914582918,
      "loss": 0.3025,
      "num_input_tokens_seen": 7984576,
      "step": 8605
    },
    {
      "epoch": 4.0594059405940595,
      "grad_norm": 0.0008870868477970362,
      "learning_rate": 0.26699823816210694,
      "loss": 0.3233,
      "num_input_tokens_seen": 7988960,
      "step": 8610
    },
    {
      "epoch": 4.061763319189062,
      "grad_norm": 0.00019628358131740242,
      "learning_rate": 0.26696136682332344,
      "loss": 0.3382,
      "num_input_tokens_seen": 7993360,
      "step": 8615
    },
    {
      "epoch": 4.064120697784064,
      "grad_norm": 0.0009085009805858135,
      "learning_rate": 0.2669244774476274,
      "loss": 0.3048,
      "num_input_tokens_seen": 7998240,
      "step": 8620
    },
    {
      "epoch": 4.066478076379067,
      "grad_norm": 0.0006604105583392084,
      "learning_rate": 0.2668875700407075,
      "loss": 0.3449,
      "num_input_tokens_seen": 8003408,
      "step": 8625
    },
    {
      "epoch": 4.068835454974069,
      "grad_norm": 0.0002461062977090478,
      "learning_rate": 0.26685064460825547,
      "loss": 0.3442,
      "num_input_tokens_seen": 8007680,
      "step": 8630
    },
    {
      "epoch": 4.0711928335690715,
      "grad_norm": 0.0002797246852423996,
      "learning_rate": 0.26681370115596553,
      "loss": 0.3404,
      "num_input_tokens_seen": 8012064,
      "step": 8635
    },
    {
      "epoch": 4.073550212164074,
      "grad_norm": 0.0007659008260816336,
      "learning_rate": 0.26677673968953497,
      "loss": 0.2911,
      "num_input_tokens_seen": 8016944,
      "step": 8640
    },
    {
      "epoch": 4.075907590759076,
      "grad_norm": 0.00023981058620847762,
      "learning_rate": 0.2667397602146636,
      "loss": 0.2697,
      "num_input_tokens_seen": 8021248,
      "step": 8645
    },
    {
      "epoch": 4.078264969354079,
      "grad_norm": 0.0009442050359211862,
      "learning_rate": 0.2667027627370542,
      "loss": 0.3529,
      "num_input_tokens_seen": 8026320,
      "step": 8650
    },
    {
      "epoch": 4.08062234794908,
      "grad_norm": 0.0001254876988241449,
      "learning_rate": 0.26666574726241216,
      "loss": 0.3025,
      "num_input_tokens_seen": 8031216,
      "step": 8655
    },
    {
      "epoch": 4.082979726544083,
      "grad_norm": 0.00022952778090257198,
      "learning_rate": 0.2666287137964458,
      "loss": 0.2959,
      "num_input_tokens_seen": 8035328,
      "step": 8660
    },
    {
      "epoch": 4.085337105139085,
      "grad_norm": 0.00013813232362736017,
      "learning_rate": 0.26659166234486614,
      "loss": 0.3481,
      "num_input_tokens_seen": 8039824,
      "step": 8665
    },
    {
      "epoch": 4.087694483734087,
      "grad_norm": 0.0003930059028789401,
      "learning_rate": 0.2665545929133869,
      "loss": 0.3662,
      "num_input_tokens_seen": 8044608,
      "step": 8670
    },
    {
      "epoch": 4.09005186232909,
      "grad_norm": 0.00021665840176865458,
      "learning_rate": 0.2665175055077248,
      "loss": 0.2941,
      "num_input_tokens_seen": 8048464,
      "step": 8675
    },
    {
      "epoch": 4.092409240924092,
      "grad_norm": 0.0003121077024843544,
      "learning_rate": 0.2664804001335991,
      "loss": 0.3663,
      "num_input_tokens_seen": 8053584,
      "step": 8680
    },
    {
      "epoch": 4.094766619519095,
      "grad_norm": 0.00031045987270772457,
      "learning_rate": 0.26644327679673185,
      "loss": 0.2975,
      "num_input_tokens_seen": 8057792,
      "step": 8685
    },
    {
      "epoch": 4.097123998114097,
      "grad_norm": 0.000270870077656582,
      "learning_rate": 0.26640613550284803,
      "loss": 0.3479,
      "num_input_tokens_seen": 8062720,
      "step": 8690
    },
    {
      "epoch": 4.099481376709099,
      "grad_norm": 0.000736969814170152,
      "learning_rate": 0.26636897625767525,
      "loss": 0.3587,
      "num_input_tokens_seen": 8067952,
      "step": 8695
    },
    {
      "epoch": 4.101838755304102,
      "grad_norm": 0.00022754509700462222,
      "learning_rate": 0.266331799066944,
      "loss": 0.3367,
      "num_input_tokens_seen": 8074064,
      "step": 8700
    },
    {
      "epoch": 4.104196133899104,
      "grad_norm": 0.0008974855300039053,
      "learning_rate": 0.2662946039363874,
      "loss": 0.3158,
      "num_input_tokens_seen": 8078224,
      "step": 8705
    },
    {
      "epoch": 4.106553512494107,
      "grad_norm": 0.00023176199465524405,
      "learning_rate": 0.2662573908717414,
      "loss": 0.3433,
      "num_input_tokens_seen": 8082352,
      "step": 8710
    },
    {
      "epoch": 4.108910891089109,
      "grad_norm": 0.00037268490996211767,
      "learning_rate": 0.2662201598787447,
      "loss": 0.3294,
      "num_input_tokens_seen": 8086480,
      "step": 8715
    },
    {
      "epoch": 4.111268269684111,
      "grad_norm": 0.000880037376191467,
      "learning_rate": 0.2661829109631389,
      "loss": 0.3375,
      "num_input_tokens_seen": 8090656,
      "step": 8720
    },
    {
      "epoch": 4.113625648279114,
      "grad_norm": 0.000816187122836709,
      "learning_rate": 0.26614564413066816,
      "loss": 0.3154,
      "num_input_tokens_seen": 8096096,
      "step": 8725
    },
    {
      "epoch": 4.115983026874116,
      "grad_norm": 0.000380623183446005,
      "learning_rate": 0.2661083593870795,
      "loss": 0.3403,
      "num_input_tokens_seen": 8101184,
      "step": 8730
    },
    {
      "epoch": 4.118340405469119,
      "grad_norm": 0.0007662253337912261,
      "learning_rate": 0.26607105673812276,
      "loss": 0.3375,
      "num_input_tokens_seen": 8106352,
      "step": 8735
    },
    {
      "epoch": 4.120697784064121,
      "grad_norm": 0.0008181614684872329,
      "learning_rate": 0.2660337361895504,
      "loss": 0.3233,
      "num_input_tokens_seen": 8111840,
      "step": 8740
    },
    {
      "epoch": 4.123055162659123,
      "grad_norm": 0.0002991316723637283,
      "learning_rate": 0.26599639774711775,
      "loss": 0.3473,
      "num_input_tokens_seen": 8116512,
      "step": 8745
    },
    {
      "epoch": 4.125412541254126,
      "grad_norm": 0.0002239876048406586,
      "learning_rate": 0.2659590414165829,
      "loss": 0.3013,
      "num_input_tokens_seen": 8122304,
      "step": 8750
    },
    {
      "epoch": 4.127769919849127,
      "grad_norm": 0.0003590598062146455,
      "learning_rate": 0.2659216672037066,
      "loss": 0.3,
      "num_input_tokens_seen": 8126352,
      "step": 8755
    },
    {
      "epoch": 4.13012729844413,
      "grad_norm": 0.00032083565020002425,
      "learning_rate": 0.26588427511425244,
      "loss": 0.3926,
      "num_input_tokens_seen": 8130400,
      "step": 8760
    },
    {
      "epoch": 4.132484677039132,
      "grad_norm": 0.0003891018277499825,
      "learning_rate": 0.26584686515398676,
      "loss": 0.3175,
      "num_input_tokens_seen": 8134992,
      "step": 8765
    },
    {
      "epoch": 4.1348420556341345,
      "grad_norm": 0.0009614070877432823,
      "learning_rate": 0.2658094373286787,
      "loss": 0.3514,
      "num_input_tokens_seen": 8139600,
      "step": 8770
    },
    {
      "epoch": 4.137199434229137,
      "grad_norm": 0.0002496167435310781,
      "learning_rate": 0.2657719916441,
      "loss": 0.3583,
      "num_input_tokens_seen": 8145104,
      "step": 8775
    },
    {
      "epoch": 4.139556812824139,
      "grad_norm": 0.0007934444583952427,
      "learning_rate": 0.2657345281060253,
      "loss": 0.3394,
      "num_input_tokens_seen": 8148832,
      "step": 8780
    },
    {
      "epoch": 4.141914191419142,
      "grad_norm": 0.0012122327461838722,
      "learning_rate": 0.26569704672023203,
      "loss": 0.3401,
      "num_input_tokens_seen": 8153472,
      "step": 8785
    },
    {
      "epoch": 4.144271570014144,
      "grad_norm": 0.0004203508433420211,
      "learning_rate": 0.26565954749250015,
      "loss": 0.2987,
      "num_input_tokens_seen": 8158400,
      "step": 8790
    },
    {
      "epoch": 4.1466289486091465,
      "grad_norm": 0.0008916034130379558,
      "learning_rate": 0.2656220304286126,
      "loss": 0.3709,
      "num_input_tokens_seen": 8163328,
      "step": 8795
    },
    {
      "epoch": 4.148986327204149,
      "grad_norm": 0.0008573171799071133,
      "learning_rate": 0.265584495534355,
      "loss": 0.3312,
      "num_input_tokens_seen": 8167776,
      "step": 8800
    },
    {
      "epoch": 4.148986327204149,
      "eval_loss": 0.32790064811706543,
      "eval_runtime": 33.4461,
      "eval_samples_per_second": 28.195,
      "eval_steps_per_second": 14.112,
      "num_input_tokens_seen": 8167776,
      "step": 8800
    },
    {
      "epoch": 4.151343705799151,
      "grad_norm": 0.0002890779869630933,
      "learning_rate": 0.2655469428155156,
      "loss": 0.307,
      "num_input_tokens_seen": 8172016,
      "step": 8805
    },
    {
      "epoch": 4.153701084394154,
      "grad_norm": 0.00037616441841237247,
      "learning_rate": 0.2655093722778856,
      "loss": 0.3081,
      "num_input_tokens_seen": 8176656,
      "step": 8810
    },
    {
      "epoch": 4.156058462989156,
      "grad_norm": 0.0002526803291402757,
      "learning_rate": 0.2654717839272588,
      "loss": 0.3553,
      "num_input_tokens_seen": 8181184,
      "step": 8815
    },
    {
      "epoch": 4.158415841584159,
      "grad_norm": 0.0009790100157260895,
      "learning_rate": 0.2654341777694318,
      "loss": 0.374,
      "num_input_tokens_seen": 8184688,
      "step": 8820
    },
    {
      "epoch": 4.160773220179161,
      "grad_norm": 0.00034856758429668844,
      "learning_rate": 0.265396553810204,
      "loss": 0.3335,
      "num_input_tokens_seen": 8188816,
      "step": 8825
    },
    {
      "epoch": 4.163130598774163,
      "grad_norm": 0.0008516287198290229,
      "learning_rate": 0.26535891205537737,
      "loss": 0.3073,
      "num_input_tokens_seen": 8194368,
      "step": 8830
    },
    {
      "epoch": 4.165487977369166,
      "grad_norm": 0.0003235660551581532,
      "learning_rate": 0.26532125251075683,
      "loss": 0.3407,
      "num_input_tokens_seen": 8198896,
      "step": 8835
    },
    {
      "epoch": 4.167845355964168,
      "grad_norm": 0.00033550008083693683,
      "learning_rate": 0.26528357518214996,
      "loss": 0.3282,
      "num_input_tokens_seen": 8203840,
      "step": 8840
    },
    {
      "epoch": 4.170202734559171,
      "grad_norm": 0.0003316717338748276,
      "learning_rate": 0.26524588007536704,
      "loss": 0.3504,
      "num_input_tokens_seen": 8208592,
      "step": 8845
    },
    {
      "epoch": 4.172560113154173,
      "grad_norm": 0.0008167715859599411,
      "learning_rate": 0.26520816719622115,
      "loss": 0.3171,
      "num_input_tokens_seen": 8212672,
      "step": 8850
    },
    {
      "epoch": 4.174917491749175,
      "grad_norm": 0.00038665931788273156,
      "learning_rate": 0.2651704365505281,
      "loss": 0.3147,
      "num_input_tokens_seen": 8217536,
      "step": 8855
    },
    {
      "epoch": 4.177274870344177,
      "grad_norm": 0.0008818241185508668,
      "learning_rate": 0.26513268814410634,
      "loss": 0.3535,
      "num_input_tokens_seen": 8221904,
      "step": 8860
    },
    {
      "epoch": 4.179632248939179,
      "grad_norm": 0.00030639010947197676,
      "learning_rate": 0.2650949219827773,
      "loss": 0.3954,
      "num_input_tokens_seen": 8226736,
      "step": 8865
    },
    {
      "epoch": 4.181989627534182,
      "grad_norm": 0.0007561382954008877,
      "learning_rate": 0.26505713807236486,
      "loss": 0.3175,
      "num_input_tokens_seen": 8231008,
      "step": 8870
    },
    {
      "epoch": 4.184347006129184,
      "grad_norm": 0.0003287573345005512,
      "learning_rate": 0.26501933641869585,
      "loss": 0.3176,
      "num_input_tokens_seen": 8235824,
      "step": 8875
    },
    {
      "epoch": 4.1867043847241865,
      "grad_norm": 0.0002945988089777529,
      "learning_rate": 0.26498151702759976,
      "loss": 0.3285,
      "num_input_tokens_seen": 8240544,
      "step": 8880
    },
    {
      "epoch": 4.189061763319189,
      "grad_norm": 0.00031021665199659765,
      "learning_rate": 0.2649436799049088,
      "loss": 0.3063,
      "num_input_tokens_seen": 8244800,
      "step": 8885
    },
    {
      "epoch": 4.191419141914191,
      "grad_norm": 0.00031292939092963934,
      "learning_rate": 0.2649058250564579,
      "loss": 0.3287,
      "num_input_tokens_seen": 8249584,
      "step": 8890
    },
    {
      "epoch": 4.193776520509194,
      "grad_norm": 0.0003425607574172318,
      "learning_rate": 0.26486795248808476,
      "loss": 0.3911,
      "num_input_tokens_seen": 8255072,
      "step": 8895
    },
    {
      "epoch": 4.196133899104196,
      "grad_norm": 0.0007226981106214225,
      "learning_rate": 0.2648300622056298,
      "loss": 0.3494,
      "num_input_tokens_seen": 8260160,
      "step": 8900
    },
    {
      "epoch": 4.1984912776991985,
      "grad_norm": 0.0004733558453153819,
      "learning_rate": 0.2647921542149363,
      "loss": 0.3604,
      "num_input_tokens_seen": 8264880,
      "step": 8905
    },
    {
      "epoch": 4.200848656294201,
      "grad_norm": 0.0005235751159489155,
      "learning_rate": 0.26475422852185,
      "loss": 0.3423,
      "num_input_tokens_seen": 8269040,
      "step": 8910
    },
    {
      "epoch": 4.203206034889203,
      "grad_norm": 0.00013282410509418696,
      "learning_rate": 0.2647162851322196,
      "loss": 0.3434,
      "num_input_tokens_seen": 8274160,
      "step": 8915
    },
    {
      "epoch": 4.205563413484206,
      "grad_norm": 0.0006287080468609929,
      "learning_rate": 0.2646783240518964,
      "loss": 0.3588,
      "num_input_tokens_seen": 8278304,
      "step": 8920
    },
    {
      "epoch": 4.207920792079208,
      "grad_norm": 0.00015361967962235212,
      "learning_rate": 0.26464034528673447,
      "loss": 0.3358,
      "num_input_tokens_seen": 8283792,
      "step": 8925
    },
    {
      "epoch": 4.2102781706742105,
      "grad_norm": 0.0005677893059328198,
      "learning_rate": 0.26460234884259065,
      "loss": 0.332,
      "num_input_tokens_seen": 8289296,
      "step": 8930
    },
    {
      "epoch": 4.212635549269213,
      "grad_norm": 0.0002377838536631316,
      "learning_rate": 0.2645643347253245,
      "loss": 0.3164,
      "num_input_tokens_seen": 8293824,
      "step": 8935
    },
    {
      "epoch": 4.214992927864215,
      "grad_norm": 0.0003075591230299324,
      "learning_rate": 0.2645263029407982,
      "loss": 0.3059,
      "num_input_tokens_seen": 8298224,
      "step": 8940
    },
    {
      "epoch": 4.217350306459218,
      "grad_norm": 0.00037032889667898417,
      "learning_rate": 0.2644882534948767,
      "loss": 0.3853,
      "num_input_tokens_seen": 8302288,
      "step": 8945
    },
    {
      "epoch": 4.21970768505422,
      "grad_norm": 0.0008155227405950427,
      "learning_rate": 0.2644501863934278,
      "loss": 0.3351,
      "num_input_tokens_seen": 8307872,
      "step": 8950
    },
    {
      "epoch": 4.222065063649222,
      "grad_norm": 0.0003438177518546581,
      "learning_rate": 0.26441210164232193,
      "loss": 0.3352,
      "num_input_tokens_seen": 8313312,
      "step": 8955
    },
    {
      "epoch": 4.224422442244224,
      "grad_norm": 0.0008173094829544425,
      "learning_rate": 0.26437399924743216,
      "loss": 0.329,
      "num_input_tokens_seen": 8317728,
      "step": 8960
    },
    {
      "epoch": 4.226779820839226,
      "grad_norm": 0.0008307908428832889,
      "learning_rate": 0.26433587921463436,
      "loss": 0.3221,
      "num_input_tokens_seen": 8322176,
      "step": 8965
    },
    {
      "epoch": 4.229137199434229,
      "grad_norm": 0.00034090608824044466,
      "learning_rate": 0.2642977415498072,
      "loss": 0.3273,
      "num_input_tokens_seen": 8327008,
      "step": 8970
    },
    {
      "epoch": 4.231494578029231,
      "grad_norm": 0.00030580427846871316,
      "learning_rate": 0.26425958625883195,
      "loss": 0.3248,
      "num_input_tokens_seen": 8331024,
      "step": 8975
    },
    {
      "epoch": 4.233851956624234,
      "grad_norm": 0.00021408800967037678,
      "learning_rate": 0.2642214133475926,
      "loss": 0.3321,
      "num_input_tokens_seen": 8335504,
      "step": 8980
    },
    {
      "epoch": 4.236209335219236,
      "grad_norm": 0.00020222979946993291,
      "learning_rate": 0.26418322282197587,
      "loss": 0.3033,
      "num_input_tokens_seen": 8340512,
      "step": 8985
    },
    {
      "epoch": 4.238566713814238,
      "grad_norm": 0.0003713041660375893,
      "learning_rate": 0.2641450146878714,
      "loss": 0.3368,
      "num_input_tokens_seen": 8345872,
      "step": 8990
    },
    {
      "epoch": 4.240924092409241,
      "grad_norm": 0.0007358252187259495,
      "learning_rate": 0.26410678895117107,
      "loss": 0.3097,
      "num_input_tokens_seen": 8350816,
      "step": 8995
    },
    {
      "epoch": 4.243281471004243,
      "grad_norm": 0.0007287781918421388,
      "learning_rate": 0.26406854561777,
      "loss": 0.2816,
      "num_input_tokens_seen": 8355856,
      "step": 9000
    },
    {
      "epoch": 4.243281471004243,
      "eval_loss": 0.3279794454574585,
      "eval_runtime": 33.4325,
      "eval_samples_per_second": 28.206,
      "eval_steps_per_second": 14.118,
      "num_input_tokens_seen": 8355856,
      "step": 9000
    },
    {
      "epoch": 4.245638849599246,
      "grad_norm": 0.0003747129230760038,
      "learning_rate": 0.26403028469356576,
      "loss": 0.3807,
      "num_input_tokens_seen": 8360048,
      "step": 9005
    },
    {
      "epoch": 4.247996228194248,
      "grad_norm": 0.00034728762693703175,
      "learning_rate": 0.2639920061844585,
      "loss": 0.3256,
      "num_input_tokens_seen": 8365296,
      "step": 9010
    },
    {
      "epoch": 4.2503536067892504,
      "grad_norm": 0.0007474096491932869,
      "learning_rate": 0.2639537100963515,
      "loss": 0.3403,
      "num_input_tokens_seen": 8369808,
      "step": 9015
    },
    {
      "epoch": 4.252710985384253,
      "grad_norm": 0.0002471014449838549,
      "learning_rate": 0.26391539643515033,
      "loss": 0.3505,
      "num_input_tokens_seen": 8374144,
      "step": 9020
    },
    {
      "epoch": 4.255068363979255,
      "grad_norm": 0.0008346230606548488,
      "learning_rate": 0.26387706520676346,
      "loss": 0.3024,
      "num_input_tokens_seen": 8377856,
      "step": 9025
    },
    {
      "epoch": 4.257425742574258,
      "grad_norm": 0.00030165808857418597,
      "learning_rate": 0.26383871641710205,
      "loss": 0.363,
      "num_input_tokens_seen": 8382160,
      "step": 9030
    },
    {
      "epoch": 4.25978312116926,
      "grad_norm": 0.0003884850302711129,
      "learning_rate": 0.26380035007208,
      "loss": 0.3252,
      "num_input_tokens_seen": 8387248,
      "step": 9035
    },
    {
      "epoch": 4.2621404997642625,
      "grad_norm": 0.00031796490657143295,
      "learning_rate": 0.26376196617761394,
      "loss": 0.348,
      "num_input_tokens_seen": 8391984,
      "step": 9040
    },
    {
      "epoch": 4.264497878359265,
      "grad_norm": 0.00047631494817323983,
      "learning_rate": 0.263723564739623,
      "loss": 0.3385,
      "num_input_tokens_seen": 8396432,
      "step": 9045
    },
    {
      "epoch": 4.266855256954267,
      "grad_norm": 0.0003966515650972724,
      "learning_rate": 0.2636851457640293,
      "loss": 0.3311,
      "num_input_tokens_seen": 8400768,
      "step": 9050
    },
    {
      "epoch": 4.26921263554927,
      "grad_norm": 0.00030888590845279396,
      "learning_rate": 0.26364670925675737,
      "loss": 0.3092,
      "num_input_tokens_seen": 8404688,
      "step": 9055
    },
    {
      "epoch": 4.271570014144271,
      "grad_norm": 0.0003279074444435537,
      "learning_rate": 0.2636082552237347,
      "loss": 0.3333,
      "num_input_tokens_seen": 8410176,
      "step": 9060
    },
    {
      "epoch": 4.273927392739274,
      "grad_norm": 0.00033657875610515475,
      "learning_rate": 0.26356978367089146,
      "loss": 0.3217,
      "num_input_tokens_seen": 8415344,
      "step": 9065
    },
    {
      "epoch": 4.276284771334276,
      "grad_norm": 0.0014799457276239991,
      "learning_rate": 0.26353129460416036,
      "loss": 0.3935,
      "num_input_tokens_seen": 8420320,
      "step": 9070
    },
    {
      "epoch": 4.278642149929278,
      "grad_norm": 0.0004067558911629021,
      "learning_rate": 0.2634927880294769,
      "loss": 0.3539,
      "num_input_tokens_seen": 8424640,
      "step": 9075
    },
    {
      "epoch": 4.280999528524281,
      "grad_norm": 0.001285953912883997,
      "learning_rate": 0.26345426395277927,
      "loss": 0.3498,
      "num_input_tokens_seen": 8429376,
      "step": 9080
    },
    {
      "epoch": 4.283356907119283,
      "grad_norm": 0.0004094770411029458,
      "learning_rate": 0.2634157223800084,
      "loss": 0.3085,
      "num_input_tokens_seen": 8434240,
      "step": 9085
    },
    {
      "epoch": 4.285714285714286,
      "grad_norm": 0.00026835669996216893,
      "learning_rate": 0.26337716331710787,
      "loss": 0.3305,
      "num_input_tokens_seen": 8438592,
      "step": 9090
    },
    {
      "epoch": 4.288071664309288,
      "grad_norm": 0.00028245162684470415,
      "learning_rate": 0.2633385867700239,
      "loss": 0.3195,
      "num_input_tokens_seen": 8443136,
      "step": 9095
    },
    {
      "epoch": 4.29042904290429,
      "grad_norm": 0.00032734093838371336,
      "learning_rate": 0.2632999927447056,
      "loss": 0.3326,
      "num_input_tokens_seen": 8448576,
      "step": 9100
    },
    {
      "epoch": 4.292786421499293,
      "grad_norm": 0.0007721575675532222,
      "learning_rate": 0.2632613812471046,
      "loss": 0.3423,
      "num_input_tokens_seen": 8453104,
      "step": 9105
    },
    {
      "epoch": 4.295143800094295,
      "grad_norm": 0.0002380203950451687,
      "learning_rate": 0.2632227522831753,
      "loss": 0.307,
      "num_input_tokens_seen": 8457216,
      "step": 9110
    },
    {
      "epoch": 4.297501178689298,
      "grad_norm": 0.0002479270624462515,
      "learning_rate": 0.26318410585887475,
      "loss": 0.3268,
      "num_input_tokens_seen": 8461264,
      "step": 9115
    },
    {
      "epoch": 4.2998585572843,
      "grad_norm": 0.00039946360629983246,
      "learning_rate": 0.2631454419801627,
      "loss": 0.3139,
      "num_input_tokens_seen": 8465584,
      "step": 9120
    },
    {
      "epoch": 4.302215935879302,
      "grad_norm": 0.0003297082439530641,
      "learning_rate": 0.2631067606530016,
      "loss": 0.4065,
      "num_input_tokens_seen": 8470576,
      "step": 9125
    },
    {
      "epoch": 4.304573314474305,
      "grad_norm": 0.00036159835872240365,
      "learning_rate": 0.2630680618833567,
      "loss": 0.3669,
      "num_input_tokens_seen": 8475120,
      "step": 9130
    },
    {
      "epoch": 4.306930693069307,
      "grad_norm": 0.0008706074440851808,
      "learning_rate": 0.26302934567719566,
      "loss": 0.3136,
      "num_input_tokens_seen": 8480144,
      "step": 9135
    },
    {
      "epoch": 4.30928807166431,
      "grad_norm": 0.0002449979947414249,
      "learning_rate": 0.2629906120404892,
      "loss": 0.3399,
      "num_input_tokens_seen": 8484800,
      "step": 9140
    },
    {
      "epoch": 4.311645450259312,
      "grad_norm": 0.00038336165016517043,
      "learning_rate": 0.26295186097921036,
      "loss": 0.3589,
      "num_input_tokens_seen": 8490720,
      "step": 9145
    },
    {
      "epoch": 4.314002828854314,
      "grad_norm": 0.0008677972946316004,
      "learning_rate": 0.2629130924993351,
      "loss": 0.3357,
      "num_input_tokens_seen": 8494624,
      "step": 9150
    },
    {
      "epoch": 4.316360207449316,
      "grad_norm": 0.0006385501474142075,
      "learning_rate": 0.2628743066068421,
      "loss": 0.3446,
      "num_input_tokens_seen": 8499344,
      "step": 9155
    },
    {
      "epoch": 4.318717586044318,
      "grad_norm": 0.00037189392605796456,
      "learning_rate": 0.26283550330771244,
      "loss": 0.318,
      "num_input_tokens_seen": 8503744,
      "step": 9160
    },
    {
      "epoch": 4.321074964639321,
      "grad_norm": 0.0007552935858257115,
      "learning_rate": 0.2627966826079303,
      "loss": 0.3379,
      "num_input_tokens_seen": 8508000,
      "step": 9165
    },
    {
      "epoch": 4.323432343234323,
      "grad_norm": 0.0002730203268583864,
      "learning_rate": 0.26275784451348216,
      "loss": 0.3142,
      "num_input_tokens_seen": 8512896,
      "step": 9170
    },
    {
      "epoch": 4.3257897218293255,
      "grad_norm": 0.00021154896239750087,
      "learning_rate": 0.2627189890303574,
      "loss": 0.2762,
      "num_input_tokens_seen": 8517392,
      "step": 9175
    },
    {
      "epoch": 4.328147100424328,
      "grad_norm": 0.0001456770405638963,
      "learning_rate": 0.262680116164548,
      "loss": 0.3097,
      "num_input_tokens_seen": 8522336,
      "step": 9180
    },
    {
      "epoch": 4.33050447901933,
      "grad_norm": 0.0006156833260320127,
      "learning_rate": 0.2626412259220487,
      "loss": 0.4259,
      "num_input_tokens_seen": 8527088,
      "step": 9185
    },
    {
      "epoch": 4.332861857614333,
      "grad_norm": 0.00034288238384760916,
      "learning_rate": 0.2626023183088568,
      "loss": 0.3886,
      "num_input_tokens_seen": 8532832,
      "step": 9190
    },
    {
      "epoch": 4.335219236209335,
      "grad_norm": 0.0003617980401031673,
      "learning_rate": 0.26256339333097234,
      "loss": 0.367,
      "num_input_tokens_seen": 8537952,
      "step": 9195
    },
    {
      "epoch": 4.3375766148043375,
      "grad_norm": 0.0008297374588437378,
      "learning_rate": 0.2625244509943981,
      "loss": 0.3064,
      "num_input_tokens_seen": 8543120,
      "step": 9200
    },
    {
      "epoch": 4.3375766148043375,
      "eval_loss": 0.33205729722976685,
      "eval_runtime": 33.4424,
      "eval_samples_per_second": 28.198,
      "eval_steps_per_second": 14.114,
      "num_input_tokens_seen": 8543120,
      "step": 9200
    },
    {
      "epoch": 4.33993399339934,
      "grad_norm": 0.00021094635303597897,
      "learning_rate": 0.2624854913051395,
      "loss": 0.3333,
      "num_input_tokens_seen": 8548096,
      "step": 9205
    },
    {
      "epoch": 4.342291371994342,
      "grad_norm": 0.000320548570016399,
      "learning_rate": 0.26244651426920446,
      "loss": 0.322,
      "num_input_tokens_seen": 8552384,
      "step": 9210
    },
    {
      "epoch": 4.344648750589345,
      "grad_norm": 0.00024969762307591736,
      "learning_rate": 0.26240751989260386,
      "loss": 0.354,
      "num_input_tokens_seen": 8556832,
      "step": 9215
    },
    {
      "epoch": 4.347006129184347,
      "grad_norm": 0.00033615250140428543,
      "learning_rate": 0.2623685081813511,
      "loss": 0.3628,
      "num_input_tokens_seen": 8560880,
      "step": 9220
    },
    {
      "epoch": 4.3493635077793495,
      "grad_norm": 0.00022033114510122687,
      "learning_rate": 0.2623294791414623,
      "loss": 0.3234,
      "num_input_tokens_seen": 8565632,
      "step": 9225
    },
    {
      "epoch": 4.351720886374352,
      "grad_norm": 0.0003461702144704759,
      "learning_rate": 0.26229043277895614,
      "loss": 0.341,
      "num_input_tokens_seen": 8570160,
      "step": 9230
    },
    {
      "epoch": 4.354078264969354,
      "grad_norm": 0.00036515589454211295,
      "learning_rate": 0.2622513690998542,
      "loss": 0.337,
      "num_input_tokens_seen": 8574704,
      "step": 9235
    },
    {
      "epoch": 4.356435643564357,
      "grad_norm": 0.0002287969400640577,
      "learning_rate": 0.26221228811018044,
      "loss": 0.3571,
      "num_input_tokens_seen": 8579040,
      "step": 9240
    },
    {
      "epoch": 4.358793022159359,
      "grad_norm": 0.0006323021370917559,
      "learning_rate": 0.2621731898159617,
      "loss": 0.3462,
      "num_input_tokens_seen": 8584544,
      "step": 9245
    },
    {
      "epoch": 4.3611504007543616,
      "grad_norm": 0.0003874216054100543,
      "learning_rate": 0.26213407422322743,
      "loss": 0.3395,
      "num_input_tokens_seen": 8590064,
      "step": 9250
    },
    {
      "epoch": 4.363507779349364,
      "grad_norm": 0.0003489634837023914,
      "learning_rate": 0.2620949413380098,
      "loss": 0.308,
      "num_input_tokens_seen": 8594096,
      "step": 9255
    },
    {
      "epoch": 4.3658651579443655,
      "grad_norm": 0.00018877074762713164,
      "learning_rate": 0.26205579116634353,
      "loss": 0.348,
      "num_input_tokens_seen": 8598736,
      "step": 9260
    },
    {
      "epoch": 4.368222536539368,
      "grad_norm": 0.0003093593113590032,
      "learning_rate": 0.26201662371426604,
      "loss": 0.3035,
      "num_input_tokens_seen": 8603248,
      "step": 9265
    },
    {
      "epoch": 4.37057991513437,
      "grad_norm": 0.0007074687164276838,
      "learning_rate": 0.2619774389878175,
      "loss": 0.2775,
      "num_input_tokens_seen": 8608048,
      "step": 9270
    },
    {
      "epoch": 4.372937293729373,
      "grad_norm": 0.00019792343664448708,
      "learning_rate": 0.2619382369930407,
      "loss": 0.3626,
      "num_input_tokens_seen": 8612240,
      "step": 9275
    },
    {
      "epoch": 4.375294672324375,
      "grad_norm": 0.00039197082514874637,
      "learning_rate": 0.261899017735981,
      "loss": 0.3052,
      "num_input_tokens_seen": 8616720,
      "step": 9280
    },
    {
      "epoch": 4.3776520509193775,
      "grad_norm": 0.0008720499463379383,
      "learning_rate": 0.2618597812226866,
      "loss": 0.3437,
      "num_input_tokens_seen": 8621152,
      "step": 9285
    },
    {
      "epoch": 4.38000942951438,
      "grad_norm": 0.0008695268188603222,
      "learning_rate": 0.2618205274592082,
      "loss": 0.3668,
      "num_input_tokens_seen": 8625760,
      "step": 9290
    },
    {
      "epoch": 4.382366808109382,
      "grad_norm": 0.0002548386109992862,
      "learning_rate": 0.2617812564515992,
      "loss": 0.3462,
      "num_input_tokens_seen": 8630512,
      "step": 9295
    },
    {
      "epoch": 4.384724186704385,
      "grad_norm": 0.0002777112240437418,
      "learning_rate": 0.2617419682059158,
      "loss": 0.3353,
      "num_input_tokens_seen": 8634944,
      "step": 9300
    },
    {
      "epoch": 4.387081565299387,
      "grad_norm": 0.0003006058104801923,
      "learning_rate": 0.26170266272821663,
      "loss": 0.3224,
      "num_input_tokens_seen": 8639696,
      "step": 9305
    },
    {
      "epoch": 4.3894389438943895,
      "grad_norm": 0.0002698525495361537,
      "learning_rate": 0.26166334002456315,
      "loss": 0.3259,
      "num_input_tokens_seen": 8645520,
      "step": 9310
    },
    {
      "epoch": 4.391796322489392,
      "grad_norm": 0.0002759180497378111,
      "learning_rate": 0.2616240001010194,
      "loss": 0.326,
      "num_input_tokens_seen": 8650064,
      "step": 9315
    },
    {
      "epoch": 4.394153701084394,
      "grad_norm": 0.0007678536931052804,
      "learning_rate": 0.26158464296365197,
      "loss": 0.3642,
      "num_input_tokens_seen": 8654704,
      "step": 9320
    },
    {
      "epoch": 4.396511079679397,
      "grad_norm": 0.0003151095879729837,
      "learning_rate": 0.2615452686185304,
      "loss": 0.2958,
      "num_input_tokens_seen": 8658896,
      "step": 9325
    },
    {
      "epoch": 4.398868458274399,
      "grad_norm": 0.000798705848865211,
      "learning_rate": 0.26150587707172673,
      "loss": 0.331,
      "num_input_tokens_seen": 8662416,
      "step": 9330
    },
    {
      "epoch": 4.4012258368694015,
      "grad_norm": 0.0002278765750816092,
      "learning_rate": 0.2614664683293154,
      "loss": 0.3387,
      "num_input_tokens_seen": 8667664,
      "step": 9335
    },
    {
      "epoch": 4.403583215464404,
      "grad_norm": 0.0006962530314922333,
      "learning_rate": 0.26142704239737397,
      "loss": 0.3266,
      "num_input_tokens_seen": 8672112,
      "step": 9340
    },
    {
      "epoch": 4.405940594059406,
      "grad_norm": 0.00026668974896892905,
      "learning_rate": 0.26138759928198235,
      "loss": 0.3904,
      "num_input_tokens_seen": 8676576,
      "step": 9345
    },
    {
      "epoch": 4.408297972654409,
      "grad_norm": 0.00017587197362445295,
      "learning_rate": 0.26134813898922304,
      "loss": 0.3203,
      "num_input_tokens_seen": 8681264,
      "step": 9350
    },
    {
      "epoch": 4.41065535124941,
      "grad_norm": 0.0003076927096117288,
      "learning_rate": 0.26130866152518145,
      "loss": 0.3072,
      "num_input_tokens_seen": 8685616,
      "step": 9355
    },
    {
      "epoch": 4.413012729844413,
      "grad_norm": 0.000258017098531127,
      "learning_rate": 0.2612691668959455,
      "loss": 0.3184,
      "num_input_tokens_seen": 8690448,
      "step": 9360
    },
    {
      "epoch": 4.415370108439415,
      "grad_norm": 0.00030201851041056216,
      "learning_rate": 0.2612296551076057,
      "loss": 0.3437,
      "num_input_tokens_seen": 8695600,
      "step": 9365
    },
    {
      "epoch": 4.417727487034417,
      "grad_norm": 0.0002582772576715797,
      "learning_rate": 0.26119012616625525,
      "loss": 0.287,
      "num_input_tokens_seen": 8699920,
      "step": 9370
    },
    {
      "epoch": 4.42008486562942,
      "grad_norm": 0.00025149041903205216,
      "learning_rate": 0.26115058007799,
      "loss": 0.3529,
      "num_input_tokens_seen": 8704480,
      "step": 9375
    },
    {
      "epoch": 4.422442244224422,
      "grad_norm": 0.00027459385455586016,
      "learning_rate": 0.26111101684890864,
      "loss": 0.3663,
      "num_input_tokens_seen": 8708688,
      "step": 9380
    },
    {
      "epoch": 4.424799622819425,
      "grad_norm": 0.0003059940063394606,
      "learning_rate": 0.26107143648511205,
      "loss": 0.3258,
      "num_input_tokens_seen": 8714192,
      "step": 9385
    },
    {
      "epoch": 4.427157001414427,
      "grad_norm": 0.0002862646942958236,
      "learning_rate": 0.2610318389927042,
      "loss": 0.2858,
      "num_input_tokens_seen": 8718304,
      "step": 9390
    },
    {
      "epoch": 4.429514380009429,
      "grad_norm": 0.0004174192145001143,
      "learning_rate": 0.26099222437779146,
      "loss": 0.3216,
      "num_input_tokens_seen": 8722768,
      "step": 9395
    },
    {
      "epoch": 4.431871758604432,
      "grad_norm": 0.0018046930199488997,
      "learning_rate": 0.26095259264648285,
      "loss": 0.3669,
      "num_input_tokens_seen": 8727088,
      "step": 9400
    },
    {
      "epoch": 4.431871758604432,
      "eval_loss": 0.32719722390174866,
      "eval_runtime": 33.4266,
      "eval_samples_per_second": 28.211,
      "eval_steps_per_second": 14.12,
      "num_input_tokens_seen": 8727088,
      "step": 9400
    },
    {
      "epoch": 4.434229137199434,
      "grad_norm": 0.0002796376356855035,
      "learning_rate": 0.2609129438048902,
      "loss": 0.3367,
      "num_input_tokens_seen": 8731472,
      "step": 9405
    },
    {
      "epoch": 4.436586515794437,
      "grad_norm": 0.00022083031944930553,
      "learning_rate": 0.2608732778591278,
      "loss": 0.3151,
      "num_input_tokens_seen": 8736016,
      "step": 9410
    },
    {
      "epoch": 4.438943894389439,
      "grad_norm": 0.0002966425381600857,
      "learning_rate": 0.2608335948153126,
      "loss": 0.3284,
      "num_input_tokens_seen": 8740448,
      "step": 9415
    },
    {
      "epoch": 4.441301272984441,
      "grad_norm": 0.0003698643995448947,
      "learning_rate": 0.26079389467956426,
      "loss": 0.3206,
      "num_input_tokens_seen": 8745344,
      "step": 9420
    },
    {
      "epoch": 4.443658651579444,
      "grad_norm": 0.0002859498781617731,
      "learning_rate": 0.26075417745800505,
      "loss": 0.3717,
      "num_input_tokens_seen": 8749520,
      "step": 9425
    },
    {
      "epoch": 4.446016030174446,
      "grad_norm": 0.0002867445582523942,
      "learning_rate": 0.26071444315675985,
      "loss": 0.3011,
      "num_input_tokens_seen": 8754768,
      "step": 9430
    },
    {
      "epoch": 4.448373408769449,
      "grad_norm": 0.00022220751270651817,
      "learning_rate": 0.2606746917819562,
      "loss": 0.2811,
      "num_input_tokens_seen": 8759024,
      "step": 9435
    },
    {
      "epoch": 4.450730787364451,
      "grad_norm": 0.00036432911292649806,
      "learning_rate": 0.2606349233397242,
      "loss": 0.3064,
      "num_input_tokens_seen": 8763072,
      "step": 9440
    },
    {
      "epoch": 4.4530881659594534,
      "grad_norm": 0.00016088054690044373,
      "learning_rate": 0.26059513783619676,
      "loss": 0.3317,
      "num_input_tokens_seen": 8767408,
      "step": 9445
    },
    {
      "epoch": 4.455445544554456,
      "grad_norm": 0.0013902082573622465,
      "learning_rate": 0.26055533527750924,
      "loss": 0.3894,
      "num_input_tokens_seen": 8772032,
      "step": 9450
    },
    {
      "epoch": 4.457802923149458,
      "grad_norm": 0.0004717958508990705,
      "learning_rate": 0.26051551566979964,
      "loss": 0.3107,
      "num_input_tokens_seen": 8778208,
      "step": 9455
    },
    {
      "epoch": 4.46016030174446,
      "grad_norm": 0.0006885158945806324,
      "learning_rate": 0.26047567901920876,
      "loss": 0.2959,
      "num_input_tokens_seen": 8785920,
      "step": 9460
    },
    {
      "epoch": 4.462517680339462,
      "grad_norm": 0.0006395967793650925,
      "learning_rate": 0.2604358253318798,
      "loss": 0.2552,
      "num_input_tokens_seen": 8790896,
      "step": 9465
    },
    {
      "epoch": 4.464875058934465,
      "grad_norm": 0.0008892652112990618,
      "learning_rate": 0.26039595461395876,
      "loss": 0.3971,
      "num_input_tokens_seen": 8795984,
      "step": 9470
    },
    {
      "epoch": 4.467232437529467,
      "grad_norm": 0.0008319196640513837,
      "learning_rate": 0.26035606687159424,
      "loss": 0.3958,
      "num_input_tokens_seen": 8800496,
      "step": 9475
    },
    {
      "epoch": 4.469589816124469,
      "grad_norm": 0.000301378924632445,
      "learning_rate": 0.26031616211093733,
      "loss": 0.3335,
      "num_input_tokens_seen": 8804832,
      "step": 9480
    },
    {
      "epoch": 4.471947194719472,
      "grad_norm": 0.0008672586409375072,
      "learning_rate": 0.26027624033814195,
      "loss": 0.351,
      "num_input_tokens_seen": 8809376,
      "step": 9485
    },
    {
      "epoch": 4.474304573314474,
      "grad_norm": 0.00018741066742222756,
      "learning_rate": 0.2602363015593645,
      "loss": 0.3166,
      "num_input_tokens_seen": 8813792,
      "step": 9490
    },
    {
      "epoch": 4.476661951909477,
      "grad_norm": 0.001279273652471602,
      "learning_rate": 0.26019634578076395,
      "loss": 0.3373,
      "num_input_tokens_seen": 8819360,
      "step": 9495
    },
    {
      "epoch": 4.479019330504479,
      "grad_norm": 0.0015207119286060333,
      "learning_rate": 0.26015637300850214,
      "loss": 0.3442,
      "num_input_tokens_seen": 8823872,
      "step": 9500
    },
    {
      "epoch": 4.481376709099481,
      "grad_norm": 0.0009706058190204203,
      "learning_rate": 0.26011638324874325,
      "loss": 0.444,
      "num_input_tokens_seen": 8828512,
      "step": 9505
    },
    {
      "epoch": 4.483734087694484,
      "grad_norm": 0.00034690587199293077,
      "learning_rate": 0.2600763765076543,
      "loss": 0.3556,
      "num_input_tokens_seen": 8832752,
      "step": 9510
    },
    {
      "epoch": 4.486091466289486,
      "grad_norm": 0.00036485327291302383,
      "learning_rate": 0.2600363527914048,
      "loss": 0.3283,
      "num_input_tokens_seen": 8837456,
      "step": 9515
    },
    {
      "epoch": 4.488448844884489,
      "grad_norm": 0.002081015147268772,
      "learning_rate": 0.25999631210616686,
      "loss": 0.3447,
      "num_input_tokens_seen": 8842176,
      "step": 9520
    },
    {
      "epoch": 4.490806223479491,
      "grad_norm": 0.0003741601831279695,
      "learning_rate": 0.25995625445811527,
      "loss": 0.3498,
      "num_input_tokens_seen": 8846352,
      "step": 9525
    },
    {
      "epoch": 4.493163602074493,
      "grad_norm": 0.000799476751126349,
      "learning_rate": 0.2599161798534275,
      "loss": 0.3598,
      "num_input_tokens_seen": 8850944,
      "step": 9530
    },
    {
      "epoch": 4.495520980669496,
      "grad_norm": 0.0018421659478917718,
      "learning_rate": 0.25987608829828346,
      "loss": 0.367,
      "num_input_tokens_seen": 8856208,
      "step": 9535
    },
    {
      "epoch": 4.497878359264498,
      "grad_norm": 0.0013654404319822788,
      "learning_rate": 0.25983597979886586,
      "loss": 0.3682,
      "num_input_tokens_seen": 8859984,
      "step": 9540
    },
    {
      "epoch": 4.500235737859501,
      "grad_norm": 0.0011824427638202906,
      "learning_rate": 0.2597958543613599,
      "loss": 0.3668,
      "num_input_tokens_seen": 8864880,
      "step": 9545
    },
    {
      "epoch": 4.502593116454502,
      "grad_norm": 0.001137905172072351,
      "learning_rate": 0.25975571199195335,
      "loss": 0.3451,
      "num_input_tokens_seen": 8869472,
      "step": 9550
    },
    {
      "epoch": 4.5049504950495045,
      "grad_norm": 0.0012120123719796538,
      "learning_rate": 0.25971555269683677,
      "loss": 0.3623,
      "num_input_tokens_seen": 8873904,
      "step": 9555
    },
    {
      "epoch": 4.507307873644507,
      "grad_norm": 0.0003265623818151653,
      "learning_rate": 0.25967537648220324,
      "loss": 0.3561,
      "num_input_tokens_seen": 8878832,
      "step": 9560
    },
    {
      "epoch": 4.509665252239509,
      "grad_norm": 0.003668507095426321,
      "learning_rate": 0.2596351833542483,
      "loss": 0.3517,
      "num_input_tokens_seen": 8883248,
      "step": 9565
    },
    {
      "epoch": 4.512022630834512,
      "grad_norm": 0.0016450510593131185,
      "learning_rate": 0.25959497331917036,
      "loss": 0.3535,
      "num_input_tokens_seen": 8887456,
      "step": 9570
    },
    {
      "epoch": 4.514380009429514,
      "grad_norm": 0.002046421868726611,
      "learning_rate": 0.2595547463831703,
      "loss": 0.3495,
      "num_input_tokens_seen": 8891984,
      "step": 9575
    },
    {
      "epoch": 4.5167373880245165,
      "grad_norm": 0.0005005395505577326,
      "learning_rate": 0.25951450255245156,
      "loss": 0.3242,
      "num_input_tokens_seen": 8896096,
      "step": 9580
    },
    {
      "epoch": 4.519094766619519,
      "grad_norm": 0.001133466954343021,
      "learning_rate": 0.2594742418332203,
      "loss": 0.3397,
      "num_input_tokens_seen": 8899968,
      "step": 9585
    },
    {
      "epoch": 4.521452145214521,
      "grad_norm": 0.000286232796497643,
      "learning_rate": 0.2594339642316852,
      "loss": 0.2862,
      "num_input_tokens_seen": 8904912,
      "step": 9590
    },
    {
      "epoch": 4.523809523809524,
      "grad_norm": 0.001264579244889319,
      "learning_rate": 0.2593936697540576,
      "loss": 0.4095,
      "num_input_tokens_seen": 8909888,
      "step": 9595
    },
    {
      "epoch": 4.526166902404526,
      "grad_norm": 0.0004228534235153347,
      "learning_rate": 0.2593533584065514,
      "loss": 0.3667,
      "num_input_tokens_seen": 8914992,
      "step": 9600
    },
    {
      "epoch": 4.526166902404526,
      "eval_loss": 0.32885557413101196,
      "eval_runtime": 33.4807,
      "eval_samples_per_second": 28.165,
      "eval_steps_per_second": 14.098,
      "num_input_tokens_seen": 8914992,
      "step": 9600
    },
    {
      "epoch": 4.5285242809995285,
      "grad_norm": 0.00036538776475936174,
      "learning_rate": 0.2593130301953831,
      "loss": 0.2946,
      "num_input_tokens_seen": 8920208,
      "step": 9605
    },
    {
      "epoch": 4.530881659594531,
      "grad_norm": 0.0005015177302993834,
      "learning_rate": 0.2592726851267718,
      "loss": 0.3018,
      "num_input_tokens_seen": 8924048,
      "step": 9610
    },
    {
      "epoch": 4.533239038189533,
      "grad_norm": 0.0009319687378592789,
      "learning_rate": 0.2592323232069393,
      "loss": 0.3329,
      "num_input_tokens_seen": 8929248,
      "step": 9615
    },
    {
      "epoch": 4.535596416784536,
      "grad_norm": 0.0026569117326289415,
      "learning_rate": 0.25919194444210986,
      "loss": 0.3745,
      "num_input_tokens_seen": 8934336,
      "step": 9620
    },
    {
      "epoch": 4.537953795379538,
      "grad_norm": 0.0008076741942204535,
      "learning_rate": 0.2591515488385103,
      "loss": 0.3437,
      "num_input_tokens_seen": 8938512,
      "step": 9625
    },
    {
      "epoch": 4.5403111739745405,
      "grad_norm": 0.0005326460232026875,
      "learning_rate": 0.2591111364023704,
      "loss": 0.3476,
      "num_input_tokens_seen": 8943472,
      "step": 9630
    },
    {
      "epoch": 4.542668552569543,
      "grad_norm": 0.0008104023290798068,
      "learning_rate": 0.259070707139922,
      "loss": 0.33,
      "num_input_tokens_seen": 8947792,
      "step": 9635
    },
    {
      "epoch": 4.545025931164545,
      "grad_norm": 0.0032573577482253313,
      "learning_rate": 0.25903026105739985,
      "loss": 0.3303,
      "num_input_tokens_seen": 8952736,
      "step": 9640
    },
    {
      "epoch": 4.547383309759548,
      "grad_norm": 0.00033510950743220747,
      "learning_rate": 0.2589897981610413,
      "loss": 0.3414,
      "num_input_tokens_seen": 8957952,
      "step": 9645
    },
    {
      "epoch": 4.54974068835455,
      "grad_norm": 0.0005050848703831434,
      "learning_rate": 0.2589493184570863,
      "loss": 0.3703,
      "num_input_tokens_seen": 8962592,
      "step": 9650
    },
    {
      "epoch": 4.5520980669495525,
      "grad_norm": 0.0005684623029083014,
      "learning_rate": 0.25890882195177717,
      "loss": 0.3627,
      "num_input_tokens_seen": 8967072,
      "step": 9655
    },
    {
      "epoch": 4.554455445544555,
      "grad_norm": 0.001405788934789598,
      "learning_rate": 0.25886830865135907,
      "loss": 0.3288,
      "num_input_tokens_seen": 8971792,
      "step": 9660
    },
    {
      "epoch": 4.5568128241395565,
      "grad_norm": 0.0003449566720519215,
      "learning_rate": 0.25882777856207967,
      "loss": 0.3457,
      "num_input_tokens_seen": 8975680,
      "step": 9665
    },
    {
      "epoch": 4.559170202734559,
      "grad_norm": 0.0005852867034263909,
      "learning_rate": 0.2587872316901892,
      "loss": 0.3247,
      "num_input_tokens_seen": 8980880,
      "step": 9670
    },
    {
      "epoch": 4.561527581329561,
      "grad_norm": 0.00121110409963876,
      "learning_rate": 0.25874666804194046,
      "loss": 0.3456,
      "num_input_tokens_seen": 8985872,
      "step": 9675
    },
    {
      "epoch": 4.563884959924564,
      "grad_norm": 0.0008866693242453039,
      "learning_rate": 0.258706087623589,
      "loss": 0.2753,
      "num_input_tokens_seen": 8990160,
      "step": 9680
    },
    {
      "epoch": 4.566242338519566,
      "grad_norm": 0.0007618058589287102,
      "learning_rate": 0.25866549044139264,
      "loss": 0.2423,
      "num_input_tokens_seen": 8993936,
      "step": 9685
    },
    {
      "epoch": 4.5685997171145685,
      "grad_norm": 0.0007217800593934953,
      "learning_rate": 0.25862487650161214,
      "loss": 0.3696,
      "num_input_tokens_seen": 8998016,
      "step": 9690
    },
    {
      "epoch": 4.570957095709571,
      "grad_norm": 0.0007377557922154665,
      "learning_rate": 0.2585842458105106,
      "loss": 0.3365,
      "num_input_tokens_seen": 9002336,
      "step": 9695
    },
    {
      "epoch": 4.573314474304573,
      "grad_norm": 0.001502947648987174,
      "learning_rate": 0.2585435983743538,
      "loss": 0.2636,
      "num_input_tokens_seen": 9007008,
      "step": 9700
    },
    {
      "epoch": 4.575671852899576,
      "grad_norm": 0.000652484770398587,
      "learning_rate": 0.2585029341994101,
      "loss": 0.2567,
      "num_input_tokens_seen": 9011952,
      "step": 9705
    },
    {
      "epoch": 4.578029231494578,
      "grad_norm": 0.00046890342491678894,
      "learning_rate": 0.2584622532919504,
      "loss": 0.3047,
      "num_input_tokens_seen": 9016224,
      "step": 9710
    },
    {
      "epoch": 4.5803866100895805,
      "grad_norm": 0.0007050182321108878,
      "learning_rate": 0.2584215556582482,
      "loss": 0.3319,
      "num_input_tokens_seen": 9020352,
      "step": 9715
    },
    {
      "epoch": 4.582743988684583,
      "grad_norm": 0.00019007442460861057,
      "learning_rate": 0.25838084130457967,
      "loss": 0.2544,
      "num_input_tokens_seen": 9024176,
      "step": 9720
    },
    {
      "epoch": 4.585101367279585,
      "grad_norm": 0.001298940391279757,
      "learning_rate": 0.2583401102372234,
      "loss": 0.3567,
      "num_input_tokens_seen": 9028912,
      "step": 9725
    },
    {
      "epoch": 4.587458745874588,
      "grad_norm": 0.0011069265892729163,
      "learning_rate": 0.2582993624624606,
      "loss": 0.3278,
      "num_input_tokens_seen": 9033312,
      "step": 9730
    },
    {
      "epoch": 4.58981612446959,
      "grad_norm": 0.001123730093240738,
      "learning_rate": 0.25825859798657513,
      "loss": 0.3526,
      "num_input_tokens_seen": 9038224,
      "step": 9735
    },
    {
      "epoch": 4.5921735030645925,
      "grad_norm": 0.00043558806646615267,
      "learning_rate": 0.25821781681585343,
      "loss": 0.3451,
      "num_input_tokens_seen": 9042912,
      "step": 9740
    },
    {
      "epoch": 4.594530881659595,
      "grad_norm": 0.0005406700074672699,
      "learning_rate": 0.2581770189565844,
      "loss": 0.3063,
      "num_input_tokens_seen": 9048096,
      "step": 9745
    },
    {
      "epoch": 4.596888260254596,
      "grad_norm": 0.0008747716201469302,
      "learning_rate": 0.25813620441505963,
      "loss": 0.2854,
      "num_input_tokens_seen": 9053152,
      "step": 9750
    },
    {
      "epoch": 4.599245638849599,
      "grad_norm": 0.0005213093245401978,
      "learning_rate": 0.2580953731975732,
      "loss": 0.338,
      "num_input_tokens_seen": 9057888,
      "step": 9755
    },
    {
      "epoch": 4.601603017444601,
      "grad_norm": 0.0007620283286087215,
      "learning_rate": 0.2580545253104218,
      "loss": 0.305,
      "num_input_tokens_seen": 9062368,
      "step": 9760
    },
    {
      "epoch": 4.603960396039604,
      "grad_norm": 0.0007271047215908766,
      "learning_rate": 0.2580136607599047,
      "loss": 0.349,
      "num_input_tokens_seen": 9066384,
      "step": 9765
    },
    {
      "epoch": 4.606317774634606,
      "grad_norm": 0.0005150919314473867,
      "learning_rate": 0.2579727795523238,
      "loss": 0.411,
      "num_input_tokens_seen": 9070800,
      "step": 9770
    },
    {
      "epoch": 4.608675153229608,
      "grad_norm": 0.000450799212558195,
      "learning_rate": 0.25793188169398334,
      "loss": 0.3339,
      "num_input_tokens_seen": 9074816,
      "step": 9775
    },
    {
      "epoch": 4.611032531824611,
      "grad_norm": 0.001000275369733572,
      "learning_rate": 0.25789096719119037,
      "loss": 0.364,
      "num_input_tokens_seen": 9078800,
      "step": 9780
    },
    {
      "epoch": 4.613389910419613,
      "grad_norm": 0.0009706394048407674,
      "learning_rate": 0.2578500360502544,
      "loss": 0.3349,
      "num_input_tokens_seen": 9082672,
      "step": 9785
    },
    {
      "epoch": 4.615747289014616,
      "grad_norm": 0.006061803549528122,
      "learning_rate": 0.2578090882774876,
      "loss": 0.3241,
      "num_input_tokens_seen": 9087184,
      "step": 9790
    },
    {
      "epoch": 4.618104667609618,
      "grad_norm": 0.14840927720069885,
      "learning_rate": 0.25776812387920456,
      "loss": 0.695,
      "num_input_tokens_seen": 9091648,
      "step": 9795
    },
    {
      "epoch": 4.62046204620462,
      "grad_norm": 0.01098870299756527,
      "learning_rate": 0.2577271428617225,
      "loss": 0.5646,
      "num_input_tokens_seen": 9095040,
      "step": 9800
    },
    {
      "epoch": 4.62046204620462,
      "eval_loss": 0.3885815441608429,
      "eval_runtime": 33.586,
      "eval_samples_per_second": 28.077,
      "eval_steps_per_second": 14.053,
      "num_input_tokens_seen": 9095040,
      "step": 9800
    },
    {
      "epoch": 4.622819424799623,
      "grad_norm": 0.002816637745127082,
      "learning_rate": 0.25768614523136124,
      "loss": 0.3551,
      "num_input_tokens_seen": 9100080,
      "step": 9805
    },
    {
      "epoch": 4.625176803394625,
      "grad_norm": 0.00042734629823826253,
      "learning_rate": 0.25764513099444314,
      "loss": 0.3268,
      "num_input_tokens_seen": 9104528,
      "step": 9810
    },
    {
      "epoch": 4.627534181989628,
      "grad_norm": 0.00043787434697151184,
      "learning_rate": 0.25760410015729307,
      "loss": 0.3142,
      "num_input_tokens_seen": 9109136,
      "step": 9815
    },
    {
      "epoch": 4.62989156058463,
      "grad_norm": 0.0010776373092085123,
      "learning_rate": 0.2575630527262385,
      "loss": 0.3137,
      "num_input_tokens_seen": 9112688,
      "step": 9820
    },
    {
      "epoch": 4.632248939179632,
      "grad_norm": 0.0016394727863371372,
      "learning_rate": 0.25752198870760945,
      "loss": 0.3675,
      "num_input_tokens_seen": 9117840,
      "step": 9825
    },
    {
      "epoch": 4.634606317774635,
      "grad_norm": 0.0006824668380431831,
      "learning_rate": 0.2574809081077386,
      "loss": 0.34,
      "num_input_tokens_seen": 9122192,
      "step": 9830
    },
    {
      "epoch": 4.636963696369637,
      "grad_norm": 0.00044008635450154543,
      "learning_rate": 0.257439810932961,
      "loss": 0.3659,
      "num_input_tokens_seen": 9126048,
      "step": 9835
    },
    {
      "epoch": 4.63932107496464,
      "grad_norm": 0.001981504959985614,
      "learning_rate": 0.2573986971896144,
      "loss": 0.361,
      "num_input_tokens_seen": 9129776,
      "step": 9840
    },
    {
      "epoch": 4.641678453559642,
      "grad_norm": 0.000603116350248456,
      "learning_rate": 0.257357566884039,
      "loss": 0.3348,
      "num_input_tokens_seen": 9133920,
      "step": 9845
    },
    {
      "epoch": 4.644035832154644,
      "grad_norm": 0.017883488908410072,
      "learning_rate": 0.25731642002257765,
      "loss": 1.022,
      "num_input_tokens_seen": 9139312,
      "step": 9850
    },
    {
      "epoch": 4.646393210749647,
      "grad_norm": 0.007413922809064388,
      "learning_rate": 0.25727525661157574,
      "loss": 0.722,
      "num_input_tokens_seen": 9143824,
      "step": 9855
    },
    {
      "epoch": 4.648750589344649,
      "grad_norm": 0.004623658023774624,
      "learning_rate": 0.2572340766573811,
      "loss": 0.418,
      "num_input_tokens_seen": 9147856,
      "step": 9860
    },
    {
      "epoch": 4.651107967939651,
      "grad_norm": 0.003030546475201845,
      "learning_rate": 0.25719288016634434,
      "loss": 0.2908,
      "num_input_tokens_seen": 9152880,
      "step": 9865
    },
    {
      "epoch": 4.653465346534653,
      "grad_norm": 0.0038443896919488907,
      "learning_rate": 0.25715166714481835,
      "loss": 0.2747,
      "num_input_tokens_seen": 9157152,
      "step": 9870
    },
    {
      "epoch": 4.655822725129656,
      "grad_norm": 0.010788793675601482,
      "learning_rate": 0.2571104375991587,
      "loss": 0.3802,
      "num_input_tokens_seen": 9161360,
      "step": 9875
    },
    {
      "epoch": 4.658180103724658,
      "grad_norm": 0.0019849627278745174,
      "learning_rate": 0.2570691915357236,
      "loss": 0.3599,
      "num_input_tokens_seen": 9166240,
      "step": 9880
    },
    {
      "epoch": 4.66053748231966,
      "grad_norm": 0.004031269811093807,
      "learning_rate": 0.2570279289608736,
      "loss": 0.3479,
      "num_input_tokens_seen": 9171088,
      "step": 9885
    },
    {
      "epoch": 4.662894860914663,
      "grad_norm": 0.0015662299701943994,
      "learning_rate": 0.256986649880972,
      "loss": 0.3409,
      "num_input_tokens_seen": 9175584,
      "step": 9890
    },
    {
      "epoch": 4.665252239509665,
      "grad_norm": 0.005899779964238405,
      "learning_rate": 0.25694535430238447,
      "loss": 0.3478,
      "num_input_tokens_seen": 9181600,
      "step": 9895
    },
    {
      "epoch": 4.667609618104668,
      "grad_norm": 0.0006850965437479317,
      "learning_rate": 0.25690404223147933,
      "loss": 0.3271,
      "num_input_tokens_seen": 9186976,
      "step": 9900
    },
    {
      "epoch": 4.66996699669967,
      "grad_norm": 0.0010931033175438643,
      "learning_rate": 0.2568627136746275,
      "loss": 0.3746,
      "num_input_tokens_seen": 9191568,
      "step": 9905
    },
    {
      "epoch": 4.672324375294672,
      "grad_norm": 0.002394832205027342,
      "learning_rate": 0.25682136863820226,
      "loss": 0.3676,
      "num_input_tokens_seen": 9196704,
      "step": 9910
    },
    {
      "epoch": 4.674681753889675,
      "grad_norm": 0.0015272678574547172,
      "learning_rate": 0.25678000712857957,
      "loss": 0.3168,
      "num_input_tokens_seen": 9201072,
      "step": 9915
    },
    {
      "epoch": 4.677039132484677,
      "grad_norm": 0.0012842013966292143,
      "learning_rate": 0.2567386291521379,
      "loss": 0.337,
      "num_input_tokens_seen": 9205792,
      "step": 9920
    },
    {
      "epoch": 4.67939651107968,
      "grad_norm": 0.0009761276305653155,
      "learning_rate": 0.2566972347152583,
      "loss": 0.3533,
      "num_input_tokens_seen": 9211168,
      "step": 9925
    },
    {
      "epoch": 4.681753889674682,
      "grad_norm": 0.002545124851167202,
      "learning_rate": 0.2566558238243242,
      "loss": 0.3124,
      "num_input_tokens_seen": 9215856,
      "step": 9930
    },
    {
      "epoch": 4.684111268269684,
      "grad_norm": 0.0007414029678329825,
      "learning_rate": 0.25661439648572176,
      "loss": 0.3397,
      "num_input_tokens_seen": 9220528,
      "step": 9935
    },
    {
      "epoch": 4.686468646864687,
      "grad_norm": 0.002665545791387558,
      "learning_rate": 0.25657295270583963,
      "loss": 0.3249,
      "num_input_tokens_seen": 9224352,
      "step": 9940
    },
    {
      "epoch": 4.688826025459689,
      "grad_norm": 0.0011374447494745255,
      "learning_rate": 0.25653149249106894,
      "loss": 0.3663,
      "num_input_tokens_seen": 9229232,
      "step": 9945
    },
    {
      "epoch": 4.691183404054691,
      "grad_norm": 0.0025257428642362356,
      "learning_rate": 0.25649001584780323,
      "loss": 0.2961,
      "num_input_tokens_seen": 9234224,
      "step": 9950
    },
    {
      "epoch": 4.693540782649693,
      "grad_norm": 0.0011956357629969716,
      "learning_rate": 0.2564485227824389,
      "loss": 0.315,
      "num_input_tokens_seen": 9238608,
      "step": 9955
    },
    {
      "epoch": 4.6958981612446955,
      "grad_norm": 0.0018597760936245322,
      "learning_rate": 0.25640701330137466,
      "loss": 0.2939,
      "num_input_tokens_seen": 9243568,
      "step": 9960
    },
    {
      "epoch": 4.698255539839698,
      "grad_norm": 0.00048131414223462343,
      "learning_rate": 0.2563654874110117,
      "loss": 0.2589,
      "num_input_tokens_seen": 9248416,
      "step": 9965
    },
    {
      "epoch": 4.7006129184347,
      "grad_norm": 0.0014941993867978454,
      "learning_rate": 0.256323945117754,
      "loss": 0.4531,
      "num_input_tokens_seen": 9254080,
      "step": 9970
    },
    {
      "epoch": 4.702970297029703,
      "grad_norm": 0.0036095380783081055,
      "learning_rate": 0.2562823864280078,
      "loss": 0.4045,
      "num_input_tokens_seen": 9258880,
      "step": 9975
    },
    {
      "epoch": 4.705327675624705,
      "grad_norm": 0.0012439255369827151,
      "learning_rate": 0.25624081134818194,
      "loss": 0.3392,
      "num_input_tokens_seen": 9263520,
      "step": 9980
    },
    {
      "epoch": 4.7076850542197075,
      "grad_norm": 0.00394024234265089,
      "learning_rate": 0.2561992198846879,
      "loss": 0.3564,
      "num_input_tokens_seen": 9268512,
      "step": 9985
    },
    {
      "epoch": 4.71004243281471,
      "grad_norm": 0.005859909113496542,
      "learning_rate": 0.25615761204393955,
      "loss": 0.3671,
      "num_input_tokens_seen": 9273296,
      "step": 9990
    },
    {
      "epoch": 4.712399811409712,
      "grad_norm": 0.0017313993303105235,
      "learning_rate": 0.2561159878323534,
      "loss": 0.3687,
      "num_input_tokens_seen": 9278816,
      "step": 9995
    },
    {
      "epoch": 4.714757190004715,
      "grad_norm": 0.0017405468970537186,
      "learning_rate": 0.2560743472563483,
      "loss": 0.3517,
      "num_input_tokens_seen": 9283072,
      "step": 10000
    },
    {
      "epoch": 4.714757190004715,
      "eval_loss": 0.33284080028533936,
      "eval_runtime": 33.4912,
      "eval_samples_per_second": 28.157,
      "eval_steps_per_second": 14.093,
      "num_input_tokens_seen": 9283072,
      "step": 10000
    },
    {
      "epoch": 4.717114568599717,
      "grad_norm": 0.0024055868852883577,
      "learning_rate": 0.25603269032234593,
      "loss": 0.3182,
      "num_input_tokens_seen": 9287104,
      "step": 10005
    },
    {
      "epoch": 4.7194719471947195,
      "grad_norm": 0.0003036449779756367,
      "learning_rate": 0.2559910170367702,
      "loss": 0.3092,
      "num_input_tokens_seen": 9291136,
      "step": 10010
    },
    {
      "epoch": 4.721829325789722,
      "grad_norm": 0.0007097613997757435,
      "learning_rate": 0.2559493274060477,
      "loss": 0.308,
      "num_input_tokens_seen": 9295552,
      "step": 10015
    },
    {
      "epoch": 4.724186704384724,
      "grad_norm": 0.004303968045860529,
      "learning_rate": 0.2559076214366074,
      "loss": 0.3932,
      "num_input_tokens_seen": 9301008,
      "step": 10020
    },
    {
      "epoch": 4.726544082979727,
      "grad_norm": 0.0009964548517018557,
      "learning_rate": 0.25586589913488106,
      "loss": 0.3407,
      "num_input_tokens_seen": 9305344,
      "step": 10025
    },
    {
      "epoch": 4.728901461574729,
      "grad_norm": 0.0014679157175123692,
      "learning_rate": 0.2558241605073026,
      "loss": 0.3746,
      "num_input_tokens_seen": 9309072,
      "step": 10030
    },
    {
      "epoch": 4.7312588401697315,
      "grad_norm": 0.0010441986378282309,
      "learning_rate": 0.25578240556030873,
      "loss": 0.3483,
      "num_input_tokens_seen": 9313728,
      "step": 10035
    },
    {
      "epoch": 4.733616218764734,
      "grad_norm": 0.0009679766953922808,
      "learning_rate": 0.2557406343003386,
      "loss": 0.3479,
      "num_input_tokens_seen": 9318480,
      "step": 10040
    },
    {
      "epoch": 4.735973597359736,
      "grad_norm": 0.0011997201945632696,
      "learning_rate": 0.25569884673383375,
      "loss": 0.3569,
      "num_input_tokens_seen": 9322880,
      "step": 10045
    },
    {
      "epoch": 4.738330975954739,
      "grad_norm": 0.0013783389003947377,
      "learning_rate": 0.25565704286723856,
      "loss": 0.3329,
      "num_input_tokens_seen": 9328016,
      "step": 10050
    },
    {
      "epoch": 4.740688354549741,
      "grad_norm": 0.0006557074375450611,
      "learning_rate": 0.25561522270699955,
      "loss": 0.341,
      "num_input_tokens_seen": 9332448,
      "step": 10055
    },
    {
      "epoch": 4.7430457331447435,
      "grad_norm": 0.001239510253071785,
      "learning_rate": 0.25557338625956594,
      "loss": 0.334,
      "num_input_tokens_seen": 9336816,
      "step": 10060
    },
    {
      "epoch": 4.745403111739745,
      "grad_norm": 0.0004867094103246927,
      "learning_rate": 0.25553153353138947,
      "loss": 0.3407,
      "num_input_tokens_seen": 9340912,
      "step": 10065
    },
    {
      "epoch": 4.7477604903347475,
      "grad_norm": 0.0006400637212209404,
      "learning_rate": 0.2554896645289243,
      "loss": 0.3001,
      "num_input_tokens_seen": 9345296,
      "step": 10070
    },
    {
      "epoch": 4.75011786892975,
      "grad_norm": 0.001568093430250883,
      "learning_rate": 0.2554477792586272,
      "loss": 0.2897,
      "num_input_tokens_seen": 9349664,
      "step": 10075
    },
    {
      "epoch": 4.752475247524752,
      "grad_norm": 0.0027403084095567465,
      "learning_rate": 0.25540587772695744,
      "loss": 0.2575,
      "num_input_tokens_seen": 9355328,
      "step": 10080
    },
    {
      "epoch": 4.754832626119755,
      "grad_norm": 0.001792235067114234,
      "learning_rate": 0.2553639599403767,
      "loss": 0.4223,
      "num_input_tokens_seen": 9360320,
      "step": 10085
    },
    {
      "epoch": 4.757190004714757,
      "grad_norm": 0.001943246927112341,
      "learning_rate": 0.2553220259053493,
      "loss": 0.478,
      "num_input_tokens_seen": 9365008,
      "step": 10090
    },
    {
      "epoch": 4.7595473833097595,
      "grad_norm": 0.0016295064706355333,
      "learning_rate": 0.2552800756283419,
      "loss": 0.3329,
      "num_input_tokens_seen": 9369184,
      "step": 10095
    },
    {
      "epoch": 4.761904761904762,
      "grad_norm": 0.0007880468619987369,
      "learning_rate": 0.25523810911582373,
      "loss": 0.332,
      "num_input_tokens_seen": 9373408,
      "step": 10100
    },
    {
      "epoch": 4.764262140499764,
      "grad_norm": 0.0008912782650440931,
      "learning_rate": 0.25519612637426675,
      "loss": 0.3457,
      "num_input_tokens_seen": 9377840,
      "step": 10105
    },
    {
      "epoch": 4.766619519094767,
      "grad_norm": 0.000907773501239717,
      "learning_rate": 0.25515412741014504,
      "loss": 0.3536,
      "num_input_tokens_seen": 9382224,
      "step": 10110
    },
    {
      "epoch": 4.768976897689769,
      "grad_norm": 0.0012007231125608087,
      "learning_rate": 0.2551121122299355,
      "loss": 0.3221,
      "num_input_tokens_seen": 9386960,
      "step": 10115
    },
    {
      "epoch": 4.7713342762847715,
      "grad_norm": 0.0005069869803264737,
      "learning_rate": 0.2550700808401173,
      "loss": 0.3825,
      "num_input_tokens_seen": 9391744,
      "step": 10120
    },
    {
      "epoch": 4.773691654879774,
      "grad_norm": 0.0007112810271792114,
      "learning_rate": 0.2550280332471722,
      "loss": 0.3268,
      "num_input_tokens_seen": 9396400,
      "step": 10125
    },
    {
      "epoch": 4.776049033474776,
      "grad_norm": 0.00147808319889009,
      "learning_rate": 0.2549859694575845,
      "loss": 0.3236,
      "num_input_tokens_seen": 9401264,
      "step": 10130
    },
    {
      "epoch": 4.778406412069779,
      "grad_norm": 0.0017192086670547724,
      "learning_rate": 0.254943889477841,
      "loss": 0.3276,
      "num_input_tokens_seen": 9406000,
      "step": 10135
    },
    {
      "epoch": 4.780763790664781,
      "grad_norm": 0.000388338667107746,
      "learning_rate": 0.25490179331443097,
      "loss": 0.3668,
      "num_input_tokens_seen": 9411104,
      "step": 10140
    },
    {
      "epoch": 4.7831211692597835,
      "grad_norm": 0.0007021071505732834,
      "learning_rate": 0.25485968097384615,
      "loss": 0.3486,
      "num_input_tokens_seen": 9416128,
      "step": 10145
    },
    {
      "epoch": 4.785478547854785,
      "grad_norm": 0.0006415203679352999,
      "learning_rate": 0.25481755246258075,
      "loss": 0.3345,
      "num_input_tokens_seen": 9421504,
      "step": 10150
    },
    {
      "epoch": 4.787835926449787,
      "grad_norm": 0.00041644813609309494,
      "learning_rate": 0.2547754077871315,
      "loss": 0.3505,
      "num_input_tokens_seen": 9426656,
      "step": 10155
    },
    {
      "epoch": 4.79019330504479,
      "grad_norm": 0.0004467297694645822,
      "learning_rate": 0.25473324695399774,
      "loss": 0.3069,
      "num_input_tokens_seen": 9431632,
      "step": 10160
    },
    {
      "epoch": 4.792550683639792,
      "grad_norm": 0.00042570361983962357,
      "learning_rate": 0.25469106996968105,
      "loss": 0.3516,
      "num_input_tokens_seen": 9436272,
      "step": 10165
    },
    {
      "epoch": 4.794908062234795,
      "grad_norm": 0.007375405170023441,
      "learning_rate": 0.2546488768406858,
      "loss": 0.3472,
      "num_input_tokens_seen": 9440912,
      "step": 10170
    },
    {
      "epoch": 4.797265440829797,
      "grad_norm": 0.002759076887741685,
      "learning_rate": 0.25460666757351863,
      "loss": 0.365,
      "num_input_tokens_seen": 9445008,
      "step": 10175
    },
    {
      "epoch": 4.799622819424799,
      "grad_norm": 0.0005601966986432672,
      "learning_rate": 0.25456444217468877,
      "loss": 0.3663,
      "num_input_tokens_seen": 9449696,
      "step": 10180
    },
    {
      "epoch": 4.801980198019802,
      "grad_norm": 0.0011974896769970655,
      "learning_rate": 0.25452220065070785,
      "loss": 0.3718,
      "num_input_tokens_seen": 9454528,
      "step": 10185
    },
    {
      "epoch": 4.804337576614804,
      "grad_norm": 0.0013828607043251395,
      "learning_rate": 0.2544799430080901,
      "loss": 0.3404,
      "num_input_tokens_seen": 9458944,
      "step": 10190
    },
    {
      "epoch": 4.806694955209807,
      "grad_norm": 0.0003843173908535391,
      "learning_rate": 0.2544376692533522,
      "loss": 0.3632,
      "num_input_tokens_seen": 9463568,
      "step": 10195
    },
    {
      "epoch": 4.809052333804809,
      "grad_norm": 0.0008061569533310831,
      "learning_rate": 0.2543953793930132,
      "loss": 0.3462,
      "num_input_tokens_seen": 9467600,
      "step": 10200
    },
    {
      "epoch": 4.809052333804809,
      "eval_loss": 0.3448551595211029,
      "eval_runtime": 33.4922,
      "eval_samples_per_second": 28.156,
      "eval_steps_per_second": 14.093,
      "num_input_tokens_seen": 9467600,
      "step": 10200
    },
    {
      "epoch": 4.811409712399811,
      "grad_norm": 0.0022962477523833513,
      "learning_rate": 0.2543530734335948,
      "loss": 0.3335,
      "num_input_tokens_seen": 9472784,
      "step": 10205
    },
    {
      "epoch": 4.813767090994814,
      "grad_norm": 0.0009291485766880214,
      "learning_rate": 0.2543107513816211,
      "loss": 0.3469,
      "num_input_tokens_seen": 9477376,
      "step": 10210
    },
    {
      "epoch": 4.816124469589816,
      "grad_norm": 0.0012427836190909147,
      "learning_rate": 0.25426841324361865,
      "loss": 0.3387,
      "num_input_tokens_seen": 9481888,
      "step": 10215
    },
    {
      "epoch": 4.818481848184819,
      "grad_norm": 0.0015292648458853364,
      "learning_rate": 0.2542260590261166,
      "loss": 0.3698,
      "num_input_tokens_seen": 9486624,
      "step": 10220
    },
    {
      "epoch": 4.820839226779821,
      "grad_norm": 0.0018049516947939992,
      "learning_rate": 0.2541836887356465,
      "loss": 0.3902,
      "num_input_tokens_seen": 9491040,
      "step": 10225
    },
    {
      "epoch": 4.823196605374823,
      "grad_norm": 0.0005551694193854928,
      "learning_rate": 0.2541413023787423,
      "loss": 0.3247,
      "num_input_tokens_seen": 9496272,
      "step": 10230
    },
    {
      "epoch": 4.825553983969826,
      "grad_norm": 0.7179509401321411,
      "learning_rate": 0.2540988999619405,
      "loss": 0.3525,
      "num_input_tokens_seen": 9500688,
      "step": 10235
    },
    {
      "epoch": 4.827911362564828,
      "grad_norm": 0.00275479000993073,
      "learning_rate": 0.25405648149178023,
      "loss": 0.9728,
      "num_input_tokens_seen": 9505616,
      "step": 10240
    },
    {
      "epoch": 4.830268741159831,
      "grad_norm": 0.004370320588350296,
      "learning_rate": 0.2540140469748028,
      "loss": 0.4431,
      "num_input_tokens_seen": 9510720,
      "step": 10245
    },
    {
      "epoch": 4.832626119754833,
      "grad_norm": 0.0009142222115769982,
      "learning_rate": 0.25397159641755224,
      "loss": 0.3555,
      "num_input_tokens_seen": 9515920,
      "step": 10250
    },
    {
      "epoch": 4.834983498349835,
      "grad_norm": 0.001221720245666802,
      "learning_rate": 0.2539291298265749,
      "loss": 0.3661,
      "num_input_tokens_seen": 9520192,
      "step": 10255
    },
    {
      "epoch": 4.837340876944838,
      "grad_norm": 0.00043876696145161986,
      "learning_rate": 0.2538866472084197,
      "loss": 0.3198,
      "num_input_tokens_seen": 9524592,
      "step": 10260
    },
    {
      "epoch": 4.839698255539839,
      "grad_norm": 0.000534398655872792,
      "learning_rate": 0.25384414856963794,
      "loss": 0.3471,
      "num_input_tokens_seen": 9529120,
      "step": 10265
    },
    {
      "epoch": 4.842055634134842,
      "grad_norm": 0.0019507729448378086,
      "learning_rate": 0.25380163391678356,
      "loss": 0.3352,
      "num_input_tokens_seen": 9533584,
      "step": 10270
    },
    {
      "epoch": 4.844413012729844,
      "grad_norm": 0.0007449989789165556,
      "learning_rate": 0.2537591032564127,
      "loss": 0.3394,
      "num_input_tokens_seen": 9537984,
      "step": 10275
    },
    {
      "epoch": 4.8467703913248465,
      "grad_norm": 0.0024424174334853888,
      "learning_rate": 0.25371655659508424,
      "loss": 0.3404,
      "num_input_tokens_seen": 9542720,
      "step": 10280
    },
    {
      "epoch": 4.849127769919849,
      "grad_norm": 0.0008468247251585126,
      "learning_rate": 0.25367399393935935,
      "loss": 0.3412,
      "num_input_tokens_seen": 9546672,
      "step": 10285
    },
    {
      "epoch": 4.851485148514851,
      "grad_norm": 0.0007128191064111888,
      "learning_rate": 0.25363141529580174,
      "loss": 0.3411,
      "num_input_tokens_seen": 9551296,
      "step": 10290
    },
    {
      "epoch": 4.853842527109854,
      "grad_norm": 0.0007212267955765128,
      "learning_rate": 0.2535888206709776,
      "loss": 0.3286,
      "num_input_tokens_seen": 9555392,
      "step": 10295
    },
    {
      "epoch": 4.856199905704856,
      "grad_norm": 0.0006867604679428041,
      "learning_rate": 0.2535462100714555,
      "loss": 0.2917,
      "num_input_tokens_seen": 9560464,
      "step": 10300
    },
    {
      "epoch": 4.858557284299859,
      "grad_norm": 0.001001308555714786,
      "learning_rate": 0.2535035835038066,
      "loss": 0.3735,
      "num_input_tokens_seen": 9565344,
      "step": 10305
    },
    {
      "epoch": 4.860914662894861,
      "grad_norm": 0.0008386682020500302,
      "learning_rate": 0.2534609409746044,
      "loss": 0.3529,
      "num_input_tokens_seen": 9570160,
      "step": 10310
    },
    {
      "epoch": 4.863272041489863,
      "grad_norm": 0.0006588034448213875,
      "learning_rate": 0.253418282490425,
      "loss": 0.3315,
      "num_input_tokens_seen": 9574544,
      "step": 10315
    },
    {
      "epoch": 4.865629420084866,
      "grad_norm": 0.000605246692430228,
      "learning_rate": 0.2533756080578467,
      "loss": 0.3549,
      "num_input_tokens_seen": 9579568,
      "step": 10320
    },
    {
      "epoch": 4.867986798679868,
      "grad_norm": 0.0018113884143531322,
      "learning_rate": 0.25333291768345056,
      "loss": 0.34,
      "num_input_tokens_seen": 9584256,
      "step": 10325
    },
    {
      "epoch": 4.870344177274871,
      "grad_norm": 0.0025619834195822477,
      "learning_rate": 0.25329021137381996,
      "loss": 0.3328,
      "num_input_tokens_seen": 9588480,
      "step": 10330
    },
    {
      "epoch": 4.872701555869873,
      "grad_norm": 0.0007250777562148869,
      "learning_rate": 0.25324748913554074,
      "loss": 0.3397,
      "num_input_tokens_seen": 9593920,
      "step": 10335
    },
    {
      "epoch": 4.875058934464875,
      "grad_norm": 0.002236074535176158,
      "learning_rate": 0.2532047509752013,
      "loss": 0.3204,
      "num_input_tokens_seen": 9598000,
      "step": 10340
    },
    {
      "epoch": 4.877416313059878,
      "grad_norm": 0.0005991614307276905,
      "learning_rate": 0.25316199689939217,
      "loss": 0.3289,
      "num_input_tokens_seen": 9602576,
      "step": 10345
    },
    {
      "epoch": 4.879773691654879,
      "grad_norm": 0.0005051397602073848,
      "learning_rate": 0.2531192269147068,
      "loss": 0.3129,
      "num_input_tokens_seen": 9607936,
      "step": 10350
    },
    {
      "epoch": 4.882131070249882,
      "grad_norm": 0.0012521680910140276,
      "learning_rate": 0.2530764410277407,
      "loss": 0.3093,
      "num_input_tokens_seen": 9612384,
      "step": 10355
    },
    {
      "epoch": 4.884488448844884,
      "grad_norm": 0.0022476159501820803,
      "learning_rate": 0.25303363924509203,
      "loss": 0.3609,
      "num_input_tokens_seen": 9616320,
      "step": 10360
    },
    {
      "epoch": 4.8868458274398865,
      "grad_norm": 0.0008893016492947936,
      "learning_rate": 0.25299082157336145,
      "loss": 0.333,
      "num_input_tokens_seen": 9621536,
      "step": 10365
    },
    {
      "epoch": 4.889203206034889,
      "grad_norm": 0.0005935034714639187,
      "learning_rate": 0.2529479880191519,
      "loss": 0.3441,
      "num_input_tokens_seen": 9625680,
      "step": 10370
    },
    {
      "epoch": 4.891560584629891,
      "grad_norm": 0.0011990034254267812,
      "learning_rate": 0.2529051385890689,
      "loss": 0.3405,
      "num_input_tokens_seen": 9629696,
      "step": 10375
    },
    {
      "epoch": 4.893917963224894,
      "grad_norm": 0.0007220468251034617,
      "learning_rate": 0.2528622732897203,
      "loss": 0.3413,
      "num_input_tokens_seen": 9634416,
      "step": 10380
    },
    {
      "epoch": 4.896275341819896,
      "grad_norm": 0.0008920222171582282,
      "learning_rate": 0.25281939212771654,
      "loss": 0.309,
      "num_input_tokens_seen": 9638464,
      "step": 10385
    },
    {
      "epoch": 4.8986327204148985,
      "grad_norm": 0.0009822912979871035,
      "learning_rate": 0.2527764951096704,
      "loss": 0.3675,
      "num_input_tokens_seen": 9643616,
      "step": 10390
    },
    {
      "epoch": 4.900990099009901,
      "grad_norm": 0.0006595543818548322,
      "learning_rate": 0.2527335822421971,
      "loss": 0.3809,
      "num_input_tokens_seen": 9648336,
      "step": 10395
    },
    {
      "epoch": 4.903347477604903,
      "grad_norm": 0.003132415469735861,
      "learning_rate": 0.25269065353191444,
      "loss": 0.3709,
      "num_input_tokens_seen": 9653456,
      "step": 10400
    },
    {
      "epoch": 4.903347477604903,
      "eval_loss": 0.36762887239456177,
      "eval_runtime": 33.5525,
      "eval_samples_per_second": 28.105,
      "eval_steps_per_second": 14.068,
      "num_input_tokens_seen": 9653456,
      "step": 10400
    },
    {
      "epoch": 4.905704856199906,
      "grad_norm": 0.0029026020783931017,
      "learning_rate": 0.2526477089854425,
      "loss": 0.3657,
      "num_input_tokens_seen": 9658240,
      "step": 10405
    },
    {
      "epoch": 4.908062234794908,
      "grad_norm": 0.0014063696144148707,
      "learning_rate": 0.25260474860940385,
      "loss": 0.3604,
      "num_input_tokens_seen": 9663456,
      "step": 10410
    },
    {
      "epoch": 4.9104196133899105,
      "grad_norm": 0.000780191330704838,
      "learning_rate": 0.2525617724104236,
      "loss": 0.3074,
      "num_input_tokens_seen": 9668208,
      "step": 10415
    },
    {
      "epoch": 4.912776991984913,
      "grad_norm": 0.0008465714054182172,
      "learning_rate": 0.25251878039512915,
      "loss": 0.3439,
      "num_input_tokens_seen": 9672880,
      "step": 10420
    },
    {
      "epoch": 4.915134370579915,
      "grad_norm": 0.000525908952113241,
      "learning_rate": 0.25247577257015047,
      "loss": 0.2649,
      "num_input_tokens_seen": 9676800,
      "step": 10425
    },
    {
      "epoch": 4.917491749174918,
      "grad_norm": 0.00047583781997673213,
      "learning_rate": 0.2524327489421198,
      "loss": 0.4195,
      "num_input_tokens_seen": 9681888,
      "step": 10430
    },
    {
      "epoch": 4.91984912776992,
      "grad_norm": 0.0018774032359942794,
      "learning_rate": 0.25238970951767203,
      "loss": 0.3519,
      "num_input_tokens_seen": 9686064,
      "step": 10435
    },
    {
      "epoch": 4.9222065063649225,
      "grad_norm": 0.0010011710692197084,
      "learning_rate": 0.25234665430344433,
      "loss": 0.3601,
      "num_input_tokens_seen": 9690400,
      "step": 10440
    },
    {
      "epoch": 4.924563884959925,
      "grad_norm": 0.0010937752667814493,
      "learning_rate": 0.2523035833060764,
      "loss": 0.3439,
      "num_input_tokens_seen": 9694832,
      "step": 10445
    },
    {
      "epoch": 4.926921263554927,
      "grad_norm": 0.0019255522638559341,
      "learning_rate": 0.2522604965322103,
      "loss": 0.3181,
      "num_input_tokens_seen": 9699408,
      "step": 10450
    },
    {
      "epoch": 4.92927864214993,
      "grad_norm": 0.00041795140714384615,
      "learning_rate": 0.25221739398849047,
      "loss": 0.3335,
      "num_input_tokens_seen": 9703776,
      "step": 10455
    },
    {
      "epoch": 4.931636020744932,
      "grad_norm": 0.0008763475925661623,
      "learning_rate": 0.252174275681564,
      "loss": 0.3618,
      "num_input_tokens_seen": 9707616,
      "step": 10460
    },
    {
      "epoch": 4.933993399339934,
      "grad_norm": 0.0003805296146310866,
      "learning_rate": 0.2521311416180802,
      "loss": 0.3058,
      "num_input_tokens_seen": 9712560,
      "step": 10465
    },
    {
      "epoch": 4.936350777934936,
      "grad_norm": 0.0017949749017134309,
      "learning_rate": 0.25208799180469094,
      "loss": 0.3781,
      "num_input_tokens_seen": 9717280,
      "step": 10470
    },
    {
      "epoch": 4.938708156529938,
      "grad_norm": 0.00043274209019728005,
      "learning_rate": 0.2520448262480504,
      "loss": 0.3454,
      "num_input_tokens_seen": 9722064,
      "step": 10475
    },
    {
      "epoch": 4.941065535124941,
      "grad_norm": 0.0013404861092567444,
      "learning_rate": 0.25200164495481525,
      "loss": 0.3458,
      "num_input_tokens_seen": 9726896,
      "step": 10480
    },
    {
      "epoch": 4.943422913719943,
      "grad_norm": 0.0020321174524724483,
      "learning_rate": 0.25195844793164474,
      "loss": 0.337,
      "num_input_tokens_seen": 9732192,
      "step": 10485
    },
    {
      "epoch": 4.945780292314946,
      "grad_norm": 0.0009038250427693129,
      "learning_rate": 0.2519152351852001,
      "loss": 0.333,
      "num_input_tokens_seen": 9737680,
      "step": 10490
    },
    {
      "epoch": 4.948137670909948,
      "grad_norm": 0.0006520404713228345,
      "learning_rate": 0.25187200672214555,
      "loss": 0.342,
      "num_input_tokens_seen": 9742896,
      "step": 10495
    },
    {
      "epoch": 4.9504950495049505,
      "grad_norm": 0.0005055763176642358,
      "learning_rate": 0.2518287625491473,
      "loss": 0.2937,
      "num_input_tokens_seen": 9748432,
      "step": 10500
    },
    {
      "epoch": 4.952852428099953,
      "grad_norm": 0.0010016406886279583,
      "learning_rate": 0.25178550267287425,
      "loss": 0.2939,
      "num_input_tokens_seen": 9752368,
      "step": 10505
    },
    {
      "epoch": 4.955209806694955,
      "grad_norm": 0.0011287350207567215,
      "learning_rate": 0.2517422270999976,
      "loss": 0.3827,
      "num_input_tokens_seen": 9757008,
      "step": 10510
    },
    {
      "epoch": 4.957567185289958,
      "grad_norm": 0.000255522143561393,
      "learning_rate": 0.2516989358371909,
      "loss": 0.3098,
      "num_input_tokens_seen": 9761488,
      "step": 10515
    },
    {
      "epoch": 4.95992456388496,
      "grad_norm": 0.0007977051427587867,
      "learning_rate": 0.25165562889113025,
      "loss": 0.3537,
      "num_input_tokens_seen": 9766944,
      "step": 10520
    },
    {
      "epoch": 4.9622819424799625,
      "grad_norm": 0.000774695654399693,
      "learning_rate": 0.2516123062684942,
      "loss": 0.344,
      "num_input_tokens_seen": 9771392,
      "step": 10525
    },
    {
      "epoch": 4.964639321074965,
      "grad_norm": 0.0014233218971639872,
      "learning_rate": 0.25156896797596356,
      "loss": 0.342,
      "num_input_tokens_seen": 9775712,
      "step": 10530
    },
    {
      "epoch": 4.966996699669967,
      "grad_norm": 0.00045123579911887646,
      "learning_rate": 0.2515256140202216,
      "loss": 0.3058,
      "num_input_tokens_seen": 9780736,
      "step": 10535
    },
    {
      "epoch": 4.96935407826497,
      "grad_norm": 0.0004629731411114335,
      "learning_rate": 0.25148224440795425,
      "loss": 0.3514,
      "num_input_tokens_seen": 9784864,
      "step": 10540
    },
    {
      "epoch": 4.971711456859972,
      "grad_norm": 0.0006711823516525328,
      "learning_rate": 0.2514388591458494,
      "loss": 0.3271,
      "num_input_tokens_seen": 9789408,
      "step": 10545
    },
    {
      "epoch": 4.974068835454974,
      "grad_norm": 0.0007399938767775893,
      "learning_rate": 0.2513954582405977,
      "loss": 0.339,
      "num_input_tokens_seen": 9794304,
      "step": 10550
    },
    {
      "epoch": 4.976426214049976,
      "grad_norm": 0.0013062037760391831,
      "learning_rate": 0.2513520416988922,
      "loss": 0.3442,
      "num_input_tokens_seen": 9798496,
      "step": 10555
    },
    {
      "epoch": 4.978783592644978,
      "grad_norm": 0.0005581201985478401,
      "learning_rate": 0.2513086095274281,
      "loss": 0.3253,
      "num_input_tokens_seen": 9802976,
      "step": 10560
    },
    {
      "epoch": 4.981140971239981,
      "grad_norm": 0.0006422360893338919,
      "learning_rate": 0.25126516173290336,
      "loss": 0.3439,
      "num_input_tokens_seen": 9807824,
      "step": 10565
    },
    {
      "epoch": 4.983498349834983,
      "grad_norm": 0.0005790497525595129,
      "learning_rate": 0.2512216983220181,
      "loss": 0.3221,
      "num_input_tokens_seen": 9812400,
      "step": 10570
    },
    {
      "epoch": 4.985855728429986,
      "grad_norm": 0.00152349635027349,
      "learning_rate": 0.25117821930147494,
      "loss": 0.3026,
      "num_input_tokens_seen": 9817200,
      "step": 10575
    },
    {
      "epoch": 4.988213107024988,
      "grad_norm": 0.0013010367983952165,
      "learning_rate": 0.2511347246779788,
      "loss": 0.2506,
      "num_input_tokens_seen": 9821760,
      "step": 10580
    },
    {
      "epoch": 4.99057048561999,
      "grad_norm": 0.002036371501162648,
      "learning_rate": 0.25109121445823723,
      "loss": 0.4278,
      "num_input_tokens_seen": 9827008,
      "step": 10585
    },
    {
      "epoch": 4.992927864214993,
      "grad_norm": 0.0008011845638975501,
      "learning_rate": 0.25104768864896004,
      "loss": 0.3833,
      "num_input_tokens_seen": 9831760,
      "step": 10590
    },
    {
      "epoch": 4.995285242809995,
      "grad_norm": 0.000988105544820428,
      "learning_rate": 0.2510041472568594,
      "loss": 0.2829,
      "num_input_tokens_seen": 9836048,
      "step": 10595
    },
    {
      "epoch": 4.997642621404998,
      "grad_norm": 0.0006431404035538435,
      "learning_rate": 0.25096059028864987,
      "loss": 0.3385,
      "num_input_tokens_seen": 9841232,
      "step": 10600
    },
    {
      "epoch": 4.997642621404998,
      "eval_loss": 0.32858341932296753,
      "eval_runtime": 33.5357,
      "eval_samples_per_second": 28.119,
      "eval_steps_per_second": 14.075,
      "num_input_tokens_seen": 9841232,
      "step": 10600
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.0005944448057562113,
      "learning_rate": 0.25091701775104863,
      "loss": 0.3326,
      "num_input_tokens_seen": 9845840,
      "step": 10605
    },
    {
      "epoch": 5.002357378595002,
      "grad_norm": 0.0007429782999679446,
      "learning_rate": 0.250873429650775,
      "loss": 0.3631,
      "num_input_tokens_seen": 9850768,
      "step": 10610
    },
    {
      "epoch": 5.004714757190005,
      "grad_norm": 0.0005985756870359182,
      "learning_rate": 0.25082982599455095,
      "loss": 0.3291,
      "num_input_tokens_seen": 9856032,
      "step": 10615
    },
    {
      "epoch": 5.007072135785007,
      "grad_norm": 0.0003772929485421628,
      "learning_rate": 0.2507862067891006,
      "loss": 0.3428,
      "num_input_tokens_seen": 9859968,
      "step": 10620
    },
    {
      "epoch": 5.00942951438001,
      "grad_norm": 0.0008000984089449048,
      "learning_rate": 0.25074257204115064,
      "loss": 0.3328,
      "num_input_tokens_seen": 9864464,
      "step": 10625
    },
    {
      "epoch": 5.011786892975012,
      "grad_norm": 0.0008330229902639985,
      "learning_rate": 0.25069892175742997,
      "loss": 0.3247,
      "num_input_tokens_seen": 9869216,
      "step": 10630
    },
    {
      "epoch": 5.014144271570014,
      "grad_norm": 0.0005487030721269548,
      "learning_rate": 0.25065525594467014,
      "loss": 0.3381,
      "num_input_tokens_seen": 9872896,
      "step": 10635
    },
    {
      "epoch": 5.016501650165017,
      "grad_norm": 0.0008317765314131975,
      "learning_rate": 0.2506115746096049,
      "loss": 0.3035,
      "num_input_tokens_seen": 9877072,
      "step": 10640
    },
    {
      "epoch": 5.018859028760019,
      "grad_norm": 0.0004154243506491184,
      "learning_rate": 0.25056787775897055,
      "loss": 0.3278,
      "num_input_tokens_seen": 9881440,
      "step": 10645
    },
    {
      "epoch": 5.021216407355022,
      "grad_norm": 0.00033240829361602664,
      "learning_rate": 0.2505241653995056,
      "loss": 0.279,
      "num_input_tokens_seen": 9886096,
      "step": 10650
    },
    {
      "epoch": 5.023573785950024,
      "grad_norm": 0.00023758862516842782,
      "learning_rate": 0.25048043753795113,
      "loss": 0.2741,
      "num_input_tokens_seen": 9891040,
      "step": 10655
    },
    {
      "epoch": 5.0259311645450255,
      "grad_norm": 0.0001975028426386416,
      "learning_rate": 0.2504366941810504,
      "loss": 0.2624,
      "num_input_tokens_seen": 9896608,
      "step": 10660
    },
    {
      "epoch": 5.028288543140028,
      "grad_norm": 0.002697537885978818,
      "learning_rate": 0.2503929353355493,
      "loss": 0.3426,
      "num_input_tokens_seen": 9901696,
      "step": 10665
    },
    {
      "epoch": 5.03064592173503,
      "grad_norm": 0.0010937789920717478,
      "learning_rate": 0.250349161008196,
      "loss": 0.2612,
      "num_input_tokens_seen": 9905968,
      "step": 10670
    },
    {
      "epoch": 5.033003300330033,
      "grad_norm": 0.00045346689876168966,
      "learning_rate": 0.2503053712057409,
      "loss": 0.3709,
      "num_input_tokens_seen": 9910192,
      "step": 10675
    },
    {
      "epoch": 5.035360678925035,
      "grad_norm": 0.0016456434968858957,
      "learning_rate": 0.25026156593493715,
      "loss": 0.454,
      "num_input_tokens_seen": 9914768,
      "step": 10680
    },
    {
      "epoch": 5.0377180575200375,
      "grad_norm": 0.000871630385518074,
      "learning_rate": 0.2502177452025399,
      "loss": 0.3765,
      "num_input_tokens_seen": 9918912,
      "step": 10685
    },
    {
      "epoch": 5.04007543611504,
      "grad_norm": 0.0010539690265432,
      "learning_rate": 0.25017390901530695,
      "loss": 0.3467,
      "num_input_tokens_seen": 9922736,
      "step": 10690
    },
    {
      "epoch": 5.042432814710042,
      "grad_norm": 0.0009647106635384262,
      "learning_rate": 0.2501300573799984,
      "loss": 0.3494,
      "num_input_tokens_seen": 9928272,
      "step": 10695
    },
    {
      "epoch": 5.044790193305045,
      "grad_norm": 0.0017554768128320575,
      "learning_rate": 0.2500861903033766,
      "loss": 0.3476,
      "num_input_tokens_seen": 9933360,
      "step": 10700
    },
    {
      "epoch": 5.047147571900047,
      "grad_norm": 0.002135459566488862,
      "learning_rate": 0.25004230779220654,
      "loss": 0.3714,
      "num_input_tokens_seen": 9937840,
      "step": 10705
    },
    {
      "epoch": 5.0495049504950495,
      "grad_norm": 0.0006603477522730827,
      "learning_rate": 0.24999840985325542,
      "loss": 0.3218,
      "num_input_tokens_seen": 9942576,
      "step": 10710
    },
    {
      "epoch": 5.051862329090052,
      "grad_norm": 0.0011809624265879393,
      "learning_rate": 0.24995449649329285,
      "loss": 0.3539,
      "num_input_tokens_seen": 9947248,
      "step": 10715
    },
    {
      "epoch": 5.054219707685054,
      "grad_norm": 0.000529032782651484,
      "learning_rate": 0.2499105677190908,
      "loss": 0.348,
      "num_input_tokens_seen": 9951872,
      "step": 10720
    },
    {
      "epoch": 5.056577086280057,
      "grad_norm": 0.0006561382906511426,
      "learning_rate": 0.24986662353742364,
      "loss": 0.3309,
      "num_input_tokens_seen": 9956400,
      "step": 10725
    },
    {
      "epoch": 5.058934464875059,
      "grad_norm": 0.0006413005758076906,
      "learning_rate": 0.24982266395506814,
      "loss": 0.3228,
      "num_input_tokens_seen": 9960624,
      "step": 10730
    },
    {
      "epoch": 5.061291843470062,
      "grad_norm": 0.0005109473131597042,
      "learning_rate": 0.2497786889788034,
      "loss": 0.3172,
      "num_input_tokens_seen": 9964480,
      "step": 10735
    },
    {
      "epoch": 5.063649222065064,
      "grad_norm": 0.0013366127386689186,
      "learning_rate": 0.24973469861541095,
      "loss": 0.3424,
      "num_input_tokens_seen": 9969232,
      "step": 10740
    },
    {
      "epoch": 5.066006600660066,
      "grad_norm": 0.0004344847984611988,
      "learning_rate": 0.24969069287167456,
      "loss": 0.3279,
      "num_input_tokens_seen": 9973776,
      "step": 10745
    },
    {
      "epoch": 5.068363979255069,
      "grad_norm": 0.0006500028539448977,
      "learning_rate": 0.2496466717543806,
      "loss": 0.2469,
      "num_input_tokens_seen": 9978576,
      "step": 10750
    },
    {
      "epoch": 5.07072135785007,
      "grad_norm": 0.0002755558234639466,
      "learning_rate": 0.24960263527031762,
      "loss": 0.3329,
      "num_input_tokens_seen": 9983200,
      "step": 10755
    },
    {
      "epoch": 5.073078736445073,
      "grad_norm": 0.0009169834083877504,
      "learning_rate": 0.24955858342627657,
      "loss": 0.3306,
      "num_input_tokens_seen": 9987872,
      "step": 10760
    },
    {
      "epoch": 5.075436115040075,
      "grad_norm": 0.0025735467206686735,
      "learning_rate": 0.24951451622905083,
      "loss": 0.398,
      "num_input_tokens_seen": 9992912,
      "step": 10765
    },
    {
      "epoch": 5.0777934936350775,
      "grad_norm": 0.0023942787665873766,
      "learning_rate": 0.24947043368543612,
      "loss": 0.3649,
      "num_input_tokens_seen": 9997552,
      "step": 10770
    },
    {
      "epoch": 5.08015087223008,
      "grad_norm": 0.0005189829389564693,
      "learning_rate": 0.2494263358022305,
      "loss": 0.3042,
      "num_input_tokens_seen": 10002224,
      "step": 10775
    },
    {
      "epoch": 5.082508250825082,
      "grad_norm": 0.000577873841393739,
      "learning_rate": 0.24938222258623444,
      "loss": 0.3404,
      "num_input_tokens_seen": 10006512,
      "step": 10780
    },
    {
      "epoch": 5.084865629420085,
      "grad_norm": 0.00040337751852348447,
      "learning_rate": 0.24933809404425075,
      "loss": 0.3325,
      "num_input_tokens_seen": 10011024,
      "step": 10785
    },
    {
      "epoch": 5.087223008015087,
      "grad_norm": 0.0005991364014334977,
      "learning_rate": 0.24929395018308453,
      "loss": 0.3083,
      "num_input_tokens_seen": 10016720,
      "step": 10790
    },
    {
      "epoch": 5.0895803866100895,
      "grad_norm": 0.0006190525600686669,
      "learning_rate": 0.24924979100954348,
      "loss": 0.3376,
      "num_input_tokens_seen": 10021072,
      "step": 10795
    },
    {
      "epoch": 5.091937765205092,
      "grad_norm": 0.0014858084032312036,
      "learning_rate": 0.24920561653043735,
      "loss": 0.3236,
      "num_input_tokens_seen": 10025504,
      "step": 10800
    },
    {
      "epoch": 5.091937765205092,
      "eval_loss": 0.3288898766040802,
      "eval_runtime": 33.4939,
      "eval_samples_per_second": 28.154,
      "eval_steps_per_second": 14.092,
      "num_input_tokens_seen": 10025504,
      "step": 10800
    },
    {
      "epoch": 5.094295143800094,
      "grad_norm": 0.00044330459786579013,
      "learning_rate": 0.24916142675257846,
      "loss": 0.3498,
      "num_input_tokens_seen": 10030256,
      "step": 10805
    },
    {
      "epoch": 5.096652522395097,
      "grad_norm": 0.0005260383477434516,
      "learning_rate": 0.24911722168278144,
      "loss": 0.3717,
      "num_input_tokens_seen": 10034864,
      "step": 10810
    },
    {
      "epoch": 5.099009900990099,
      "grad_norm": 0.000467849982669577,
      "learning_rate": 0.24907300132786328,
      "loss": 0.3471,
      "num_input_tokens_seen": 10039408,
      "step": 10815
    },
    {
      "epoch": 5.1013672795851015,
      "grad_norm": 0.00039526866748929024,
      "learning_rate": 0.24902876569464322,
      "loss": 0.3315,
      "num_input_tokens_seen": 10043856,
      "step": 10820
    },
    {
      "epoch": 5.103724658180104,
      "grad_norm": 0.0007405228679999709,
      "learning_rate": 0.24898451478994305,
      "loss": 0.3552,
      "num_input_tokens_seen": 10048976,
      "step": 10825
    },
    {
      "epoch": 5.106082036775106,
      "grad_norm": 0.0003242104721721262,
      "learning_rate": 0.2489402486205868,
      "loss": 0.3613,
      "num_input_tokens_seen": 10053712,
      "step": 10830
    },
    {
      "epoch": 5.108439415370109,
      "grad_norm": 0.0002199597074650228,
      "learning_rate": 0.24889596719340085,
      "loss": 0.3332,
      "num_input_tokens_seen": 10058928,
      "step": 10835
    },
    {
      "epoch": 5.110796793965111,
      "grad_norm": 0.00033886643359437585,
      "learning_rate": 0.24885167051521392,
      "loss": 0.3471,
      "num_input_tokens_seen": 10063024,
      "step": 10840
    },
    {
      "epoch": 5.1131541725601135,
      "grad_norm": 0.00043859740253537893,
      "learning_rate": 0.24880735859285716,
      "loss": 0.3427,
      "num_input_tokens_seen": 10067952,
      "step": 10845
    },
    {
      "epoch": 5.115511551155116,
      "grad_norm": 0.0005869822925888002,
      "learning_rate": 0.24876303143316406,
      "loss": 0.3287,
      "num_input_tokens_seen": 10072096,
      "step": 10850
    },
    {
      "epoch": 5.117868929750118,
      "grad_norm": 0.00047644414007663727,
      "learning_rate": 0.24871868904297031,
      "loss": 0.3283,
      "num_input_tokens_seen": 10076480,
      "step": 10855
    },
    {
      "epoch": 5.12022630834512,
      "grad_norm": 0.00029412496951408684,
      "learning_rate": 0.24867433142911416,
      "loss": 0.2782,
      "num_input_tokens_seen": 10081616,
      "step": 10860
    },
    {
      "epoch": 5.122583686940122,
      "grad_norm": 0.0016506059328094125,
      "learning_rate": 0.24862995859843612,
      "loss": 0.4258,
      "num_input_tokens_seen": 10086304,
      "step": 10865
    },
    {
      "epoch": 5.124941065535125,
      "grad_norm": 0.0005917701637372375,
      "learning_rate": 0.24858557055777897,
      "loss": 0.3142,
      "num_input_tokens_seen": 10090752,
      "step": 10870
    },
    {
      "epoch": 5.127298444130127,
      "grad_norm": 0.0012161573395133018,
      "learning_rate": 0.24854116731398793,
      "loss": 0.3091,
      "num_input_tokens_seen": 10095984,
      "step": 10875
    },
    {
      "epoch": 5.129655822725129,
      "grad_norm": 0.0004819358582608402,
      "learning_rate": 0.24849674887391052,
      "loss": 0.3637,
      "num_input_tokens_seen": 10100720,
      "step": 10880
    },
    {
      "epoch": 5.132013201320132,
      "grad_norm": 0.0005632298998534679,
      "learning_rate": 0.2484523152443967,
      "loss": 0.3341,
      "num_input_tokens_seen": 10105504,
      "step": 10885
    },
    {
      "epoch": 5.134370579915134,
      "grad_norm": 0.00048667259397916496,
      "learning_rate": 0.24840786643229862,
      "loss": 0.3409,
      "num_input_tokens_seen": 10110720,
      "step": 10890
    },
    {
      "epoch": 5.136727958510137,
      "grad_norm": 0.0006820143316872418,
      "learning_rate": 0.2483634024444709,
      "loss": 0.3368,
      "num_input_tokens_seen": 10114768,
      "step": 10895
    },
    {
      "epoch": 5.139085337105139,
      "grad_norm": 0.0006695318152196705,
      "learning_rate": 0.24831892328777033,
      "loss": 0.3181,
      "num_input_tokens_seen": 10119616,
      "step": 10900
    },
    {
      "epoch": 5.141442715700141,
      "grad_norm": 0.0005395420012064278,
      "learning_rate": 0.2482744289690563,
      "loss": 0.3728,
      "num_input_tokens_seen": 10125632,
      "step": 10905
    },
    {
      "epoch": 5.143800094295144,
      "grad_norm": 0.0007964163669385016,
      "learning_rate": 0.2482299194951903,
      "loss": 0.3615,
      "num_input_tokens_seen": 10130320,
      "step": 10910
    },
    {
      "epoch": 5.146157472890146,
      "grad_norm": 0.0016470735426992178,
      "learning_rate": 0.2481853948730363,
      "loss": 0.3501,
      "num_input_tokens_seen": 10136688,
      "step": 10915
    },
    {
      "epoch": 5.148514851485149,
      "grad_norm": 0.0017926356522366405,
      "learning_rate": 0.24814085510946052,
      "loss": 0.3434,
      "num_input_tokens_seen": 10140512,
      "step": 10920
    },
    {
      "epoch": 5.150872230080151,
      "grad_norm": 0.0005283222417347133,
      "learning_rate": 0.24809630021133158,
      "loss": 0.3379,
      "num_input_tokens_seen": 10145840,
      "step": 10925
    },
    {
      "epoch": 5.1532296086751535,
      "grad_norm": 0.00031139643397182226,
      "learning_rate": 0.24805173018552037,
      "loss": 0.3434,
      "num_input_tokens_seen": 10150240,
      "step": 10930
    },
    {
      "epoch": 5.155586987270156,
      "grad_norm": 0.0020379109773784876,
      "learning_rate": 0.2480071450389002,
      "loss": 0.3481,
      "num_input_tokens_seen": 10154816,
      "step": 10935
    },
    {
      "epoch": 5.157944365865158,
      "grad_norm": 0.00036782442475669086,
      "learning_rate": 0.24796254477834662,
      "loss": 0.3476,
      "num_input_tokens_seen": 10158752,
      "step": 10940
    },
    {
      "epoch": 5.160301744460161,
      "grad_norm": 0.0011303339852020144,
      "learning_rate": 0.24791792941073754,
      "loss": 0.3426,
      "num_input_tokens_seen": 10163504,
      "step": 10945
    },
    {
      "epoch": 5.162659123055163,
      "grad_norm": 0.00032091542379930615,
      "learning_rate": 0.2478732989429533,
      "loss": 0.3554,
      "num_input_tokens_seen": 10168352,
      "step": 10950
    },
    {
      "epoch": 5.165016501650165,
      "grad_norm": 0.0010775316040962934,
      "learning_rate": 0.24782865338187632,
      "loss": 0.33,
      "num_input_tokens_seen": 10173024,
      "step": 10955
    },
    {
      "epoch": 5.167373880245167,
      "grad_norm": 0.0006534196436405182,
      "learning_rate": 0.2477839927343916,
      "loss": 0.3229,
      "num_input_tokens_seen": 10177424,
      "step": 10960
    },
    {
      "epoch": 5.169731258840169,
      "grad_norm": 0.0013326797634363174,
      "learning_rate": 0.2477393170073864,
      "loss": 0.3096,
      "num_input_tokens_seen": 10182032,
      "step": 10965
    },
    {
      "epoch": 5.172088637435172,
      "grad_norm": 0.0007108754944056273,
      "learning_rate": 0.2476946262077503,
      "loss": 0.2623,
      "num_input_tokens_seen": 10187232,
      "step": 10970
    },
    {
      "epoch": 5.174446016030174,
      "grad_norm": 0.000916516815777868,
      "learning_rate": 0.24764992034237507,
      "loss": 0.2863,
      "num_input_tokens_seen": 10191808,
      "step": 10975
    },
    {
      "epoch": 5.176803394625177,
      "grad_norm": 0.0007364319753833115,
      "learning_rate": 0.24760519941815498,
      "loss": 0.2454,
      "num_input_tokens_seen": 10196672,
      "step": 10980
    },
    {
      "epoch": 5.179160773220179,
      "grad_norm": 0.0002875084464903921,
      "learning_rate": 0.2475604634419866,
      "loss": 0.4884,
      "num_input_tokens_seen": 10202288,
      "step": 10985
    },
    {
      "epoch": 5.181518151815181,
      "grad_norm": 0.0008813281892798841,
      "learning_rate": 0.24751571242076872,
      "loss": 0.3322,
      "num_input_tokens_seen": 10206624,
      "step": 10990
    },
    {
      "epoch": 5.183875530410184,
      "grad_norm": 0.0010967777343466878,
      "learning_rate": 0.2474709463614025,
      "loss": 0.3343,
      "num_input_tokens_seen": 10212144,
      "step": 10995
    },
    {
      "epoch": 5.186232909005186,
      "grad_norm": 0.000523475231602788,
      "learning_rate": 0.24742616527079145,
      "loss": 0.3695,
      "num_input_tokens_seen": 10216464,
      "step": 11000
    },
    {
      "epoch": 5.186232909005186,
      "eval_loss": 0.32843348383903503,
      "eval_runtime": 33.5312,
      "eval_samples_per_second": 28.123,
      "eval_steps_per_second": 14.076,
      "num_input_tokens_seen": 10216464,
      "step": 11000
    },
    {
      "epoch": 5.188590287600189,
      "grad_norm": 0.0007981873932294548,
      "learning_rate": 0.24738136915584139,
      "loss": 0.3158,
      "num_input_tokens_seen": 10220960,
      "step": 11005
    },
    {
      "epoch": 5.190947666195191,
      "grad_norm": 0.0018400769913569093,
      "learning_rate": 0.24733655802346047,
      "loss": 0.3501,
      "num_input_tokens_seen": 10225280,
      "step": 11010
    },
    {
      "epoch": 5.193305044790193,
      "grad_norm": 0.0006049969233572483,
      "learning_rate": 0.24729173188055906,
      "loss": 0.3215,
      "num_input_tokens_seen": 10230800,
      "step": 11015
    },
    {
      "epoch": 5.195662423385196,
      "grad_norm": 0.0004104449471924454,
      "learning_rate": 0.24724689073404996,
      "loss": 0.3126,
      "num_input_tokens_seen": 10235184,
      "step": 11020
    },
    {
      "epoch": 5.198019801980198,
      "grad_norm": 0.0011117374524474144,
      "learning_rate": 0.24720203459084822,
      "loss": 0.3137,
      "num_input_tokens_seen": 10240480,
      "step": 11025
    },
    {
      "epoch": 5.200377180575201,
      "grad_norm": 0.0007307687192223966,
      "learning_rate": 0.24715716345787123,
      "loss": 0.3529,
      "num_input_tokens_seen": 10245008,
      "step": 11030
    },
    {
      "epoch": 5.202734559170203,
      "grad_norm": 0.0006223051459528506,
      "learning_rate": 0.2471122773420387,
      "loss": 0.3151,
      "num_input_tokens_seen": 10250112,
      "step": 11035
    },
    {
      "epoch": 5.205091937765205,
      "grad_norm": 0.00039659635513089597,
      "learning_rate": 0.24706737625027259,
      "loss": 0.3908,
      "num_input_tokens_seen": 10255200,
      "step": 11040
    },
    {
      "epoch": 5.207449316360208,
      "grad_norm": 0.0005347306141629815,
      "learning_rate": 0.24702246018949725,
      "loss": 0.3348,
      "num_input_tokens_seen": 10260240,
      "step": 11045
    },
    {
      "epoch": 5.20980669495521,
      "grad_norm": 0.0007240764098241925,
      "learning_rate": 0.2469775291666393,
      "loss": 0.3416,
      "num_input_tokens_seen": 10265056,
      "step": 11050
    },
    {
      "epoch": 5.212164073550213,
      "grad_norm": 0.0010943878442049026,
      "learning_rate": 0.24693258318862765,
      "loss": 0.35,
      "num_input_tokens_seen": 10270336,
      "step": 11055
    },
    {
      "epoch": 5.214521452145214,
      "grad_norm": 0.0005721028428524733,
      "learning_rate": 0.2468876222623935,
      "loss": 0.3184,
      "num_input_tokens_seen": 10275264,
      "step": 11060
    },
    {
      "epoch": 5.2168788307402165,
      "grad_norm": 0.00043536341399885714,
      "learning_rate": 0.2468426463948705,
      "loss": 0.3065,
      "num_input_tokens_seen": 10280048,
      "step": 11065
    },
    {
      "epoch": 5.219236209335219,
      "grad_norm": 0.00043768854811787605,
      "learning_rate": 0.24679765559299438,
      "loss": 0.3256,
      "num_input_tokens_seen": 10285648,
      "step": 11070
    },
    {
      "epoch": 5.221593587930221,
      "grad_norm": 0.0004551738384179771,
      "learning_rate": 0.24675264986370332,
      "loss": 0.2956,
      "num_input_tokens_seen": 10289472,
      "step": 11075
    },
    {
      "epoch": 5.223950966525224,
      "grad_norm": 0.0014811139553785324,
      "learning_rate": 0.2467076292139378,
      "loss": 0.3849,
      "num_input_tokens_seen": 10293136,
      "step": 11080
    },
    {
      "epoch": 5.226308345120226,
      "grad_norm": 0.0003165977250318974,
      "learning_rate": 0.24666259365064055,
      "loss": 0.3357,
      "num_input_tokens_seen": 10297072,
      "step": 11085
    },
    {
      "epoch": 5.2286657237152285,
      "grad_norm": 0.00044064305257052183,
      "learning_rate": 0.24661754318075663,
      "loss": 0.3566,
      "num_input_tokens_seen": 10301424,
      "step": 11090
    },
    {
      "epoch": 5.231023102310231,
      "grad_norm": 0.0004753790271934122,
      "learning_rate": 0.2465724778112334,
      "loss": 0.3814,
      "num_input_tokens_seen": 10306352,
      "step": 11095
    },
    {
      "epoch": 5.233380480905233,
      "grad_norm": 0.0006407942855730653,
      "learning_rate": 0.24652739754902042,
      "loss": 0.3483,
      "num_input_tokens_seen": 10310448,
      "step": 11100
    },
    {
      "epoch": 5.235737859500236,
      "grad_norm": 0.0006816030945628881,
      "learning_rate": 0.24648230240106975,
      "loss": 0.3246,
      "num_input_tokens_seen": 10315632,
      "step": 11105
    },
    {
      "epoch": 5.238095238095238,
      "grad_norm": 0.0006364447181113064,
      "learning_rate": 0.2464371923743356,
      "loss": 0.3535,
      "num_input_tokens_seen": 10320960,
      "step": 11110
    },
    {
      "epoch": 5.2404526166902405,
      "grad_norm": 0.00044909847201779485,
      "learning_rate": 0.24639206747577444,
      "loss": 0.3042,
      "num_input_tokens_seen": 10325952,
      "step": 11115
    },
    {
      "epoch": 5.242809995285243,
      "grad_norm": 0.000590323586948216,
      "learning_rate": 0.24634692771234515,
      "loss": 0.3167,
      "num_input_tokens_seen": 10330032,
      "step": 11120
    },
    {
      "epoch": 5.245167373880245,
      "grad_norm": 0.0005713711143471301,
      "learning_rate": 0.2463017730910088,
      "loss": 0.3088,
      "num_input_tokens_seen": 10334480,
      "step": 11125
    },
    {
      "epoch": 5.247524752475248,
      "grad_norm": 0.0013821994652971625,
      "learning_rate": 0.2462566036187289,
      "loss": 0.3458,
      "num_input_tokens_seen": 10339712,
      "step": 11130
    },
    {
      "epoch": 5.24988213107025,
      "grad_norm": 0.0016004351200535893,
      "learning_rate": 0.24621141930247106,
      "loss": 0.4144,
      "num_input_tokens_seen": 10343280,
      "step": 11135
    },
    {
      "epoch": 5.2522395096652525,
      "grad_norm": 0.0002898577367886901,
      "learning_rate": 0.2461662201492033,
      "loss": 0.29,
      "num_input_tokens_seen": 10348432,
      "step": 11140
    },
    {
      "epoch": 5.254596888260255,
      "grad_norm": 0.0015043336898088455,
      "learning_rate": 0.24612100616589586,
      "loss": 0.3162,
      "num_input_tokens_seen": 10352960,
      "step": 11145
    },
    {
      "epoch": 5.256954266855257,
      "grad_norm": 0.0008213009568862617,
      "learning_rate": 0.24607577735952135,
      "loss": 0.2331,
      "num_input_tokens_seen": 10358144,
      "step": 11150
    },
    {
      "epoch": 5.259311645450259,
      "grad_norm": 0.0016369845252484083,
      "learning_rate": 0.24603053373705464,
      "loss": 0.3441,
      "num_input_tokens_seen": 10363584,
      "step": 11155
    },
    {
      "epoch": 5.261669024045261,
      "grad_norm": 0.001093144528567791,
      "learning_rate": 0.2459852753054728,
      "loss": 0.3709,
      "num_input_tokens_seen": 10367984,
      "step": 11160
    },
    {
      "epoch": 5.264026402640264,
      "grad_norm": 0.0008035365608520806,
      "learning_rate": 0.24594000207175526,
      "loss": 0.3474,
      "num_input_tokens_seen": 10372448,
      "step": 11165
    },
    {
      "epoch": 5.266383781235266,
      "grad_norm": 0.004796037916094065,
      "learning_rate": 0.2458947140428838,
      "loss": 0.3797,
      "num_input_tokens_seen": 10377776,
      "step": 11170
    },
    {
      "epoch": 5.2687411598302685,
      "grad_norm": 0.0008701359620317817,
      "learning_rate": 0.24584941122584233,
      "loss": 0.3484,
      "num_input_tokens_seen": 10381456,
      "step": 11175
    },
    {
      "epoch": 5.271098538425271,
      "grad_norm": 0.0009949230588972569,
      "learning_rate": 0.24580409362761713,
      "loss": 0.3279,
      "num_input_tokens_seen": 10386064,
      "step": 11180
    },
    {
      "epoch": 5.273455917020273,
      "grad_norm": 0.0003823669394478202,
      "learning_rate": 0.2457587612551967,
      "loss": 0.3722,
      "num_input_tokens_seen": 10390544,
      "step": 11185
    },
    {
      "epoch": 5.275813295615276,
      "grad_norm": 0.00034964754013344646,
      "learning_rate": 0.24571341411557193,
      "loss": 0.2898,
      "num_input_tokens_seen": 10394624,
      "step": 11190
    },
    {
      "epoch": 5.278170674210278,
      "grad_norm": 0.0004958237404935062,
      "learning_rate": 0.2456680522157359,
      "loss": 0.3373,
      "num_input_tokens_seen": 10398240,
      "step": 11195
    },
    {
      "epoch": 5.2805280528052805,
      "grad_norm": 0.0008305487572215497,
      "learning_rate": 0.245622675562684,
      "loss": 0.2978,
      "num_input_tokens_seen": 10402448,
      "step": 11200
    },
    {
      "epoch": 5.2805280528052805,
      "eval_loss": 0.32912778854370117,
      "eval_runtime": 33.5991,
      "eval_samples_per_second": 28.066,
      "eval_steps_per_second": 14.048,
      "num_input_tokens_seen": 10402448,
      "step": 11200
    },
    {
      "epoch": 5.282885431400283,
      "grad_norm": 0.0007020797929726541,
      "learning_rate": 0.24557728416341384,
      "loss": 0.312,
      "num_input_tokens_seen": 10406480,
      "step": 11205
    },
    {
      "epoch": 5.285242809995285,
      "grad_norm": 0.0009618668118491769,
      "learning_rate": 0.24553187802492538,
      "loss": 0.3579,
      "num_input_tokens_seen": 10411456,
      "step": 11210
    },
    {
      "epoch": 5.287600188590288,
      "grad_norm": 0.00027056640828959644,
      "learning_rate": 0.24548645715422074,
      "loss": 0.2902,
      "num_input_tokens_seen": 10416032,
      "step": 11215
    },
    {
      "epoch": 5.28995756718529,
      "grad_norm": 0.0010010505793616176,
      "learning_rate": 0.2454410215583045,
      "loss": 0.2852,
      "num_input_tokens_seen": 10421184,
      "step": 11220
    },
    {
      "epoch": 5.2923149457802925,
      "grad_norm": 0.0002509520563762635,
      "learning_rate": 0.24539557124418332,
      "loss": 0.3635,
      "num_input_tokens_seen": 10425616,
      "step": 11225
    },
    {
      "epoch": 5.294672324375295,
      "grad_norm": 0.0022727043833583593,
      "learning_rate": 0.24535010621886624,
      "loss": 0.3244,
      "num_input_tokens_seen": 10430160,
      "step": 11230
    },
    {
      "epoch": 5.297029702970297,
      "grad_norm": 0.0007032140856608748,
      "learning_rate": 0.2453046264893646,
      "loss": 0.3975,
      "num_input_tokens_seen": 10435008,
      "step": 11235
    },
    {
      "epoch": 5.2993870815653,
      "grad_norm": 0.00039136226405389607,
      "learning_rate": 0.24525913206269184,
      "loss": 0.2977,
      "num_input_tokens_seen": 10440832,
      "step": 11240
    },
    {
      "epoch": 5.301744460160302,
      "grad_norm": 0.0004476082103792578,
      "learning_rate": 0.2452136229458638,
      "loss": 0.3134,
      "num_input_tokens_seen": 10445072,
      "step": 11245
    },
    {
      "epoch": 5.3041018387553045,
      "grad_norm": 0.0003812513896264136,
      "learning_rate": 0.24516809914589857,
      "loss": 0.3245,
      "num_input_tokens_seen": 10450432,
      "step": 11250
    },
    {
      "epoch": 5.306459217350307,
      "grad_norm": 0.0005816451157443225,
      "learning_rate": 0.2451225606698165,
      "loss": 0.3313,
      "num_input_tokens_seen": 10454944,
      "step": 11255
    },
    {
      "epoch": 5.308816595945308,
      "grad_norm": 0.0012195162707939744,
      "learning_rate": 0.2450770075246402,
      "loss": 0.3089,
      "num_input_tokens_seen": 10459104,
      "step": 11260
    },
    {
      "epoch": 5.311173974540311,
      "grad_norm": 0.0005487438174895942,
      "learning_rate": 0.24503143971739455,
      "loss": 0.3307,
      "num_input_tokens_seen": 10463664,
      "step": 11265
    },
    {
      "epoch": 5.313531353135313,
      "grad_norm": 0.0003319570969324559,
      "learning_rate": 0.24498585725510663,
      "loss": 0.3202,
      "num_input_tokens_seen": 10468096,
      "step": 11270
    },
    {
      "epoch": 5.315888731730316,
      "grad_norm": 0.0004686576430685818,
      "learning_rate": 0.24494026014480583,
      "loss": 0.313,
      "num_input_tokens_seen": 10473200,
      "step": 11275
    },
    {
      "epoch": 5.318246110325318,
      "grad_norm": 0.00032626237953081727,
      "learning_rate": 0.24489464839352387,
      "loss": 0.3381,
      "num_input_tokens_seen": 10477216,
      "step": 11280
    },
    {
      "epoch": 5.32060348892032,
      "grad_norm": 0.00034098795731551945,
      "learning_rate": 0.2448490220082946,
      "loss": 0.3684,
      "num_input_tokens_seen": 10480784,
      "step": 11285
    },
    {
      "epoch": 5.322960867515323,
      "grad_norm": 0.0006458506104536355,
      "learning_rate": 0.24480338099615415,
      "loss": 0.3696,
      "num_input_tokens_seen": 10485136,
      "step": 11290
    },
    {
      "epoch": 5.325318246110325,
      "grad_norm": 0.00058682297822088,
      "learning_rate": 0.244757725364141,
      "loss": 0.3132,
      "num_input_tokens_seen": 10489920,
      "step": 11295
    },
    {
      "epoch": 5.327675624705328,
      "grad_norm": 0.000401198398321867,
      "learning_rate": 0.24471205511929583,
      "loss": 0.4505,
      "num_input_tokens_seen": 10494384,
      "step": 11300
    },
    {
      "epoch": 5.33003300330033,
      "grad_norm": 0.0003434871032368392,
      "learning_rate": 0.24466637026866145,
      "loss": 0.3224,
      "num_input_tokens_seen": 10499760,
      "step": 11305
    },
    {
      "epoch": 5.332390381895332,
      "grad_norm": 0.0004930989816784859,
      "learning_rate": 0.2446206708192832,
      "loss": 0.3272,
      "num_input_tokens_seen": 10504576,
      "step": 11310
    },
    {
      "epoch": 5.334747760490335,
      "grad_norm": 0.0009388260659761727,
      "learning_rate": 0.2445749567782084,
      "loss": 0.3232,
      "num_input_tokens_seen": 10509856,
      "step": 11315
    },
    {
      "epoch": 5.337105139085337,
      "grad_norm": 0.0005355638568289578,
      "learning_rate": 0.2445292281524868,
      "loss": 0.3559,
      "num_input_tokens_seen": 10514224,
      "step": 11320
    },
    {
      "epoch": 5.33946251768034,
      "grad_norm": 0.0008782597724348307,
      "learning_rate": 0.24448348494917022,
      "loss": 0.3361,
      "num_input_tokens_seen": 10518880,
      "step": 11325
    },
    {
      "epoch": 5.341819896275342,
      "grad_norm": 0.0008905423455871642,
      "learning_rate": 0.24443772717531295,
      "loss": 0.3543,
      "num_input_tokens_seen": 10524208,
      "step": 11330
    },
    {
      "epoch": 5.344177274870344,
      "grad_norm": 0.0011229010997340083,
      "learning_rate": 0.24439195483797138,
      "loss": 0.354,
      "num_input_tokens_seen": 10529408,
      "step": 11335
    },
    {
      "epoch": 5.346534653465347,
      "grad_norm": 0.0004837902379222214,
      "learning_rate": 0.24434616794420416,
      "loss": 0.3287,
      "num_input_tokens_seen": 10533472,
      "step": 11340
    },
    {
      "epoch": 5.348892032060349,
      "grad_norm": 0.0008261030889116228,
      "learning_rate": 0.24430036650107223,
      "loss": 0.3436,
      "num_input_tokens_seen": 10537600,
      "step": 11345
    },
    {
      "epoch": 5.351249410655352,
      "grad_norm": 0.0005241598701104522,
      "learning_rate": 0.2442545505156387,
      "loss": 0.3023,
      "num_input_tokens_seen": 10541456,
      "step": 11350
    },
    {
      "epoch": 5.353606789250353,
      "grad_norm": 0.00041222042636945844,
      "learning_rate": 0.24420871999496904,
      "loss": 0.3711,
      "num_input_tokens_seen": 10546000,
      "step": 11355
    },
    {
      "epoch": 5.355964167845356,
      "grad_norm": 0.0013835224090144038,
      "learning_rate": 0.24416287494613084,
      "loss": 0.348,
      "num_input_tokens_seen": 10551648,
      "step": 11360
    },
    {
      "epoch": 5.358321546440358,
      "grad_norm": 0.0006141792400740087,
      "learning_rate": 0.24411701537619399,
      "loss": 0.3212,
      "num_input_tokens_seen": 10555696,
      "step": 11365
    },
    {
      "epoch": 5.36067892503536,
      "grad_norm": 0.0003957892186008394,
      "learning_rate": 0.24407114129223062,
      "loss": 0.3064,
      "num_input_tokens_seen": 10559168,
      "step": 11370
    },
    {
      "epoch": 5.363036303630363,
      "grad_norm": 0.0003602005890570581,
      "learning_rate": 0.2440252527013151,
      "loss": 0.3438,
      "num_input_tokens_seen": 10564496,
      "step": 11375
    },
    {
      "epoch": 5.365393682225365,
      "grad_norm": 0.0009202784858644009,
      "learning_rate": 0.24397934961052403,
      "loss": 0.3402,
      "num_input_tokens_seen": 10568496,
      "step": 11380
    },
    {
      "epoch": 5.367751060820368,
      "grad_norm": 0.0004199508694000542,
      "learning_rate": 0.24393343202693618,
      "loss": 0.3241,
      "num_input_tokens_seen": 10572912,
      "step": 11385
    },
    {
      "epoch": 5.37010843941537,
      "grad_norm": 0.0004030940472148359,
      "learning_rate": 0.2438874999576327,
      "loss": 0.2799,
      "num_input_tokens_seen": 10577792,
      "step": 11390
    },
    {
      "epoch": 5.372465818010372,
      "grad_norm": 0.0007337034330703318,
      "learning_rate": 0.24384155340969688,
      "loss": 0.3235,
      "num_input_tokens_seen": 10582384,
      "step": 11395
    },
    {
      "epoch": 5.374823196605375,
      "grad_norm": 0.0004706893814727664,
      "learning_rate": 0.24379559239021423,
      "loss": 0.2926,
      "num_input_tokens_seen": 10586976,
      "step": 11400
    },
    {
      "epoch": 5.374823196605375,
      "eval_loss": 0.33124813437461853,
      "eval_runtime": 33.5903,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 10586976,
      "step": 11400
    },
    {
      "epoch": 5.377180575200377,
      "grad_norm": 0.0006982135819271207,
      "learning_rate": 0.2437496169062725,
      "loss": 0.3086,
      "num_input_tokens_seen": 10592288,
      "step": 11405
    },
    {
      "epoch": 5.37953795379538,
      "grad_norm": 0.001163751119747758,
      "learning_rate": 0.24370362696496176,
      "loss": 0.3731,
      "num_input_tokens_seen": 10596544,
      "step": 11410
    },
    {
      "epoch": 5.381895332390382,
      "grad_norm": 0.0007147836149670184,
      "learning_rate": 0.24365762257337417,
      "loss": 0.351,
      "num_input_tokens_seen": 10602128,
      "step": 11415
    },
    {
      "epoch": 5.384252710985384,
      "grad_norm": 0.0006231500301510096,
      "learning_rate": 0.2436116037386042,
      "loss": 0.3421,
      "num_input_tokens_seen": 10606128,
      "step": 11420
    },
    {
      "epoch": 5.386610089580387,
      "grad_norm": 0.00039655566797591746,
      "learning_rate": 0.24356557046774852,
      "loss": 0.3509,
      "num_input_tokens_seen": 10609744,
      "step": 11425
    },
    {
      "epoch": 5.388967468175389,
      "grad_norm": 0.0005398768116720021,
      "learning_rate": 0.24351952276790606,
      "loss": 0.2909,
      "num_input_tokens_seen": 10613936,
      "step": 11430
    },
    {
      "epoch": 5.391324846770392,
      "grad_norm": 0.0011166303884238005,
      "learning_rate": 0.24347346064617797,
      "loss": 0.3475,
      "num_input_tokens_seen": 10618320,
      "step": 11435
    },
    {
      "epoch": 5.393682225365394,
      "grad_norm": 0.00037214189069345593,
      "learning_rate": 0.24342738410966758,
      "loss": 0.3196,
      "num_input_tokens_seen": 10623344,
      "step": 11440
    },
    {
      "epoch": 5.396039603960396,
      "grad_norm": 0.0004014658334199339,
      "learning_rate": 0.24338129316548046,
      "loss": 0.3136,
      "num_input_tokens_seen": 10628464,
      "step": 11445
    },
    {
      "epoch": 5.398396982555399,
      "grad_norm": 0.00035185733577236533,
      "learning_rate": 0.24333518782072444,
      "loss": 0.3337,
      "num_input_tokens_seen": 10632000,
      "step": 11450
    },
    {
      "epoch": 5.400754361150401,
      "grad_norm": 0.0011172652011737227,
      "learning_rate": 0.24328906808250952,
      "loss": 0.3605,
      "num_input_tokens_seen": 10636032,
      "step": 11455
    },
    {
      "epoch": 5.403111739745403,
      "grad_norm": 0.000420644209953025,
      "learning_rate": 0.243242933957948,
      "loss": 0.2986,
      "num_input_tokens_seen": 10640672,
      "step": 11460
    },
    {
      "epoch": 5.405469118340405,
      "grad_norm": 0.0006422307342290878,
      "learning_rate": 0.24319678545415427,
      "loss": 0.3583,
      "num_input_tokens_seen": 10644976,
      "step": 11465
    },
    {
      "epoch": 5.4078264969354075,
      "grad_norm": 0.0010356593411415815,
      "learning_rate": 0.24315062257824507,
      "loss": 0.3219,
      "num_input_tokens_seen": 10649536,
      "step": 11470
    },
    {
      "epoch": 5.41018387553041,
      "grad_norm": 0.00031018309528008103,
      "learning_rate": 0.24310444533733921,
      "loss": 0.2954,
      "num_input_tokens_seen": 10653968,
      "step": 11475
    },
    {
      "epoch": 5.412541254125412,
      "grad_norm": 0.001006918610073626,
      "learning_rate": 0.2430582537385579,
      "loss": 0.3722,
      "num_input_tokens_seen": 10658800,
      "step": 11480
    },
    {
      "epoch": 5.414898632720415,
      "grad_norm": 0.0009990198304876685,
      "learning_rate": 0.2430120477890244,
      "loss": 0.2076,
      "num_input_tokens_seen": 10663392,
      "step": 11485
    },
    {
      "epoch": 5.417256011315417,
      "grad_norm": 0.000580598774831742,
      "learning_rate": 0.24296582749586426,
      "loss": 0.326,
      "num_input_tokens_seen": 10668432,
      "step": 11490
    },
    {
      "epoch": 5.4196133899104195,
      "grad_norm": 0.0006501743337139487,
      "learning_rate": 0.24291959286620526,
      "loss": 0.2857,
      "num_input_tokens_seen": 10672528,
      "step": 11495
    },
    {
      "epoch": 5.421970768505422,
      "grad_norm": 0.0003926873323507607,
      "learning_rate": 0.24287334390717738,
      "loss": 0.3108,
      "num_input_tokens_seen": 10677088,
      "step": 11500
    },
    {
      "epoch": 5.424328147100424,
      "grad_norm": 0.0006408690242096782,
      "learning_rate": 0.24282708062591268,
      "loss": 0.3352,
      "num_input_tokens_seen": 10682192,
      "step": 11505
    },
    {
      "epoch": 5.426685525695427,
      "grad_norm": 0.0005585057660937309,
      "learning_rate": 0.24278080302954563,
      "loss": 0.3061,
      "num_input_tokens_seen": 10686624,
      "step": 11510
    },
    {
      "epoch": 5.429042904290429,
      "grad_norm": 0.0002067502064164728,
      "learning_rate": 0.24273451112521283,
      "loss": 0.279,
      "num_input_tokens_seen": 10691424,
      "step": 11515
    },
    {
      "epoch": 5.4314002828854315,
      "grad_norm": 0.0005178030114620924,
      "learning_rate": 0.242688204920053,
      "loss": 0.3986,
      "num_input_tokens_seen": 10695712,
      "step": 11520
    },
    {
      "epoch": 5.433757661480434,
      "grad_norm": 0.00021557483705691993,
      "learning_rate": 0.24264188442120715,
      "loss": 0.3467,
      "num_input_tokens_seen": 10700256,
      "step": 11525
    },
    {
      "epoch": 5.436115040075436,
      "grad_norm": 0.0005207160138525069,
      "learning_rate": 0.24259554963581853,
      "loss": 0.2764,
      "num_input_tokens_seen": 10705040,
      "step": 11530
    },
    {
      "epoch": 5.438472418670439,
      "grad_norm": 0.0015020329738035798,
      "learning_rate": 0.24254920057103257,
      "loss": 0.2898,
      "num_input_tokens_seen": 10710208,
      "step": 11535
    },
    {
      "epoch": 5.440829797265441,
      "grad_norm": 0.000427618739195168,
      "learning_rate": 0.24250283723399685,
      "loss": 0.3367,
      "num_input_tokens_seen": 10715152,
      "step": 11540
    },
    {
      "epoch": 5.4431871758604435,
      "grad_norm": 0.0005866954452358186,
      "learning_rate": 0.24245645963186108,
      "loss": 0.3431,
      "num_input_tokens_seen": 10720048,
      "step": 11545
    },
    {
      "epoch": 5.445544554455446,
      "grad_norm": 0.0007213000790216029,
      "learning_rate": 0.2424100677717774,
      "loss": 0.3159,
      "num_input_tokens_seen": 10724784,
      "step": 11550
    },
    {
      "epoch": 5.4479019330504475,
      "grad_norm": 0.000874344608746469,
      "learning_rate": 0.24236366166090004,
      "loss": 0.2721,
      "num_input_tokens_seen": 10728928,
      "step": 11555
    },
    {
      "epoch": 5.45025931164545,
      "grad_norm": 0.0003117637534160167,
      "learning_rate": 0.24231724130638527,
      "loss": 0.3054,
      "num_input_tokens_seen": 10733648,
      "step": 11560
    },
    {
      "epoch": 5.452616690240452,
      "grad_norm": 0.00015800053370185196,
      "learning_rate": 0.2422708067153917,
      "loss": 0.2053,
      "num_input_tokens_seen": 10738080,
      "step": 11565
    },
    {
      "epoch": 5.454974068835455,
      "grad_norm": 0.0006812688079662621,
      "learning_rate": 0.24222435789508026,
      "loss": 0.2387,
      "num_input_tokens_seen": 10743760,
      "step": 11570
    },
    {
      "epoch": 5.457331447430457,
      "grad_norm": 0.0005036458023823798,
      "learning_rate": 0.24217789485261387,
      "loss": 0.3991,
      "num_input_tokens_seen": 10748816,
      "step": 11575
    },
    {
      "epoch": 5.4596888260254595,
      "grad_norm": 0.0006211341242305934,
      "learning_rate": 0.2421314175951577,
      "loss": 0.2825,
      "num_input_tokens_seen": 10752912,
      "step": 11580
    },
    {
      "epoch": 5.462046204620462,
      "grad_norm": 0.0005839108489453793,
      "learning_rate": 0.2420849261298791,
      "loss": 0.4005,
      "num_input_tokens_seen": 10758272,
      "step": 11585
    },
    {
      "epoch": 5.464403583215464,
      "grad_norm": 0.0002155857509933412,
      "learning_rate": 0.24203842046394775,
      "loss": 0.3057,
      "num_input_tokens_seen": 10762128,
      "step": 11590
    },
    {
      "epoch": 5.466760961810467,
      "grad_norm": 0.0006794653600081801,
      "learning_rate": 0.24199190060453535,
      "loss": 0.3889,
      "num_input_tokens_seen": 10766496,
      "step": 11595
    },
    {
      "epoch": 5.469118340405469,
      "grad_norm": 0.0018187443492934108,
      "learning_rate": 0.2419453665588158,
      "loss": 0.3201,
      "num_input_tokens_seen": 10770896,
      "step": 11600
    },
    {
      "epoch": 5.469118340405469,
      "eval_loss": 0.3282706141471863,
      "eval_runtime": 33.5405,
      "eval_samples_per_second": 28.115,
      "eval_steps_per_second": 14.073,
      "num_input_tokens_seen": 10770896,
      "step": 11600
    },
    {
      "epoch": 5.4714757190004715,
      "grad_norm": 0.0003451338270679116,
      "learning_rate": 0.24189881833396523,
      "loss": 0.294,
      "num_input_tokens_seen": 10775792,
      "step": 11605
    },
    {
      "epoch": 5.473833097595474,
      "grad_norm": 0.000876386184245348,
      "learning_rate": 0.24185225593716203,
      "loss": 0.3779,
      "num_input_tokens_seen": 10780544,
      "step": 11610
    },
    {
      "epoch": 5.476190476190476,
      "grad_norm": 0.0003161393105983734,
      "learning_rate": 0.2418056793755867,
      "loss": 0.2966,
      "num_input_tokens_seen": 10786384,
      "step": 11615
    },
    {
      "epoch": 5.478547854785479,
      "grad_norm": 0.001679840381257236,
      "learning_rate": 0.24175908865642187,
      "loss": 0.3982,
      "num_input_tokens_seen": 10790752,
      "step": 11620
    },
    {
      "epoch": 5.480905233380481,
      "grad_norm": 0.0011038185330107808,
      "learning_rate": 0.24171248378685248,
      "loss": 0.3106,
      "num_input_tokens_seen": 10794352,
      "step": 11625
    },
    {
      "epoch": 5.4832626119754835,
      "grad_norm": 0.0009705452830530703,
      "learning_rate": 0.24166586477406554,
      "loss": 0.3236,
      "num_input_tokens_seen": 10799536,
      "step": 11630
    },
    {
      "epoch": 5.485619990570486,
      "grad_norm": 0.0003661380906123668,
      "learning_rate": 0.24161923162525034,
      "loss": 0.3006,
      "num_input_tokens_seen": 10804576,
      "step": 11635
    },
    {
      "epoch": 5.487977369165488,
      "grad_norm": 0.0004429496475495398,
      "learning_rate": 0.2415725843475982,
      "loss": 0.3566,
      "num_input_tokens_seen": 10810016,
      "step": 11640
    },
    {
      "epoch": 5.490334747760491,
      "grad_norm": 0.00046653312165290117,
      "learning_rate": 0.24152592294830286,
      "loss": 0.3513,
      "num_input_tokens_seen": 10814944,
      "step": 11645
    },
    {
      "epoch": 5.492692126355493,
      "grad_norm": 0.0005745384260080755,
      "learning_rate": 0.24147924743455995,
      "loss": 0.357,
      "num_input_tokens_seen": 10819504,
      "step": 11650
    },
    {
      "epoch": 5.4950495049504955,
      "grad_norm": 0.0002673736889846623,
      "learning_rate": 0.24143255781356754,
      "loss": 0.3216,
      "num_input_tokens_seen": 10823472,
      "step": 11655
    },
    {
      "epoch": 5.497406883545497,
      "grad_norm": 0.0007046427926979959,
      "learning_rate": 0.24138585409252566,
      "loss": 0.3186,
      "num_input_tokens_seen": 10827952,
      "step": 11660
    },
    {
      "epoch": 5.499764262140499,
      "grad_norm": 0.0008005790296010673,
      "learning_rate": 0.24133913627863662,
      "loss": 0.378,
      "num_input_tokens_seen": 10833392,
      "step": 11665
    },
    {
      "epoch": 5.502121640735502,
      "grad_norm": 0.0003998980682808906,
      "learning_rate": 0.241292404379105,
      "loss": 0.3483,
      "num_input_tokens_seen": 10837632,
      "step": 11670
    },
    {
      "epoch": 5.504479019330504,
      "grad_norm": 0.0007835648721083999,
      "learning_rate": 0.24124565840113735,
      "loss": 0.3611,
      "num_input_tokens_seen": 10841440,
      "step": 11675
    },
    {
      "epoch": 5.506836397925507,
      "grad_norm": 0.0009279969381168485,
      "learning_rate": 0.2411988983519425,
      "loss": 0.346,
      "num_input_tokens_seen": 10846176,
      "step": 11680
    },
    {
      "epoch": 5.509193776520509,
      "grad_norm": 0.0006206284160725772,
      "learning_rate": 0.24115212423873145,
      "loss": 0.3434,
      "num_input_tokens_seen": 10850752,
      "step": 11685
    },
    {
      "epoch": 5.511551155115511,
      "grad_norm": 0.0004118840442970395,
      "learning_rate": 0.24110533606871737,
      "loss": 0.3442,
      "num_input_tokens_seen": 10856080,
      "step": 11690
    },
    {
      "epoch": 5.513908533710514,
      "grad_norm": 0.0004615992365870625,
      "learning_rate": 0.24105853384911552,
      "loss": 0.3404,
      "num_input_tokens_seen": 10860928,
      "step": 11695
    },
    {
      "epoch": 5.516265912305516,
      "grad_norm": 0.00025045228539966047,
      "learning_rate": 0.24101171758714346,
      "loss": 0.3676,
      "num_input_tokens_seen": 10866128,
      "step": 11700
    },
    {
      "epoch": 5.518623290900519,
      "grad_norm": 0.000523167778737843,
      "learning_rate": 0.24096488729002086,
      "loss": 0.3543,
      "num_input_tokens_seen": 10871472,
      "step": 11705
    },
    {
      "epoch": 5.520980669495521,
      "grad_norm": 0.0007650549523532391,
      "learning_rate": 0.24091804296496946,
      "loss": 0.3432,
      "num_input_tokens_seen": 10875664,
      "step": 11710
    },
    {
      "epoch": 5.523338048090523,
      "grad_norm": 0.0006402316503226757,
      "learning_rate": 0.2408711846192133,
      "loss": 0.3474,
      "num_input_tokens_seen": 10880256,
      "step": 11715
    },
    {
      "epoch": 5.525695426685526,
      "grad_norm": 0.0010913583682850003,
      "learning_rate": 0.24082431225997855,
      "loss": 0.3237,
      "num_input_tokens_seen": 10884496,
      "step": 11720
    },
    {
      "epoch": 5.528052805280528,
      "grad_norm": 0.0003914537082891911,
      "learning_rate": 0.24077742589449344,
      "loss": 0.3388,
      "num_input_tokens_seen": 10888608,
      "step": 11725
    },
    {
      "epoch": 5.530410183875531,
      "grad_norm": 0.0003000323486048728,
      "learning_rate": 0.24073052552998844,
      "loss": 0.2847,
      "num_input_tokens_seen": 10893712,
      "step": 11730
    },
    {
      "epoch": 5.532767562470533,
      "grad_norm": 0.0006974684074521065,
      "learning_rate": 0.2406836111736963,
      "loss": 0.3234,
      "num_input_tokens_seen": 10898144,
      "step": 11735
    },
    {
      "epoch": 5.535124941065535,
      "grad_norm": 0.00041718248394317925,
      "learning_rate": 0.2406366828328517,
      "loss": 0.2857,
      "num_input_tokens_seen": 10902736,
      "step": 11740
    },
    {
      "epoch": 5.537482319660538,
      "grad_norm": 0.00048615774721838534,
      "learning_rate": 0.2405897405146915,
      "loss": 0.4046,
      "num_input_tokens_seen": 10908480,
      "step": 11745
    },
    {
      "epoch": 5.539839698255539,
      "grad_norm": 0.0006916958373039961,
      "learning_rate": 0.240542784226455,
      "loss": 0.3224,
      "num_input_tokens_seen": 10912480,
      "step": 11750
    },
    {
      "epoch": 5.542197076850542,
      "grad_norm": 0.000700014759786427,
      "learning_rate": 0.24049581397538328,
      "loss": 0.3242,
      "num_input_tokens_seen": 10917104,
      "step": 11755
    },
    {
      "epoch": 5.544554455445544,
      "grad_norm": 0.0004540992376860231,
      "learning_rate": 0.24044882976871984,
      "loss": 0.3568,
      "num_input_tokens_seen": 10922080,
      "step": 11760
    },
    {
      "epoch": 5.5469118340405466,
      "grad_norm": 0.000765232602134347,
      "learning_rate": 0.2404018316137102,
      "loss": 0.3659,
      "num_input_tokens_seen": 10926560,
      "step": 11765
    },
    {
      "epoch": 5.549269212635549,
      "grad_norm": 0.0003373957588337362,
      "learning_rate": 0.24035481951760204,
      "loss": 0.2961,
      "num_input_tokens_seen": 10931216,
      "step": 11770
    },
    {
      "epoch": 5.551626591230551,
      "grad_norm": 0.0007519947830587626,
      "learning_rate": 0.2403077934876452,
      "loss": 0.3159,
      "num_input_tokens_seen": 10935632,
      "step": 11775
    },
    {
      "epoch": 5.553983969825554,
      "grad_norm": 0.0004014830046799034,
      "learning_rate": 0.2402607535310918,
      "loss": 0.3176,
      "num_input_tokens_seen": 10939936,
      "step": 11780
    },
    {
      "epoch": 5.556341348420556,
      "grad_norm": 0.00038462510565295815,
      "learning_rate": 0.2402136996551959,
      "loss": 0.3059,
      "num_input_tokens_seen": 10944688,
      "step": 11785
    },
    {
      "epoch": 5.558698727015559,
      "grad_norm": 0.0008715805597603321,
      "learning_rate": 0.24016663186721376,
      "loss": 0.3409,
      "num_input_tokens_seen": 10949328,
      "step": 11790
    },
    {
      "epoch": 5.561056105610561,
      "grad_norm": 0.0006132167764008045,
      "learning_rate": 0.24011955017440395,
      "loss": 0.3211,
      "num_input_tokens_seen": 10955232,
      "step": 11795
    },
    {
      "epoch": 5.563413484205563,
      "grad_norm": 0.0009381256531924009,
      "learning_rate": 0.24007245458402696,
      "loss": 0.3963,
      "num_input_tokens_seen": 10959424,
      "step": 11800
    },
    {
      "epoch": 5.563413484205563,
      "eval_loss": 0.3279728889465332,
      "eval_runtime": 33.5812,
      "eval_samples_per_second": 28.081,
      "eval_steps_per_second": 14.055,
      "num_input_tokens_seen": 10959424,
      "step": 11800
    },
    {
      "epoch": 5.565770862800566,
      "grad_norm": 0.0006304112612269819,
      "learning_rate": 0.2400253451033456,
      "loss": 0.3392,
      "num_input_tokens_seen": 10963648,
      "step": 11805
    },
    {
      "epoch": 5.568128241395568,
      "grad_norm": 0.0008624579641036689,
      "learning_rate": 0.23997822173962463,
      "loss": 0.3737,
      "num_input_tokens_seen": 10968544,
      "step": 11810
    },
    {
      "epoch": 5.570485619990571,
      "grad_norm": 0.000565358845051378,
      "learning_rate": 0.23993108450013118,
      "loss": 0.3572,
      "num_input_tokens_seen": 10972528,
      "step": 11815
    },
    {
      "epoch": 5.572842998585573,
      "grad_norm": 0.00153597560711205,
      "learning_rate": 0.2398839333921343,
      "loss": 0.3389,
      "num_input_tokens_seen": 10977440,
      "step": 11820
    },
    {
      "epoch": 5.575200377180575,
      "grad_norm": 0.0006483305478468537,
      "learning_rate": 0.23983676842290536,
      "loss": 0.3484,
      "num_input_tokens_seen": 10982400,
      "step": 11825
    },
    {
      "epoch": 5.577557755775578,
      "grad_norm": 0.00017258702428080142,
      "learning_rate": 0.2397895895997178,
      "loss": 0.3546,
      "num_input_tokens_seen": 10987424,
      "step": 11830
    },
    {
      "epoch": 5.57991513437058,
      "grad_norm": 0.0010881888447329402,
      "learning_rate": 0.23974239692984714,
      "loss": 0.3463,
      "num_input_tokens_seen": 10992048,
      "step": 11835
    },
    {
      "epoch": 5.582272512965583,
      "grad_norm": 0.0005627760547213256,
      "learning_rate": 0.2396951904205711,
      "loss": 0.3381,
      "num_input_tokens_seen": 10996368,
      "step": 11840
    },
    {
      "epoch": 5.584629891560585,
      "grad_norm": 0.00028218046645633876,
      "learning_rate": 0.23964797007916952,
      "loss": 0.3451,
      "num_input_tokens_seen": 11002448,
      "step": 11845
    },
    {
      "epoch": 5.586987270155587,
      "grad_norm": 0.00029652556986548007,
      "learning_rate": 0.23960073591292436,
      "loss": 0.3306,
      "num_input_tokens_seen": 11006880,
      "step": 11850
    },
    {
      "epoch": 5.58934464875059,
      "grad_norm": 0.0009592826245352626,
      "learning_rate": 0.2395534879291197,
      "loss": 0.3499,
      "num_input_tokens_seen": 11010928,
      "step": 11855
    },
    {
      "epoch": 5.591702027345592,
      "grad_norm": 0.0004985056584700942,
      "learning_rate": 0.23950622613504186,
      "loss": 0.3576,
      "num_input_tokens_seen": 11016928,
      "step": 11860
    },
    {
      "epoch": 5.594059405940594,
      "grad_norm": 0.0007788265938870609,
      "learning_rate": 0.2394589505379791,
      "loss": 0.3376,
      "num_input_tokens_seen": 11022224,
      "step": 11865
    },
    {
      "epoch": 5.596416784535596,
      "grad_norm": 0.0003288003499619663,
      "learning_rate": 0.23941166114522197,
      "loss": 0.297,
      "num_input_tokens_seen": 11026832,
      "step": 11870
    },
    {
      "epoch": 5.5987741631305985,
      "grad_norm": 0.0003468525246717036,
      "learning_rate": 0.23936435796406308,
      "loss": 0.3369,
      "num_input_tokens_seen": 11031968,
      "step": 11875
    },
    {
      "epoch": 5.601131541725601,
      "grad_norm": 0.0003583056095521897,
      "learning_rate": 0.23931704100179715,
      "loss": 0.3005,
      "num_input_tokens_seen": 11037504,
      "step": 11880
    },
    {
      "epoch": 5.603488920320603,
      "grad_norm": 0.0008462998666800559,
      "learning_rate": 0.2392697102657211,
      "loss": 0.332,
      "num_input_tokens_seen": 11042016,
      "step": 11885
    },
    {
      "epoch": 5.605846298915606,
      "grad_norm": 0.00032786946394480765,
      "learning_rate": 0.23922236576313388,
      "loss": 0.3826,
      "num_input_tokens_seen": 11046368,
      "step": 11890
    },
    {
      "epoch": 5.608203677510608,
      "grad_norm": 0.0007174808415584266,
      "learning_rate": 0.2391750075013366,
      "loss": 0.3024,
      "num_input_tokens_seen": 11051408,
      "step": 11895
    },
    {
      "epoch": 5.6105610561056105,
      "grad_norm": 0.00030615628929808736,
      "learning_rate": 0.2391276354876326,
      "loss": 0.3479,
      "num_input_tokens_seen": 11055984,
      "step": 11900
    },
    {
      "epoch": 5.612918434700613,
      "grad_norm": 0.0002977380354423076,
      "learning_rate": 0.23908024972932707,
      "loss": 0.3574,
      "num_input_tokens_seen": 11060816,
      "step": 11905
    },
    {
      "epoch": 5.615275813295615,
      "grad_norm": 0.0010657110251486301,
      "learning_rate": 0.2390328502337276,
      "loss": 0.3245,
      "num_input_tokens_seen": 11064848,
      "step": 11910
    },
    {
      "epoch": 5.617633191890618,
      "grad_norm": 0.0005016764625906944,
      "learning_rate": 0.23898543700814376,
      "loss": 0.3522,
      "num_input_tokens_seen": 11069216,
      "step": 11915
    },
    {
      "epoch": 5.61999057048562,
      "grad_norm": 0.0004119941731914878,
      "learning_rate": 0.2389380100598873,
      "loss": 0.3298,
      "num_input_tokens_seen": 11074064,
      "step": 11920
    },
    {
      "epoch": 5.6223479490806225,
      "grad_norm": 0.0016827468061819673,
      "learning_rate": 0.23889056939627207,
      "loss": 0.3425,
      "num_input_tokens_seen": 11079040,
      "step": 11925
    },
    {
      "epoch": 5.624705327675625,
      "grad_norm": 0.0008256935398094356,
      "learning_rate": 0.23884311502461386,
      "loss": 0.3213,
      "num_input_tokens_seen": 11083664,
      "step": 11930
    },
    {
      "epoch": 5.627062706270627,
      "grad_norm": 0.00039435309008695185,
      "learning_rate": 0.23879564695223088,
      "loss": 0.3134,
      "num_input_tokens_seen": 11088208,
      "step": 11935
    },
    {
      "epoch": 5.62942008486563,
      "grad_norm": 0.00037996057653799653,
      "learning_rate": 0.23874816518644332,
      "loss": 0.3504,
      "num_input_tokens_seen": 11092736,
      "step": 11940
    },
    {
      "epoch": 5.631777463460632,
      "grad_norm": 0.0003622096555773169,
      "learning_rate": 0.23870066973457335,
      "loss": 0.368,
      "num_input_tokens_seen": 11097568,
      "step": 11945
    },
    {
      "epoch": 5.634134842055634,
      "grad_norm": 0.0002923219872172922,
      "learning_rate": 0.23865316060394545,
      "loss": 0.3379,
      "num_input_tokens_seen": 11101616,
      "step": 11950
    },
    {
      "epoch": 5.636492220650636,
      "grad_norm": 0.0005785105749964714,
      "learning_rate": 0.2386056378018861,
      "loss": 0.319,
      "num_input_tokens_seen": 11106464,
      "step": 11955
    },
    {
      "epoch": 5.6388495992456384,
      "grad_norm": 0.0006415275856852531,
      "learning_rate": 0.2385581013357239,
      "loss": 0.3438,
      "num_input_tokens_seen": 11111040,
      "step": 11960
    },
    {
      "epoch": 5.641206977840641,
      "grad_norm": 0.0017363270744681358,
      "learning_rate": 0.23851055121278958,
      "loss": 0.3262,
      "num_input_tokens_seen": 11115792,
      "step": 11965
    },
    {
      "epoch": 5.643564356435643,
      "grad_norm": 0.0008524865843355656,
      "learning_rate": 0.23846298744041594,
      "loss": 0.3185,
      "num_input_tokens_seen": 11120768,
      "step": 11970
    },
    {
      "epoch": 5.645921735030646,
      "grad_norm": 0.0007022293866612017,
      "learning_rate": 0.23841541002593802,
      "loss": 0.3412,
      "num_input_tokens_seen": 11124656,
      "step": 11975
    },
    {
      "epoch": 5.648279113625648,
      "grad_norm": 0.0002997777482960373,
      "learning_rate": 0.23836781897669276,
      "loss": 0.309,
      "num_input_tokens_seen": 11128848,
      "step": 11980
    },
    {
      "epoch": 5.6506364922206505,
      "grad_norm": 0.0005054049543105066,
      "learning_rate": 0.23832021430001926,
      "loss": 0.3579,
      "num_input_tokens_seen": 11133568,
      "step": 11985
    },
    {
      "epoch": 5.652993870815653,
      "grad_norm": 0.0009531276882626116,
      "learning_rate": 0.2382725960032588,
      "loss": 0.4118,
      "num_input_tokens_seen": 11138496,
      "step": 11990
    },
    {
      "epoch": 5.655351249410655,
      "grad_norm": 0.0003592144057620317,
      "learning_rate": 0.23822496409375482,
      "loss": 0.3041,
      "num_input_tokens_seen": 11142720,
      "step": 11995
    },
    {
      "epoch": 5.657708628005658,
      "grad_norm": 0.000805690186098218,
      "learning_rate": 0.2381773185788526,
      "loss": 0.3661,
      "num_input_tokens_seen": 11146816,
      "step": 12000
    },
    {
      "epoch": 5.657708628005658,
      "eval_loss": 0.33118438720703125,
      "eval_runtime": 33.6136,
      "eval_samples_per_second": 28.054,
      "eval_steps_per_second": 14.042,
      "num_input_tokens_seen": 11146816,
      "step": 12000
    },
    {
      "epoch": 5.66006600660066,
      "grad_norm": 0.0006000652210786939,
      "learning_rate": 0.2381296594658998,
      "loss": 0.3257,
      "num_input_tokens_seen": 11150656,
      "step": 12005
    },
    {
      "epoch": 5.6624233851956625,
      "grad_norm": 0.001186701119877398,
      "learning_rate": 0.238081986762246,
      "loss": 0.3312,
      "num_input_tokens_seen": 11155696,
      "step": 12010
    },
    {
      "epoch": 5.664780763790665,
      "grad_norm": 0.00026527087902650237,
      "learning_rate": 0.23803430047524293,
      "loss": 0.3561,
      "num_input_tokens_seen": 11159808,
      "step": 12015
    },
    {
      "epoch": 5.667138142385667,
      "grad_norm": 0.00039413213380612433,
      "learning_rate": 0.23798660061224441,
      "loss": 0.3374,
      "num_input_tokens_seen": 11164208,
      "step": 12020
    },
    {
      "epoch": 5.66949552098067,
      "grad_norm": 0.0003708138538058847,
      "learning_rate": 0.23793888718060632,
      "loss": 0.3328,
      "num_input_tokens_seen": 11168768,
      "step": 12025
    },
    {
      "epoch": 5.671852899575672,
      "grad_norm": 0.0005497952224686742,
      "learning_rate": 0.23789116018768675,
      "loss": 0.321,
      "num_input_tokens_seen": 11172864,
      "step": 12030
    },
    {
      "epoch": 5.6742102781706745,
      "grad_norm": 0.00039756810292601585,
      "learning_rate": 0.2378434196408458,
      "loss": 0.3279,
      "num_input_tokens_seen": 11177328,
      "step": 12035
    },
    {
      "epoch": 5.676567656765677,
      "grad_norm": 0.0004535374464467168,
      "learning_rate": 0.23779566554744563,
      "loss": 0.3608,
      "num_input_tokens_seen": 11181888,
      "step": 12040
    },
    {
      "epoch": 5.678925035360679,
      "grad_norm": 0.0003750752657651901,
      "learning_rate": 0.23774789791485051,
      "loss": 0.3461,
      "num_input_tokens_seen": 11186768,
      "step": 12045
    },
    {
      "epoch": 5.681282413955682,
      "grad_norm": 0.0008158499258570373,
      "learning_rate": 0.2377001167504268,
      "loss": 0.3215,
      "num_input_tokens_seen": 11190736,
      "step": 12050
    },
    {
      "epoch": 5.683639792550684,
      "grad_norm": 0.0005635919515043497,
      "learning_rate": 0.23765232206154302,
      "loss": 0.3414,
      "num_input_tokens_seen": 11195856,
      "step": 12055
    },
    {
      "epoch": 5.6859971711456865,
      "grad_norm": 0.0007801069295965135,
      "learning_rate": 0.23760451385556966,
      "loss": 0.3089,
      "num_input_tokens_seen": 11199952,
      "step": 12060
    },
    {
      "epoch": 5.688354549740688,
      "grad_norm": 0.00027974165277555585,
      "learning_rate": 0.23755669213987932,
      "loss": 0.3475,
      "num_input_tokens_seen": 11205360,
      "step": 12065
    },
    {
      "epoch": 5.69071192833569,
      "grad_norm": 0.0004168848099652678,
      "learning_rate": 0.23750885692184676,
      "loss": 0.3013,
      "num_input_tokens_seen": 11209696,
      "step": 12070
    },
    {
      "epoch": 5.693069306930693,
      "grad_norm": 0.0004428903921507299,
      "learning_rate": 0.23746100820884875,
      "loss": 0.3477,
      "num_input_tokens_seen": 11214608,
      "step": 12075
    },
    {
      "epoch": 5.695426685525695,
      "grad_norm": 0.000820533256046474,
      "learning_rate": 0.23741314600826421,
      "loss": 0.3707,
      "num_input_tokens_seen": 11219456,
      "step": 12080
    },
    {
      "epoch": 5.697784064120698,
      "grad_norm": 0.0004051316645927727,
      "learning_rate": 0.23736527032747406,
      "loss": 0.3137,
      "num_input_tokens_seen": 11224480,
      "step": 12085
    },
    {
      "epoch": 5.7001414427157,
      "grad_norm": 0.00035332993138581514,
      "learning_rate": 0.23731738117386128,
      "loss": 0.3299,
      "num_input_tokens_seen": 11228720,
      "step": 12090
    },
    {
      "epoch": 5.702498821310702,
      "grad_norm": 0.00044999082456342876,
      "learning_rate": 0.237269478554811,
      "loss": 0.3473,
      "num_input_tokens_seen": 11234160,
      "step": 12095
    },
    {
      "epoch": 5.704856199905705,
      "grad_norm": 0.00041938715730793774,
      "learning_rate": 0.23722156247771053,
      "loss": 0.3197,
      "num_input_tokens_seen": 11238976,
      "step": 12100
    },
    {
      "epoch": 5.707213578500707,
      "grad_norm": 0.00033402960980311036,
      "learning_rate": 0.23717363294994895,
      "loss": 0.3316,
      "num_input_tokens_seen": 11243104,
      "step": 12105
    },
    {
      "epoch": 5.70957095709571,
      "grad_norm": 0.0008006269345059991,
      "learning_rate": 0.2371256899789177,
      "loss": 0.3462,
      "num_input_tokens_seen": 11246784,
      "step": 12110
    },
    {
      "epoch": 5.711928335690712,
      "grad_norm": 0.00029950705356895924,
      "learning_rate": 0.23707773357201017,
      "loss": 0.3771,
      "num_input_tokens_seen": 11250832,
      "step": 12115
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 0.0010095590259879827,
      "learning_rate": 0.2370297637366218,
      "loss": 0.3282,
      "num_input_tokens_seen": 11255456,
      "step": 12120
    },
    {
      "epoch": 5.716643092880717,
      "grad_norm": 0.00028695701621472836,
      "learning_rate": 0.23698178048015026,
      "loss": 0.3162,
      "num_input_tokens_seen": 11260016,
      "step": 12125
    },
    {
      "epoch": 5.719000471475719,
      "grad_norm": 0.0007881548372097313,
      "learning_rate": 0.236933783809995,
      "loss": 0.3116,
      "num_input_tokens_seen": 11264288,
      "step": 12130
    },
    {
      "epoch": 5.721357850070722,
      "grad_norm": 0.00023089698515832424,
      "learning_rate": 0.23688577373355785,
      "loss": 0.3255,
      "num_input_tokens_seen": 11268656,
      "step": 12135
    },
    {
      "epoch": 5.723715228665724,
      "grad_norm": 0.0008118433179333806,
      "learning_rate": 0.23683775025824247,
      "loss": 0.343,
      "num_input_tokens_seen": 11273616,
      "step": 12140
    },
    {
      "epoch": 5.726072607260726,
      "grad_norm": 0.0006205643294379115,
      "learning_rate": 0.2367897133914548,
      "loss": 0.2983,
      "num_input_tokens_seen": 11277904,
      "step": 12145
    },
    {
      "epoch": 5.728429985855728,
      "grad_norm": 0.0007721488946117461,
      "learning_rate": 0.2367416631406026,
      "loss": 0.3491,
      "num_input_tokens_seen": 11282960,
      "step": 12150
    },
    {
      "epoch": 5.73078736445073,
      "grad_norm": 0.000815384613815695,
      "learning_rate": 0.23669359951309588,
      "loss": 0.3521,
      "num_input_tokens_seen": 11286832,
      "step": 12155
    },
    {
      "epoch": 5.733144743045733,
      "grad_norm": 0.0008035373757593334,
      "learning_rate": 0.23664552251634666,
      "loss": 0.3867,
      "num_input_tokens_seen": 11291328,
      "step": 12160
    },
    {
      "epoch": 5.735502121640735,
      "grad_norm": 0.0003956279542762786,
      "learning_rate": 0.23659743215776907,
      "loss": 0.3342,
      "num_input_tokens_seen": 11295216,
      "step": 12165
    },
    {
      "epoch": 5.7378595002357375,
      "grad_norm": 0.0007514500757679343,
      "learning_rate": 0.23654932844477908,
      "loss": 0.3284,
      "num_input_tokens_seen": 11299664,
      "step": 12170
    },
    {
      "epoch": 5.74021687883074,
      "grad_norm": 0.0006116937147453427,
      "learning_rate": 0.23650121138479507,
      "loss": 0.3504,
      "num_input_tokens_seen": 11304448,
      "step": 12175
    },
    {
      "epoch": 5.742574257425742,
      "grad_norm": 0.00023603974841535091,
      "learning_rate": 0.23645308098523724,
      "loss": 0.3507,
      "num_input_tokens_seen": 11308400,
      "step": 12180
    },
    {
      "epoch": 5.744931636020745,
      "grad_norm": 0.0006314330967143178,
      "learning_rate": 0.23640493725352785,
      "loss": 0.3258,
      "num_input_tokens_seen": 11313344,
      "step": 12185
    },
    {
      "epoch": 5.747289014615747,
      "grad_norm": 0.0005145213799551129,
      "learning_rate": 0.2363567801970913,
      "loss": 0.3361,
      "num_input_tokens_seen": 11318480,
      "step": 12190
    },
    {
      "epoch": 5.7496463932107496,
      "grad_norm": 0.00036863391869701445,
      "learning_rate": 0.236308609823354,
      "loss": 0.332,
      "num_input_tokens_seen": 11322960,
      "step": 12195
    },
    {
      "epoch": 5.752003771805752,
      "grad_norm": 0.0003278999647591263,
      "learning_rate": 0.23626042613974452,
      "loss": 0.3531,
      "num_input_tokens_seen": 11328528,
      "step": 12200
    },
    {
      "epoch": 5.752003771805752,
      "eval_loss": 0.3316330909729004,
      "eval_runtime": 33.6118,
      "eval_samples_per_second": 28.056,
      "eval_steps_per_second": 14.043,
      "num_input_tokens_seen": 11328528,
      "step": 12200
    },
    {
      "epoch": 5.754361150400754,
      "grad_norm": 0.00027707379194907844,
      "learning_rate": 0.23621222915369325,
      "loss": 0.3229,
      "num_input_tokens_seen": 11333232,
      "step": 12205
    },
    {
      "epoch": 5.756718528995757,
      "grad_norm": 0.000788323930464685,
      "learning_rate": 0.23616401887263283,
      "loss": 0.3268,
      "num_input_tokens_seen": 11337184,
      "step": 12210
    },
    {
      "epoch": 5.759075907590759,
      "grad_norm": 0.0002712134155444801,
      "learning_rate": 0.23611579530399793,
      "loss": 0.3633,
      "num_input_tokens_seen": 11342336,
      "step": 12215
    },
    {
      "epoch": 5.761433286185762,
      "grad_norm": 0.0003792668867390603,
      "learning_rate": 0.23606755845522517,
      "loss": 0.3759,
      "num_input_tokens_seen": 11346944,
      "step": 12220
    },
    {
      "epoch": 5.763790664780764,
      "grad_norm": 0.0008684445638209581,
      "learning_rate": 0.23601930833375329,
      "loss": 0.3119,
      "num_input_tokens_seen": 11351824,
      "step": 12225
    },
    {
      "epoch": 5.766148043375766,
      "grad_norm": 0.00043567208922468126,
      "learning_rate": 0.23597104494702312,
      "loss": 0.3084,
      "num_input_tokens_seen": 11355840,
      "step": 12230
    },
    {
      "epoch": 5.768505421970769,
      "grad_norm": 0.0008174075046554208,
      "learning_rate": 0.23592276830247744,
      "loss": 0.3726,
      "num_input_tokens_seen": 11360560,
      "step": 12235
    },
    {
      "epoch": 5.770862800565771,
      "grad_norm": 0.0004991217865608633,
      "learning_rate": 0.2358744784075611,
      "loss": 0.3523,
      "num_input_tokens_seen": 11365072,
      "step": 12240
    },
    {
      "epoch": 5.773220179160774,
      "grad_norm": 0.0008349796989932656,
      "learning_rate": 0.235826175269721,
      "loss": 0.3607,
      "num_input_tokens_seen": 11371072,
      "step": 12245
    },
    {
      "epoch": 5.775577557755776,
      "grad_norm": 0.0002601619635242969,
      "learning_rate": 0.23577785889640612,
      "loss": 0.319,
      "num_input_tokens_seen": 11376096,
      "step": 12250
    },
    {
      "epoch": 5.777934936350778,
      "grad_norm": 0.0008639620500616729,
      "learning_rate": 0.23572952929506744,
      "loss": 0.3137,
      "num_input_tokens_seen": 11382016,
      "step": 12255
    },
    {
      "epoch": 5.780292314945781,
      "grad_norm": 0.00036812337930314243,
      "learning_rate": 0.23568118647315803,
      "loss": 0.3644,
      "num_input_tokens_seen": 11387136,
      "step": 12260
    },
    {
      "epoch": 5.782649693540782,
      "grad_norm": 0.00034377817064523697,
      "learning_rate": 0.23563283043813296,
      "loss": 0.3356,
      "num_input_tokens_seen": 11391472,
      "step": 12265
    },
    {
      "epoch": 5.785007072135785,
      "grad_norm": 0.0007223966531455517,
      "learning_rate": 0.23558446119744922,
      "loss": 0.2874,
      "num_input_tokens_seen": 11396544,
      "step": 12270
    },
    {
      "epoch": 5.787364450730787,
      "grad_norm": 0.00032125701545737684,
      "learning_rate": 0.23553607875856608,
      "loss": 0.3847,
      "num_input_tokens_seen": 11400832,
      "step": 12275
    },
    {
      "epoch": 5.7897218293257895,
      "grad_norm": 0.00028735792147926986,
      "learning_rate": 0.2354876831289447,
      "loss": 0.3596,
      "num_input_tokens_seen": 11404640,
      "step": 12280
    },
    {
      "epoch": 5.792079207920792,
      "grad_norm": 0.0015131114050745964,
      "learning_rate": 0.23543927431604827,
      "loss": 0.3699,
      "num_input_tokens_seen": 11408640,
      "step": 12285
    },
    {
      "epoch": 5.794436586515794,
      "grad_norm": 0.0009923613397404552,
      "learning_rate": 0.23539085232734203,
      "loss": 0.2952,
      "num_input_tokens_seen": 11412496,
      "step": 12290
    },
    {
      "epoch": 5.796793965110797,
      "grad_norm": 0.0009810299379751086,
      "learning_rate": 0.2353424171702933,
      "loss": 0.3652,
      "num_input_tokens_seen": 11417136,
      "step": 12295
    },
    {
      "epoch": 5.799151343705799,
      "grad_norm": 0.00025162327801808715,
      "learning_rate": 0.23529396885237133,
      "loss": 0.3418,
      "num_input_tokens_seen": 11421408,
      "step": 12300
    },
    {
      "epoch": 5.8015087223008015,
      "grad_norm": 0.0003628003178164363,
      "learning_rate": 0.2352455073810475,
      "loss": 0.3315,
      "num_input_tokens_seen": 11425968,
      "step": 12305
    },
    {
      "epoch": 5.803866100895804,
      "grad_norm": 0.00040305990842171013,
      "learning_rate": 0.23519703276379517,
      "loss": 0.3176,
      "num_input_tokens_seen": 11431760,
      "step": 12310
    },
    {
      "epoch": 5.806223479490806,
      "grad_norm": 0.0006968580419197679,
      "learning_rate": 0.2351485450080897,
      "loss": 0.3502,
      "num_input_tokens_seen": 11436992,
      "step": 12315
    },
    {
      "epoch": 5.808580858085809,
      "grad_norm": 0.0003703347756527364,
      "learning_rate": 0.2351000441214086,
      "loss": 0.3324,
      "num_input_tokens_seen": 11441632,
      "step": 12320
    },
    {
      "epoch": 5.810938236680811,
      "grad_norm": 0.000745847006328404,
      "learning_rate": 0.23505153011123125,
      "loss": 0.3427,
      "num_input_tokens_seen": 11445952,
      "step": 12325
    },
    {
      "epoch": 5.8132956152758135,
      "grad_norm": 0.0011584451422095299,
      "learning_rate": 0.23500300298503912,
      "loss": 0.2805,
      "num_input_tokens_seen": 11449776,
      "step": 12330
    },
    {
      "epoch": 5.815652993870816,
      "grad_norm": 0.00026916354545392096,
      "learning_rate": 0.23495446275031576,
      "loss": 0.3235,
      "num_input_tokens_seen": 11454960,
      "step": 12335
    },
    {
      "epoch": 5.818010372465818,
      "grad_norm": 0.0006382710998877883,
      "learning_rate": 0.2349059094145466,
      "loss": 0.3459,
      "num_input_tokens_seen": 11459808,
      "step": 12340
    },
    {
      "epoch": 5.820367751060821,
      "grad_norm": 0.0008450562600046396,
      "learning_rate": 0.2348573429852192,
      "loss": 0.3785,
      "num_input_tokens_seen": 11464592,
      "step": 12345
    },
    {
      "epoch": 5.822725129655822,
      "grad_norm": 0.00031594757456332445,
      "learning_rate": 0.23480876346982313,
      "loss": 0.3623,
      "num_input_tokens_seen": 11469312,
      "step": 12350
    },
    {
      "epoch": 5.825082508250825,
      "grad_norm": 0.0003342021955177188,
      "learning_rate": 0.23476017087585,
      "loss": 0.3071,
      "num_input_tokens_seen": 11474272,
      "step": 12355
    },
    {
      "epoch": 5.827439886845827,
      "grad_norm": 0.0003338397073093802,
      "learning_rate": 0.23471156521079334,
      "loss": 0.3269,
      "num_input_tokens_seen": 11479360,
      "step": 12360
    },
    {
      "epoch": 5.829797265440829,
      "grad_norm": 0.0008281086338683963,
      "learning_rate": 0.23466294648214875,
      "loss": 0.2886,
      "num_input_tokens_seen": 11484448,
      "step": 12365
    },
    {
      "epoch": 5.832154644035832,
      "grad_norm": 0.0008070737821981311,
      "learning_rate": 0.2346143146974139,
      "loss": 0.3579,
      "num_input_tokens_seen": 11488368,
      "step": 12370
    },
    {
      "epoch": 5.834512022630834,
      "grad_norm": 0.0007224730215966702,
      "learning_rate": 0.23456566986408836,
      "loss": 0.3521,
      "num_input_tokens_seen": 11492976,
      "step": 12375
    },
    {
      "epoch": 5.836869401225837,
      "grad_norm": 0.0003603732620831579,
      "learning_rate": 0.23451701198967384,
      "loss": 0.3336,
      "num_input_tokens_seen": 11497632,
      "step": 12380
    },
    {
      "epoch": 5.839226779820839,
      "grad_norm": 0.00041432457510381937,
      "learning_rate": 0.23446834108167397,
      "loss": 0.3,
      "num_input_tokens_seen": 11501712,
      "step": 12385
    },
    {
      "epoch": 5.841584158415841,
      "grad_norm": 0.0008445715066045523,
      "learning_rate": 0.23441965714759438,
      "loss": 0.379,
      "num_input_tokens_seen": 11505488,
      "step": 12390
    },
    {
      "epoch": 5.843941537010844,
      "grad_norm": 0.0003759465762414038,
      "learning_rate": 0.23437096019494277,
      "loss": 0.3783,
      "num_input_tokens_seen": 11510448,
      "step": 12395
    },
    {
      "epoch": 5.846298915605846,
      "grad_norm": 0.0004424431826919317,
      "learning_rate": 0.23432225023122885,
      "loss": 0.3431,
      "num_input_tokens_seen": 11515600,
      "step": 12400
    },
    {
      "epoch": 5.846298915605846,
      "eval_loss": 0.3332318961620331,
      "eval_runtime": 33.5366,
      "eval_samples_per_second": 28.119,
      "eval_steps_per_second": 14.074,
      "num_input_tokens_seen": 11515600,
      "step": 12400
    },
    {
      "epoch": 5.848656294200849,
      "grad_norm": 0.0008798568742349744,
      "learning_rate": 0.23427352726396428,
      "loss": 0.3389,
      "num_input_tokens_seen": 11520336,
      "step": 12405
    },
    {
      "epoch": 5.851013672795851,
      "grad_norm": 0.00036388260195963085,
      "learning_rate": 0.2342247913006628,
      "loss": 0.327,
      "num_input_tokens_seen": 11525280,
      "step": 12410
    },
    {
      "epoch": 5.8533710513908535,
      "grad_norm": 0.0003082600887864828,
      "learning_rate": 0.23417604234883999,
      "loss": 0.3482,
      "num_input_tokens_seen": 11529360,
      "step": 12415
    },
    {
      "epoch": 5.855728429985856,
      "grad_norm": 0.001077056978829205,
      "learning_rate": 0.23412728041601363,
      "loss": 0.3356,
      "num_input_tokens_seen": 11533280,
      "step": 12420
    },
    {
      "epoch": 5.858085808580858,
      "grad_norm": 0.0002942197897937149,
      "learning_rate": 0.23407850550970347,
      "loss": 0.3725,
      "num_input_tokens_seen": 11538048,
      "step": 12425
    },
    {
      "epoch": 5.860443187175861,
      "grad_norm": 0.00037577576586045325,
      "learning_rate": 0.23402971763743116,
      "loss": 0.3687,
      "num_input_tokens_seen": 11542224,
      "step": 12430
    },
    {
      "epoch": 5.862800565770863,
      "grad_norm": 0.0003220807993784547,
      "learning_rate": 0.23398091680672037,
      "loss": 0.3395,
      "num_input_tokens_seen": 11546880,
      "step": 12435
    },
    {
      "epoch": 5.8651579443658655,
      "grad_norm": 0.0005268629756756127,
      "learning_rate": 0.23393210302509687,
      "loss": 0.3225,
      "num_input_tokens_seen": 11551696,
      "step": 12440
    },
    {
      "epoch": 5.867515322960868,
      "grad_norm": 0.0010290275095030665,
      "learning_rate": 0.23388327630008832,
      "loss": 0.3603,
      "num_input_tokens_seen": 11556048,
      "step": 12445
    },
    {
      "epoch": 5.86987270155587,
      "grad_norm": 0.0003477814607322216,
      "learning_rate": 0.23383443663922443,
      "loss": 0.3439,
      "num_input_tokens_seen": 11560832,
      "step": 12450
    },
    {
      "epoch": 5.872230080150873,
      "grad_norm": 0.001142837223596871,
      "learning_rate": 0.23378558405003685,
      "loss": 0.3462,
      "num_input_tokens_seen": 11565024,
      "step": 12455
    },
    {
      "epoch": 5.874587458745875,
      "grad_norm": 0.0011831726878881454,
      "learning_rate": 0.2337367185400593,
      "loss": 0.3253,
      "num_input_tokens_seen": 11569920,
      "step": 12460
    },
    {
      "epoch": 5.876944837340877,
      "grad_norm": 0.0006948072696104646,
      "learning_rate": 0.23368784011682747,
      "loss": 0.3233,
      "num_input_tokens_seen": 11575056,
      "step": 12465
    },
    {
      "epoch": 5.879302215935879,
      "grad_norm": 0.0008954803925007582,
      "learning_rate": 0.23363894878787902,
      "loss": 0.3446,
      "num_input_tokens_seen": 11579232,
      "step": 12470
    },
    {
      "epoch": 5.881659594530881,
      "grad_norm": 0.0003532352566253394,
      "learning_rate": 0.23359004456075352,
      "loss": 0.3387,
      "num_input_tokens_seen": 11583568,
      "step": 12475
    },
    {
      "epoch": 5.884016973125884,
      "grad_norm": 0.0005975903477519751,
      "learning_rate": 0.23354112744299277,
      "loss": 0.334,
      "num_input_tokens_seen": 11587840,
      "step": 12480
    },
    {
      "epoch": 5.886374351720886,
      "grad_norm": 0.0004616508085746318,
      "learning_rate": 0.2334921974421403,
      "loss": 0.3456,
      "num_input_tokens_seen": 11592048,
      "step": 12485
    },
    {
      "epoch": 5.888731730315889,
      "grad_norm": 0.0003172415599692613,
      "learning_rate": 0.23344325456574178,
      "loss": 0.2988,
      "num_input_tokens_seen": 11596464,
      "step": 12490
    },
    {
      "epoch": 5.891089108910891,
      "grad_norm": 0.000395371054764837,
      "learning_rate": 0.23339429882134477,
      "loss": 0.3027,
      "num_input_tokens_seen": 11600560,
      "step": 12495
    },
    {
      "epoch": 5.893446487505893,
      "grad_norm": 0.0006364300497807562,
      "learning_rate": 0.23334533021649884,
      "loss": 0.3348,
      "num_input_tokens_seen": 11607200,
      "step": 12500
    },
    {
      "epoch": 5.895803866100896,
      "grad_norm": 0.0003990654367953539,
      "learning_rate": 0.23329634875875566,
      "loss": 0.3286,
      "num_input_tokens_seen": 11611072,
      "step": 12505
    },
    {
      "epoch": 5.898161244695898,
      "grad_norm": 0.0002126889448845759,
      "learning_rate": 0.23324735445566874,
      "loss": 0.4232,
      "num_input_tokens_seen": 11615376,
      "step": 12510
    },
    {
      "epoch": 5.900518623290901,
      "grad_norm": 0.000422774552134797,
      "learning_rate": 0.2331983473147936,
      "loss": 0.3102,
      "num_input_tokens_seen": 11619760,
      "step": 12515
    },
    {
      "epoch": 5.902876001885903,
      "grad_norm": 0.0007366054342128336,
      "learning_rate": 0.23314932734368776,
      "loss": 0.3187,
      "num_input_tokens_seen": 11624432,
      "step": 12520
    },
    {
      "epoch": 5.905233380480905,
      "grad_norm": 0.0004342599131632596,
      "learning_rate": 0.2331002945499107,
      "loss": 0.3642,
      "num_input_tokens_seen": 11629168,
      "step": 12525
    },
    {
      "epoch": 5.907590759075908,
      "grad_norm": 0.00025254752836190164,
      "learning_rate": 0.23305124894102397,
      "loss": 0.3047,
      "num_input_tokens_seen": 11633744,
      "step": 12530
    },
    {
      "epoch": 5.90994813767091,
      "grad_norm": 0.0011500869877636433,
      "learning_rate": 0.23300219052459092,
      "loss": 0.3533,
      "num_input_tokens_seen": 11638624,
      "step": 12535
    },
    {
      "epoch": 5.912305516265913,
      "grad_norm": 0.0005213702097535133,
      "learning_rate": 0.23295311930817708,
      "loss": 0.351,
      "num_input_tokens_seen": 11642864,
      "step": 12540
    },
    {
      "epoch": 5.914662894860915,
      "grad_norm": 0.0002858511288650334,
      "learning_rate": 0.23290403529934972,
      "loss": 0.3461,
      "num_input_tokens_seen": 11647216,
      "step": 12545
    },
    {
      "epoch": 5.9170202734559165,
      "grad_norm": 0.0006576738087460399,
      "learning_rate": 0.23285493850567832,
      "loss": 0.3417,
      "num_input_tokens_seen": 11652800,
      "step": 12550
    },
    {
      "epoch": 5.919377652050919,
      "grad_norm": 0.001094185747206211,
      "learning_rate": 0.23280582893473414,
      "loss": 0.3463,
      "num_input_tokens_seen": 11657616,
      "step": 12555
    },
    {
      "epoch": 5.921735030645921,
      "grad_norm": 0.0003864438331220299,
      "learning_rate": 0.2327567065940906,
      "loss": 0.3276,
      "num_input_tokens_seen": 11661616,
      "step": 12560
    },
    {
      "epoch": 5.924092409240924,
      "grad_norm": 0.00033832769258879125,
      "learning_rate": 0.23270757149132285,
      "loss": 0.3341,
      "num_input_tokens_seen": 11665920,
      "step": 12565
    },
    {
      "epoch": 5.926449787835926,
      "grad_norm": 0.0007588900625705719,
      "learning_rate": 0.23265842363400827,
      "loss": 0.2967,
      "num_input_tokens_seen": 11669744,
      "step": 12570
    },
    {
      "epoch": 5.9288071664309285,
      "grad_norm": 0.0002923747815657407,
      "learning_rate": 0.23260926302972595,
      "loss": 0.3149,
      "num_input_tokens_seen": 11674208,
      "step": 12575
    },
    {
      "epoch": 5.931164545025931,
      "grad_norm": 0.00035140544059686363,
      "learning_rate": 0.2325600896860572,
      "loss": 0.3429,
      "num_input_tokens_seen": 11678512,
      "step": 12580
    },
    {
      "epoch": 5.933521923620933,
      "grad_norm": 0.0004502295923884958,
      "learning_rate": 0.23251090361058505,
      "loss": 0.4095,
      "num_input_tokens_seen": 11683472,
      "step": 12585
    },
    {
      "epoch": 5.935879302215936,
      "grad_norm": 0.00029584122239612043,
      "learning_rate": 0.23246170481089476,
      "loss": 0.2922,
      "num_input_tokens_seen": 11688112,
      "step": 12590
    },
    {
      "epoch": 5.938236680810938,
      "grad_norm": 0.00029276596615090966,
      "learning_rate": 0.23241249329457317,
      "loss": 0.2943,
      "num_input_tokens_seen": 11692736,
      "step": 12595
    },
    {
      "epoch": 5.9405940594059405,
      "grad_norm": 0.00035880287759937346,
      "learning_rate": 0.23236326906920957,
      "loss": 0.2751,
      "num_input_tokens_seen": 11697056,
      "step": 12600
    },
    {
      "epoch": 5.9405940594059405,
      "eval_loss": 0.32838842272758484,
      "eval_runtime": 33.5886,
      "eval_samples_per_second": 28.075,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 11697056,
      "step": 12600
    },
    {
      "epoch": 5.942951438000943,
      "grad_norm": 0.0008653519325889647,
      "learning_rate": 0.2323140321423948,
      "loss": 0.4104,
      "num_input_tokens_seen": 11701536,
      "step": 12605
    },
    {
      "epoch": 5.945308816595945,
      "grad_norm": 0.0005393081810325384,
      "learning_rate": 0.23226478252172184,
      "loss": 0.3127,
      "num_input_tokens_seen": 11706208,
      "step": 12610
    },
    {
      "epoch": 5.947666195190948,
      "grad_norm": 0.0004228603793308139,
      "learning_rate": 0.23221552021478561,
      "loss": 0.2733,
      "num_input_tokens_seen": 11710848,
      "step": 12615
    },
    {
      "epoch": 5.95002357378595,
      "grad_norm": 0.0006480689044110477,
      "learning_rate": 0.232166245229183,
      "loss": 0.3336,
      "num_input_tokens_seen": 11715984,
      "step": 12620
    },
    {
      "epoch": 5.9523809523809526,
      "grad_norm": 0.00039733227458782494,
      "learning_rate": 0.2321169575725128,
      "loss": 0.3625,
      "num_input_tokens_seen": 11720416,
      "step": 12625
    },
    {
      "epoch": 5.954738330975955,
      "grad_norm": 0.000250736135058105,
      "learning_rate": 0.23206765725237577,
      "loss": 0.3337,
      "num_input_tokens_seen": 11724640,
      "step": 12630
    },
    {
      "epoch": 5.957095709570957,
      "grad_norm": 0.0002835557679645717,
      "learning_rate": 0.2320183442763747,
      "loss": 0.3194,
      "num_input_tokens_seen": 11728720,
      "step": 12635
    },
    {
      "epoch": 5.95945308816596,
      "grad_norm": 0.0003857557021547109,
      "learning_rate": 0.23196901865211422,
      "loss": 0.3515,
      "num_input_tokens_seen": 11733280,
      "step": 12640
    },
    {
      "epoch": 5.961810466760962,
      "grad_norm": 0.0006338931270875037,
      "learning_rate": 0.231919680387201,
      "loss": 0.2827,
      "num_input_tokens_seen": 11738192,
      "step": 12645
    },
    {
      "epoch": 5.964167845355965,
      "grad_norm": 0.0006829265621490777,
      "learning_rate": 0.23187032948924358,
      "loss": 0.3087,
      "num_input_tokens_seen": 11742656,
      "step": 12650
    },
    {
      "epoch": 5.966525223950967,
      "grad_norm": 0.0002108009357471019,
      "learning_rate": 0.23182096596585247,
      "loss": 0.3412,
      "num_input_tokens_seen": 11747200,
      "step": 12655
    },
    {
      "epoch": 5.968882602545969,
      "grad_norm": 0.0003047891950700432,
      "learning_rate": 0.23177158982464025,
      "loss": 0.3878,
      "num_input_tokens_seen": 11752144,
      "step": 12660
    },
    {
      "epoch": 5.971239981140971,
      "grad_norm": 0.0006795407389290631,
      "learning_rate": 0.23172220107322122,
      "loss": 0.328,
      "num_input_tokens_seen": 11756560,
      "step": 12665
    },
    {
      "epoch": 5.973597359735973,
      "grad_norm": 0.0007038279436528683,
      "learning_rate": 0.23167279971921184,
      "loss": 0.3435,
      "num_input_tokens_seen": 11761616,
      "step": 12670
    },
    {
      "epoch": 5.975954738330976,
      "grad_norm": 0.0006900282460264862,
      "learning_rate": 0.23162338577023034,
      "loss": 0.3111,
      "num_input_tokens_seen": 11767120,
      "step": 12675
    },
    {
      "epoch": 5.978312116925978,
      "grad_norm": 0.0003043833712581545,
      "learning_rate": 0.23157395923389704,
      "loss": 0.2611,
      "num_input_tokens_seen": 11770800,
      "step": 12680
    },
    {
      "epoch": 5.9806694955209805,
      "grad_norm": 0.0007275023963302374,
      "learning_rate": 0.2315245201178341,
      "loss": 0.3791,
      "num_input_tokens_seen": 11774624,
      "step": 12685
    },
    {
      "epoch": 5.983026874115983,
      "grad_norm": 0.0009334289934486151,
      "learning_rate": 0.23147506842966564,
      "loss": 0.3828,
      "num_input_tokens_seen": 11779568,
      "step": 12690
    },
    {
      "epoch": 5.985384252710985,
      "grad_norm": 0.0003146999515593052,
      "learning_rate": 0.23142560417701774,
      "loss": 0.2946,
      "num_input_tokens_seen": 11784480,
      "step": 12695
    },
    {
      "epoch": 5.987741631305988,
      "grad_norm": 0.00037005796912126243,
      "learning_rate": 0.23137612736751845,
      "loss": 0.3597,
      "num_input_tokens_seen": 11788736,
      "step": 12700
    },
    {
      "epoch": 5.99009900990099,
      "grad_norm": 0.0006752292974852026,
      "learning_rate": 0.23132663800879766,
      "loss": 0.3031,
      "num_input_tokens_seen": 11794944,
      "step": 12705
    },
    {
      "epoch": 5.9924563884959925,
      "grad_norm": 0.0002904026478063315,
      "learning_rate": 0.2312771361084873,
      "loss": 0.3455,
      "num_input_tokens_seen": 11800944,
      "step": 12710
    },
    {
      "epoch": 5.994813767090995,
      "grad_norm": 0.0008055461221374571,
      "learning_rate": 0.23122762167422112,
      "loss": 0.3208,
      "num_input_tokens_seen": 11804944,
      "step": 12715
    },
    {
      "epoch": 5.997171145685997,
      "grad_norm": 0.0007129177683964372,
      "learning_rate": 0.23117809471363493,
      "loss": 0.4036,
      "num_input_tokens_seen": 11810560,
      "step": 12720
    },
    {
      "epoch": 5.999528524281,
      "grad_norm": 0.000401725759729743,
      "learning_rate": 0.23112855523436637,
      "loss": 0.3136,
      "num_input_tokens_seen": 11814496,
      "step": 12725
    },
    {
      "epoch": 6.001885902876002,
      "grad_norm": 0.0007988627185113728,
      "learning_rate": 0.23107900324405511,
      "loss": 0.3298,
      "num_input_tokens_seen": 11819136,
      "step": 12730
    },
    {
      "epoch": 6.0042432814710045,
      "grad_norm": 0.0004501186776906252,
      "learning_rate": 0.2310294387503426,
      "loss": 0.3119,
      "num_input_tokens_seen": 11824112,
      "step": 12735
    },
    {
      "epoch": 6.006600660066007,
      "grad_norm": 0.00045756541658192873,
      "learning_rate": 0.23097986176087237,
      "loss": 0.3143,
      "num_input_tokens_seen": 11828784,
      "step": 12740
    },
    {
      "epoch": 6.008958038661009,
      "grad_norm": 0.000330979295540601,
      "learning_rate": 0.23093027228328986,
      "loss": 0.3451,
      "num_input_tokens_seen": 11833504,
      "step": 12745
    },
    {
      "epoch": 6.011315417256012,
      "grad_norm": 0.0004945038235746324,
      "learning_rate": 0.23088067032524226,
      "loss": 0.3172,
      "num_input_tokens_seen": 11836976,
      "step": 12750
    },
    {
      "epoch": 6.013672795851014,
      "grad_norm": 0.0006755731883458793,
      "learning_rate": 0.23083105589437888,
      "loss": 0.2987,
      "num_input_tokens_seen": 11841968,
      "step": 12755
    },
    {
      "epoch": 6.016030174446016,
      "grad_norm": 0.0010575097985565662,
      "learning_rate": 0.23078142899835094,
      "loss": 0.3962,
      "num_input_tokens_seen": 11847008,
      "step": 12760
    },
    {
      "epoch": 6.018387553041018,
      "grad_norm": 0.0009038884309120476,
      "learning_rate": 0.23073178964481147,
      "loss": 0.371,
      "num_input_tokens_seen": 11851024,
      "step": 12765
    },
    {
      "epoch": 6.02074493163602,
      "grad_norm": 0.0006557502201758325,
      "learning_rate": 0.2306821378414155,
      "loss": 0.3382,
      "num_input_tokens_seen": 11855264,
      "step": 12770
    },
    {
      "epoch": 6.023102310231023,
      "grad_norm": 0.0006884561153128743,
      "learning_rate": 0.2306324735958199,
      "loss": 0.3022,
      "num_input_tokens_seen": 11860272,
      "step": 12775
    },
    {
      "epoch": 6.025459688826025,
      "grad_norm": 0.0014379476197063923,
      "learning_rate": 0.23058279691568362,
      "loss": 0.3295,
      "num_input_tokens_seen": 11864176,
      "step": 12780
    },
    {
      "epoch": 6.027817067421028,
      "grad_norm": 0.00043302192352712154,
      "learning_rate": 0.23053310780866745,
      "loss": 0.3612,
      "num_input_tokens_seen": 11868960,
      "step": 12785
    },
    {
      "epoch": 6.03017444601603,
      "grad_norm": 0.0021590562537312508,
      "learning_rate": 0.23048340628243397,
      "loss": 0.3384,
      "num_input_tokens_seen": 11874384,
      "step": 12790
    },
    {
      "epoch": 6.032531824611032,
      "grad_norm": 0.0012601775815710425,
      "learning_rate": 0.23043369234464783,
      "loss": 0.3285,
      "num_input_tokens_seen": 11879984,
      "step": 12795
    },
    {
      "epoch": 6.034889203206035,
      "grad_norm": 0.0006029438809491694,
      "learning_rate": 0.2303839660029755,
      "loss": 0.3721,
      "num_input_tokens_seen": 11884336,
      "step": 12800
    },
    {
      "epoch": 6.034889203206035,
      "eval_loss": 0.3386254608631134,
      "eval_runtime": 33.6313,
      "eval_samples_per_second": 28.039,
      "eval_steps_per_second": 14.035,
      "num_input_tokens_seen": 11884336,
      "step": 12800
    },
    {
      "epoch": 6.037246581801037,
      "grad_norm": 0.0011277747107669711,
      "learning_rate": 0.23033422726508548,
      "loss": 0.3241,
      "num_input_tokens_seen": 11889072,
      "step": 12805
    },
    {
      "epoch": 6.03960396039604,
      "grad_norm": 0.0007819014717824757,
      "learning_rate": 0.23028447613864808,
      "loss": 0.3682,
      "num_input_tokens_seen": 11894432,
      "step": 12810
    },
    {
      "epoch": 6.041961338991042,
      "grad_norm": 0.0006758029339835048,
      "learning_rate": 0.2302347126313355,
      "loss": 0.3076,
      "num_input_tokens_seen": 11899376,
      "step": 12815
    },
    {
      "epoch": 6.044318717586044,
      "grad_norm": 0.0004240196431055665,
      "learning_rate": 0.23018493675082197,
      "loss": 0.3247,
      "num_input_tokens_seen": 11903312,
      "step": 12820
    },
    {
      "epoch": 6.046676096181047,
      "grad_norm": 0.00031327299075201154,
      "learning_rate": 0.2301351485047835,
      "loss": 0.3376,
      "num_input_tokens_seen": 11907456,
      "step": 12825
    },
    {
      "epoch": 6.049033474776049,
      "grad_norm": 0.0003321623953524977,
      "learning_rate": 0.23008534790089813,
      "loss": 0.3547,
      "num_input_tokens_seen": 11911952,
      "step": 12830
    },
    {
      "epoch": 6.051390853371052,
      "grad_norm": 0.0004522240487858653,
      "learning_rate": 0.2300355349468457,
      "loss": 0.3197,
      "num_input_tokens_seen": 11916352,
      "step": 12835
    },
    {
      "epoch": 6.053748231966054,
      "grad_norm": 0.00031661015236750245,
      "learning_rate": 0.22998570965030793,
      "loss": 0.3372,
      "num_input_tokens_seen": 11921856,
      "step": 12840
    },
    {
      "epoch": 6.0561056105610565,
      "grad_norm": 0.0004520811198744923,
      "learning_rate": 0.22993587201896862,
      "loss": 0.2971,
      "num_input_tokens_seen": 11925936,
      "step": 12845
    },
    {
      "epoch": 6.058462989156059,
      "grad_norm": 0.00023979335674084723,
      "learning_rate": 0.2298860220605133,
      "loss": 0.3152,
      "num_input_tokens_seen": 11930384,
      "step": 12850
    },
    {
      "epoch": 6.060820367751061,
      "grad_norm": 0.0012164507061243057,
      "learning_rate": 0.22983615978262942,
      "loss": 0.3708,
      "num_input_tokens_seen": 11935312,
      "step": 12855
    },
    {
      "epoch": 6.063177746346063,
      "grad_norm": 0.001069470657967031,
      "learning_rate": 0.22978628519300648,
      "loss": 0.3758,
      "num_input_tokens_seen": 11940160,
      "step": 12860
    },
    {
      "epoch": 6.065535124941065,
      "grad_norm": 0.0004652465577237308,
      "learning_rate": 0.22973639829933568,
      "loss": 0.3079,
      "num_input_tokens_seen": 11944912,
      "step": 12865
    },
    {
      "epoch": 6.067892503536068,
      "grad_norm": 0.0006741814431734383,
      "learning_rate": 0.22968649910931027,
      "loss": 0.2998,
      "num_input_tokens_seen": 11949760,
      "step": 12870
    },
    {
      "epoch": 6.07024988213107,
      "grad_norm": 0.0005416795611381531,
      "learning_rate": 0.22963658763062528,
      "loss": 0.3514,
      "num_input_tokens_seen": 11954656,
      "step": 12875
    },
    {
      "epoch": 6.072607260726072,
      "grad_norm": 0.0007826045621186495,
      "learning_rate": 0.22958666387097765,
      "loss": 0.3197,
      "num_input_tokens_seen": 11960144,
      "step": 12880
    },
    {
      "epoch": 6.074964639321075,
      "grad_norm": 0.0004267397162038833,
      "learning_rate": 0.22953672783806633,
      "loss": 0.3511,
      "num_input_tokens_seen": 11965168,
      "step": 12885
    },
    {
      "epoch": 6.077322017916077,
      "grad_norm": 0.0009865659521892667,
      "learning_rate": 0.22948677953959207,
      "loss": 0.2976,
      "num_input_tokens_seen": 11969680,
      "step": 12890
    },
    {
      "epoch": 6.07967939651108,
      "grad_norm": 0.00034075349685736,
      "learning_rate": 0.2294368189832575,
      "loss": 0.2913,
      "num_input_tokens_seen": 11973712,
      "step": 12895
    },
    {
      "epoch": 6.082036775106082,
      "grad_norm": 0.0006525006610900164,
      "learning_rate": 0.2293868461767672,
      "loss": 0.3077,
      "num_input_tokens_seen": 11978720,
      "step": 12900
    },
    {
      "epoch": 6.084394153701084,
      "grad_norm": 0.0008847564458847046,
      "learning_rate": 0.22933686112782758,
      "loss": 0.3504,
      "num_input_tokens_seen": 11982720,
      "step": 12905
    },
    {
      "epoch": 6.086751532296087,
      "grad_norm": 0.0009986866498365998,
      "learning_rate": 0.22928686384414698,
      "loss": 0.3539,
      "num_input_tokens_seen": 11987216,
      "step": 12910
    },
    {
      "epoch": 6.089108910891089,
      "grad_norm": 0.0010451055131852627,
      "learning_rate": 0.22923685433343552,
      "loss": 0.3193,
      "num_input_tokens_seen": 11991616,
      "step": 12915
    },
    {
      "epoch": 6.091466289486092,
      "grad_norm": 0.0006748783052898943,
      "learning_rate": 0.22918683260340542,
      "loss": 0.4006,
      "num_input_tokens_seen": 11996704,
      "step": 12920
    },
    {
      "epoch": 6.093823668081094,
      "grad_norm": 0.0004136209608986974,
      "learning_rate": 0.2291367986617706,
      "loss": 0.3281,
      "num_input_tokens_seen": 12001424,
      "step": 12925
    },
    {
      "epoch": 6.096181046676096,
      "grad_norm": 0.0025059739127755165,
      "learning_rate": 0.22908675251624697,
      "loss": 0.3475,
      "num_input_tokens_seen": 12006416,
      "step": 12930
    },
    {
      "epoch": 6.098538425271099,
      "grad_norm": 0.0006985565414652228,
      "learning_rate": 0.22903669417455216,
      "loss": 0.3322,
      "num_input_tokens_seen": 12011216,
      "step": 12935
    },
    {
      "epoch": 6.100895803866101,
      "grad_norm": 0.0008047535666264594,
      "learning_rate": 0.22898662364440592,
      "loss": 0.3482,
      "num_input_tokens_seen": 12015840,
      "step": 12940
    },
    {
      "epoch": 6.103253182461104,
      "grad_norm": 0.0017424214165657759,
      "learning_rate": 0.2289365409335297,
      "loss": 0.3238,
      "num_input_tokens_seen": 12020896,
      "step": 12945
    },
    {
      "epoch": 6.105610561056106,
      "grad_norm": 0.0008739205659367144,
      "learning_rate": 0.2288864460496469,
      "loss": 0.3345,
      "num_input_tokens_seen": 12025408,
      "step": 12950
    },
    {
      "epoch": 6.107967939651108,
      "grad_norm": 0.00040080887265503407,
      "learning_rate": 0.22883633900048272,
      "loss": 0.3336,
      "num_input_tokens_seen": 12029632,
      "step": 12955
    },
    {
      "epoch": 6.11032531824611,
      "grad_norm": 0.0004442618228495121,
      "learning_rate": 0.2287862197937644,
      "loss": 0.3716,
      "num_input_tokens_seen": 12034304,
      "step": 12960
    },
    {
      "epoch": 6.112682696841112,
      "grad_norm": 0.0006940565072000027,
      "learning_rate": 0.2287360884372209,
      "loss": 0.3742,
      "num_input_tokens_seen": 12040080,
      "step": 12965
    },
    {
      "epoch": 6.115040075436115,
      "grad_norm": 0.0002678939199540764,
      "learning_rate": 0.22868594493858307,
      "loss": 0.3282,
      "num_input_tokens_seen": 12043728,
      "step": 12970
    },
    {
      "epoch": 6.117397454031117,
      "grad_norm": 0.0007477244944311678,
      "learning_rate": 0.2286357893055837,
      "loss": 0.3603,
      "num_input_tokens_seen": 12048736,
      "step": 12975
    },
    {
      "epoch": 6.1197548326261195,
      "grad_norm": 0.001358990091830492,
      "learning_rate": 0.22858562154595746,
      "loss": 0.3335,
      "num_input_tokens_seen": 12053264,
      "step": 12980
    },
    {
      "epoch": 6.122112211221122,
      "grad_norm": 0.0005450703320093453,
      "learning_rate": 0.22853544166744078,
      "loss": 0.3313,
      "num_input_tokens_seen": 12059760,
      "step": 12985
    },
    {
      "epoch": 6.124469589816124,
      "grad_norm": 0.00042673348798416555,
      "learning_rate": 0.22848524967777206,
      "loss": 0.326,
      "num_input_tokens_seen": 12064960,
      "step": 12990
    },
    {
      "epoch": 6.126826968411127,
      "grad_norm": 0.0010491234716027975,
      "learning_rate": 0.22843504558469152,
      "loss": 0.3578,
      "num_input_tokens_seen": 12069312,
      "step": 12995
    },
    {
      "epoch": 6.129184347006129,
      "grad_norm": 0.000358597026206553,
      "learning_rate": 0.2283848293959413,
      "loss": 0.3374,
      "num_input_tokens_seen": 12074128,
      "step": 13000
    },
    {
      "epoch": 6.129184347006129,
      "eval_loss": 0.32956230640411377,
      "eval_runtime": 33.5936,
      "eval_samples_per_second": 28.071,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 12074128,
      "step": 13000
    },
    {
      "epoch": 6.1315417256011315,
      "grad_norm": 0.0004678818513639271,
      "learning_rate": 0.22833460111926532,
      "loss": 0.3458,
      "num_input_tokens_seen": 12078960,
      "step": 13005
    },
    {
      "epoch": 6.133899104196134,
      "grad_norm": 0.0008707257802598178,
      "learning_rate": 0.22828436076240946,
      "loss": 0.3632,
      "num_input_tokens_seen": 12084992,
      "step": 13010
    },
    {
      "epoch": 6.136256482791136,
      "grad_norm": 0.0006770548061467707,
      "learning_rate": 0.22823410833312135,
      "loss": 0.3449,
      "num_input_tokens_seen": 12090144,
      "step": 13015
    },
    {
      "epoch": 6.138613861386139,
      "grad_norm": 0.0013377998257055879,
      "learning_rate": 0.2281838438391506,
      "loss": 0.3236,
      "num_input_tokens_seen": 12095376,
      "step": 13020
    },
    {
      "epoch": 6.140971239981141,
      "grad_norm": 0.0003438051789999008,
      "learning_rate": 0.22813356728824863,
      "loss": 0.3359,
      "num_input_tokens_seen": 12100144,
      "step": 13025
    },
    {
      "epoch": 6.1433286185761435,
      "grad_norm": 0.0002338339836569503,
      "learning_rate": 0.2280832786881687,
      "loss": 0.3399,
      "num_input_tokens_seen": 12104496,
      "step": 13030
    },
    {
      "epoch": 6.145685997171146,
      "grad_norm": 0.0004179553943686187,
      "learning_rate": 0.22803297804666592,
      "loss": 0.3503,
      "num_input_tokens_seen": 12109456,
      "step": 13035
    },
    {
      "epoch": 6.148043375766148,
      "grad_norm": 0.0008745376253500581,
      "learning_rate": 0.22798266537149728,
      "loss": 0.3347,
      "num_input_tokens_seen": 12113408,
      "step": 13040
    },
    {
      "epoch": 6.150400754361151,
      "grad_norm": 0.0003000323777087033,
      "learning_rate": 0.22793234067042167,
      "loss": 0.2906,
      "num_input_tokens_seen": 12118736,
      "step": 13045
    },
    {
      "epoch": 6.152758132956153,
      "grad_norm": 0.0011631706729531288,
      "learning_rate": 0.22788200395119979,
      "loss": 0.3743,
      "num_input_tokens_seen": 12123392,
      "step": 13050
    },
    {
      "epoch": 6.1551155115511555,
      "grad_norm": 0.0008196887210942805,
      "learning_rate": 0.2278316552215942,
      "loss": 0.3914,
      "num_input_tokens_seen": 12128144,
      "step": 13055
    },
    {
      "epoch": 6.157472890146157,
      "grad_norm": 0.00042697114986367524,
      "learning_rate": 0.22778129448936918,
      "loss": 0.3696,
      "num_input_tokens_seen": 12132400,
      "step": 13060
    },
    {
      "epoch": 6.1598302687411595,
      "grad_norm": 0.0007223918219096959,
      "learning_rate": 0.22773092176229118,
      "loss": 0.3323,
      "num_input_tokens_seen": 12137520,
      "step": 13065
    },
    {
      "epoch": 6.162187647336162,
      "grad_norm": 0.0004315165861044079,
      "learning_rate": 0.22768053704812816,
      "loss": 0.3282,
      "num_input_tokens_seen": 12142160,
      "step": 13070
    },
    {
      "epoch": 6.164545025931164,
      "grad_norm": 0.0002761335636023432,
      "learning_rate": 0.22763014035465018,
      "loss": 0.3258,
      "num_input_tokens_seen": 12146992,
      "step": 13075
    },
    {
      "epoch": 6.166902404526167,
      "grad_norm": 0.00032077275682240725,
      "learning_rate": 0.22757973168962892,
      "loss": 0.3494,
      "num_input_tokens_seen": 12151072,
      "step": 13080
    },
    {
      "epoch": 6.169259783121169,
      "grad_norm": 0.0005994706298224628,
      "learning_rate": 0.22752931106083818,
      "loss": 0.389,
      "num_input_tokens_seen": 12156320,
      "step": 13085
    },
    {
      "epoch": 6.1716171617161715,
      "grad_norm": 0.0005828124121762812,
      "learning_rate": 0.22747887847605341,
      "loss": 0.3346,
      "num_input_tokens_seen": 12160160,
      "step": 13090
    },
    {
      "epoch": 6.173974540311174,
      "grad_norm": 0.00022132796584628522,
      "learning_rate": 0.22742843394305184,
      "loss": 0.3628,
      "num_input_tokens_seen": 12164272,
      "step": 13095
    },
    {
      "epoch": 6.176331918906176,
      "grad_norm": 0.00044583750423043966,
      "learning_rate": 0.22737797746961272,
      "loss": 0.325,
      "num_input_tokens_seen": 12168560,
      "step": 13100
    },
    {
      "epoch": 6.178689297501179,
      "grad_norm": 0.0005821296363137662,
      "learning_rate": 0.22732750906351712,
      "loss": 0.3626,
      "num_input_tokens_seen": 12172288,
      "step": 13105
    },
    {
      "epoch": 6.181046676096181,
      "grad_norm": 0.0009622678044252098,
      "learning_rate": 0.22727702873254785,
      "loss": 0.3499,
      "num_input_tokens_seen": 12177872,
      "step": 13110
    },
    {
      "epoch": 6.1834040546911835,
      "grad_norm": 0.0002521436254028231,
      "learning_rate": 0.22722653648448968,
      "loss": 0.3497,
      "num_input_tokens_seen": 12182432,
      "step": 13115
    },
    {
      "epoch": 6.185761433286186,
      "grad_norm": 0.0003723138361237943,
      "learning_rate": 0.22717603232712902,
      "loss": 0.3177,
      "num_input_tokens_seen": 12187744,
      "step": 13120
    },
    {
      "epoch": 6.188118811881188,
      "grad_norm": 0.0006252097082324326,
      "learning_rate": 0.22712551626825436,
      "loss": 0.3206,
      "num_input_tokens_seen": 12192784,
      "step": 13125
    },
    {
      "epoch": 6.190476190476191,
      "grad_norm": 0.0006866492331027985,
      "learning_rate": 0.2270749883156559,
      "loss": 0.3368,
      "num_input_tokens_seen": 12197952,
      "step": 13130
    },
    {
      "epoch": 6.192833569071193,
      "grad_norm": 0.0003703039255924523,
      "learning_rate": 0.22702444847712563,
      "loss": 0.3139,
      "num_input_tokens_seen": 12202512,
      "step": 13135
    },
    {
      "epoch": 6.1951909476661955,
      "grad_norm": 0.0003765636356547475,
      "learning_rate": 0.22697389676045743,
      "loss": 0.3107,
      "num_input_tokens_seen": 12206864,
      "step": 13140
    },
    {
      "epoch": 6.197548326261198,
      "grad_norm": 0.0002404119004495442,
      "learning_rate": 0.22692333317344704,
      "loss": 0.3452,
      "num_input_tokens_seen": 12211136,
      "step": 13145
    },
    {
      "epoch": 6.1999057048562,
      "grad_norm": 0.0007643367280252278,
      "learning_rate": 0.22687275772389198,
      "loss": 0.3283,
      "num_input_tokens_seen": 12215040,
      "step": 13150
    },
    {
      "epoch": 6.202263083451202,
      "grad_norm": 0.0006543798954226077,
      "learning_rate": 0.22682217041959168,
      "loss": 0.2709,
      "num_input_tokens_seen": 12218928,
      "step": 13155
    },
    {
      "epoch": 6.204620462046204,
      "grad_norm": 0.0004947535926476121,
      "learning_rate": 0.2267715712683473,
      "loss": 0.2472,
      "num_input_tokens_seen": 12223232,
      "step": 13160
    },
    {
      "epoch": 6.206977840641207,
      "grad_norm": 0.0005370997241698205,
      "learning_rate": 0.22672096027796182,
      "loss": 0.3767,
      "num_input_tokens_seen": 12228384,
      "step": 13165
    },
    {
      "epoch": 6.209335219236209,
      "grad_norm": 0.0008829706348478794,
      "learning_rate": 0.22667033745624016,
      "loss": 0.4019,
      "num_input_tokens_seen": 12232160,
      "step": 13170
    },
    {
      "epoch": 6.211692597831211,
      "grad_norm": 0.000331290066242218,
      "learning_rate": 0.22661970281098895,
      "loss": 0.3858,
      "num_input_tokens_seen": 12236304,
      "step": 13175
    },
    {
      "epoch": 6.214049976426214,
      "grad_norm": 0.0005465340800583363,
      "learning_rate": 0.22656905635001667,
      "loss": 0.3209,
      "num_input_tokens_seen": 12240720,
      "step": 13180
    },
    {
      "epoch": 6.216407355021216,
      "grad_norm": 0.0003775248187594116,
      "learning_rate": 0.2265183980811337,
      "loss": 0.2954,
      "num_input_tokens_seen": 12244992,
      "step": 13185
    },
    {
      "epoch": 6.218764733616219,
      "grad_norm": 0.0003884779871441424,
      "learning_rate": 0.22646772801215218,
      "loss": 0.3572,
      "num_input_tokens_seen": 12249200,
      "step": 13190
    },
    {
      "epoch": 6.221122112211221,
      "grad_norm": 0.000756473105866462,
      "learning_rate": 0.22641704615088598,
      "loss": 0.3477,
      "num_input_tokens_seen": 12253664,
      "step": 13195
    },
    {
      "epoch": 6.223479490806223,
      "grad_norm": 0.000955695693846792,
      "learning_rate": 0.22636635250515103,
      "loss": 0.3791,
      "num_input_tokens_seen": 12258064,
      "step": 13200
    },
    {
      "epoch": 6.223479490806223,
      "eval_loss": 0.33211633563041687,
      "eval_runtime": 33.5426,
      "eval_samples_per_second": 28.114,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 12258064,
      "step": 13200
    },
    {
      "epoch": 6.225836869401226,
      "grad_norm": 0.0009492534445598722,
      "learning_rate": 0.2263156470827648,
      "loss": 0.3171,
      "num_input_tokens_seen": 12262640,
      "step": 13205
    },
    {
      "epoch": 6.228194247996228,
      "grad_norm": 0.0007464223890565336,
      "learning_rate": 0.22626492989154678,
      "loss": 0.3243,
      "num_input_tokens_seen": 12266496,
      "step": 13210
    },
    {
      "epoch": 6.230551626591231,
      "grad_norm": 0.0006506242789328098,
      "learning_rate": 0.22621420093931813,
      "loss": 0.3472,
      "num_input_tokens_seen": 12271392,
      "step": 13215
    },
    {
      "epoch": 6.232909005186233,
      "grad_norm": 0.0004175530339125544,
      "learning_rate": 0.22616346023390194,
      "loss": 0.3309,
      "num_input_tokens_seen": 12275648,
      "step": 13220
    },
    {
      "epoch": 6.235266383781235,
      "grad_norm": 0.00039170621312223375,
      "learning_rate": 0.22611270778312306,
      "loss": 0.3148,
      "num_input_tokens_seen": 12280016,
      "step": 13225
    },
    {
      "epoch": 6.237623762376238,
      "grad_norm": 0.00041854302980937064,
      "learning_rate": 0.2260619435948081,
      "loss": 0.3906,
      "num_input_tokens_seen": 12284016,
      "step": 13230
    },
    {
      "epoch": 6.23998114097124,
      "grad_norm": 0.0006205823156051338,
      "learning_rate": 0.22601116767678567,
      "loss": 0.3669,
      "num_input_tokens_seen": 12289536,
      "step": 13235
    },
    {
      "epoch": 6.242338519566243,
      "grad_norm": 0.0002018105733441189,
      "learning_rate": 0.2259603800368859,
      "loss": 0.3298,
      "num_input_tokens_seen": 12294912,
      "step": 13240
    },
    {
      "epoch": 6.244695898161245,
      "grad_norm": 0.00030559860169887543,
      "learning_rate": 0.22590958068294098,
      "loss": 0.3373,
      "num_input_tokens_seen": 12299520,
      "step": 13245
    },
    {
      "epoch": 6.247053276756247,
      "grad_norm": 0.0002675098949111998,
      "learning_rate": 0.22585876962278478,
      "loss": 0.3347,
      "num_input_tokens_seen": 12304784,
      "step": 13250
    },
    {
      "epoch": 6.24941065535125,
      "grad_norm": 0.0004404790233820677,
      "learning_rate": 0.22580794686425298,
      "loss": 0.3479,
      "num_input_tokens_seen": 12310016,
      "step": 13255
    },
    {
      "epoch": 6.251768033946251,
      "grad_norm": 0.0003769198665395379,
      "learning_rate": 0.22575711241518312,
      "loss": 0.3489,
      "num_input_tokens_seen": 12314080,
      "step": 13260
    },
    {
      "epoch": 6.254125412541254,
      "grad_norm": 0.0001783043408067897,
      "learning_rate": 0.22570626628341453,
      "loss": 0.3462,
      "num_input_tokens_seen": 12318032,
      "step": 13265
    },
    {
      "epoch": 6.256482791136256,
      "grad_norm": 0.00026378181064501405,
      "learning_rate": 0.22565540847678828,
      "loss": 0.335,
      "num_input_tokens_seen": 12322784,
      "step": 13270
    },
    {
      "epoch": 6.258840169731259,
      "grad_norm": 0.0006564845680259168,
      "learning_rate": 0.2256045390031473,
      "loss": 0.3751,
      "num_input_tokens_seen": 12326880,
      "step": 13275
    },
    {
      "epoch": 6.261197548326261,
      "grad_norm": 0.0001716944680083543,
      "learning_rate": 0.22555365787033627,
      "loss": 0.3273,
      "num_input_tokens_seen": 12331424,
      "step": 13280
    },
    {
      "epoch": 6.263554926921263,
      "grad_norm": 0.00023273617262020707,
      "learning_rate": 0.22550276508620173,
      "loss": 0.3365,
      "num_input_tokens_seen": 12336336,
      "step": 13285
    },
    {
      "epoch": 6.265912305516266,
      "grad_norm": 0.0008379648206755519,
      "learning_rate": 0.22545186065859202,
      "loss": 0.3257,
      "num_input_tokens_seen": 12340416,
      "step": 13290
    },
    {
      "epoch": 6.268269684111268,
      "grad_norm": 0.000646856555249542,
      "learning_rate": 0.2254009445953572,
      "loss": 0.3244,
      "num_input_tokens_seen": 12344944,
      "step": 13295
    },
    {
      "epoch": 6.270627062706271,
      "grad_norm": 0.00028236405341885984,
      "learning_rate": 0.22535001690434917,
      "loss": 0.3404,
      "num_input_tokens_seen": 12349744,
      "step": 13300
    },
    {
      "epoch": 6.272984441301273,
      "grad_norm": 0.0003749734896700829,
      "learning_rate": 0.22529907759342163,
      "loss": 0.3241,
      "num_input_tokens_seen": 12354608,
      "step": 13305
    },
    {
      "epoch": 6.275341819896275,
      "grad_norm": 0.0002825175761245191,
      "learning_rate": 0.22524812667043007,
      "loss": 0.3384,
      "num_input_tokens_seen": 12360144,
      "step": 13310
    },
    {
      "epoch": 6.277699198491278,
      "grad_norm": 0.0007797224679961801,
      "learning_rate": 0.22519716414323177,
      "loss": 0.3276,
      "num_input_tokens_seen": 12364768,
      "step": 13315
    },
    {
      "epoch": 6.28005657708628,
      "grad_norm": 0.0004490665451157838,
      "learning_rate": 0.22514619001968567,
      "loss": 0.3237,
      "num_input_tokens_seen": 12371488,
      "step": 13320
    },
    {
      "epoch": 6.282413955681283,
      "grad_norm": 0.00034928557579405606,
      "learning_rate": 0.2250952043076528,
      "loss": 0.3574,
      "num_input_tokens_seen": 12375168,
      "step": 13325
    },
    {
      "epoch": 6.284771334276285,
      "grad_norm": 0.00024717324413359165,
      "learning_rate": 0.2250442070149957,
      "loss": 0.3425,
      "num_input_tokens_seen": 12379216,
      "step": 13330
    },
    {
      "epoch": 6.287128712871287,
      "grad_norm": 0.00025957805337384343,
      "learning_rate": 0.22499319814957885,
      "loss": 0.2947,
      "num_input_tokens_seen": 12383264,
      "step": 13335
    },
    {
      "epoch": 6.28948609146629,
      "grad_norm": 0.000363434839528054,
      "learning_rate": 0.2249421777192684,
      "loss": 0.2943,
      "num_input_tokens_seen": 12387856,
      "step": 13340
    },
    {
      "epoch": 6.291843470061292,
      "grad_norm": 0.00024502878659404814,
      "learning_rate": 0.22489114573193236,
      "loss": 0.3422,
      "num_input_tokens_seen": 12392448,
      "step": 13345
    },
    {
      "epoch": 6.294200848656295,
      "grad_norm": 0.0002916416269727051,
      "learning_rate": 0.2248401021954405,
      "loss": 0.3661,
      "num_input_tokens_seen": 12397408,
      "step": 13350
    },
    {
      "epoch": 6.296558227251296,
      "grad_norm": 0.00040367705514654517,
      "learning_rate": 0.22478904711766443,
      "loss": 0.3785,
      "num_input_tokens_seen": 12401568,
      "step": 13355
    },
    {
      "epoch": 6.2989156058462985,
      "grad_norm": 0.0006547972443513572,
      "learning_rate": 0.22473798050647734,
      "loss": 0.344,
      "num_input_tokens_seen": 12406592,
      "step": 13360
    },
    {
      "epoch": 6.301272984441301,
      "grad_norm": 0.0007300514844246209,
      "learning_rate": 0.22468690236975453,
      "loss": 0.3547,
      "num_input_tokens_seen": 12410944,
      "step": 13365
    },
    {
      "epoch": 6.303630363036303,
      "grad_norm": 0.0003035668341908604,
      "learning_rate": 0.22463581271537272,
      "loss": 0.3268,
      "num_input_tokens_seen": 12415168,
      "step": 13370
    },
    {
      "epoch": 6.305987741631306,
      "grad_norm": 0.0009561218321323395,
      "learning_rate": 0.22458471155121076,
      "loss": 0.3163,
      "num_input_tokens_seen": 12419504,
      "step": 13375
    },
    {
      "epoch": 6.308345120226308,
      "grad_norm": 0.0004165566642768681,
      "learning_rate": 0.2245335988851489,
      "loss": 0.3266,
      "num_input_tokens_seen": 12423776,
      "step": 13380
    },
    {
      "epoch": 6.3107024988213105,
      "grad_norm": 0.0010318881832063198,
      "learning_rate": 0.2244824747250695,
      "loss": 0.3635,
      "num_input_tokens_seen": 12429248,
      "step": 13385
    },
    {
      "epoch": 6.313059877416313,
      "grad_norm": 0.00023881479864940047,
      "learning_rate": 0.22443133907885646,
      "loss": 0.3222,
      "num_input_tokens_seen": 12433872,
      "step": 13390
    },
    {
      "epoch": 6.315417256011315,
      "grad_norm": 0.00029846333200111985,
      "learning_rate": 0.22438019195439557,
      "loss": 0.3362,
      "num_input_tokens_seen": 12439024,
      "step": 13395
    },
    {
      "epoch": 6.317774634606318,
      "grad_norm": 0.0002900346589740366,
      "learning_rate": 0.22432903335957435,
      "loss": 0.3481,
      "num_input_tokens_seen": 12443248,
      "step": 13400
    },
    {
      "epoch": 6.317774634606318,
      "eval_loss": 0.32733413577079773,
      "eval_runtime": 33.5734,
      "eval_samples_per_second": 28.088,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 12443248,
      "step": 13400
    },
    {
      "epoch": 6.32013201320132,
      "grad_norm": 0.0007078826311044395,
      "learning_rate": 0.22427786330228214,
      "loss": 0.3251,
      "num_input_tokens_seen": 12447184,
      "step": 13405
    },
    {
      "epoch": 6.3224893917963225,
      "grad_norm": 0.0004483851953409612,
      "learning_rate": 0.22422668179040997,
      "loss": 0.3546,
      "num_input_tokens_seen": 12452240,
      "step": 13410
    },
    {
      "epoch": 6.324846770391325,
      "grad_norm": 0.0002730255655478686,
      "learning_rate": 0.2241754888318507,
      "loss": 0.2941,
      "num_input_tokens_seen": 12457328,
      "step": 13415
    },
    {
      "epoch": 6.327204148986327,
      "grad_norm": 0.0006964849890209734,
      "learning_rate": 0.22412428443449886,
      "loss": 0.3099,
      "num_input_tokens_seen": 12461760,
      "step": 13420
    },
    {
      "epoch": 6.32956152758133,
      "grad_norm": 0.00026851537404581904,
      "learning_rate": 0.22407306860625087,
      "loss": 0.2932,
      "num_input_tokens_seen": 12467088,
      "step": 13425
    },
    {
      "epoch": 6.331918906176332,
      "grad_norm": 0.0006429980276152492,
      "learning_rate": 0.22402184135500483,
      "loss": 0.3093,
      "num_input_tokens_seen": 12471808,
      "step": 13430
    },
    {
      "epoch": 6.3342762847713345,
      "grad_norm": 0.0003567762905731797,
      "learning_rate": 0.22397060268866067,
      "loss": 0.3845,
      "num_input_tokens_seen": 12476432,
      "step": 13435
    },
    {
      "epoch": 6.336633663366337,
      "grad_norm": 0.0006105469074100256,
      "learning_rate": 0.22391935261511994,
      "loss": 0.3512,
      "num_input_tokens_seen": 12480864,
      "step": 13440
    },
    {
      "epoch": 6.338991041961339,
      "grad_norm": 0.00020450630108825862,
      "learning_rate": 0.22386809114228615,
      "loss": 0.3221,
      "num_input_tokens_seen": 12485536,
      "step": 13445
    },
    {
      "epoch": 6.341348420556342,
      "grad_norm": 0.000274336664006114,
      "learning_rate": 0.22381681827806446,
      "loss": 0.3114,
      "num_input_tokens_seen": 12490512,
      "step": 13450
    },
    {
      "epoch": 6.343705799151344,
      "grad_norm": 0.0007158173830248415,
      "learning_rate": 0.22376553403036173,
      "loss": 0.3472,
      "num_input_tokens_seen": 12495696,
      "step": 13455
    },
    {
      "epoch": 6.346063177746346,
      "grad_norm": 0.0008089069160632789,
      "learning_rate": 0.22371423840708662,
      "loss": 0.3695,
      "num_input_tokens_seen": 12501232,
      "step": 13460
    },
    {
      "epoch": 6.348420556341348,
      "grad_norm": 0.00042770575964823365,
      "learning_rate": 0.22366293141614962,
      "loss": 0.3511,
      "num_input_tokens_seen": 12505440,
      "step": 13465
    },
    {
      "epoch": 6.3507779349363505,
      "grad_norm": 0.0007093034218996763,
      "learning_rate": 0.22361161306546287,
      "loss": 0.2936,
      "num_input_tokens_seen": 12509600,
      "step": 13470
    },
    {
      "epoch": 6.353135313531353,
      "grad_norm": 0.0002602984313853085,
      "learning_rate": 0.22356028336294037,
      "loss": 0.3583,
      "num_input_tokens_seen": 12514128,
      "step": 13475
    },
    {
      "epoch": 6.355492692126355,
      "grad_norm": 0.00037971363053657115,
      "learning_rate": 0.2235089423164977,
      "loss": 0.3385,
      "num_input_tokens_seen": 12518384,
      "step": 13480
    },
    {
      "epoch": 6.357850070721358,
      "grad_norm": 0.0007517063640989363,
      "learning_rate": 0.22345758993405243,
      "loss": 0.3071,
      "num_input_tokens_seen": 12524144,
      "step": 13485
    },
    {
      "epoch": 6.36020744931636,
      "grad_norm": 0.00048047926975414157,
      "learning_rate": 0.2234062262235236,
      "loss": 0.3485,
      "num_input_tokens_seen": 12527968,
      "step": 13490
    },
    {
      "epoch": 6.3625648279113625,
      "grad_norm": 0.0003073951811529696,
      "learning_rate": 0.22335485119283222,
      "loss": 0.3106,
      "num_input_tokens_seen": 12532976,
      "step": 13495
    },
    {
      "epoch": 6.364922206506365,
      "grad_norm": 0.0003014168469235301,
      "learning_rate": 0.22330346484990093,
      "loss": 0.3497,
      "num_input_tokens_seen": 12537920,
      "step": 13500
    },
    {
      "epoch": 6.367279585101367,
      "grad_norm": 0.0005890038446523249,
      "learning_rate": 0.22325206720265425,
      "loss": 0.3591,
      "num_input_tokens_seen": 12541808,
      "step": 13505
    },
    {
      "epoch": 6.36963696369637,
      "grad_norm": 0.00040896987775340676,
      "learning_rate": 0.2232006582590182,
      "loss": 0.329,
      "num_input_tokens_seen": 12545536,
      "step": 13510
    },
    {
      "epoch": 6.371994342291372,
      "grad_norm": 0.00038633658550679684,
      "learning_rate": 0.22314923802692077,
      "loss": 0.2884,
      "num_input_tokens_seen": 12551216,
      "step": 13515
    },
    {
      "epoch": 6.3743517208863745,
      "grad_norm": 0.00028430024394765496,
      "learning_rate": 0.22309780651429156,
      "loss": 0.3025,
      "num_input_tokens_seen": 12555216,
      "step": 13520
    },
    {
      "epoch": 6.376709099481377,
      "grad_norm": 0.00022438031737692654,
      "learning_rate": 0.22304636372906203,
      "loss": 0.2868,
      "num_input_tokens_seen": 12559728,
      "step": 13525
    },
    {
      "epoch": 6.379066478076379,
      "grad_norm": 0.000683228368870914,
      "learning_rate": 0.22299490967916522,
      "loss": 0.3062,
      "num_input_tokens_seen": 12564464,
      "step": 13530
    },
    {
      "epoch": 6.381423856671382,
      "grad_norm": 0.00023946388682816178,
      "learning_rate": 0.22294344437253602,
      "loss": 0.3254,
      "num_input_tokens_seen": 12567952,
      "step": 13535
    },
    {
      "epoch": 6.383781235266384,
      "grad_norm": 0.00014891759201418608,
      "learning_rate": 0.22289196781711101,
      "loss": 0.2866,
      "num_input_tokens_seen": 12572512,
      "step": 13540
    },
    {
      "epoch": 6.3861386138613865,
      "grad_norm": 0.0004262168367858976,
      "learning_rate": 0.2228404800208286,
      "loss": 0.3952,
      "num_input_tokens_seen": 12577840,
      "step": 13545
    },
    {
      "epoch": 6.388495992456389,
      "grad_norm": 0.00016390508972108364,
      "learning_rate": 0.22278898099162875,
      "loss": 0.3431,
      "num_input_tokens_seen": 12582000,
      "step": 13550
    },
    {
      "epoch": 6.39085337105139,
      "grad_norm": 0.00028393001412041485,
      "learning_rate": 0.22273747073745337,
      "loss": 0.3031,
      "num_input_tokens_seen": 12587024,
      "step": 13555
    },
    {
      "epoch": 6.393210749646393,
      "grad_norm": 0.00031298998510465026,
      "learning_rate": 0.22268594926624588,
      "loss": 0.3587,
      "num_input_tokens_seen": 12592144,
      "step": 13560
    },
    {
      "epoch": 6.395568128241395,
      "grad_norm": 0.0003455729747656733,
      "learning_rate": 0.22263441658595162,
      "loss": 0.3241,
      "num_input_tokens_seen": 12597136,
      "step": 13565
    },
    {
      "epoch": 6.397925506836398,
      "grad_norm": 0.0004230231570545584,
      "learning_rate": 0.2225828727045175,
      "loss": 0.3102,
      "num_input_tokens_seen": 12601136,
      "step": 13570
    },
    {
      "epoch": 6.4002828854314,
      "grad_norm": 0.00028954274603165686,
      "learning_rate": 0.22253131762989228,
      "loss": 0.3426,
      "num_input_tokens_seen": 12605216,
      "step": 13575
    },
    {
      "epoch": 6.402640264026402,
      "grad_norm": 0.0003603222721721977,
      "learning_rate": 0.2224797513700264,
      "loss": 0.3495,
      "num_input_tokens_seen": 12609824,
      "step": 13580
    },
    {
      "epoch": 6.404997642621405,
      "grad_norm": 0.0005671333055943251,
      "learning_rate": 0.22242817393287204,
      "loss": 0.2854,
      "num_input_tokens_seen": 12613952,
      "step": 13585
    },
    {
      "epoch": 6.407355021216407,
      "grad_norm": 0.0002215041604358703,
      "learning_rate": 0.22237658532638305,
      "loss": 0.2943,
      "num_input_tokens_seen": 12617968,
      "step": 13590
    },
    {
      "epoch": 6.40971239981141,
      "grad_norm": 0.00037081577465869486,
      "learning_rate": 0.22232498555851513,
      "loss": 0.348,
      "num_input_tokens_seen": 12622592,
      "step": 13595
    },
    {
      "epoch": 6.412069778406412,
      "grad_norm": 0.00043208259739913046,
      "learning_rate": 0.22227337463722546,
      "loss": 0.2563,
      "num_input_tokens_seen": 12626480,
      "step": 13600
    },
    {
      "epoch": 6.412069778406412,
      "eval_loss": 0.3304615318775177,
      "eval_runtime": 33.5899,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 12626480,
      "step": 13600
    },
    {
      "epoch": 6.414427157001414,
      "grad_norm": 0.0002886455331463367,
      "learning_rate": 0.2222217525704732,
      "loss": 0.3281,
      "num_input_tokens_seen": 12630944,
      "step": 13605
    },
    {
      "epoch": 6.416784535596417,
      "grad_norm": 0.0003893042157869786,
      "learning_rate": 0.22217011936621908,
      "loss": 0.2648,
      "num_input_tokens_seen": 12635328,
      "step": 13610
    },
    {
      "epoch": 6.419141914191419,
      "grad_norm": 0.00043791343341581523,
      "learning_rate": 0.22211847503242566,
      "loss": 0.3301,
      "num_input_tokens_seen": 12640144,
      "step": 13615
    },
    {
      "epoch": 6.421499292786422,
      "grad_norm": 0.00042917366954497993,
      "learning_rate": 0.22206681957705704,
      "loss": 0.3505,
      "num_input_tokens_seen": 12644528,
      "step": 13620
    },
    {
      "epoch": 6.423856671381424,
      "grad_norm": 0.0006206968100741506,
      "learning_rate": 0.2220151530080792,
      "loss": 0.3877,
      "num_input_tokens_seen": 12649088,
      "step": 13625
    },
    {
      "epoch": 6.426214049976426,
      "grad_norm": 0.00037721716216765344,
      "learning_rate": 0.2219634753334598,
      "loss": 0.3627,
      "num_input_tokens_seen": 12653664,
      "step": 13630
    },
    {
      "epoch": 6.428571428571429,
      "grad_norm": 0.00045377982314676046,
      "learning_rate": 0.22191178656116817,
      "loss": 0.3101,
      "num_input_tokens_seen": 12658032,
      "step": 13635
    },
    {
      "epoch": 6.430928807166431,
      "grad_norm": 0.00026821537176147103,
      "learning_rate": 0.2218600866991753,
      "loss": 0.3369,
      "num_input_tokens_seen": 12663024,
      "step": 13640
    },
    {
      "epoch": 6.433286185761434,
      "grad_norm": 0.0003727281291503459,
      "learning_rate": 0.221808375755454,
      "loss": 0.2885,
      "num_input_tokens_seen": 12667376,
      "step": 13645
    },
    {
      "epoch": 6.435643564356436,
      "grad_norm": 0.0005351382424123585,
      "learning_rate": 0.22175665373797881,
      "loss": 0.2649,
      "num_input_tokens_seen": 12672112,
      "step": 13650
    },
    {
      "epoch": 6.438000942951438,
      "grad_norm": 0.0006879759603179991,
      "learning_rate": 0.22170492065472583,
      "loss": 0.321,
      "num_input_tokens_seen": 12676960,
      "step": 13655
    },
    {
      "epoch": 6.44035832154644,
      "grad_norm": 0.0005002397228963673,
      "learning_rate": 0.221653176513673,
      "loss": 0.3064,
      "num_input_tokens_seen": 12682112,
      "step": 13660
    },
    {
      "epoch": 6.442715700141442,
      "grad_norm": 0.0001723268796922639,
      "learning_rate": 0.2216014213227999,
      "loss": 0.2882,
      "num_input_tokens_seen": 12687040,
      "step": 13665
    },
    {
      "epoch": 6.445073078736445,
      "grad_norm": 0.0005546805332414806,
      "learning_rate": 0.22154965509008784,
      "loss": 0.2862,
      "num_input_tokens_seen": 12691696,
      "step": 13670
    },
    {
      "epoch": 6.447430457331447,
      "grad_norm": 0.0008183532627299428,
      "learning_rate": 0.2214978778235198,
      "loss": 0.4059,
      "num_input_tokens_seen": 12695600,
      "step": 13675
    },
    {
      "epoch": 6.4497878359264496,
      "grad_norm": 0.0002620458835735917,
      "learning_rate": 0.2214460895310805,
      "loss": 0.2367,
      "num_input_tokens_seen": 12700320,
      "step": 13680
    },
    {
      "epoch": 6.452145214521452,
      "grad_norm": 0.0008521504350937903,
      "learning_rate": 0.22139429022075635,
      "loss": 0.435,
      "num_input_tokens_seen": 12705648,
      "step": 13685
    },
    {
      "epoch": 6.454502593116454,
      "grad_norm": 0.0004168350133113563,
      "learning_rate": 0.22134247990053546,
      "loss": 0.2867,
      "num_input_tokens_seen": 12710208,
      "step": 13690
    },
    {
      "epoch": 6.456859971711457,
      "grad_norm": 0.0006307765725068748,
      "learning_rate": 0.2212906585784076,
      "loss": 0.3001,
      "num_input_tokens_seen": 12715408,
      "step": 13695
    },
    {
      "epoch": 6.459217350306459,
      "grad_norm": 0.0011924736900255084,
      "learning_rate": 0.22123882626236432,
      "loss": 0.3959,
      "num_input_tokens_seen": 12719872,
      "step": 13700
    },
    {
      "epoch": 6.461574728901462,
      "grad_norm": 0.0006186272366903722,
      "learning_rate": 0.2211869829603988,
      "loss": 0.3372,
      "num_input_tokens_seen": 12723680,
      "step": 13705
    },
    {
      "epoch": 6.463932107496464,
      "grad_norm": 0.0003322682750876993,
      "learning_rate": 0.22113512868050592,
      "loss": 0.3178,
      "num_input_tokens_seen": 12728208,
      "step": 13710
    },
    {
      "epoch": 6.466289486091466,
      "grad_norm": 0.0005713837454095483,
      "learning_rate": 0.2210832634306822,
      "loss": 0.3179,
      "num_input_tokens_seen": 12732480,
      "step": 13715
    },
    {
      "epoch": 6.468646864686469,
      "grad_norm": 0.0007940390496514738,
      "learning_rate": 0.22103138721892598,
      "loss": 0.3423,
      "num_input_tokens_seen": 12737456,
      "step": 13720
    },
    {
      "epoch": 6.471004243281471,
      "grad_norm": 0.00046193404705263674,
      "learning_rate": 0.22097950005323724,
      "loss": 0.3269,
      "num_input_tokens_seen": 12742688,
      "step": 13725
    },
    {
      "epoch": 6.473361621876474,
      "grad_norm": 0.00037216590135358274,
      "learning_rate": 0.22092760194161762,
      "loss": 0.3417,
      "num_input_tokens_seen": 12747840,
      "step": 13730
    },
    {
      "epoch": 6.475719000471476,
      "grad_norm": 0.0003754154604393989,
      "learning_rate": 0.2208756928920704,
      "loss": 0.3604,
      "num_input_tokens_seen": 12752928,
      "step": 13735
    },
    {
      "epoch": 6.478076379066478,
      "grad_norm": 0.0005545942112803459,
      "learning_rate": 0.22082377291260072,
      "loss": 0.3197,
      "num_input_tokens_seen": 12757184,
      "step": 13740
    },
    {
      "epoch": 6.480433757661481,
      "grad_norm": 0.000297720602247864,
      "learning_rate": 0.2207718420112152,
      "loss": 0.3259,
      "num_input_tokens_seen": 12761168,
      "step": 13745
    },
    {
      "epoch": 6.482791136256483,
      "grad_norm": 0.00025167575222440064,
      "learning_rate": 0.22071990019592228,
      "loss": 0.3255,
      "num_input_tokens_seen": 12765792,
      "step": 13750
    },
    {
      "epoch": 6.485148514851485,
      "grad_norm": 0.0002288164250785485,
      "learning_rate": 0.22066794747473198,
      "loss": 0.3204,
      "num_input_tokens_seen": 12770736,
      "step": 13755
    },
    {
      "epoch": 6.487505893446487,
      "grad_norm": 0.000462934811366722,
      "learning_rate": 0.2206159838556562,
      "loss": 0.2917,
      "num_input_tokens_seen": 12775248,
      "step": 13760
    },
    {
      "epoch": 6.4898632720414895,
      "grad_norm": 0.00035227526677772403,
      "learning_rate": 0.2205640093467082,
      "loss": 0.2909,
      "num_input_tokens_seen": 12779792,
      "step": 13765
    },
    {
      "epoch": 6.492220650636492,
      "grad_norm": 0.0003103716589976102,
      "learning_rate": 0.22051202395590322,
      "loss": 0.3448,
      "num_input_tokens_seen": 12785184,
      "step": 13770
    },
    {
      "epoch": 6.494578029231494,
      "grad_norm": 0.0004240995040163398,
      "learning_rate": 0.22046002769125808,
      "loss": 0.3637,
      "num_input_tokens_seen": 12789968,
      "step": 13775
    },
    {
      "epoch": 6.496935407826497,
      "grad_norm": 0.0005643957410939038,
      "learning_rate": 0.2204080205607912,
      "loss": 0.3669,
      "num_input_tokens_seen": 12794832,
      "step": 13780
    },
    {
      "epoch": 6.499292786421499,
      "grad_norm": 0.0002967377658933401,
      "learning_rate": 0.22035600257252272,
      "loss": 0.3081,
      "num_input_tokens_seen": 12799776,
      "step": 13785
    },
    {
      "epoch": 6.5016501650165015,
      "grad_norm": 0.0005725009250454605,
      "learning_rate": 0.2203039737344745,
      "loss": 0.3271,
      "num_input_tokens_seen": 12803824,
      "step": 13790
    },
    {
      "epoch": 6.504007543611504,
      "grad_norm": 0.00028594222385436296,
      "learning_rate": 0.22025193405467003,
      "loss": 0.3278,
      "num_input_tokens_seen": 12808496,
      "step": 13795
    },
    {
      "epoch": 6.506364922206506,
      "grad_norm": 0.0005518677644431591,
      "learning_rate": 0.2201998835411345,
      "loss": 0.2924,
      "num_input_tokens_seen": 12813808,
      "step": 13800
    },
    {
      "epoch": 6.506364922206506,
      "eval_loss": 0.32751214504241943,
      "eval_runtime": 33.617,
      "eval_samples_per_second": 28.051,
      "eval_steps_per_second": 14.041,
      "num_input_tokens_seen": 12813808,
      "step": 13800
    },
    {
      "epoch": 6.508722300801509,
      "grad_norm": 0.0010910211130976677,
      "learning_rate": 0.22014782220189474,
      "loss": 0.3546,
      "num_input_tokens_seen": 12818576,
      "step": 13805
    },
    {
      "epoch": 6.511079679396511,
      "grad_norm": 0.0007291442598216236,
      "learning_rate": 0.2200957500449793,
      "loss": 0.3584,
      "num_input_tokens_seen": 12822800,
      "step": 13810
    },
    {
      "epoch": 6.5134370579915135,
      "grad_norm": 0.0002774953900370747,
      "learning_rate": 0.22004366707841827,
      "loss": 0.3101,
      "num_input_tokens_seen": 12826912,
      "step": 13815
    },
    {
      "epoch": 6.515794436586516,
      "grad_norm": 0.00025200104573741555,
      "learning_rate": 0.21999157331024358,
      "loss": 0.3096,
      "num_input_tokens_seen": 12830960,
      "step": 13820
    },
    {
      "epoch": 6.518151815181518,
      "grad_norm": 0.00030787987634539604,
      "learning_rate": 0.21993946874848871,
      "loss": 0.3067,
      "num_input_tokens_seen": 12835392,
      "step": 13825
    },
    {
      "epoch": 6.520509193776521,
      "grad_norm": 0.00041129847522825,
      "learning_rate": 0.2198873534011888,
      "loss": 0.3226,
      "num_input_tokens_seen": 12839744,
      "step": 13830
    },
    {
      "epoch": 6.522866572371523,
      "grad_norm": 0.000298758182907477,
      "learning_rate": 0.2198352272763808,
      "loss": 0.3382,
      "num_input_tokens_seen": 12844736,
      "step": 13835
    },
    {
      "epoch": 6.5252239509665255,
      "grad_norm": 0.0003215717733837664,
      "learning_rate": 0.2197830903821031,
      "loss": 0.2673,
      "num_input_tokens_seen": 12849008,
      "step": 13840
    },
    {
      "epoch": 6.527581329561528,
      "grad_norm": 0.0005263911443762481,
      "learning_rate": 0.21973094272639598,
      "loss": 0.3024,
      "num_input_tokens_seen": 12853664,
      "step": 13845
    },
    {
      "epoch": 6.52993870815653,
      "grad_norm": 0.0003213614982087165,
      "learning_rate": 0.21967878431730117,
      "loss": 0.2692,
      "num_input_tokens_seen": 12858944,
      "step": 13850
    },
    {
      "epoch": 6.532296086751533,
      "grad_norm": 0.0002929504553321749,
      "learning_rate": 0.21962661516286217,
      "loss": 0.3264,
      "num_input_tokens_seen": 12863312,
      "step": 13855
    },
    {
      "epoch": 6.534653465346535,
      "grad_norm": 0.00016637775115668774,
      "learning_rate": 0.21957443527112414,
      "loss": 0.3752,
      "num_input_tokens_seen": 12867600,
      "step": 13860
    },
    {
      "epoch": 6.537010843941537,
      "grad_norm": 0.0001951574085978791,
      "learning_rate": 0.21952224465013384,
      "loss": 0.3841,
      "num_input_tokens_seen": 12873328,
      "step": 13865
    },
    {
      "epoch": 6.539368222536539,
      "grad_norm": 0.00034292059717699885,
      "learning_rate": 0.21947004330793976,
      "loss": 0.319,
      "num_input_tokens_seen": 12877168,
      "step": 13870
    },
    {
      "epoch": 6.5417256011315414,
      "grad_norm": 0.0002488042810000479,
      "learning_rate": 0.21941783125259198,
      "loss": 0.3204,
      "num_input_tokens_seen": 12882160,
      "step": 13875
    },
    {
      "epoch": 6.544082979726544,
      "grad_norm": 0.0008862855029292405,
      "learning_rate": 0.21936560849214226,
      "loss": 0.3101,
      "num_input_tokens_seen": 12887184,
      "step": 13880
    },
    {
      "epoch": 6.546440358321546,
      "grad_norm": 0.0008831215091049671,
      "learning_rate": 0.21931337503464404,
      "loss": 0.3351,
      "num_input_tokens_seen": 12891136,
      "step": 13885
    },
    {
      "epoch": 6.548797736916549,
      "grad_norm": 0.000411551067372784,
      "learning_rate": 0.21926113088815233,
      "loss": 0.3134,
      "num_input_tokens_seen": 12895472,
      "step": 13890
    },
    {
      "epoch": 6.551155115511551,
      "grad_norm": 0.00044759048614650965,
      "learning_rate": 0.2192088760607238,
      "loss": 0.3007,
      "num_input_tokens_seen": 12899904,
      "step": 13895
    },
    {
      "epoch": 6.5535124941065535,
      "grad_norm": 0.0005279082106426358,
      "learning_rate": 0.2191566105604169,
      "loss": 0.3246,
      "num_input_tokens_seen": 12905712,
      "step": 13900
    },
    {
      "epoch": 6.555869872701556,
      "grad_norm": 0.0006975981523282826,
      "learning_rate": 0.21910433439529153,
      "loss": 0.343,
      "num_input_tokens_seen": 12909856,
      "step": 13905
    },
    {
      "epoch": 6.558227251296558,
      "grad_norm": 0.0002978817792609334,
      "learning_rate": 0.2190520475734094,
      "loss": 0.3594,
      "num_input_tokens_seen": 12914768,
      "step": 13910
    },
    {
      "epoch": 6.560584629891561,
      "grad_norm": 0.00044346394133754075,
      "learning_rate": 0.2189997501028338,
      "loss": 0.31,
      "num_input_tokens_seen": 12919104,
      "step": 13915
    },
    {
      "epoch": 6.562942008486563,
      "grad_norm": 0.0007619721000082791,
      "learning_rate": 0.2189474419916296,
      "loss": 0.3298,
      "num_input_tokens_seen": 12924720,
      "step": 13920
    },
    {
      "epoch": 6.5652993870815655,
      "grad_norm": 0.00038558689993806183,
      "learning_rate": 0.21889512324786342,
      "loss": 0.3569,
      "num_input_tokens_seen": 12929056,
      "step": 13925
    },
    {
      "epoch": 6.567656765676568,
      "grad_norm": 0.0014767240500077605,
      "learning_rate": 0.21884279387960345,
      "loss": 0.346,
      "num_input_tokens_seen": 12934048,
      "step": 13930
    },
    {
      "epoch": 6.57001414427157,
      "grad_norm": 0.0003805407031904906,
      "learning_rate": 0.2187904538949195,
      "loss": 0.2971,
      "num_input_tokens_seen": 12938528,
      "step": 13935
    },
    {
      "epoch": 6.572371522866573,
      "grad_norm": 0.0002880537649616599,
      "learning_rate": 0.2187381033018831,
      "loss": 0.3038,
      "num_input_tokens_seen": 12942736,
      "step": 13940
    },
    {
      "epoch": 6.574728901461575,
      "grad_norm": 0.00021178126917220652,
      "learning_rate": 0.2186857421085673,
      "loss": 0.3118,
      "num_input_tokens_seen": 12947856,
      "step": 13945
    },
    {
      "epoch": 6.5770862800565775,
      "grad_norm": 0.0006033189711160958,
      "learning_rate": 0.21863337032304697,
      "loss": 0.3378,
      "num_input_tokens_seen": 12953056,
      "step": 13950
    },
    {
      "epoch": 6.579443658651579,
      "grad_norm": 0.00023607432376593351,
      "learning_rate": 0.21858098795339845,
      "loss": 0.3391,
      "num_input_tokens_seen": 12957280,
      "step": 13955
    },
    {
      "epoch": 6.581801037246581,
      "grad_norm": 0.00041464014793746173,
      "learning_rate": 0.21852859500769975,
      "loss": 0.3066,
      "num_input_tokens_seen": 12961888,
      "step": 13960
    },
    {
      "epoch": 6.584158415841584,
      "grad_norm": 0.0006052834796719253,
      "learning_rate": 0.21847619149403044,
      "loss": 0.3701,
      "num_input_tokens_seen": 12966480,
      "step": 13965
    },
    {
      "epoch": 6.586515794436586,
      "grad_norm": 0.000366109685273841,
      "learning_rate": 0.21842377742047195,
      "loss": 0.3523,
      "num_input_tokens_seen": 12971536,
      "step": 13970
    },
    {
      "epoch": 6.588873173031589,
      "grad_norm": 0.0004185339203104377,
      "learning_rate": 0.21837135279510705,
      "loss": 0.349,
      "num_input_tokens_seen": 12976000,
      "step": 13975
    },
    {
      "epoch": 6.591230551626591,
      "grad_norm": 0.0013127026613801718,
      "learning_rate": 0.21831891762602038,
      "loss": 0.3402,
      "num_input_tokens_seen": 12981104,
      "step": 13980
    },
    {
      "epoch": 6.593587930221593,
      "grad_norm": 0.0008059319807216525,
      "learning_rate": 0.21826647192129806,
      "loss": 0.3708,
      "num_input_tokens_seen": 12985328,
      "step": 13985
    },
    {
      "epoch": 6.595945308816596,
      "grad_norm": 0.0012003586161881685,
      "learning_rate": 0.21821401568902787,
      "loss": 0.3491,
      "num_input_tokens_seen": 12989728,
      "step": 13990
    },
    {
      "epoch": 6.598302687411598,
      "grad_norm": 0.0004941043443977833,
      "learning_rate": 0.21816154893729925,
      "loss": 0.3429,
      "num_input_tokens_seen": 12994032,
      "step": 13995
    },
    {
      "epoch": 6.600660066006601,
      "grad_norm": 0.0003747625451069325,
      "learning_rate": 0.2181090716742032,
      "loss": 0.343,
      "num_input_tokens_seen": 12998256,
      "step": 14000
    },
    {
      "epoch": 6.600660066006601,
      "eval_loss": 0.33420440554618835,
      "eval_runtime": 33.5409,
      "eval_samples_per_second": 28.115,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 12998256,
      "step": 14000
    },
    {
      "epoch": 6.603017444601603,
      "grad_norm": 0.0013049525441601872,
      "learning_rate": 0.21805658390783236,
      "loss": 0.3098,
      "num_input_tokens_seen": 13002672,
      "step": 14005
    },
    {
      "epoch": 6.605374823196605,
      "grad_norm": 0.0004276786930859089,
      "learning_rate": 0.21800408564628107,
      "loss": 0.354,
      "num_input_tokens_seen": 13007744,
      "step": 14010
    },
    {
      "epoch": 6.607732201791608,
      "grad_norm": 0.0007034811424091458,
      "learning_rate": 0.21795157689764516,
      "loss": 0.2709,
      "num_input_tokens_seen": 13012496,
      "step": 14015
    },
    {
      "epoch": 6.61008958038661,
      "grad_norm": 0.0002554778184276074,
      "learning_rate": 0.21789905767002216,
      "loss": 0.3784,
      "num_input_tokens_seen": 13016560,
      "step": 14020
    },
    {
      "epoch": 6.612446958981613,
      "grad_norm": 0.0008298092288896441,
      "learning_rate": 0.2178465279715112,
      "loss": 0.2294,
      "num_input_tokens_seen": 13020064,
      "step": 14025
    },
    {
      "epoch": 6.614804337576615,
      "grad_norm": 0.0005537873948924243,
      "learning_rate": 0.21779398781021303,
      "loss": 0.3682,
      "num_input_tokens_seen": 13025552,
      "step": 14030
    },
    {
      "epoch": 6.617161716171617,
      "grad_norm": 0.0003937353321816772,
      "learning_rate": 0.21774143719422998,
      "loss": 0.4036,
      "num_input_tokens_seen": 13030656,
      "step": 14035
    },
    {
      "epoch": 6.61951909476662,
      "grad_norm": 0.0006557274609804153,
      "learning_rate": 0.21768887613166601,
      "loss": 0.304,
      "num_input_tokens_seen": 13036496,
      "step": 14040
    },
    {
      "epoch": 6.621876473361622,
      "grad_norm": 0.0013356322888284922,
      "learning_rate": 0.2176363046306267,
      "loss": 0.3697,
      "num_input_tokens_seen": 13041248,
      "step": 14045
    },
    {
      "epoch": 6.624233851956625,
      "grad_norm": 0.0003360650152899325,
      "learning_rate": 0.21758372269921925,
      "loss": 0.3227,
      "num_input_tokens_seen": 13046080,
      "step": 14050
    },
    {
      "epoch": 6.626591230551627,
      "grad_norm": 0.0006078695878386497,
      "learning_rate": 0.21753113034555244,
      "loss": 0.364,
      "num_input_tokens_seen": 13049568,
      "step": 14055
    },
    {
      "epoch": 6.628948609146629,
      "grad_norm": 0.0006880693254061043,
      "learning_rate": 0.2174785275777367,
      "loss": 0.3537,
      "num_input_tokens_seen": 13054544,
      "step": 14060
    },
    {
      "epoch": 6.631305987741631,
      "grad_norm": 0.0005993805825710297,
      "learning_rate": 0.21742591440388404,
      "loss": 0.3376,
      "num_input_tokens_seen": 13059056,
      "step": 14065
    },
    {
      "epoch": 6.633663366336633,
      "grad_norm": 0.0007243824074976146,
      "learning_rate": 0.21737329083210802,
      "loss": 0.3538,
      "num_input_tokens_seen": 13062976,
      "step": 14070
    },
    {
      "epoch": 6.636020744931636,
      "grad_norm": 0.0003645471588242799,
      "learning_rate": 0.2173206568705239,
      "loss": 0.3233,
      "num_input_tokens_seen": 13067760,
      "step": 14075
    },
    {
      "epoch": 6.638378123526638,
      "grad_norm": 0.0006703917752020061,
      "learning_rate": 0.2172680125272485,
      "loss": 0.3365,
      "num_input_tokens_seen": 13072256,
      "step": 14080
    },
    {
      "epoch": 6.6407355021216405,
      "grad_norm": 0.000335483142407611,
      "learning_rate": 0.2172153578104002,
      "loss": 0.3307,
      "num_input_tokens_seen": 13076512,
      "step": 14085
    },
    {
      "epoch": 6.643092880716643,
      "grad_norm": 0.00028596099582500756,
      "learning_rate": 0.21716269272809902,
      "loss": 0.3205,
      "num_input_tokens_seen": 13080384,
      "step": 14090
    },
    {
      "epoch": 6.645450259311645,
      "grad_norm": 0.00042184468475170434,
      "learning_rate": 0.21711001728846666,
      "loss": 0.3034,
      "num_input_tokens_seen": 13085072,
      "step": 14095
    },
    {
      "epoch": 6.647807637906648,
      "grad_norm": 0.0007219462422654033,
      "learning_rate": 0.21705733149962628,
      "loss": 0.3691,
      "num_input_tokens_seen": 13089872,
      "step": 14100
    },
    {
      "epoch": 6.65016501650165,
      "grad_norm": 0.00026200051070190966,
      "learning_rate": 0.21700463536970263,
      "loss": 0.2908,
      "num_input_tokens_seen": 13094528,
      "step": 14105
    },
    {
      "epoch": 6.6525223950966526,
      "grad_norm": 0.00039986122283153236,
      "learning_rate": 0.21695192890682222,
      "loss": 0.3125,
      "num_input_tokens_seen": 13098352,
      "step": 14110
    },
    {
      "epoch": 6.654879773691655,
      "grad_norm": 0.0005140990251675248,
      "learning_rate": 0.21689921211911298,
      "loss": 0.3241,
      "num_input_tokens_seen": 13102608,
      "step": 14115
    },
    {
      "epoch": 6.657237152286657,
      "grad_norm": 0.0007193965138867497,
      "learning_rate": 0.21684648501470452,
      "loss": 0.3223,
      "num_input_tokens_seen": 13107536,
      "step": 14120
    },
    {
      "epoch": 6.65959453088166,
      "grad_norm": 0.00031907291850075126,
      "learning_rate": 0.216793747601728,
      "loss": 0.2886,
      "num_input_tokens_seen": 13112032,
      "step": 14125
    },
    {
      "epoch": 6.661951909476662,
      "grad_norm": 0.0006497912108898163,
      "learning_rate": 0.21674099988831627,
      "loss": 0.3034,
      "num_input_tokens_seen": 13117088,
      "step": 14130
    },
    {
      "epoch": 6.664309288071665,
      "grad_norm": 0.0003200587525498122,
      "learning_rate": 0.21668824188260363,
      "loss": 0.3495,
      "num_input_tokens_seen": 13122432,
      "step": 14135
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.0010755883995443583,
      "learning_rate": 0.21663547359272606,
      "loss": 0.3703,
      "num_input_tokens_seen": 13127408,
      "step": 14140
    },
    {
      "epoch": 6.669024045261669,
      "grad_norm": 0.00047026926768012345,
      "learning_rate": 0.216582695026821,
      "loss": 0.3439,
      "num_input_tokens_seen": 13131312,
      "step": 14145
    },
    {
      "epoch": 6.671381423856672,
      "grad_norm": 0.0002824877738021314,
      "learning_rate": 0.21652990619302767,
      "loss": 0.3233,
      "num_input_tokens_seen": 13135952,
      "step": 14150
    },
    {
      "epoch": 6.673738802451673,
      "grad_norm": 0.00021745850972365588,
      "learning_rate": 0.21647710709948673,
      "loss": 0.261,
      "num_input_tokens_seen": 13140656,
      "step": 14155
    },
    {
      "epoch": 6.676096181046676,
      "grad_norm": 0.0006767858285456896,
      "learning_rate": 0.2164242977543405,
      "loss": 0.3046,
      "num_input_tokens_seen": 13144624,
      "step": 14160
    },
    {
      "epoch": 6.678453559641678,
      "grad_norm": 0.0001754775148583576,
      "learning_rate": 0.21637147816573277,
      "loss": 0.3209,
      "num_input_tokens_seen": 13148656,
      "step": 14165
    },
    {
      "epoch": 6.6808109382366805,
      "grad_norm": 0.000856697850394994,
      "learning_rate": 0.21631864834180908,
      "loss": 0.3268,
      "num_input_tokens_seen": 13154064,
      "step": 14170
    },
    {
      "epoch": 6.683168316831683,
      "grad_norm": 0.0006391651695594192,
      "learning_rate": 0.21626580829071637,
      "loss": 0.3243,
      "num_input_tokens_seen": 13158512,
      "step": 14175
    },
    {
      "epoch": 6.685525695426685,
      "grad_norm": 0.00040469865780323744,
      "learning_rate": 0.21621295802060328,
      "loss": 0.3564,
      "num_input_tokens_seen": 13162720,
      "step": 14180
    },
    {
      "epoch": 6.687883074021688,
      "grad_norm": 0.0008553090156055987,
      "learning_rate": 0.21616009753961996,
      "loss": 0.3116,
      "num_input_tokens_seen": 13167152,
      "step": 14185
    },
    {
      "epoch": 6.69024045261669,
      "grad_norm": 0.0007822003099136055,
      "learning_rate": 0.2161072268559182,
      "loss": 0.3147,
      "num_input_tokens_seen": 13171840,
      "step": 14190
    },
    {
      "epoch": 6.6925978312116925,
      "grad_norm": 0.0006813748041167855,
      "learning_rate": 0.21605434597765133,
      "loss": 0.3311,
      "num_input_tokens_seen": 13176624,
      "step": 14195
    },
    {
      "epoch": 6.694955209806695,
      "grad_norm": 0.0006490648374892771,
      "learning_rate": 0.21600145491297418,
      "loss": 0.4058,
      "num_input_tokens_seen": 13180928,
      "step": 14200
    },
    {
      "epoch": 6.694955209806695,
      "eval_loss": 0.32722675800323486,
      "eval_runtime": 33.6327,
      "eval_samples_per_second": 28.038,
      "eval_steps_per_second": 14.034,
      "num_input_tokens_seen": 13180928,
      "step": 14200
    },
    {
      "epoch": 6.697312588401697,
      "grad_norm": 0.00019816856365650892,
      "learning_rate": 0.21594855367004326,
      "loss": 0.3032,
      "num_input_tokens_seen": 13185840,
      "step": 14205
    },
    {
      "epoch": 6.6996699669967,
      "grad_norm": 0.00027201027842238545,
      "learning_rate": 0.21589564225701663,
      "loss": 0.2965,
      "num_input_tokens_seen": 13189712,
      "step": 14210
    },
    {
      "epoch": 6.702027345591702,
      "grad_norm": 0.0004295133694540709,
      "learning_rate": 0.21584272068205385,
      "loss": 0.2895,
      "num_input_tokens_seen": 13193360,
      "step": 14215
    },
    {
      "epoch": 6.7043847241867045,
      "grad_norm": 0.0006830579950474203,
      "learning_rate": 0.2157897889533161,
      "loss": 0.3681,
      "num_input_tokens_seen": 13197616,
      "step": 14220
    },
    {
      "epoch": 6.706742102781707,
      "grad_norm": 0.0007237549289129674,
      "learning_rate": 0.21573684707896612,
      "loss": 0.339,
      "num_input_tokens_seen": 13202656,
      "step": 14225
    },
    {
      "epoch": 6.709099481376709,
      "grad_norm": 0.0003662873350549489,
      "learning_rate": 0.21568389506716826,
      "loss": 0.3361,
      "num_input_tokens_seen": 13207456,
      "step": 14230
    },
    {
      "epoch": 6.711456859971712,
      "grad_norm": 0.0006817183457314968,
      "learning_rate": 0.21563093292608831,
      "loss": 0.3944,
      "num_input_tokens_seen": 13211920,
      "step": 14235
    },
    {
      "epoch": 6.713814238566714,
      "grad_norm": 0.00028196891071274877,
      "learning_rate": 0.21557796066389376,
      "loss": 0.3085,
      "num_input_tokens_seen": 13216272,
      "step": 14240
    },
    {
      "epoch": 6.7161716171617165,
      "grad_norm": 0.0005876949871890247,
      "learning_rate": 0.21552497828875353,
      "loss": 0.3287,
      "num_input_tokens_seen": 13220688,
      "step": 14245
    },
    {
      "epoch": 6.718528995756719,
      "grad_norm": 0.0003798031248152256,
      "learning_rate": 0.21547198580883828,
      "loss": 0.3281,
      "num_input_tokens_seen": 13225488,
      "step": 14250
    },
    {
      "epoch": 6.720886374351721,
      "grad_norm": 0.0007523638778366148,
      "learning_rate": 0.21541898323232,
      "loss": 0.311,
      "num_input_tokens_seen": 13232080,
      "step": 14255
    },
    {
      "epoch": 6.723243752946724,
      "grad_norm": 0.0002874609490390867,
      "learning_rate": 0.2153659705673724,
      "loss": 0.3179,
      "num_input_tokens_seen": 13236896,
      "step": 14260
    },
    {
      "epoch": 6.725601131541725,
      "grad_norm": 0.0007067027618177235,
      "learning_rate": 0.2153129478221707,
      "loss": 0.3301,
      "num_input_tokens_seen": 13241264,
      "step": 14265
    },
    {
      "epoch": 6.727958510136728,
      "grad_norm": 0.00038891928852535784,
      "learning_rate": 0.21525991500489164,
      "loss": 0.3439,
      "num_input_tokens_seen": 13244944,
      "step": 14270
    },
    {
      "epoch": 6.73031588873173,
      "grad_norm": 0.0002839205553755164,
      "learning_rate": 0.21520687212371362,
      "loss": 0.35,
      "num_input_tokens_seen": 13249104,
      "step": 14275
    },
    {
      "epoch": 6.732673267326732,
      "grad_norm": 0.0007011666311882436,
      "learning_rate": 0.21515381918681648,
      "loss": 0.2781,
      "num_input_tokens_seen": 13254096,
      "step": 14280
    },
    {
      "epoch": 6.735030645921735,
      "grad_norm": 0.0004967047134414315,
      "learning_rate": 0.21510075620238167,
      "loss": 0.3744,
      "num_input_tokens_seen": 13258400,
      "step": 14285
    },
    {
      "epoch": 6.737388024516737,
      "grad_norm": 0.000856748956721276,
      "learning_rate": 0.21504768317859208,
      "loss": 0.2775,
      "num_input_tokens_seen": 13262400,
      "step": 14290
    },
    {
      "epoch": 6.73974540311174,
      "grad_norm": 0.00070917111588642,
      "learning_rate": 0.2149946001236323,
      "loss": 0.4022,
      "num_input_tokens_seen": 13266832,
      "step": 14295
    },
    {
      "epoch": 6.742102781706742,
      "grad_norm": 0.0008361553191207349,
      "learning_rate": 0.21494150704568848,
      "loss": 0.3329,
      "num_input_tokens_seen": 13272624,
      "step": 14300
    },
    {
      "epoch": 6.7444601603017444,
      "grad_norm": 0.0006514727137982845,
      "learning_rate": 0.21488840395294811,
      "loss": 0.3651,
      "num_input_tokens_seen": 13276720,
      "step": 14305
    },
    {
      "epoch": 6.746817538896747,
      "grad_norm": 0.0014565972378477454,
      "learning_rate": 0.21483529085360042,
      "loss": 0.3783,
      "num_input_tokens_seen": 13281680,
      "step": 14310
    },
    {
      "epoch": 6.749174917491749,
      "grad_norm": 0.0005765102105215192,
      "learning_rate": 0.2147821677558361,
      "loss": 0.3286,
      "num_input_tokens_seen": 13286480,
      "step": 14315
    },
    {
      "epoch": 6.751532296086752,
      "grad_norm": 0.0004302913148421794,
      "learning_rate": 0.2147290346678475,
      "loss": 0.329,
      "num_input_tokens_seen": 13291280,
      "step": 14320
    },
    {
      "epoch": 6.753889674681754,
      "grad_norm": 0.0006918791914358735,
      "learning_rate": 0.21467589159782827,
      "loss": 0.329,
      "num_input_tokens_seen": 13296864,
      "step": 14325
    },
    {
      "epoch": 6.7562470532767565,
      "grad_norm": 0.0005532744689844549,
      "learning_rate": 0.21462273855397374,
      "loss": 0.3513,
      "num_input_tokens_seen": 13302416,
      "step": 14330
    },
    {
      "epoch": 6.758604431871759,
      "grad_norm": 0.0002723954676184803,
      "learning_rate": 0.21456957554448083,
      "loss": 0.3683,
      "num_input_tokens_seen": 13306416,
      "step": 14335
    },
    {
      "epoch": 6.760961810466761,
      "grad_norm": 0.00022753597295377403,
      "learning_rate": 0.21451640257754795,
      "loss": 0.3251,
      "num_input_tokens_seen": 13310976,
      "step": 14340
    },
    {
      "epoch": 6.763319189061764,
      "grad_norm": 0.00023308326490223408,
      "learning_rate": 0.21446321966137508,
      "loss": 0.3274,
      "num_input_tokens_seen": 13315472,
      "step": 14345
    },
    {
      "epoch": 6.765676567656766,
      "grad_norm": 0.0007273521623574197,
      "learning_rate": 0.21441002680416354,
      "loss": 0.3693,
      "num_input_tokens_seen": 13319824,
      "step": 14350
    },
    {
      "epoch": 6.768033946251768,
      "grad_norm": 0.00042310828575864434,
      "learning_rate": 0.21435682401411654,
      "loss": 0.3296,
      "num_input_tokens_seen": 13323520,
      "step": 14355
    },
    {
      "epoch": 6.77039132484677,
      "grad_norm": 0.00027803058037534356,
      "learning_rate": 0.2143036112994385,
      "loss": 0.3223,
      "num_input_tokens_seen": 13328272,
      "step": 14360
    },
    {
      "epoch": 6.772748703441772,
      "grad_norm": 0.0006647948757745326,
      "learning_rate": 0.21425038866833548,
      "loss": 0.3335,
      "num_input_tokens_seen": 13332320,
      "step": 14365
    },
    {
      "epoch": 6.775106082036775,
      "grad_norm": 0.0002683963975869119,
      "learning_rate": 0.21419715612901508,
      "loss": 0.3572,
      "num_input_tokens_seen": 13337328,
      "step": 14370
    },
    {
      "epoch": 6.777463460631777,
      "grad_norm": 0.0002939833502750844,
      "learning_rate": 0.21414391368968652,
      "loss": 0.3414,
      "num_input_tokens_seen": 13341376,
      "step": 14375
    },
    {
      "epoch": 6.77982083922678,
      "grad_norm": 0.00029308756347745657,
      "learning_rate": 0.21409066135856034,
      "loss": 0.2973,
      "num_input_tokens_seen": 13345616,
      "step": 14380
    },
    {
      "epoch": 6.782178217821782,
      "grad_norm": 0.00032922360696829855,
      "learning_rate": 0.21403739914384878,
      "loss": 0.3456,
      "num_input_tokens_seen": 13350288,
      "step": 14385
    },
    {
      "epoch": 6.784535596416784,
      "grad_norm": 0.0003242999955546111,
      "learning_rate": 0.21398412705376554,
      "loss": 0.336,
      "num_input_tokens_seen": 13354576,
      "step": 14390
    },
    {
      "epoch": 6.786892975011787,
      "grad_norm": 0.0005619427538476884,
      "learning_rate": 0.2139308450965258,
      "loss": 0.3745,
      "num_input_tokens_seen": 13359712,
      "step": 14395
    },
    {
      "epoch": 6.789250353606789,
      "grad_norm": 0.000560257351025939,
      "learning_rate": 0.21387755328034638,
      "loss": 0.3372,
      "num_input_tokens_seen": 13364368,
      "step": 14400
    },
    {
      "epoch": 6.789250353606789,
      "eval_loss": 0.3324189782142639,
      "eval_runtime": 33.6266,
      "eval_samples_per_second": 28.043,
      "eval_steps_per_second": 14.036,
      "num_input_tokens_seen": 13364368,
      "step": 14400
    },
    {
      "epoch": 6.791607732201792,
      "grad_norm": 0.00036354432813823223,
      "learning_rate": 0.2138242516134455,
      "loss": 0.3432,
      "num_input_tokens_seen": 13369152,
      "step": 14405
    },
    {
      "epoch": 6.793965110796794,
      "grad_norm": 0.0005917485104873776,
      "learning_rate": 0.2137709401040429,
      "loss": 0.3633,
      "num_input_tokens_seen": 13374800,
      "step": 14410
    },
    {
      "epoch": 6.796322489391796,
      "grad_norm": 0.0003374478255864233,
      "learning_rate": 0.21371761876036,
      "loss": 0.3424,
      "num_input_tokens_seen": 13379552,
      "step": 14415
    },
    {
      "epoch": 6.798679867986799,
      "grad_norm": 0.0006359218969009817,
      "learning_rate": 0.21366428759061956,
      "loss": 0.3209,
      "num_input_tokens_seen": 13384560,
      "step": 14420
    },
    {
      "epoch": 6.801037246581801,
      "grad_norm": 0.00028011773247271776,
      "learning_rate": 0.2136109466030459,
      "loss": 0.3478,
      "num_input_tokens_seen": 13388592,
      "step": 14425
    },
    {
      "epoch": 6.803394625176804,
      "grad_norm": 0.00038756447611376643,
      "learning_rate": 0.2135575958058649,
      "loss": 0.337,
      "num_input_tokens_seen": 13393568,
      "step": 14430
    },
    {
      "epoch": 6.805752003771806,
      "grad_norm": 0.00029880707734264433,
      "learning_rate": 0.2135042352073039,
      "loss": 0.3805,
      "num_input_tokens_seen": 13398144,
      "step": 14435
    },
    {
      "epoch": 6.808109382366808,
      "grad_norm": 0.0009162102360278368,
      "learning_rate": 0.2134508648155918,
      "loss": 0.3313,
      "num_input_tokens_seen": 13401904,
      "step": 14440
    },
    {
      "epoch": 6.810466760961811,
      "grad_norm": 0.0003602454380597919,
      "learning_rate": 0.213397484638959,
      "loss": 0.3397,
      "num_input_tokens_seen": 13407360,
      "step": 14445
    },
    {
      "epoch": 6.812824139556813,
      "grad_norm": 0.0003633061714936048,
      "learning_rate": 0.21334409468563728,
      "loss": 0.3583,
      "num_input_tokens_seen": 13411344,
      "step": 14450
    },
    {
      "epoch": 6.815181518151816,
      "grad_norm": 0.0006347072776407003,
      "learning_rate": 0.2132906949638602,
      "loss": 0.3289,
      "num_input_tokens_seen": 13416336,
      "step": 14455
    },
    {
      "epoch": 6.817538896746818,
      "grad_norm": 0.00019480916671454906,
      "learning_rate": 0.21323728548186255,
      "loss": 0.3194,
      "num_input_tokens_seen": 13420832,
      "step": 14460
    },
    {
      "epoch": 6.8198962753418195,
      "grad_norm": 0.0007190406904555857,
      "learning_rate": 0.21318386624788088,
      "loss": 0.326,
      "num_input_tokens_seen": 13424896,
      "step": 14465
    },
    {
      "epoch": 6.822253653936822,
      "grad_norm": 0.0009371261694468558,
      "learning_rate": 0.21313043727015288,
      "loss": 0.3716,
      "num_input_tokens_seen": 13429712,
      "step": 14470
    },
    {
      "epoch": 6.824611032531824,
      "grad_norm": 0.0003402047441340983,
      "learning_rate": 0.2130769985569182,
      "loss": 0.2932,
      "num_input_tokens_seen": 13435120,
      "step": 14475
    },
    {
      "epoch": 6.826968411126827,
      "grad_norm": 0.0006702453247271478,
      "learning_rate": 0.21302355011641766,
      "loss": 0.3003,
      "num_input_tokens_seen": 13439872,
      "step": 14480
    },
    {
      "epoch": 6.829325789721829,
      "grad_norm": 0.0003475715348031372,
      "learning_rate": 0.21297009195689365,
      "loss": 0.2835,
      "num_input_tokens_seen": 13445664,
      "step": 14485
    },
    {
      "epoch": 6.8316831683168315,
      "grad_norm": 0.00020544009748846292,
      "learning_rate": 0.21291662408659015,
      "loss": 0.3451,
      "num_input_tokens_seen": 13450496,
      "step": 14490
    },
    {
      "epoch": 6.834040546911834,
      "grad_norm": 0.0003643927338998765,
      "learning_rate": 0.21286314651375254,
      "loss": 0.3833,
      "num_input_tokens_seen": 13454848,
      "step": 14495
    },
    {
      "epoch": 6.836397925506836,
      "grad_norm": 0.0007555923657491803,
      "learning_rate": 0.2128096592466278,
      "loss": 0.3397,
      "num_input_tokens_seen": 13459168,
      "step": 14500
    },
    {
      "epoch": 6.838755304101839,
      "grad_norm": 0.0006004330352880061,
      "learning_rate": 0.21275616229346428,
      "loss": 0.3883,
      "num_input_tokens_seen": 13462720,
      "step": 14505
    },
    {
      "epoch": 6.841112682696841,
      "grad_norm": 0.0002454846107866615,
      "learning_rate": 0.21270265566251184,
      "loss": 0.3452,
      "num_input_tokens_seen": 13466688,
      "step": 14510
    },
    {
      "epoch": 6.8434700612918435,
      "grad_norm": 0.00034411277738399804,
      "learning_rate": 0.21264913936202193,
      "loss": 0.3285,
      "num_input_tokens_seen": 13471536,
      "step": 14515
    },
    {
      "epoch": 6.845827439886846,
      "grad_norm": 0.0007833614945411682,
      "learning_rate": 0.2125956134002475,
      "loss": 0.3946,
      "num_input_tokens_seen": 13476352,
      "step": 14520
    },
    {
      "epoch": 6.848184818481848,
      "grad_norm": 0.0004808433586731553,
      "learning_rate": 0.2125420777854428,
      "loss": 0.337,
      "num_input_tokens_seen": 13480848,
      "step": 14525
    },
    {
      "epoch": 6.850542197076851,
      "grad_norm": 0.00027888925978913903,
      "learning_rate": 0.21248853252586372,
      "loss": 0.3416,
      "num_input_tokens_seen": 13485520,
      "step": 14530
    },
    {
      "epoch": 6.852899575671853,
      "grad_norm": 0.0007581081008538604,
      "learning_rate": 0.21243497762976774,
      "loss": 0.3381,
      "num_input_tokens_seen": 13490496,
      "step": 14535
    },
    {
      "epoch": 6.8552569542668556,
      "grad_norm": 0.0006813199142925441,
      "learning_rate": 0.21238141310541356,
      "loss": 0.3388,
      "num_input_tokens_seen": 13495520,
      "step": 14540
    },
    {
      "epoch": 6.857614332861858,
      "grad_norm": 0.00044202309800311923,
      "learning_rate": 0.21232783896106153,
      "loss": 0.3396,
      "num_input_tokens_seen": 13499872,
      "step": 14545
    },
    {
      "epoch": 6.85997171145686,
      "grad_norm": 0.0002616753045003861,
      "learning_rate": 0.21227425520497345,
      "loss": 0.3301,
      "num_input_tokens_seen": 13504096,
      "step": 14550
    },
    {
      "epoch": 6.862329090051862,
      "grad_norm": 0.00047603403800167143,
      "learning_rate": 0.2122206618454127,
      "loss": 0.3649,
      "num_input_tokens_seen": 13508448,
      "step": 14555
    },
    {
      "epoch": 6.864686468646864,
      "grad_norm": 0.00029617914697155356,
      "learning_rate": 0.2121670588906439,
      "loss": 0.3426,
      "num_input_tokens_seen": 13513296,
      "step": 14560
    },
    {
      "epoch": 6.867043847241867,
      "grad_norm": 0.0005235266289673746,
      "learning_rate": 0.21211344634893345,
      "loss": 0.3342,
      "num_input_tokens_seen": 13518192,
      "step": 14565
    },
    {
      "epoch": 6.869401225836869,
      "grad_norm": 0.0006631767028011382,
      "learning_rate": 0.21205982422854897,
      "loss": 0.274,
      "num_input_tokens_seen": 13522576,
      "step": 14570
    },
    {
      "epoch": 6.8717586044318715,
      "grad_norm": 0.0004922717344015837,
      "learning_rate": 0.21200619253775974,
      "loss": 0.3696,
      "num_input_tokens_seen": 13528096,
      "step": 14575
    },
    {
      "epoch": 6.874115983026874,
      "grad_norm": 0.0003008534840773791,
      "learning_rate": 0.21195255128483637,
      "loss": 0.2752,
      "num_input_tokens_seen": 13532848,
      "step": 14580
    },
    {
      "epoch": 6.876473361621876,
      "grad_norm": 0.00024642085190862417,
      "learning_rate": 0.21189890047805102,
      "loss": 0.2709,
      "num_input_tokens_seen": 13538176,
      "step": 14585
    },
    {
      "epoch": 6.878830740216879,
      "grad_norm": 0.0008269547834061086,
      "learning_rate": 0.21184524012567735,
      "loss": 0.3971,
      "num_input_tokens_seen": 13542800,
      "step": 14590
    },
    {
      "epoch": 6.881188118811881,
      "grad_norm": 0.00023750113905407488,
      "learning_rate": 0.2117915702359905,
      "loss": 0.3721,
      "num_input_tokens_seen": 13547472,
      "step": 14595
    },
    {
      "epoch": 6.8835454974068835,
      "grad_norm": 0.0002912407217081636,
      "learning_rate": 0.211737890817267,
      "loss": 0.3641,
      "num_input_tokens_seen": 13552272,
      "step": 14600
    },
    {
      "epoch": 6.8835454974068835,
      "eval_loss": 0.3278179466724396,
      "eval_runtime": 33.5904,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 13552272,
      "step": 14600
    },
    {
      "epoch": 6.885902876001886,
      "grad_norm": 0.0007401423063129187,
      "learning_rate": 0.21168420187778483,
      "loss": 0.3504,
      "num_input_tokens_seen": 13556112,
      "step": 14605
    },
    {
      "epoch": 6.888260254596888,
      "grad_norm": 0.0005760547937825322,
      "learning_rate": 0.21163050342582362,
      "loss": 0.3397,
      "num_input_tokens_seen": 13560944,
      "step": 14610
    },
    {
      "epoch": 6.890617633191891,
      "grad_norm": 0.00032762865885160863,
      "learning_rate": 0.21157679546966426,
      "loss": 0.3337,
      "num_input_tokens_seen": 13565472,
      "step": 14615
    },
    {
      "epoch": 6.892975011786893,
      "grad_norm": 0.00037422747118398547,
      "learning_rate": 0.2115230780175892,
      "loss": 0.3256,
      "num_input_tokens_seen": 13569984,
      "step": 14620
    },
    {
      "epoch": 6.8953323903818955,
      "grad_norm": 0.0005795953329652548,
      "learning_rate": 0.21146935107788237,
      "loss": 0.3263,
      "num_input_tokens_seen": 13574096,
      "step": 14625
    },
    {
      "epoch": 6.897689768976898,
      "grad_norm": 0.0003196821780875325,
      "learning_rate": 0.21141561465882916,
      "loss": 0.3616,
      "num_input_tokens_seen": 13579312,
      "step": 14630
    },
    {
      "epoch": 6.9000471475719,
      "grad_norm": 0.0007506263791583478,
      "learning_rate": 0.21136186876871635,
      "loss": 0.3414,
      "num_input_tokens_seen": 13583536,
      "step": 14635
    },
    {
      "epoch": 6.902404526166903,
      "grad_norm": 0.0004211656632833183,
      "learning_rate": 0.21130811341583225,
      "loss": 0.3759,
      "num_input_tokens_seen": 13588448,
      "step": 14640
    },
    {
      "epoch": 6.904761904761905,
      "grad_norm": 0.00046700326493009925,
      "learning_rate": 0.21125434860846667,
      "loss": 0.3481,
      "num_input_tokens_seen": 13593168,
      "step": 14645
    },
    {
      "epoch": 6.9071192833569075,
      "grad_norm": 0.0007491528522223234,
      "learning_rate": 0.2112005743549107,
      "loss": 0.3271,
      "num_input_tokens_seen": 13597328,
      "step": 14650
    },
    {
      "epoch": 6.90947666195191,
      "grad_norm": 0.0006878235726617277,
      "learning_rate": 0.21114679066345707,
      "loss": 0.3155,
      "num_input_tokens_seen": 13601536,
      "step": 14655
    },
    {
      "epoch": 6.911834040546912,
      "grad_norm": 0.0003169280244037509,
      "learning_rate": 0.21109299754239993,
      "loss": 0.3137,
      "num_input_tokens_seen": 13605680,
      "step": 14660
    },
    {
      "epoch": 6.914191419141914,
      "grad_norm": 0.0003530918911565095,
      "learning_rate": 0.21103919500003482,
      "loss": 0.3567,
      "num_input_tokens_seen": 13610816,
      "step": 14665
    },
    {
      "epoch": 6.916548797736916,
      "grad_norm": 0.0002558138221502304,
      "learning_rate": 0.21098538304465872,
      "loss": 0.3209,
      "num_input_tokens_seen": 13615168,
      "step": 14670
    },
    {
      "epoch": 6.918906176331919,
      "grad_norm": 0.0005398553912527859,
      "learning_rate": 0.2109315616845702,
      "loss": 0.325,
      "num_input_tokens_seen": 13619408,
      "step": 14675
    },
    {
      "epoch": 6.921263554926921,
      "grad_norm": 0.00021991961693856865,
      "learning_rate": 0.21087773092806925,
      "loss": 0.341,
      "num_input_tokens_seen": 13623760,
      "step": 14680
    },
    {
      "epoch": 6.923620933521923,
      "grad_norm": 0.0008906757575459778,
      "learning_rate": 0.21082389078345704,
      "loss": 0.3769,
      "num_input_tokens_seen": 13627584,
      "step": 14685
    },
    {
      "epoch": 6.925978312116926,
      "grad_norm": 0.0003103070193901658,
      "learning_rate": 0.2107700412590365,
      "loss": 0.3169,
      "num_input_tokens_seen": 13632432,
      "step": 14690
    },
    {
      "epoch": 6.928335690711928,
      "grad_norm": 0.00037347906618379056,
      "learning_rate": 0.210716182363112,
      "loss": 0.3405,
      "num_input_tokens_seen": 13637296,
      "step": 14695
    },
    {
      "epoch": 6.930693069306931,
      "grad_norm": 0.00041978841181844473,
      "learning_rate": 0.2106623141039891,
      "loss": 0.2972,
      "num_input_tokens_seen": 13642576,
      "step": 14700
    },
    {
      "epoch": 6.933050447901933,
      "grad_norm": 0.0002782137307804078,
      "learning_rate": 0.21060843648997507,
      "loss": 0.355,
      "num_input_tokens_seen": 13647312,
      "step": 14705
    },
    {
      "epoch": 6.935407826496935,
      "grad_norm": 0.00029113778145983815,
      "learning_rate": 0.21055454952937844,
      "loss": 0.316,
      "num_input_tokens_seen": 13651184,
      "step": 14710
    },
    {
      "epoch": 6.937765205091938,
      "grad_norm": 0.0005656194407492876,
      "learning_rate": 0.21050065323050937,
      "loss": 0.3279,
      "num_input_tokens_seen": 13656080,
      "step": 14715
    },
    {
      "epoch": 6.94012258368694,
      "grad_norm": 0.000268565840087831,
      "learning_rate": 0.21044674760167928,
      "loss": 0.3277,
      "num_input_tokens_seen": 13660176,
      "step": 14720
    },
    {
      "epoch": 6.942479962281943,
      "grad_norm": 0.00039765224209986627,
      "learning_rate": 0.210392832651201,
      "loss": 0.3851,
      "num_input_tokens_seen": 13665408,
      "step": 14725
    },
    {
      "epoch": 6.944837340876945,
      "grad_norm": 0.00024411219055764377,
      "learning_rate": 0.210338908387389,
      "loss": 0.3365,
      "num_input_tokens_seen": 13669760,
      "step": 14730
    },
    {
      "epoch": 6.947194719471947,
      "grad_norm": 0.00034328614128753543,
      "learning_rate": 0.21028497481855912,
      "loss": 0.3316,
      "num_input_tokens_seen": 13674432,
      "step": 14735
    },
    {
      "epoch": 6.94955209806695,
      "grad_norm": 0.00023750036780256778,
      "learning_rate": 0.21023103195302847,
      "loss": 0.3171,
      "num_input_tokens_seen": 13679184,
      "step": 14740
    },
    {
      "epoch": 6.951909476661952,
      "grad_norm": 0.0003751780604943633,
      "learning_rate": 0.21017707979911582,
      "loss": 0.3069,
      "num_input_tokens_seen": 13683712,
      "step": 14745
    },
    {
      "epoch": 6.954266855256955,
      "grad_norm": 0.0004835689323954284,
      "learning_rate": 0.21012311836514122,
      "loss": 0.2751,
      "num_input_tokens_seen": 13688336,
      "step": 14750
    },
    {
      "epoch": 6.956624233851956,
      "grad_norm": 0.0005006029387004673,
      "learning_rate": 0.21006914765942622,
      "loss": 0.2536,
      "num_input_tokens_seen": 13692960,
      "step": 14755
    },
    {
      "epoch": 6.958981612446959,
      "grad_norm": 0.000676413532346487,
      "learning_rate": 0.2100151676902938,
      "loss": 0.4185,
      "num_input_tokens_seen": 13697520,
      "step": 14760
    },
    {
      "epoch": 6.961338991041961,
      "grad_norm": 0.00030080159194767475,
      "learning_rate": 0.2099611784660683,
      "loss": 0.3964,
      "num_input_tokens_seen": 13702560,
      "step": 14765
    },
    {
      "epoch": 6.963696369636963,
      "grad_norm": 0.00024443460279144347,
      "learning_rate": 0.20990717999507552,
      "loss": 0.3018,
      "num_input_tokens_seen": 13707648,
      "step": 14770
    },
    {
      "epoch": 6.966053748231966,
      "grad_norm": 0.0007140650413930416,
      "learning_rate": 0.20985317228564276,
      "loss": 0.3643,
      "num_input_tokens_seen": 13712624,
      "step": 14775
    },
    {
      "epoch": 6.968411126826968,
      "grad_norm": 0.0006406812462955713,
      "learning_rate": 0.20979915534609872,
      "loss": 0.3392,
      "num_input_tokens_seen": 13717376,
      "step": 14780
    },
    {
      "epoch": 6.970768505421971,
      "grad_norm": 0.00020230421796441078,
      "learning_rate": 0.20974512918477342,
      "loss": 0.3592,
      "num_input_tokens_seen": 13722128,
      "step": 14785
    },
    {
      "epoch": 6.973125884016973,
      "grad_norm": 0.00022726891620550305,
      "learning_rate": 0.2096910938099984,
      "loss": 0.3434,
      "num_input_tokens_seen": 13726336,
      "step": 14790
    },
    {
      "epoch": 6.975483262611975,
      "grad_norm": 0.0003286318969912827,
      "learning_rate": 0.2096370492301066,
      "loss": 0.3279,
      "num_input_tokens_seen": 13731040,
      "step": 14795
    },
    {
      "epoch": 6.977840641206978,
      "grad_norm": 0.0004923255764879286,
      "learning_rate": 0.2095829954534323,
      "loss": 0.3362,
      "num_input_tokens_seen": 13735904,
      "step": 14800
    },
    {
      "epoch": 6.977840641206978,
      "eval_loss": 0.33118465542793274,
      "eval_runtime": 33.5442,
      "eval_samples_per_second": 28.112,
      "eval_steps_per_second": 14.071,
      "num_input_tokens_seen": 13735904,
      "step": 14800
    },
    {
      "epoch": 6.98019801980198,
      "grad_norm": 0.00025385612389072776,
      "learning_rate": 0.2095289324883114,
      "loss": 0.3493,
      "num_input_tokens_seen": 13741776,
      "step": 14805
    },
    {
      "epoch": 6.982555398396983,
      "grad_norm": 0.0006034998223185539,
      "learning_rate": 0.20947486034308097,
      "loss": 0.3142,
      "num_input_tokens_seen": 13747088,
      "step": 14810
    },
    {
      "epoch": 6.984912776991985,
      "grad_norm": 0.000472932675620541,
      "learning_rate": 0.2094207790260797,
      "loss": 0.3391,
      "num_input_tokens_seen": 13751344,
      "step": 14815
    },
    {
      "epoch": 6.987270155586987,
      "grad_norm": 0.0003353070351295173,
      "learning_rate": 0.20936668854564758,
      "loss": 0.3236,
      "num_input_tokens_seen": 13755856,
      "step": 14820
    },
    {
      "epoch": 6.98962753418199,
      "grad_norm": 0.0002465347934048623,
      "learning_rate": 0.20931258891012602,
      "loss": 0.3314,
      "num_input_tokens_seen": 13760256,
      "step": 14825
    },
    {
      "epoch": 6.991984912776992,
      "grad_norm": 0.00048445590073242784,
      "learning_rate": 0.20925848012785792,
      "loss": 0.3371,
      "num_input_tokens_seen": 13765216,
      "step": 14830
    },
    {
      "epoch": 6.994342291371995,
      "grad_norm": 0.00037369117490015924,
      "learning_rate": 0.20920436220718747,
      "loss": 0.3243,
      "num_input_tokens_seen": 13770080,
      "step": 14835
    },
    {
      "epoch": 6.996699669966997,
      "grad_norm": 0.00036224580253474414,
      "learning_rate": 0.20915023515646033,
      "loss": 0.2686,
      "num_input_tokens_seen": 13775584,
      "step": 14840
    },
    {
      "epoch": 6.999057048561999,
      "grad_norm": 0.0005032281624153256,
      "learning_rate": 0.20909609898402368,
      "loss": 0.2434,
      "num_input_tokens_seen": 13779424,
      "step": 14845
    },
    {
      "epoch": 7.001414427157002,
      "grad_norm": 0.00019421614706516266,
      "learning_rate": 0.2090419536982258,
      "loss": 0.3227,
      "num_input_tokens_seen": 13783536,
      "step": 14850
    },
    {
      "epoch": 7.003771805752004,
      "grad_norm": 0.0001620146940695122,
      "learning_rate": 0.2089877993074168,
      "loss": 0.3464,
      "num_input_tokens_seen": 13788464,
      "step": 14855
    },
    {
      "epoch": 7.006129184347006,
      "grad_norm": 0.00022404760238714516,
      "learning_rate": 0.20893363581994784,
      "loss": 0.3582,
      "num_input_tokens_seen": 13793904,
      "step": 14860
    },
    {
      "epoch": 7.008486562942008,
      "grad_norm": 0.00019545327813830227,
      "learning_rate": 0.2088794632441716,
      "loss": 0.2659,
      "num_input_tokens_seen": 13798320,
      "step": 14865
    },
    {
      "epoch": 7.0108439415370105,
      "grad_norm": 0.0004886052920483053,
      "learning_rate": 0.20882528158844219,
      "loss": 0.3326,
      "num_input_tokens_seen": 13803440,
      "step": 14870
    },
    {
      "epoch": 7.013201320132013,
      "grad_norm": 0.0002746198733802885,
      "learning_rate": 0.20877109086111514,
      "loss": 0.2578,
      "num_input_tokens_seen": 13809280,
      "step": 14875
    },
    {
      "epoch": 7.015558698727015,
      "grad_norm": 0.00041352194966748357,
      "learning_rate": 0.2087168910705473,
      "loss": 0.3234,
      "num_input_tokens_seen": 13813840,
      "step": 14880
    },
    {
      "epoch": 7.017916077322018,
      "grad_norm": 0.00017495053180027753,
      "learning_rate": 0.208662682225097,
      "loss": 0.3565,
      "num_input_tokens_seen": 13819680,
      "step": 14885
    },
    {
      "epoch": 7.02027345591702,
      "grad_norm": 0.000225926298298873,
      "learning_rate": 0.2086084643331239,
      "loss": 0.3676,
      "num_input_tokens_seen": 13824384,
      "step": 14890
    },
    {
      "epoch": 7.0226308345120225,
      "grad_norm": 0.0005312763387337327,
      "learning_rate": 0.20855423740298906,
      "loss": 0.3315,
      "num_input_tokens_seen": 13828688,
      "step": 14895
    },
    {
      "epoch": 7.024988213107025,
      "grad_norm": 0.0006249609868973494,
      "learning_rate": 0.208500001443055,
      "loss": 0.3523,
      "num_input_tokens_seen": 13833696,
      "step": 14900
    },
    {
      "epoch": 7.027345591702027,
      "grad_norm": 0.0002609507355373353,
      "learning_rate": 0.20844575646168553,
      "loss": 0.313,
      "num_input_tokens_seen": 13838096,
      "step": 14905
    },
    {
      "epoch": 7.02970297029703,
      "grad_norm": 0.0007502382504753768,
      "learning_rate": 0.20839150246724594,
      "loss": 0.4106,
      "num_input_tokens_seen": 13843216,
      "step": 14910
    },
    {
      "epoch": 7.032060348892032,
      "grad_norm": 0.00035021992516703904,
      "learning_rate": 0.20833723946810287,
      "loss": 0.3397,
      "num_input_tokens_seen": 13847536,
      "step": 14915
    },
    {
      "epoch": 7.0344177274870345,
      "grad_norm": 0.0003849432396236807,
      "learning_rate": 0.20828296747262437,
      "loss": 0.3457,
      "num_input_tokens_seen": 13852752,
      "step": 14920
    },
    {
      "epoch": 7.036775106082037,
      "grad_norm": 0.0008116528042592108,
      "learning_rate": 0.20822868648917986,
      "loss": 0.3469,
      "num_input_tokens_seen": 13857280,
      "step": 14925
    },
    {
      "epoch": 7.039132484677039,
      "grad_norm": 0.0006468037026934326,
      "learning_rate": 0.20817439652614017,
      "loss": 0.329,
      "num_input_tokens_seen": 13861552,
      "step": 14930
    },
    {
      "epoch": 7.041489863272042,
      "grad_norm": 0.0006872526719234884,
      "learning_rate": 0.20812009759187744,
      "loss": 0.3381,
      "num_input_tokens_seen": 13865264,
      "step": 14935
    },
    {
      "epoch": 7.043847241867044,
      "grad_norm": 0.0004814505227841437,
      "learning_rate": 0.2080657896947653,
      "loss": 0.361,
      "num_input_tokens_seen": 13869344,
      "step": 14940
    },
    {
      "epoch": 7.0462046204620465,
      "grad_norm": 0.00048635058919899166,
      "learning_rate": 0.2080114728431787,
      "loss": 0.3154,
      "num_input_tokens_seen": 13873232,
      "step": 14945
    },
    {
      "epoch": 7.048561999057049,
      "grad_norm": 0.0007988310535438359,
      "learning_rate": 0.20795714704549392,
      "loss": 0.3072,
      "num_input_tokens_seen": 13877456,
      "step": 14950
    },
    {
      "epoch": 7.050919377652051,
      "grad_norm": 0.00019285450980532914,
      "learning_rate": 0.20790281231008875,
      "loss": 0.3123,
      "num_input_tokens_seen": 13882496,
      "step": 14955
    },
    {
      "epoch": 7.053276756247053,
      "grad_norm": 0.00026772409910336137,
      "learning_rate": 0.20784846864534226,
      "loss": 0.3367,
      "num_input_tokens_seen": 13886512,
      "step": 14960
    },
    {
      "epoch": 7.055634134842055,
      "grad_norm": 0.000253140926361084,
      "learning_rate": 0.20779411605963496,
      "loss": 0.3116,
      "num_input_tokens_seen": 13891920,
      "step": 14965
    },
    {
      "epoch": 7.057991513437058,
      "grad_norm": 0.00036992234527133405,
      "learning_rate": 0.2077397545613487,
      "loss": 0.3397,
      "num_input_tokens_seen": 13896560,
      "step": 14970
    },
    {
      "epoch": 7.06034889203206,
      "grad_norm": 0.00017544392903801054,
      "learning_rate": 0.20768538415886661,
      "loss": 0.3437,
      "num_input_tokens_seen": 13900976,
      "step": 14975
    },
    {
      "epoch": 7.0627062706270625,
      "grad_norm": 0.00023838528431952,
      "learning_rate": 0.20763100486057343,
      "loss": 0.3388,
      "num_input_tokens_seen": 13906384,
      "step": 14980
    },
    {
      "epoch": 7.065063649222065,
      "grad_norm": 0.0002481467672623694,
      "learning_rate": 0.20757661667485502,
      "loss": 0.3421,
      "num_input_tokens_seen": 13910400,
      "step": 14985
    },
    {
      "epoch": 7.067421027817067,
      "grad_norm": 0.00031946387025527656,
      "learning_rate": 0.2075222196100988,
      "loss": 0.3739,
      "num_input_tokens_seen": 13915152,
      "step": 14990
    },
    {
      "epoch": 7.06977840641207,
      "grad_norm": 0.0004383005725685507,
      "learning_rate": 0.20746781367469344,
      "loss": 0.3632,
      "num_input_tokens_seen": 13920256,
      "step": 14995
    },
    {
      "epoch": 7.072135785007072,
      "grad_norm": 0.0005146306357346475,
      "learning_rate": 0.207413398877029,
      "loss": 0.3351,
      "num_input_tokens_seen": 13924000,
      "step": 15000
    },
    {
      "epoch": 7.072135785007072,
      "eval_loss": 0.3311784267425537,
      "eval_runtime": 33.6067,
      "eval_samples_per_second": 28.06,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 13924000,
      "step": 15000
    },
    {
      "epoch": 7.0744931636020745,
      "grad_norm": 0.0003618253394961357,
      "learning_rate": 0.20735897522549698,
      "loss": 0.3377,
      "num_input_tokens_seen": 13928176,
      "step": 15005
    },
    {
      "epoch": 7.076850542197077,
      "grad_norm": 0.0007435441948473454,
      "learning_rate": 0.2073045427284902,
      "loss": 0.335,
      "num_input_tokens_seen": 13932896,
      "step": 15010
    },
    {
      "epoch": 7.079207920792079,
      "grad_norm": 0.0006245155236683786,
      "learning_rate": 0.2072501013944027,
      "loss": 0.3128,
      "num_input_tokens_seen": 13938128,
      "step": 15015
    },
    {
      "epoch": 7.081565299387082,
      "grad_norm": 0.0002536739921197295,
      "learning_rate": 0.20719565123163017,
      "loss": 0.3078,
      "num_input_tokens_seen": 13943392,
      "step": 15020
    },
    {
      "epoch": 7.083922677982084,
      "grad_norm": 0.0007122319075278938,
      "learning_rate": 0.20714119224856944,
      "loss": 0.3655,
      "num_input_tokens_seen": 13948240,
      "step": 15025
    },
    {
      "epoch": 7.0862800565770865,
      "grad_norm": 0.00019199957023374736,
      "learning_rate": 0.2070867244536188,
      "loss": 0.3795,
      "num_input_tokens_seen": 13953856,
      "step": 15030
    },
    {
      "epoch": 7.088637435172089,
      "grad_norm": 0.0006339297397062182,
      "learning_rate": 0.20703224785517785,
      "loss": 0.3243,
      "num_input_tokens_seen": 13958192,
      "step": 15035
    },
    {
      "epoch": 7.090994813767091,
      "grad_norm": 0.00026193977100774646,
      "learning_rate": 0.20697776246164754,
      "loss": 0.3566,
      "num_input_tokens_seen": 13963200,
      "step": 15040
    },
    {
      "epoch": 7.093352192362094,
      "grad_norm": 0.00020701166067738086,
      "learning_rate": 0.2069232682814303,
      "loss": 0.3456,
      "num_input_tokens_seen": 13967232,
      "step": 15045
    },
    {
      "epoch": 7.095709570957096,
      "grad_norm": 0.00035704998299479485,
      "learning_rate": 0.20686876532292972,
      "loss": 0.3393,
      "num_input_tokens_seen": 13971328,
      "step": 15050
    },
    {
      "epoch": 7.0980669495520985,
      "grad_norm": 0.00036614149576053023,
      "learning_rate": 0.20681425359455083,
      "loss": 0.3273,
      "num_input_tokens_seen": 13975488,
      "step": 15055
    },
    {
      "epoch": 7.1004243281471,
      "grad_norm": 0.00042275150190107524,
      "learning_rate": 0.20675973310470008,
      "loss": 0.345,
      "num_input_tokens_seen": 13980432,
      "step": 15060
    },
    {
      "epoch": 7.102781706742102,
      "grad_norm": 0.0002619862207211554,
      "learning_rate": 0.2067052038617852,
      "loss": 0.3457,
      "num_input_tokens_seen": 13984656,
      "step": 15065
    },
    {
      "epoch": 7.105139085337105,
      "grad_norm": 0.0004380742320790887,
      "learning_rate": 0.2066506658742153,
      "loss": 0.3515,
      "num_input_tokens_seen": 13989952,
      "step": 15070
    },
    {
      "epoch": 7.107496463932107,
      "grad_norm": 0.0004611627373378724,
      "learning_rate": 0.20659611915040077,
      "loss": 0.33,
      "num_input_tokens_seen": 13994304,
      "step": 15075
    },
    {
      "epoch": 7.10985384252711,
      "grad_norm": 0.00039916354580782354,
      "learning_rate": 0.20654156369875348,
      "loss": 0.356,
      "num_input_tokens_seen": 13999056,
      "step": 15080
    },
    {
      "epoch": 7.112211221122112,
      "grad_norm": 0.0005063938442617655,
      "learning_rate": 0.20648699952768648,
      "loss": 0.338,
      "num_input_tokens_seen": 14003136,
      "step": 15085
    },
    {
      "epoch": 7.114568599717114,
      "grad_norm": 0.000721816613804549,
      "learning_rate": 0.20643242664561437,
      "loss": 0.3433,
      "num_input_tokens_seen": 14007888,
      "step": 15090
    },
    {
      "epoch": 7.116925978312117,
      "grad_norm": 0.0006134838913567364,
      "learning_rate": 0.20637784506095277,
      "loss": 0.3271,
      "num_input_tokens_seen": 14013232,
      "step": 15095
    },
    {
      "epoch": 7.119283356907119,
      "grad_norm": 0.00026949658058583736,
      "learning_rate": 0.20632325478211908,
      "loss": 0.332,
      "num_input_tokens_seen": 14017504,
      "step": 15100
    },
    {
      "epoch": 7.121640735502122,
      "grad_norm": 0.00040112977148965,
      "learning_rate": 0.20626865581753165,
      "loss": 0.3137,
      "num_input_tokens_seen": 14022432,
      "step": 15105
    },
    {
      "epoch": 7.123998114097124,
      "grad_norm": 0.000684859580360353,
      "learning_rate": 0.2062140481756104,
      "loss": 0.3234,
      "num_input_tokens_seen": 14026992,
      "step": 15110
    },
    {
      "epoch": 7.126355492692126,
      "grad_norm": 0.0006019850843586028,
      "learning_rate": 0.20615943186477648,
      "loss": 0.34,
      "num_input_tokens_seen": 14031152,
      "step": 15115
    },
    {
      "epoch": 7.128712871287129,
      "grad_norm": 0.0006266004638746381,
      "learning_rate": 0.20610480689345242,
      "loss": 0.3585,
      "num_input_tokens_seen": 14035440,
      "step": 15120
    },
    {
      "epoch": 7.131070249882131,
      "grad_norm": 0.0002759158378466964,
      "learning_rate": 0.2060501732700621,
      "loss": 0.3528,
      "num_input_tokens_seen": 14040656,
      "step": 15125
    },
    {
      "epoch": 7.133427628477134,
      "grad_norm": 0.0002989285858348012,
      "learning_rate": 0.20599553100303067,
      "loss": 0.323,
      "num_input_tokens_seen": 14046064,
      "step": 15130
    },
    {
      "epoch": 7.135785007072136,
      "grad_norm": 0.00043519263272173703,
      "learning_rate": 0.20594088010078465,
      "loss": 0.3163,
      "num_input_tokens_seen": 14050864,
      "step": 15135
    },
    {
      "epoch": 7.138142385667138,
      "grad_norm": 0.000485504133393988,
      "learning_rate": 0.20588622057175196,
      "loss": 0.296,
      "num_input_tokens_seen": 14056320,
      "step": 15140
    },
    {
      "epoch": 7.140499764262141,
      "grad_norm": 0.000229131052037701,
      "learning_rate": 0.20583155242436177,
      "loss": 0.3252,
      "num_input_tokens_seen": 14060672,
      "step": 15145
    },
    {
      "epoch": 7.142857142857143,
      "grad_norm": 0.000785828335210681,
      "learning_rate": 0.20577687566704453,
      "loss": 0.3794,
      "num_input_tokens_seen": 14064864,
      "step": 15150
    },
    {
      "epoch": 7.145214521452146,
      "grad_norm": 0.0004016078310087323,
      "learning_rate": 0.20572219030823213,
      "loss": 0.3488,
      "num_input_tokens_seen": 14070912,
      "step": 15155
    },
    {
      "epoch": 7.147571900047147,
      "grad_norm": 0.0007919152267277241,
      "learning_rate": 0.20566749635635775,
      "loss": 0.3604,
      "num_input_tokens_seen": 14075248,
      "step": 15160
    },
    {
      "epoch": 7.1499292786421496,
      "grad_norm": 0.00020609337661881,
      "learning_rate": 0.20561279381985587,
      "loss": 0.3407,
      "num_input_tokens_seen": 14080256,
      "step": 15165
    },
    {
      "epoch": 7.152286657237152,
      "grad_norm": 0.0005599312135018408,
      "learning_rate": 0.2055580827071623,
      "loss": 0.3323,
      "num_input_tokens_seen": 14086608,
      "step": 15170
    },
    {
      "epoch": 7.154644035832154,
      "grad_norm": 0.0003325744764879346,
      "learning_rate": 0.20550336302671418,
      "loss": 0.3365,
      "num_input_tokens_seen": 14090448,
      "step": 15175
    },
    {
      "epoch": 7.157001414427157,
      "grad_norm": 0.0004607238806784153,
      "learning_rate": 0.20544863478695,
      "loss": 0.3451,
      "num_input_tokens_seen": 14094608,
      "step": 15180
    },
    {
      "epoch": 7.159358793022159,
      "grad_norm": 0.0003879064170178026,
      "learning_rate": 0.20539389799630953,
      "loss": 0.3475,
      "num_input_tokens_seen": 14099584,
      "step": 15185
    },
    {
      "epoch": 7.161716171617162,
      "grad_norm": 0.0003105875803157687,
      "learning_rate": 0.20533915266323388,
      "loss": 0.345,
      "num_input_tokens_seen": 14104624,
      "step": 15190
    },
    {
      "epoch": 7.164073550212164,
      "grad_norm": 0.000872932025231421,
      "learning_rate": 0.20528439879616542,
      "loss": 0.3792,
      "num_input_tokens_seen": 14108752,
      "step": 15195
    },
    {
      "epoch": 7.166430928807166,
      "grad_norm": 0.0001961740490514785,
      "learning_rate": 0.20522963640354794,
      "loss": 0.343,
      "num_input_tokens_seen": 14113184,
      "step": 15200
    },
    {
      "epoch": 7.166430928807166,
      "eval_loss": 0.33428993821144104,
      "eval_runtime": 33.6124,
      "eval_samples_per_second": 28.055,
      "eval_steps_per_second": 14.042,
      "num_input_tokens_seen": 14113184,
      "step": 15200
    },
    {
      "epoch": 7.168788307402169,
      "grad_norm": 0.000718727009370923,
      "learning_rate": 0.20517486549382644,
      "loss": 0.3418,
      "num_input_tokens_seen": 14118256,
      "step": 15205
    },
    {
      "epoch": 7.171145685997171,
      "grad_norm": 0.000591971562243998,
      "learning_rate": 0.20512008607544735,
      "loss": 0.3187,
      "num_input_tokens_seen": 14123072,
      "step": 15210
    },
    {
      "epoch": 7.173503064592174,
      "grad_norm": 0.0005610206862911582,
      "learning_rate": 0.20506529815685826,
      "loss": 0.3264,
      "num_input_tokens_seen": 14127616,
      "step": 15215
    },
    {
      "epoch": 7.175860443187176,
      "grad_norm": 0.0005572541267611086,
      "learning_rate": 0.2050105017465082,
      "loss": 0.3493,
      "num_input_tokens_seen": 14131520,
      "step": 15220
    },
    {
      "epoch": 7.178217821782178,
      "grad_norm": 0.0005406606942415237,
      "learning_rate": 0.20495569685284754,
      "loss": 0.3366,
      "num_input_tokens_seen": 14136144,
      "step": 15225
    },
    {
      "epoch": 7.180575200377181,
      "grad_norm": 0.00028381438460201025,
      "learning_rate": 0.20490088348432778,
      "loss": 0.3593,
      "num_input_tokens_seen": 14140304,
      "step": 15230
    },
    {
      "epoch": 7.182932578972183,
      "grad_norm": 0.0003725463757291436,
      "learning_rate": 0.2048460616494018,
      "loss": 0.3538,
      "num_input_tokens_seen": 14145728,
      "step": 15235
    },
    {
      "epoch": 7.185289957567186,
      "grad_norm": 0.00037407610216178,
      "learning_rate": 0.2047912313565239,
      "loss": 0.3137,
      "num_input_tokens_seen": 14150528,
      "step": 15240
    },
    {
      "epoch": 7.187647336162188,
      "grad_norm": 0.00039428702439181507,
      "learning_rate": 0.20473639261414958,
      "loss": 0.3117,
      "num_input_tokens_seen": 14154832,
      "step": 15245
    },
    {
      "epoch": 7.19000471475719,
      "grad_norm": 0.0006556971347890794,
      "learning_rate": 0.2046815454307357,
      "loss": 0.3618,
      "num_input_tokens_seen": 14159376,
      "step": 15250
    },
    {
      "epoch": 7.192362093352193,
      "grad_norm": 0.00019715078815352172,
      "learning_rate": 0.20462668981474028,
      "loss": 0.3666,
      "num_input_tokens_seen": 14164128,
      "step": 15255
    },
    {
      "epoch": 7.194719471947194,
      "grad_norm": 0.00038524711271747947,
      "learning_rate": 0.20457182577462288,
      "loss": 0.3224,
      "num_input_tokens_seen": 14168992,
      "step": 15260
    },
    {
      "epoch": 7.197076850542197,
      "grad_norm": 0.0004962504608556628,
      "learning_rate": 0.2045169533188441,
      "loss": 0.336,
      "num_input_tokens_seen": 14173504,
      "step": 15265
    },
    {
      "epoch": 7.199434229137199,
      "grad_norm": 0.00018461066065356135,
      "learning_rate": 0.20446207245586603,
      "loss": 0.3628,
      "num_input_tokens_seen": 14177568,
      "step": 15270
    },
    {
      "epoch": 7.2017916077322015,
      "grad_norm": 0.0007455819868482649,
      "learning_rate": 0.20440718319415196,
      "loss": 0.3556,
      "num_input_tokens_seen": 14182288,
      "step": 15275
    },
    {
      "epoch": 7.204148986327204,
      "grad_norm": 0.0005943930009379983,
      "learning_rate": 0.20435228554216653,
      "loss": 0.3307,
      "num_input_tokens_seen": 14188016,
      "step": 15280
    },
    {
      "epoch": 7.206506364922206,
      "grad_norm": 0.0008265661890618503,
      "learning_rate": 0.20429737950837565,
      "loss": 0.3329,
      "num_input_tokens_seen": 14192640,
      "step": 15285
    },
    {
      "epoch": 7.208863743517209,
      "grad_norm": 0.0005237951991148293,
      "learning_rate": 0.20424246510124647,
      "loss": 0.2784,
      "num_input_tokens_seen": 14197088,
      "step": 15290
    },
    {
      "epoch": 7.211221122112211,
      "grad_norm": 0.0006867690244689584,
      "learning_rate": 0.20418754232924755,
      "loss": 0.3342,
      "num_input_tokens_seen": 14201392,
      "step": 15295
    },
    {
      "epoch": 7.2135785007072135,
      "grad_norm": 0.0005917602684348822,
      "learning_rate": 0.20413261120084863,
      "loss": 0.3077,
      "num_input_tokens_seen": 14205808,
      "step": 15300
    },
    {
      "epoch": 7.215935879302216,
      "grad_norm": 0.0007745129987597466,
      "learning_rate": 0.2040776717245208,
      "loss": 0.3033,
      "num_input_tokens_seen": 14210032,
      "step": 15305
    },
    {
      "epoch": 7.218293257897218,
      "grad_norm": 0.0006260591908358037,
      "learning_rate": 0.2040227239087364,
      "loss": 0.3741,
      "num_input_tokens_seen": 14215072,
      "step": 15310
    },
    {
      "epoch": 7.220650636492221,
      "grad_norm": 0.00039370759623125196,
      "learning_rate": 0.20396776776196904,
      "loss": 0.3084,
      "num_input_tokens_seen": 14219744,
      "step": 15315
    },
    {
      "epoch": 7.223008015087223,
      "grad_norm": 0.00039602871402166784,
      "learning_rate": 0.20391280329269373,
      "loss": 0.2939,
      "num_input_tokens_seen": 14224176,
      "step": 15320
    },
    {
      "epoch": 7.2253653936822255,
      "grad_norm": 0.0004369218950159848,
      "learning_rate": 0.20385783050938663,
      "loss": 0.3054,
      "num_input_tokens_seen": 14228448,
      "step": 15325
    },
    {
      "epoch": 7.227722772277228,
      "grad_norm": 0.0007632251945324242,
      "learning_rate": 0.20380284942052526,
      "loss": 0.3626,
      "num_input_tokens_seen": 14232800,
      "step": 15330
    },
    {
      "epoch": 7.23008015087223,
      "grad_norm": 0.0006314623169600964,
      "learning_rate": 0.2037478600345884,
      "loss": 0.3118,
      "num_input_tokens_seen": 14237280,
      "step": 15335
    },
    {
      "epoch": 7.232437529467233,
      "grad_norm": 0.00035876024048775434,
      "learning_rate": 0.20369286236005604,
      "loss": 0.3542,
      "num_input_tokens_seen": 14242448,
      "step": 15340
    },
    {
      "epoch": 7.234794908062235,
      "grad_norm": 0.00033314115717075765,
      "learning_rate": 0.20363785640540957,
      "loss": 0.2943,
      "num_input_tokens_seen": 14246608,
      "step": 15345
    },
    {
      "epoch": 7.2371522866572375,
      "grad_norm": 0.0005114696105010808,
      "learning_rate": 0.2035828421791316,
      "loss": 0.3296,
      "num_input_tokens_seen": 14251840,
      "step": 15350
    },
    {
      "epoch": 7.23950966525224,
      "grad_norm": 0.001142387744039297,
      "learning_rate": 0.20352781968970599,
      "loss": 0.2688,
      "num_input_tokens_seen": 14255856,
      "step": 15355
    },
    {
      "epoch": 7.2418670438472414,
      "grad_norm": 0.001146406284533441,
      "learning_rate": 0.2034727889456179,
      "loss": 0.2937,
      "num_input_tokens_seen": 14261104,
      "step": 15360
    },
    {
      "epoch": 7.244224422442244,
      "grad_norm": 0.0003529289970174432,
      "learning_rate": 0.2034177499553538,
      "loss": 0.2854,
      "num_input_tokens_seen": 14265056,
      "step": 15365
    },
    {
      "epoch": 7.246581801037246,
      "grad_norm": 0.0006453358801081777,
      "learning_rate": 0.2033627027274014,
      "loss": 0.2831,
      "num_input_tokens_seen": 14269232,
      "step": 15370
    },
    {
      "epoch": 7.248939179632249,
      "grad_norm": 0.0005377056659199297,
      "learning_rate": 0.20330764727024955,
      "loss": 0.4152,
      "num_input_tokens_seen": 14273744,
      "step": 15375
    },
    {
      "epoch": 7.251296558227251,
      "grad_norm": 0.000216833024751395,
      "learning_rate": 0.20325258359238868,
      "loss": 0.4272,
      "num_input_tokens_seen": 14278384,
      "step": 15380
    },
    {
      "epoch": 7.2536539368222535,
      "grad_norm": 0.0004883273504674435,
      "learning_rate": 0.20319751170231018,
      "loss": 0.3873,
      "num_input_tokens_seen": 14282736,
      "step": 15385
    },
    {
      "epoch": 7.256011315417256,
      "grad_norm": 0.0007002072525210679,
      "learning_rate": 0.2031424316085068,
      "loss": 0.383,
      "num_input_tokens_seen": 14287472,
      "step": 15390
    },
    {
      "epoch": 7.258368694012258,
      "grad_norm": 0.001395396189764142,
      "learning_rate": 0.20308734331947265,
      "loss": 0.3363,
      "num_input_tokens_seen": 14291552,
      "step": 15395
    },
    {
      "epoch": 7.260726072607261,
      "grad_norm": 0.0008074608631432056,
      "learning_rate": 0.20303224684370305,
      "loss": 0.348,
      "num_input_tokens_seen": 14295568,
      "step": 15400
    },
    {
      "epoch": 7.260726072607261,
      "eval_loss": 0.3387584388256073,
      "eval_runtime": 33.6299,
      "eval_samples_per_second": 28.04,
      "eval_steps_per_second": 14.035,
      "num_input_tokens_seen": 14295568,
      "step": 15400
    },
    {
      "epoch": 7.263083451202263,
      "grad_norm": 0.0004315128899179399,
      "learning_rate": 0.20297714218969456,
      "loss": 0.3341,
      "num_input_tokens_seen": 14300192,
      "step": 15405
    },
    {
      "epoch": 7.2654408297972655,
      "grad_norm": 0.0006245113909244537,
      "learning_rate": 0.20292202936594497,
      "loss": 0.3282,
      "num_input_tokens_seen": 14305552,
      "step": 15410
    },
    {
      "epoch": 7.267798208392268,
      "grad_norm": 0.000559915613848716,
      "learning_rate": 0.2028669083809534,
      "loss": 0.352,
      "num_input_tokens_seen": 14310240,
      "step": 15415
    },
    {
      "epoch": 7.27015558698727,
      "grad_norm": 0.0006115052383393049,
      "learning_rate": 0.20281177924322016,
      "loss": 0.3303,
      "num_input_tokens_seen": 14314720,
      "step": 15420
    },
    {
      "epoch": 7.272512965582273,
      "grad_norm": 0.00019238753884565085,
      "learning_rate": 0.2027566419612469,
      "loss": 0.413,
      "num_input_tokens_seen": 14319952,
      "step": 15425
    },
    {
      "epoch": 7.274870344177275,
      "grad_norm": 0.0005452899495139718,
      "learning_rate": 0.20270149654353647,
      "loss": 0.3353,
      "num_input_tokens_seen": 14324256,
      "step": 15430
    },
    {
      "epoch": 7.2772277227722775,
      "grad_norm": 0.0005592517554759979,
      "learning_rate": 0.202646342998593,
      "loss": 0.3203,
      "num_input_tokens_seen": 14329600,
      "step": 15435
    },
    {
      "epoch": 7.27958510136728,
      "grad_norm": 0.0006083203479647636,
      "learning_rate": 0.20259118133492185,
      "loss": 0.3424,
      "num_input_tokens_seen": 14334352,
      "step": 15440
    },
    {
      "epoch": 7.281942479962282,
      "grad_norm": 0.0003413631930015981,
      "learning_rate": 0.20253601156102966,
      "loss": 0.3394,
      "num_input_tokens_seen": 14339968,
      "step": 15445
    },
    {
      "epoch": 7.284299858557285,
      "grad_norm": 0.00042140192817896605,
      "learning_rate": 0.20248083368542422,
      "loss": 0.324,
      "num_input_tokens_seen": 14343456,
      "step": 15450
    },
    {
      "epoch": 7.286657237152287,
      "grad_norm": 0.0001957940257852897,
      "learning_rate": 0.2024256477166147,
      "loss": 0.3638,
      "num_input_tokens_seen": 14347424,
      "step": 15455
    },
    {
      "epoch": 7.2890146157472895,
      "grad_norm": 0.00025987959816120565,
      "learning_rate": 0.2023704536631115,
      "loss": 0.3189,
      "num_input_tokens_seen": 14352688,
      "step": 15460
    },
    {
      "epoch": 7.291371994342291,
      "grad_norm": 0.0003228841524105519,
      "learning_rate": 0.20231525153342625,
      "loss": 0.3438,
      "num_input_tokens_seen": 14357120,
      "step": 15465
    },
    {
      "epoch": 7.293729372937293,
      "grad_norm": 0.00023489999875891954,
      "learning_rate": 0.20226004133607173,
      "loss": 0.3154,
      "num_input_tokens_seen": 14361456,
      "step": 15470
    },
    {
      "epoch": 7.296086751532296,
      "grad_norm": 0.000248453114181757,
      "learning_rate": 0.20220482307956214,
      "loss": 0.356,
      "num_input_tokens_seen": 14365984,
      "step": 15475
    },
    {
      "epoch": 7.298444130127298,
      "grad_norm": 0.0002424463164061308,
      "learning_rate": 0.20214959677241276,
      "loss": 0.3298,
      "num_input_tokens_seen": 14370112,
      "step": 15480
    },
    {
      "epoch": 7.300801508722301,
      "grad_norm": 0.0006845794268883765,
      "learning_rate": 0.20209436242314022,
      "loss": 0.352,
      "num_input_tokens_seen": 14374720,
      "step": 15485
    },
    {
      "epoch": 7.303158887317303,
      "grad_norm": 0.0003149385447613895,
      "learning_rate": 0.2020391200402623,
      "loss": 0.3522,
      "num_input_tokens_seen": 14380064,
      "step": 15490
    },
    {
      "epoch": 7.305516265912305,
      "grad_norm": 0.0006738199153915048,
      "learning_rate": 0.2019838696322981,
      "loss": 0.334,
      "num_input_tokens_seen": 14384752,
      "step": 15495
    },
    {
      "epoch": 7.307873644507308,
      "grad_norm": 0.0004771221138071269,
      "learning_rate": 0.20192861120776798,
      "loss": 0.3108,
      "num_input_tokens_seen": 14388880,
      "step": 15500
    },
    {
      "epoch": 7.31023102310231,
      "grad_norm": 0.00023258563305716962,
      "learning_rate": 0.20187334477519345,
      "loss": 0.3396,
      "num_input_tokens_seen": 14393312,
      "step": 15505
    },
    {
      "epoch": 7.312588401697313,
      "grad_norm": 0.0002566577459219843,
      "learning_rate": 0.20181807034309726,
      "loss": 0.3252,
      "num_input_tokens_seen": 14398400,
      "step": 15510
    },
    {
      "epoch": 7.314945780292315,
      "grad_norm": 0.0007068269769661129,
      "learning_rate": 0.2017627879200034,
      "loss": 0.3212,
      "num_input_tokens_seen": 14402864,
      "step": 15515
    },
    {
      "epoch": 7.317303158887317,
      "grad_norm": 0.0002630776143632829,
      "learning_rate": 0.2017074975144372,
      "loss": 0.3059,
      "num_input_tokens_seen": 14407200,
      "step": 15520
    },
    {
      "epoch": 7.31966053748232,
      "grad_norm": 0.00028646361897699535,
      "learning_rate": 0.20165219913492508,
      "loss": 0.3775,
      "num_input_tokens_seen": 14411712,
      "step": 15525
    },
    {
      "epoch": 7.322017916077322,
      "grad_norm": 0.00022251269547268748,
      "learning_rate": 0.20159689278999468,
      "loss": 0.4058,
      "num_input_tokens_seen": 14416240,
      "step": 15530
    },
    {
      "epoch": 7.324375294672325,
      "grad_norm": 0.0002758808259386569,
      "learning_rate": 0.20154157848817508,
      "loss": 0.3421,
      "num_input_tokens_seen": 14421200,
      "step": 15535
    },
    {
      "epoch": 7.326732673267327,
      "grad_norm": 0.00033914807136170566,
      "learning_rate": 0.20148625623799632,
      "loss": 0.349,
      "num_input_tokens_seen": 14424992,
      "step": 15540
    },
    {
      "epoch": 7.329090051862329,
      "grad_norm": 0.00041395911830477417,
      "learning_rate": 0.20143092604798984,
      "loss": 0.3124,
      "num_input_tokens_seen": 14430144,
      "step": 15545
    },
    {
      "epoch": 7.331447430457332,
      "grad_norm": 0.0003764939319808036,
      "learning_rate": 0.2013755879266883,
      "loss": 0.3504,
      "num_input_tokens_seen": 14434576,
      "step": 15550
    },
    {
      "epoch": 7.333804809052333,
      "grad_norm": 0.0002163537428714335,
      "learning_rate": 0.20132024188262543,
      "loss": 0.3143,
      "num_input_tokens_seen": 14439216,
      "step": 15555
    },
    {
      "epoch": 7.336162187647336,
      "grad_norm": 0.00024346633290406317,
      "learning_rate": 0.2012648879243363,
      "loss": 0.3336,
      "num_input_tokens_seen": 14444880,
      "step": 15560
    },
    {
      "epoch": 7.338519566242338,
      "grad_norm": 0.00022995771723799407,
      "learning_rate": 0.20120952606035725,
      "loss": 0.3158,
      "num_input_tokens_seen": 14449168,
      "step": 15565
    },
    {
      "epoch": 7.3408769448373405,
      "grad_norm": 0.00028947758255526423,
      "learning_rate": 0.20115415629922576,
      "loss": 0.3004,
      "num_input_tokens_seen": 14454432,
      "step": 15570
    },
    {
      "epoch": 7.343234323432343,
      "grad_norm": 0.00023462297394871712,
      "learning_rate": 0.20109877864948048,
      "loss": 0.2977,
      "num_input_tokens_seen": 14458288,
      "step": 15575
    },
    {
      "epoch": 7.345591702027345,
      "grad_norm": 0.0002842825779225677,
      "learning_rate": 0.20104339311966138,
      "loss": 0.4001,
      "num_input_tokens_seen": 14462624,
      "step": 15580
    },
    {
      "epoch": 7.347949080622348,
      "grad_norm": 0.0001693027443252504,
      "learning_rate": 0.2009879997183097,
      "loss": 0.293,
      "num_input_tokens_seen": 14466816,
      "step": 15585
    },
    {
      "epoch": 7.35030645921735,
      "grad_norm": 0.0008099090773612261,
      "learning_rate": 0.20093259845396763,
      "loss": 0.3575,
      "num_input_tokens_seen": 14471664,
      "step": 15590
    },
    {
      "epoch": 7.3526638378123526,
      "grad_norm": 0.0005488325259648263,
      "learning_rate": 0.20087718933517884,
      "loss": 0.3078,
      "num_input_tokens_seen": 14476240,
      "step": 15595
    },
    {
      "epoch": 7.355021216407355,
      "grad_norm": 0.0009273517644032836,
      "learning_rate": 0.20082177237048807,
      "loss": 0.3783,
      "num_input_tokens_seen": 14480560,
      "step": 15600
    },
    {
      "epoch": 7.355021216407355,
      "eval_loss": 0.32728642225265503,
      "eval_runtime": 33.5058,
      "eval_samples_per_second": 28.144,
      "eval_steps_per_second": 14.087,
      "num_input_tokens_seen": 14480560,
      "step": 15600
    },
    {
      "epoch": 7.357378595002357,
      "grad_norm": 0.0002347298723179847,
      "learning_rate": 0.20076634756844133,
      "loss": 0.3036,
      "num_input_tokens_seen": 14485280,
      "step": 15605
    },
    {
      "epoch": 7.35973597359736,
      "grad_norm": 0.0004577543295454234,
      "learning_rate": 0.20071091493758586,
      "loss": 0.3346,
      "num_input_tokens_seen": 14489280,
      "step": 15610
    },
    {
      "epoch": 7.362093352192362,
      "grad_norm": 0.00032999098766595125,
      "learning_rate": 0.20065547448647003,
      "loss": 0.3696,
      "num_input_tokens_seen": 14494192,
      "step": 15615
    },
    {
      "epoch": 7.364450730787365,
      "grad_norm": 0.00023448053980246186,
      "learning_rate": 0.20060002622364348,
      "loss": 0.3171,
      "num_input_tokens_seen": 14499120,
      "step": 15620
    },
    {
      "epoch": 7.366808109382367,
      "grad_norm": 0.00021903161541558802,
      "learning_rate": 0.20054457015765695,
      "loss": 0.2961,
      "num_input_tokens_seen": 14504192,
      "step": 15625
    },
    {
      "epoch": 7.369165487977369,
      "grad_norm": 0.0001894514134619385,
      "learning_rate": 0.20048910629706254,
      "loss": 0.3465,
      "num_input_tokens_seen": 14508480,
      "step": 15630
    },
    {
      "epoch": 7.371522866572372,
      "grad_norm": 0.00047236887621693313,
      "learning_rate": 0.20043363465041347,
      "loss": 0.3218,
      "num_input_tokens_seen": 14512960,
      "step": 15635
    },
    {
      "epoch": 7.373880245167374,
      "grad_norm": 0.0004546222626231611,
      "learning_rate": 0.2003781552262641,
      "loss": 0.3935,
      "num_input_tokens_seen": 14517472,
      "step": 15640
    },
    {
      "epoch": 7.376237623762377,
      "grad_norm": 0.00023941441031638533,
      "learning_rate": 0.20032266803317014,
      "loss": 0.3049,
      "num_input_tokens_seen": 14522032,
      "step": 15645
    },
    {
      "epoch": 7.378595002357379,
      "grad_norm": 0.0002670677495189011,
      "learning_rate": 0.2002671730796884,
      "loss": 0.3658,
      "num_input_tokens_seen": 14527248,
      "step": 15650
    },
    {
      "epoch": 7.380952380952381,
      "grad_norm": 0.0004113286850042641,
      "learning_rate": 0.20021167037437684,
      "loss": 0.3541,
      "num_input_tokens_seen": 14531680,
      "step": 15655
    },
    {
      "epoch": 7.383309759547384,
      "grad_norm": 0.0002692035341169685,
      "learning_rate": 0.20015615992579472,
      "loss": 0.3462,
      "num_input_tokens_seen": 14535776,
      "step": 15660
    },
    {
      "epoch": 7.385667138142385,
      "grad_norm": 0.0002759507915470749,
      "learning_rate": 0.20010064174250244,
      "loss": 0.3259,
      "num_input_tokens_seen": 14540896,
      "step": 15665
    },
    {
      "epoch": 7.388024516737388,
      "grad_norm": 0.0003369325422681868,
      "learning_rate": 0.2000451158330616,
      "loss": 0.3136,
      "num_input_tokens_seen": 14545600,
      "step": 15670
    },
    {
      "epoch": 7.39038189533239,
      "grad_norm": 0.0001925909600686282,
      "learning_rate": 0.199989582206035,
      "loss": 0.3529,
      "num_input_tokens_seen": 14549440,
      "step": 15675
    },
    {
      "epoch": 7.3927392739273925,
      "grad_norm": 0.0004743356257677078,
      "learning_rate": 0.1999340408699866,
      "loss": 0.3016,
      "num_input_tokens_seen": 14553744,
      "step": 15680
    },
    {
      "epoch": 7.395096652522395,
      "grad_norm": 0.00022719638946000487,
      "learning_rate": 0.19987849183348155,
      "loss": 0.3499,
      "num_input_tokens_seen": 14558880,
      "step": 15685
    },
    {
      "epoch": 7.397454031117397,
      "grad_norm": 0.0005063567659817636,
      "learning_rate": 0.19982293510508628,
      "loss": 0.3768,
      "num_input_tokens_seen": 14562896,
      "step": 15690
    },
    {
      "epoch": 7.3998114097124,
      "grad_norm": 0.00030089268693700433,
      "learning_rate": 0.19976737069336833,
      "loss": 0.2964,
      "num_input_tokens_seen": 14567984,
      "step": 15695
    },
    {
      "epoch": 7.402168788307402,
      "grad_norm": 0.00024045907775871456,
      "learning_rate": 0.1997117986068964,
      "loss": 0.3138,
      "num_input_tokens_seen": 14572768,
      "step": 15700
    },
    {
      "epoch": 7.4045261669024045,
      "grad_norm": 0.0002602704626042396,
      "learning_rate": 0.19965621885424037,
      "loss": 0.3087,
      "num_input_tokens_seen": 14577584,
      "step": 15705
    },
    {
      "epoch": 7.406883545497407,
      "grad_norm": 0.00019138706556987017,
      "learning_rate": 0.19960063144397142,
      "loss": 0.3506,
      "num_input_tokens_seen": 14581936,
      "step": 15710
    },
    {
      "epoch": 7.409240924092409,
      "grad_norm": 0.0002465583092998713,
      "learning_rate": 0.19954503638466176,
      "loss": 0.3708,
      "num_input_tokens_seen": 14586464,
      "step": 15715
    },
    {
      "epoch": 7.411598302687412,
      "grad_norm": 0.0003121074114460498,
      "learning_rate": 0.1994894336848848,
      "loss": 0.3093,
      "num_input_tokens_seen": 14590944,
      "step": 15720
    },
    {
      "epoch": 7.413955681282414,
      "grad_norm": 0.0001665167510509491,
      "learning_rate": 0.1994338233532153,
      "loss": 0.3011,
      "num_input_tokens_seen": 14594976,
      "step": 15725
    },
    {
      "epoch": 7.4163130598774165,
      "grad_norm": 0.00026841394719667733,
      "learning_rate": 0.19937820539822904,
      "loss": 0.3774,
      "num_input_tokens_seen": 14600144,
      "step": 15730
    },
    {
      "epoch": 7.418670438472419,
      "grad_norm": 0.0002060447004623711,
      "learning_rate": 0.199322579828503,
      "loss": 0.3784,
      "num_input_tokens_seen": 14604528,
      "step": 15735
    },
    {
      "epoch": 7.421027817067421,
      "grad_norm": 0.0008454286144115031,
      "learning_rate": 0.19926694665261527,
      "loss": 0.3246,
      "num_input_tokens_seen": 14609520,
      "step": 15740
    },
    {
      "epoch": 7.423385195662424,
      "grad_norm": 0.00017412473971489817,
      "learning_rate": 0.19921130587914526,
      "loss": 0.3418,
      "num_input_tokens_seen": 14614032,
      "step": 15745
    },
    {
      "epoch": 7.425742574257426,
      "grad_norm": 0.00030690658604726195,
      "learning_rate": 0.19915565751667344,
      "loss": 0.3146,
      "num_input_tokens_seen": 14618384,
      "step": 15750
    },
    {
      "epoch": 7.428099952852428,
      "grad_norm": 0.0005595504771918058,
      "learning_rate": 0.19910000157378152,
      "loss": 0.3011,
      "num_input_tokens_seen": 14622880,
      "step": 15755
    },
    {
      "epoch": 7.43045733144743,
      "grad_norm": 0.00035704512265510857,
      "learning_rate": 0.1990443380590523,
      "loss": 0.2984,
      "num_input_tokens_seen": 14627408,
      "step": 15760
    },
    {
      "epoch": 7.432814710042432,
      "grad_norm": 0.0002430424647172913,
      "learning_rate": 0.19898866698106984,
      "loss": 0.3215,
      "num_input_tokens_seen": 14632016,
      "step": 15765
    },
    {
      "epoch": 7.435172088637435,
      "grad_norm": 0.0005024610436521471,
      "learning_rate": 0.19893298834841933,
      "loss": 0.2681,
      "num_input_tokens_seen": 14636192,
      "step": 15770
    },
    {
      "epoch": 7.437529467232437,
      "grad_norm": 0.00024211735581047833,
      "learning_rate": 0.19887730216968705,
      "loss": 0.3831,
      "num_input_tokens_seen": 14641008,
      "step": 15775
    },
    {
      "epoch": 7.43988684582744,
      "grad_norm": 0.0002948772453237325,
      "learning_rate": 0.19882160845346053,
      "loss": 0.2856,
      "num_input_tokens_seen": 14645936,
      "step": 15780
    },
    {
      "epoch": 7.442244224422442,
      "grad_norm": 0.0003042786556761712,
      "learning_rate": 0.1987659072083285,
      "loss": 0.2654,
      "num_input_tokens_seen": 14651616,
      "step": 15785
    },
    {
      "epoch": 7.4446016030174444,
      "grad_norm": 0.0003610823187045753,
      "learning_rate": 0.1987101984428807,
      "loss": 0.3138,
      "num_input_tokens_seen": 14655824,
      "step": 15790
    },
    {
      "epoch": 7.446958981612447,
      "grad_norm": 0.00012065120245097205,
      "learning_rate": 0.19865448216570822,
      "loss": 0.2801,
      "num_input_tokens_seen": 14660736,
      "step": 15795
    },
    {
      "epoch": 7.449316360207449,
      "grad_norm": 0.001049307524226606,
      "learning_rate": 0.19859875838540317,
      "loss": 0.4022,
      "num_input_tokens_seen": 14664736,
      "step": 15800
    },
    {
      "epoch": 7.449316360207449,
      "eval_loss": 0.33307331800460815,
      "eval_runtime": 33.6072,
      "eval_samples_per_second": 28.059,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 14664736,
      "step": 15800
    },
    {
      "epoch": 7.451673738802452,
      "grad_norm": 0.0005981787107884884,
      "learning_rate": 0.1985430271105588,
      "loss": 0.4109,
      "num_input_tokens_seen": 14670080,
      "step": 15805
    },
    {
      "epoch": 7.454031117397454,
      "grad_norm": 0.0002549233613535762,
      "learning_rate": 0.19848728834976961,
      "loss": 0.3295,
      "num_input_tokens_seen": 14674096,
      "step": 15810
    },
    {
      "epoch": 7.4563884959924565,
      "grad_norm": 0.00029069691663607955,
      "learning_rate": 0.19843154211163128,
      "loss": 0.3274,
      "num_input_tokens_seen": 14679120,
      "step": 15815
    },
    {
      "epoch": 7.458745874587459,
      "grad_norm": 0.00035911615123040974,
      "learning_rate": 0.1983757884047405,
      "loss": 0.3469,
      "num_input_tokens_seen": 14683552,
      "step": 15820
    },
    {
      "epoch": 7.461103253182461,
      "grad_norm": 0.0002791574224829674,
      "learning_rate": 0.1983200272376952,
      "loss": 0.3533,
      "num_input_tokens_seen": 14688144,
      "step": 15825
    },
    {
      "epoch": 7.463460631777464,
      "grad_norm": 0.0004944108659401536,
      "learning_rate": 0.1982642586190945,
      "loss": 0.2975,
      "num_input_tokens_seen": 14692656,
      "step": 15830
    },
    {
      "epoch": 7.465818010372466,
      "grad_norm": 0.0004710045759566128,
      "learning_rate": 0.1982084825575386,
      "loss": 0.284,
      "num_input_tokens_seen": 14697632,
      "step": 15835
    },
    {
      "epoch": 7.4681753889674685,
      "grad_norm": 0.00031046592630445957,
      "learning_rate": 0.19815269906162883,
      "loss": 0.2943,
      "num_input_tokens_seen": 14701312,
      "step": 15840
    },
    {
      "epoch": 7.470532767562471,
      "grad_norm": 0.0001768439105944708,
      "learning_rate": 0.19809690813996775,
      "loss": 0.34,
      "num_input_tokens_seen": 14706128,
      "step": 15845
    },
    {
      "epoch": 7.472890146157473,
      "grad_norm": 0.0007435815641656518,
      "learning_rate": 0.19804110980115905,
      "loss": 0.3033,
      "num_input_tokens_seen": 14709840,
      "step": 15850
    },
    {
      "epoch": 7.475247524752476,
      "grad_norm": 0.0006050326628610492,
      "learning_rate": 0.19798530405380746,
      "loss": 0.3839,
      "num_input_tokens_seen": 14713936,
      "step": 15855
    },
    {
      "epoch": 7.477604903347478,
      "grad_norm": 0.000162009775522165,
      "learning_rate": 0.19792949090651893,
      "loss": 0.3342,
      "num_input_tokens_seen": 14719040,
      "step": 15860
    },
    {
      "epoch": 7.47996228194248,
      "grad_norm": 0.0003167189424857497,
      "learning_rate": 0.19787367036790066,
      "loss": 0.3566,
      "num_input_tokens_seen": 14723376,
      "step": 15865
    },
    {
      "epoch": 7.482319660537482,
      "grad_norm": 0.0002337870973860845,
      "learning_rate": 0.19781784244656075,
      "loss": 0.2917,
      "num_input_tokens_seen": 14727424,
      "step": 15870
    },
    {
      "epoch": 7.484677039132484,
      "grad_norm": 0.0003872237866744399,
      "learning_rate": 0.19776200715110864,
      "loss": 0.3752,
      "num_input_tokens_seen": 14732400,
      "step": 15875
    },
    {
      "epoch": 7.487034417727487,
      "grad_norm": 0.0005212863907217979,
      "learning_rate": 0.1977061644901548,
      "loss": 0.2997,
      "num_input_tokens_seen": 14737888,
      "step": 15880
    },
    {
      "epoch": 7.489391796322489,
      "grad_norm": 0.0002514320658519864,
      "learning_rate": 0.1976503144723109,
      "loss": 0.3395,
      "num_input_tokens_seen": 14742896,
      "step": 15885
    },
    {
      "epoch": 7.491749174917492,
      "grad_norm": 0.00021904184541199356,
      "learning_rate": 0.19759445710618967,
      "loss": 0.3161,
      "num_input_tokens_seen": 14747904,
      "step": 15890
    },
    {
      "epoch": 7.494106553512494,
      "grad_norm": 0.0002889814495574683,
      "learning_rate": 0.19753859240040508,
      "loss": 0.3148,
      "num_input_tokens_seen": 14753040,
      "step": 15895
    },
    {
      "epoch": 7.496463932107496,
      "grad_norm": 0.00046123252832330763,
      "learning_rate": 0.1974827203635721,
      "loss": 0.3367,
      "num_input_tokens_seen": 14758560,
      "step": 15900
    },
    {
      "epoch": 7.498821310702499,
      "grad_norm": 0.00024149485398083925,
      "learning_rate": 0.19742684100430694,
      "loss": 0.3756,
      "num_input_tokens_seen": 14763600,
      "step": 15905
    },
    {
      "epoch": 7.501178689297501,
      "grad_norm": 0.00023516012879554182,
      "learning_rate": 0.19737095433122692,
      "loss": 0.3348,
      "num_input_tokens_seen": 14767984,
      "step": 15910
    },
    {
      "epoch": 7.503536067892504,
      "grad_norm": 0.0002419753436697647,
      "learning_rate": 0.19731506035295046,
      "loss": 0.3296,
      "num_input_tokens_seen": 14772832,
      "step": 15915
    },
    {
      "epoch": 7.505893446487506,
      "grad_norm": 0.00034311137278564274,
      "learning_rate": 0.19725915907809702,
      "loss": 0.2816,
      "num_input_tokens_seen": 14777392,
      "step": 15920
    },
    {
      "epoch": 7.508250825082508,
      "grad_norm": 0.0003287485451437533,
      "learning_rate": 0.1972032505152874,
      "loss": 0.3756,
      "num_input_tokens_seen": 14782384,
      "step": 15925
    },
    {
      "epoch": 7.510608203677511,
      "grad_norm": 0.00024835485965013504,
      "learning_rate": 0.19714733467314338,
      "loss": 0.2997,
      "num_input_tokens_seen": 14786064,
      "step": 15930
    },
    {
      "epoch": 7.512965582272513,
      "grad_norm": 0.00026790681295096874,
      "learning_rate": 0.19709141156028784,
      "loss": 0.3258,
      "num_input_tokens_seen": 14791920,
      "step": 15935
    },
    {
      "epoch": 7.515322960867516,
      "grad_norm": 0.000418156327214092,
      "learning_rate": 0.1970354811853448,
      "loss": 0.3639,
      "num_input_tokens_seen": 14796224,
      "step": 15940
    },
    {
      "epoch": 7.517680339462518,
      "grad_norm": 0.00024354568449780345,
      "learning_rate": 0.19697954355693953,
      "loss": 0.3453,
      "num_input_tokens_seen": 14801472,
      "step": 15945
    },
    {
      "epoch": 7.52003771805752,
      "grad_norm": 0.00023492929176427424,
      "learning_rate": 0.19692359868369827,
      "loss": 0.3415,
      "num_input_tokens_seen": 14805536,
      "step": 15950
    },
    {
      "epoch": 7.522395096652522,
      "grad_norm": 0.00033234211150556803,
      "learning_rate": 0.1968676465742484,
      "loss": 0.3106,
      "num_input_tokens_seen": 14810144,
      "step": 15955
    },
    {
      "epoch": 7.524752475247524,
      "grad_norm": 0.00028752582147717476,
      "learning_rate": 0.19681168723721845,
      "loss": 0.332,
      "num_input_tokens_seen": 14814640,
      "step": 15960
    },
    {
      "epoch": 7.527109853842527,
      "grad_norm": 0.0004780937742907554,
      "learning_rate": 0.19675572068123803,
      "loss": 0.3091,
      "num_input_tokens_seen": 14818688,
      "step": 15965
    },
    {
      "epoch": 7.529467232437529,
      "grad_norm": 0.00035603062133304775,
      "learning_rate": 0.19669974691493794,
      "loss": 0.3652,
      "num_input_tokens_seen": 14823920,
      "step": 15970
    },
    {
      "epoch": 7.5318246110325315,
      "grad_norm": 0.0002175736881326884,
      "learning_rate": 0.19664376594695002,
      "loss": 0.3156,
      "num_input_tokens_seen": 14828624,
      "step": 15975
    },
    {
      "epoch": 7.534181989627534,
      "grad_norm": 0.00040830427315086126,
      "learning_rate": 0.19658777778590722,
      "loss": 0.3496,
      "num_input_tokens_seen": 14832832,
      "step": 15980
    },
    {
      "epoch": 7.536539368222536,
      "grad_norm": 0.00034019924351014197,
      "learning_rate": 0.19653178244044364,
      "loss": 0.3393,
      "num_input_tokens_seen": 14837696,
      "step": 15985
    },
    {
      "epoch": 7.538896746817539,
      "grad_norm": 0.0005401458474807441,
      "learning_rate": 0.19647577991919443,
      "loss": 0.2787,
      "num_input_tokens_seen": 14841808,
      "step": 15990
    },
    {
      "epoch": 7.541254125412541,
      "grad_norm": 0.0002996890398208052,
      "learning_rate": 0.1964197702307959,
      "loss": 0.3143,
      "num_input_tokens_seen": 14846800,
      "step": 15995
    },
    {
      "epoch": 7.5436115040075435,
      "grad_norm": 0.00022431951947510242,
      "learning_rate": 0.19636375338388545,
      "loss": 0.3086,
      "num_input_tokens_seen": 14852128,
      "step": 16000
    },
    {
      "epoch": 7.5436115040075435,
      "eval_loss": 0.3276905119419098,
      "eval_runtime": 33.6271,
      "eval_samples_per_second": 28.043,
      "eval_steps_per_second": 14.036,
      "num_input_tokens_seen": 14852128,
      "step": 16000
    },
    {
      "epoch": 7.545968882602546,
      "grad_norm": 0.0006953283445909619,
      "learning_rate": 0.1963077293871016,
      "loss": 0.3524,
      "num_input_tokens_seen": 14856432,
      "step": 16005
    },
    {
      "epoch": 7.548326261197548,
      "grad_norm": 0.00037644829717464745,
      "learning_rate": 0.19625169824908395,
      "loss": 0.346,
      "num_input_tokens_seen": 14860720,
      "step": 16010
    },
    {
      "epoch": 7.550683639792551,
      "grad_norm": 0.00018713508325163275,
      "learning_rate": 0.19619565997847319,
      "loss": 0.2858,
      "num_input_tokens_seen": 14865712,
      "step": 16015
    },
    {
      "epoch": 7.553041018387553,
      "grad_norm": 0.0004239687987137586,
      "learning_rate": 0.19613961458391113,
      "loss": 0.2992,
      "num_input_tokens_seen": 14870928,
      "step": 16020
    },
    {
      "epoch": 7.5553983969825556,
      "grad_norm": 0.00017229119839612395,
      "learning_rate": 0.19608356207404065,
      "loss": 0.3536,
      "num_input_tokens_seen": 14875776,
      "step": 16025
    },
    {
      "epoch": 7.557755775577558,
      "grad_norm": 0.0006078988080844283,
      "learning_rate": 0.1960275024575058,
      "loss": 0.3055,
      "num_input_tokens_seen": 14880112,
      "step": 16030
    },
    {
      "epoch": 7.56011315417256,
      "grad_norm": 0.0002948410692624748,
      "learning_rate": 0.19597143574295164,
      "loss": 0.3267,
      "num_input_tokens_seen": 14885408,
      "step": 16035
    },
    {
      "epoch": 7.562470532767563,
      "grad_norm": 0.0005594576941803098,
      "learning_rate": 0.1959153619390244,
      "loss": 0.3173,
      "num_input_tokens_seen": 14890032,
      "step": 16040
    },
    {
      "epoch": 7.564827911362565,
      "grad_norm": 0.00024067718186415732,
      "learning_rate": 0.1958592810543713,
      "loss": 0.4219,
      "num_input_tokens_seen": 14894432,
      "step": 16045
    },
    {
      "epoch": 7.567185289957568,
      "grad_norm": 0.0004111276939511299,
      "learning_rate": 0.19580319309764077,
      "loss": 0.3401,
      "num_input_tokens_seen": 14898512,
      "step": 16050
    },
    {
      "epoch": 7.56954266855257,
      "grad_norm": 0.0002766320249065757,
      "learning_rate": 0.1957470980774823,
      "loss": 0.3238,
      "num_input_tokens_seen": 14903152,
      "step": 16055
    },
    {
      "epoch": 7.571900047147572,
      "grad_norm": 0.00021681627549696714,
      "learning_rate": 0.19569099600254639,
      "loss": 0.3587,
      "num_input_tokens_seen": 14907856,
      "step": 16060
    },
    {
      "epoch": 7.574257425742574,
      "grad_norm": 0.00036922431900165975,
      "learning_rate": 0.1956348868814847,
      "loss": 0.3529,
      "num_input_tokens_seen": 14912160,
      "step": 16065
    },
    {
      "epoch": 7.576614804337576,
      "grad_norm": 0.00043062950135208666,
      "learning_rate": 0.19557877072295,
      "loss": 0.3182,
      "num_input_tokens_seen": 14916800,
      "step": 16070
    },
    {
      "epoch": 7.578972182932579,
      "grad_norm": 0.0005274226423352957,
      "learning_rate": 0.19552264753559603,
      "loss": 0.3138,
      "num_input_tokens_seen": 14922032,
      "step": 16075
    },
    {
      "epoch": 7.581329561527581,
      "grad_norm": 0.0002579204156063497,
      "learning_rate": 0.19546651732807774,
      "loss": 0.3616,
      "num_input_tokens_seen": 14926528,
      "step": 16080
    },
    {
      "epoch": 7.5836869401225835,
      "grad_norm": 0.0002622306055855006,
      "learning_rate": 0.19541038010905112,
      "loss": 0.2871,
      "num_input_tokens_seen": 14930672,
      "step": 16085
    },
    {
      "epoch": 7.586044318717586,
      "grad_norm": 0.00035420156200416386,
      "learning_rate": 0.19535423588717324,
      "loss": 0.2935,
      "num_input_tokens_seen": 14935056,
      "step": 16090
    },
    {
      "epoch": 7.588401697312588,
      "grad_norm": 0.00023062351101543754,
      "learning_rate": 0.19529808467110224,
      "loss": 0.3222,
      "num_input_tokens_seen": 14940512,
      "step": 16095
    },
    {
      "epoch": 7.590759075907591,
      "grad_norm": 0.000269621261395514,
      "learning_rate": 0.19524192646949734,
      "loss": 0.3937,
      "num_input_tokens_seen": 14944880,
      "step": 16100
    },
    {
      "epoch": 7.593116454502593,
      "grad_norm": 0.0006014934624545276,
      "learning_rate": 0.19518576129101878,
      "loss": 0.3084,
      "num_input_tokens_seen": 14950000,
      "step": 16105
    },
    {
      "epoch": 7.5954738330975955,
      "grad_norm": 0.0004520384536590427,
      "learning_rate": 0.19512958914432804,
      "loss": 0.3275,
      "num_input_tokens_seen": 14954944,
      "step": 16110
    },
    {
      "epoch": 7.597831211692598,
      "grad_norm": 0.0003542737103998661,
      "learning_rate": 0.1950734100380875,
      "loss": 0.3185,
      "num_input_tokens_seen": 14959424,
      "step": 16115
    },
    {
      "epoch": 7.6001885902876,
      "grad_norm": 0.0002547077019698918,
      "learning_rate": 0.19501722398096066,
      "loss": 0.3754,
      "num_input_tokens_seen": 14963616,
      "step": 16120
    },
    {
      "epoch": 7.602545968882603,
      "grad_norm": 0.0005151049117557704,
      "learning_rate": 0.1949610309816122,
      "loss": 0.3722,
      "num_input_tokens_seen": 14968512,
      "step": 16125
    },
    {
      "epoch": 7.604903347477605,
      "grad_norm": 0.00029573257779702544,
      "learning_rate": 0.1949048310487078,
      "loss": 0.3467,
      "num_input_tokens_seen": 14973248,
      "step": 16130
    },
    {
      "epoch": 7.6072607260726075,
      "grad_norm": 0.0007970421575009823,
      "learning_rate": 0.19484862419091406,
      "loss": 0.3413,
      "num_input_tokens_seen": 14977968,
      "step": 16135
    },
    {
      "epoch": 7.60961810466761,
      "grad_norm": 0.00040333709330298007,
      "learning_rate": 0.19479241041689893,
      "loss": 0.3358,
      "num_input_tokens_seen": 14981904,
      "step": 16140
    },
    {
      "epoch": 7.611975483262612,
      "grad_norm": 0.00045595961273647845,
      "learning_rate": 0.19473618973533116,
      "loss": 0.3112,
      "num_input_tokens_seen": 14986704,
      "step": 16145
    },
    {
      "epoch": 7.614332861857615,
      "grad_norm": 0.0002820586960297078,
      "learning_rate": 0.19467996215488076,
      "loss": 0.3425,
      "num_input_tokens_seen": 14990640,
      "step": 16150
    },
    {
      "epoch": 7.616690240452616,
      "grad_norm": 0.00022339059796649963,
      "learning_rate": 0.1946237276842187,
      "loss": 0.3724,
      "num_input_tokens_seen": 14995472,
      "step": 16155
    },
    {
      "epoch": 7.619047619047619,
      "grad_norm": 0.00026542009436525404,
      "learning_rate": 0.19456748633201712,
      "loss": 0.3277,
      "num_input_tokens_seen": 15000080,
      "step": 16160
    },
    {
      "epoch": 7.621404997642621,
      "grad_norm": 0.0004956176853738725,
      "learning_rate": 0.194511238106949,
      "loss": 0.3301,
      "num_input_tokens_seen": 15003632,
      "step": 16165
    },
    {
      "epoch": 7.623762376237623,
      "grad_norm": 0.0003186517278663814,
      "learning_rate": 0.19445498301768863,
      "loss": 0.3315,
      "num_input_tokens_seen": 15007328,
      "step": 16170
    },
    {
      "epoch": 7.626119754832626,
      "grad_norm": 0.00018751126481220126,
      "learning_rate": 0.19439872107291126,
      "loss": 0.3335,
      "num_input_tokens_seen": 15011664,
      "step": 16175
    },
    {
      "epoch": 7.628477133427628,
      "grad_norm": 0.000533316342625767,
      "learning_rate": 0.1943424522812931,
      "loss": 0.3604,
      "num_input_tokens_seen": 15016064,
      "step": 16180
    },
    {
      "epoch": 7.630834512022631,
      "grad_norm": 0.0008926335722208023,
      "learning_rate": 0.19428617665151157,
      "loss": 0.3482,
      "num_input_tokens_seen": 15020544,
      "step": 16185
    },
    {
      "epoch": 7.633191890617633,
      "grad_norm": 0.0002936505479738116,
      "learning_rate": 0.19422989419224507,
      "loss": 0.3063,
      "num_input_tokens_seen": 15025232,
      "step": 16190
    },
    {
      "epoch": 7.635549269212635,
      "grad_norm": 0.00025040790205821395,
      "learning_rate": 0.19417360491217303,
      "loss": 0.3199,
      "num_input_tokens_seen": 15029872,
      "step": 16195
    },
    {
      "epoch": 7.637906647807638,
      "grad_norm": 0.000519613444339484,
      "learning_rate": 0.19411730881997605,
      "loss": 0.338,
      "num_input_tokens_seen": 15033840,
      "step": 16200
    },
    {
      "epoch": 7.637906647807638,
      "eval_loss": 0.32752013206481934,
      "eval_runtime": 33.6256,
      "eval_samples_per_second": 28.044,
      "eval_steps_per_second": 14.037,
      "num_input_tokens_seen": 15033840,
      "step": 16200
    },
    {
      "epoch": 7.64026402640264,
      "grad_norm": 0.0003165419038850814,
      "learning_rate": 0.1940610059243356,
      "loss": 0.3678,
      "num_input_tokens_seen": 15038896,
      "step": 16205
    },
    {
      "epoch": 7.642621404997643,
      "grad_norm": 0.00037878876901231706,
      "learning_rate": 0.19400469623393435,
      "loss": 0.3244,
      "num_input_tokens_seen": 15043712,
      "step": 16210
    },
    {
      "epoch": 7.644978783592645,
      "grad_norm": 0.0006801456329412758,
      "learning_rate": 0.1939483797574559,
      "loss": 0.3251,
      "num_input_tokens_seen": 15047936,
      "step": 16215
    },
    {
      "epoch": 7.6473361621876474,
      "grad_norm": 0.0002094604860758409,
      "learning_rate": 0.19389205650358504,
      "loss": 0.3504,
      "num_input_tokens_seen": 15052336,
      "step": 16220
    },
    {
      "epoch": 7.64969354078265,
      "grad_norm": 0.0003298007359262556,
      "learning_rate": 0.19383572648100747,
      "loss": 0.3058,
      "num_input_tokens_seen": 15057376,
      "step": 16225
    },
    {
      "epoch": 7.652050919377652,
      "grad_norm": 0.000226881486014463,
      "learning_rate": 0.19377938969841,
      "loss": 0.3385,
      "num_input_tokens_seen": 15062400,
      "step": 16230
    },
    {
      "epoch": 7.654408297972655,
      "grad_norm": 0.00020985951414331794,
      "learning_rate": 0.1937230461644805,
      "loss": 0.3947,
      "num_input_tokens_seen": 15065984,
      "step": 16235
    },
    {
      "epoch": 7.656765676567657,
      "grad_norm": 0.0004639927064999938,
      "learning_rate": 0.19366669588790777,
      "loss": 0.3245,
      "num_input_tokens_seen": 15070464,
      "step": 16240
    },
    {
      "epoch": 7.6591230551626595,
      "grad_norm": 0.00035939336521551013,
      "learning_rate": 0.19361033887738185,
      "loss": 0.3116,
      "num_input_tokens_seen": 15075376,
      "step": 16245
    },
    {
      "epoch": 7.661480433757662,
      "grad_norm": 0.0005087993922643363,
      "learning_rate": 0.19355397514159361,
      "loss": 0.2876,
      "num_input_tokens_seen": 15079792,
      "step": 16250
    },
    {
      "epoch": 7.663837812352664,
      "grad_norm": 0.00036642103805206716,
      "learning_rate": 0.19349760468923508,
      "loss": 0.3397,
      "num_input_tokens_seen": 15084288,
      "step": 16255
    },
    {
      "epoch": 7.666195190947667,
      "grad_norm": 0.0005628531216643751,
      "learning_rate": 0.19344122752899925,
      "loss": 0.3649,
      "num_input_tokens_seen": 15090096,
      "step": 16260
    },
    {
      "epoch": 7.668552569542668,
      "grad_norm": 0.00044769965461455286,
      "learning_rate": 0.1933848436695802,
      "loss": 0.3204,
      "num_input_tokens_seen": 15094224,
      "step": 16265
    },
    {
      "epoch": 7.670909948137671,
      "grad_norm": 0.0003829962224699557,
      "learning_rate": 0.1933284531196731,
      "loss": 0.3658,
      "num_input_tokens_seen": 15098944,
      "step": 16270
    },
    {
      "epoch": 7.673267326732673,
      "grad_norm": 0.0003271383175160736,
      "learning_rate": 0.19327205588797403,
      "loss": 0.3262,
      "num_input_tokens_seen": 15103904,
      "step": 16275
    },
    {
      "epoch": 7.675624705327675,
      "grad_norm": 0.00031761545687913895,
      "learning_rate": 0.19321565198318014,
      "loss": 0.3473,
      "num_input_tokens_seen": 15108720,
      "step": 16280
    },
    {
      "epoch": 7.677982083922678,
      "grad_norm": 0.0005356838810257614,
      "learning_rate": 0.1931592414139896,
      "loss": 0.2907,
      "num_input_tokens_seen": 15113328,
      "step": 16285
    },
    {
      "epoch": 7.68033946251768,
      "grad_norm": 0.0002816854976117611,
      "learning_rate": 0.19310282418910169,
      "loss": 0.2966,
      "num_input_tokens_seen": 15117936,
      "step": 16290
    },
    {
      "epoch": 7.682696841112683,
      "grad_norm": 0.0002088050969177857,
      "learning_rate": 0.1930464003172166,
      "loss": 0.3091,
      "num_input_tokens_seen": 15123168,
      "step": 16295
    },
    {
      "epoch": 7.685054219707685,
      "grad_norm": 0.00032208027550950646,
      "learning_rate": 0.19298996980703567,
      "loss": 0.2898,
      "num_input_tokens_seen": 15128368,
      "step": 16300
    },
    {
      "epoch": 7.687411598302687,
      "grad_norm": 0.00035417056642472744,
      "learning_rate": 0.19293353266726113,
      "loss": 0.3811,
      "num_input_tokens_seen": 15133024,
      "step": 16305
    },
    {
      "epoch": 7.68976897689769,
      "grad_norm": 0.0003060708404518664,
      "learning_rate": 0.19287708890659633,
      "loss": 0.3449,
      "num_input_tokens_seen": 15137824,
      "step": 16310
    },
    {
      "epoch": 7.692126355492692,
      "grad_norm": 0.0004116443742532283,
      "learning_rate": 0.19282063853374556,
      "loss": 0.2823,
      "num_input_tokens_seen": 15142144,
      "step": 16315
    },
    {
      "epoch": 7.694483734087695,
      "grad_norm": 0.00043656950583681464,
      "learning_rate": 0.19276418155741423,
      "loss": 0.2928,
      "num_input_tokens_seen": 15146864,
      "step": 16320
    },
    {
      "epoch": 7.696841112682697,
      "grad_norm": 0.0004274619568604976,
      "learning_rate": 0.19270771798630867,
      "loss": 0.3594,
      "num_input_tokens_seen": 15151552,
      "step": 16325
    },
    {
      "epoch": 7.699198491277699,
      "grad_norm": 0.0002485316654201597,
      "learning_rate": 0.1926512478291363,
      "loss": 0.3658,
      "num_input_tokens_seen": 15156400,
      "step": 16330
    },
    {
      "epoch": 7.701555869872702,
      "grad_norm": 0.00047240935964509845,
      "learning_rate": 0.19259477109460557,
      "loss": 0.3998,
      "num_input_tokens_seen": 15161264,
      "step": 16335
    },
    {
      "epoch": 7.703913248467704,
      "grad_norm": 0.00027540692826732993,
      "learning_rate": 0.19253828779142584,
      "loss": 0.3385,
      "num_input_tokens_seen": 15166496,
      "step": 16340
    },
    {
      "epoch": 7.706270627062707,
      "grad_norm": 0.00032611150527372956,
      "learning_rate": 0.19248179792830755,
      "loss": 0.3628,
      "num_input_tokens_seen": 15170896,
      "step": 16345
    },
    {
      "epoch": 7.708628005657709,
      "grad_norm": 0.0003331095795147121,
      "learning_rate": 0.19242530151396217,
      "loss": 0.3551,
      "num_input_tokens_seen": 15175584,
      "step": 16350
    },
    {
      "epoch": 7.7109853842527105,
      "grad_norm": 0.00031479960307478905,
      "learning_rate": 0.19236879855710215,
      "loss": 0.3359,
      "num_input_tokens_seen": 15180192,
      "step": 16355
    },
    {
      "epoch": 7.713342762847713,
      "grad_norm": 0.0005635237321257591,
      "learning_rate": 0.19231228906644096,
      "loss": 0.3319,
      "num_input_tokens_seen": 15184656,
      "step": 16360
    },
    {
      "epoch": 7.715700141442715,
      "grad_norm": 0.0005012023029848933,
      "learning_rate": 0.19225577305069302,
      "loss": 0.3232,
      "num_input_tokens_seen": 15188880,
      "step": 16365
    },
    {
      "epoch": 7.718057520037718,
      "grad_norm": 0.0003892040404025465,
      "learning_rate": 0.1921992505185739,
      "loss": 0.3554,
      "num_input_tokens_seen": 15192720,
      "step": 16370
    },
    {
      "epoch": 7.72041489863272,
      "grad_norm": 0.0004906702088192105,
      "learning_rate": 0.19214272147880004,
      "loss": 0.3774,
      "num_input_tokens_seen": 15196768,
      "step": 16375
    },
    {
      "epoch": 7.7227722772277225,
      "grad_norm": 0.0005375563050620258,
      "learning_rate": 0.19208618594008892,
      "loss": 0.3078,
      "num_input_tokens_seen": 15201504,
      "step": 16380
    },
    {
      "epoch": 7.725129655822725,
      "grad_norm": 0.0005317223840393126,
      "learning_rate": 0.19202964391115904,
      "loss": 0.3334,
      "num_input_tokens_seen": 15205920,
      "step": 16385
    },
    {
      "epoch": 7.727487034417727,
      "grad_norm": 0.00027374341152608395,
      "learning_rate": 0.1919730954007299,
      "loss": 0.3384,
      "num_input_tokens_seen": 15210832,
      "step": 16390
    },
    {
      "epoch": 7.72984441301273,
      "grad_norm": 0.0005119968554936349,
      "learning_rate": 0.19191654041752199,
      "loss": 0.3279,
      "num_input_tokens_seen": 15215392,
      "step": 16395
    },
    {
      "epoch": 7.732201791607732,
      "grad_norm": 0.0005002982215955853,
      "learning_rate": 0.19185997897025678,
      "loss": 0.3371,
      "num_input_tokens_seen": 15219136,
      "step": 16400
    },
    {
      "epoch": 7.732201791607732,
      "eval_loss": 0.3273659348487854,
      "eval_runtime": 33.5258,
      "eval_samples_per_second": 28.128,
      "eval_steps_per_second": 14.079,
      "num_input_tokens_seen": 15219136,
      "step": 16400
    },
    {
      "epoch": 7.7345591702027345,
      "grad_norm": 0.0004904968081973493,
      "learning_rate": 0.19180341106765672,
      "loss": 0.3343,
      "num_input_tokens_seen": 15223664,
      "step": 16405
    },
    {
      "epoch": 7.736916548797737,
      "grad_norm": 0.00019663247803691775,
      "learning_rate": 0.19174683671844536,
      "loss": 0.2671,
      "num_input_tokens_seen": 15228464,
      "step": 16410
    },
    {
      "epoch": 7.739273927392739,
      "grad_norm": 0.00036225502844899893,
      "learning_rate": 0.19169025593134717,
      "loss": 0.362,
      "num_input_tokens_seen": 15233632,
      "step": 16415
    },
    {
      "epoch": 7.741631305987742,
      "grad_norm": 0.0004427047970239073,
      "learning_rate": 0.19163366871508764,
      "loss": 0.3074,
      "num_input_tokens_seen": 15238560,
      "step": 16420
    },
    {
      "epoch": 7.743988684582744,
      "grad_norm": 0.0001828311214921996,
      "learning_rate": 0.19157707507839317,
      "loss": 0.3305,
      "num_input_tokens_seen": 15243104,
      "step": 16425
    },
    {
      "epoch": 7.7463460631777465,
      "grad_norm": 0.0002857406507246196,
      "learning_rate": 0.19152047502999123,
      "loss": 0.3202,
      "num_input_tokens_seen": 15248496,
      "step": 16430
    },
    {
      "epoch": 7.748703441772749,
      "grad_norm": 0.0002353835734538734,
      "learning_rate": 0.19146386857861025,
      "loss": 0.3274,
      "num_input_tokens_seen": 15252800,
      "step": 16435
    },
    {
      "epoch": 7.751060820367751,
      "grad_norm": 0.0008597969426773489,
      "learning_rate": 0.19140725573297968,
      "loss": 0.3497,
      "num_input_tokens_seen": 15257552,
      "step": 16440
    },
    {
      "epoch": 7.753418198962754,
      "grad_norm": 0.0002781695802696049,
      "learning_rate": 0.19135063650182987,
      "loss": 0.355,
      "num_input_tokens_seen": 15262288,
      "step": 16445
    },
    {
      "epoch": 7.755775577557756,
      "grad_norm": 0.0002917679084930569,
      "learning_rate": 0.19129401089389234,
      "loss": 0.3054,
      "num_input_tokens_seen": 15266192,
      "step": 16450
    },
    {
      "epoch": 7.7581329561527586,
      "grad_norm": 0.0005190492374822497,
      "learning_rate": 0.19123737891789938,
      "loss": 0.3349,
      "num_input_tokens_seen": 15269968,
      "step": 16455
    },
    {
      "epoch": 7.760490334747761,
      "grad_norm": 0.00022944665397517383,
      "learning_rate": 0.19118074058258439,
      "loss": 0.3079,
      "num_input_tokens_seen": 15274144,
      "step": 16460
    },
    {
      "epoch": 7.7628477133427625,
      "grad_norm": 0.00037379190325737,
      "learning_rate": 0.1911240958966816,
      "loss": 0.307,
      "num_input_tokens_seen": 15278416,
      "step": 16465
    },
    {
      "epoch": 7.765205091937765,
      "grad_norm": 0.00028971608844585717,
      "learning_rate": 0.19106744486892652,
      "loss": 0.3271,
      "num_input_tokens_seen": 15283200,
      "step": 16470
    },
    {
      "epoch": 7.767562470532767,
      "grad_norm": 0.0005401733797043562,
      "learning_rate": 0.1910107875080553,
      "loss": 0.3421,
      "num_input_tokens_seen": 15287568,
      "step": 16475
    },
    {
      "epoch": 7.76991984912777,
      "grad_norm": 0.0005539186531677842,
      "learning_rate": 0.19095412382280533,
      "loss": 0.4012,
      "num_input_tokens_seen": 15291552,
      "step": 16480
    },
    {
      "epoch": 7.772277227722772,
      "grad_norm": 0.00023904480622150004,
      "learning_rate": 0.19089745382191473,
      "loss": 0.3125,
      "num_input_tokens_seen": 15296480,
      "step": 16485
    },
    {
      "epoch": 7.7746346063177745,
      "grad_norm": 0.00037369344499893486,
      "learning_rate": 0.19084077751412284,
      "loss": 0.348,
      "num_input_tokens_seen": 15301232,
      "step": 16490
    },
    {
      "epoch": 7.776991984912777,
      "grad_norm": 0.00033571288804523647,
      "learning_rate": 0.19078409490816986,
      "loss": 0.3338,
      "num_input_tokens_seen": 15305712,
      "step": 16495
    },
    {
      "epoch": 7.779349363507779,
      "grad_norm": 0.00031806668266654015,
      "learning_rate": 0.19072740601279686,
      "loss": 0.3434,
      "num_input_tokens_seen": 15309872,
      "step": 16500
    },
    {
      "epoch": 7.781706742102782,
      "grad_norm": 0.0003469826770015061,
      "learning_rate": 0.19067071083674605,
      "loss": 0.3388,
      "num_input_tokens_seen": 15314144,
      "step": 16505
    },
    {
      "epoch": 7.784064120697784,
      "grad_norm": 0.00021368858870118856,
      "learning_rate": 0.19061400938876052,
      "loss": 0.3412,
      "num_input_tokens_seen": 15318304,
      "step": 16510
    },
    {
      "epoch": 7.7864214992927865,
      "grad_norm": 0.00028889247914776206,
      "learning_rate": 0.1905573016775844,
      "loss": 0.3237,
      "num_input_tokens_seen": 15322912,
      "step": 16515
    },
    {
      "epoch": 7.788778877887789,
      "grad_norm": 0.0005376843037083745,
      "learning_rate": 0.19050058771196263,
      "loss": 0.3362,
      "num_input_tokens_seen": 15328112,
      "step": 16520
    },
    {
      "epoch": 7.791136256482791,
      "grad_norm": 0.00024778468650765717,
      "learning_rate": 0.19044386750064132,
      "loss": 0.3134,
      "num_input_tokens_seen": 15334032,
      "step": 16525
    },
    {
      "epoch": 7.793493635077794,
      "grad_norm": 0.0004144488484598696,
      "learning_rate": 0.19038714105236737,
      "loss": 0.396,
      "num_input_tokens_seen": 15339776,
      "step": 16530
    },
    {
      "epoch": 7.795851013672796,
      "grad_norm": 0.00021837676467839628,
      "learning_rate": 0.19033040837588874,
      "loss": 0.3506,
      "num_input_tokens_seen": 15344336,
      "step": 16535
    },
    {
      "epoch": 7.7982083922677985,
      "grad_norm": 0.0003524569619912654,
      "learning_rate": 0.1902736694799543,
      "loss": 0.3445,
      "num_input_tokens_seen": 15349008,
      "step": 16540
    },
    {
      "epoch": 7.800565770862801,
      "grad_norm": 0.00029534532222896814,
      "learning_rate": 0.19021692437331392,
      "loss": 0.3463,
      "num_input_tokens_seen": 15353680,
      "step": 16545
    },
    {
      "epoch": 7.802923149457803,
      "grad_norm": 0.00026694568805396557,
      "learning_rate": 0.1901601730647184,
      "loss": 0.3437,
      "num_input_tokens_seen": 15358496,
      "step": 16550
    },
    {
      "epoch": 7.805280528052805,
      "grad_norm": 0.00022042846831027418,
      "learning_rate": 0.19010341556291954,
      "loss": 0.3076,
      "num_input_tokens_seen": 15362640,
      "step": 16555
    },
    {
      "epoch": 7.807637906647807,
      "grad_norm": 0.00021794720669277012,
      "learning_rate": 0.19004665187667,
      "loss": 0.334,
      "num_input_tokens_seen": 15367344,
      "step": 16560
    },
    {
      "epoch": 7.80999528524281,
      "grad_norm": 0.00021811449551023543,
      "learning_rate": 0.1899898820147235,
      "loss": 0.3668,
      "num_input_tokens_seen": 15372384,
      "step": 16565
    },
    {
      "epoch": 7.812352663837812,
      "grad_norm": 0.0005198938306421041,
      "learning_rate": 0.18993310598583465,
      "loss": 0.3675,
      "num_input_tokens_seen": 15377584,
      "step": 16570
    },
    {
      "epoch": 7.814710042432814,
      "grad_norm": 0.000318191887345165,
      "learning_rate": 0.18987632379875904,
      "loss": 0.2991,
      "num_input_tokens_seen": 15381248,
      "step": 16575
    },
    {
      "epoch": 7.817067421027817,
      "grad_norm": 0.0006638370687142015,
      "learning_rate": 0.18981953546225314,
      "loss": 0.3278,
      "num_input_tokens_seen": 15385792,
      "step": 16580
    },
    {
      "epoch": 7.819424799622819,
      "grad_norm": 0.000429462525062263,
      "learning_rate": 0.18976274098507445,
      "loss": 0.3359,
      "num_input_tokens_seen": 15390224,
      "step": 16585
    },
    {
      "epoch": 7.821782178217822,
      "grad_norm": 0.00031039590248838067,
      "learning_rate": 0.18970594037598146,
      "loss": 0.3084,
      "num_input_tokens_seen": 15394752,
      "step": 16590
    },
    {
      "epoch": 7.824139556812824,
      "grad_norm": 0.0002194958069594577,
      "learning_rate": 0.1896491336437335,
      "loss": 0.337,
      "num_input_tokens_seen": 15399472,
      "step": 16595
    },
    {
      "epoch": 7.826496935407826,
      "grad_norm": 0.00036761799128726125,
      "learning_rate": 0.18959232079709085,
      "loss": 0.3172,
      "num_input_tokens_seen": 15404160,
      "step": 16600
    },
    {
      "epoch": 7.826496935407826,
      "eval_loss": 0.3260554373264313,
      "eval_runtime": 33.6059,
      "eval_samples_per_second": 28.061,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 15404160,
      "step": 16600
    },
    {
      "epoch": 7.828854314002829,
      "grad_norm": 0.00034929002868011594,
      "learning_rate": 0.18953550184481477,
      "loss": 0.325,
      "num_input_tokens_seen": 15409280,
      "step": 16605
    },
    {
      "epoch": 7.831211692597831,
      "grad_norm": 0.0006658703787252307,
      "learning_rate": 0.18947867679566752,
      "loss": 0.3605,
      "num_input_tokens_seen": 15413680,
      "step": 16610
    },
    {
      "epoch": 7.833569071192834,
      "grad_norm": 0.00039634620770812035,
      "learning_rate": 0.18942184565841216,
      "loss": 0.3128,
      "num_input_tokens_seen": 15417680,
      "step": 16615
    },
    {
      "epoch": 7.835926449787836,
      "grad_norm": 0.00041488022543489933,
      "learning_rate": 0.18936500844181278,
      "loss": 0.3587,
      "num_input_tokens_seen": 15423104,
      "step": 16620
    },
    {
      "epoch": 7.838283828382838,
      "grad_norm": 0.00037923204945400357,
      "learning_rate": 0.18930816515463436,
      "loss": 0.2962,
      "num_input_tokens_seen": 15428368,
      "step": 16625
    },
    {
      "epoch": 7.840641206977841,
      "grad_norm": 0.00040036748396232724,
      "learning_rate": 0.18925131580564297,
      "loss": 0.335,
      "num_input_tokens_seen": 15433552,
      "step": 16630
    },
    {
      "epoch": 7.842998585572843,
      "grad_norm": 0.00036619341699406505,
      "learning_rate": 0.1891944604036054,
      "loss": 0.3264,
      "num_input_tokens_seen": 15438416,
      "step": 16635
    },
    {
      "epoch": 7.845355964167846,
      "grad_norm": 0.0006569855031557381,
      "learning_rate": 0.1891375989572895,
      "loss": 0.3075,
      "num_input_tokens_seen": 15443824,
      "step": 16640
    },
    {
      "epoch": 7.847713342762848,
      "grad_norm": 0.0006838279659859836,
      "learning_rate": 0.18908073147546398,
      "loss": 0.318,
      "num_input_tokens_seen": 15448848,
      "step": 16645
    },
    {
      "epoch": 7.8500707213578504,
      "grad_norm": 0.00026240694569423795,
      "learning_rate": 0.18902385796689858,
      "loss": 0.3928,
      "num_input_tokens_seen": 15453968,
      "step": 16650
    },
    {
      "epoch": 7.852428099952853,
      "grad_norm": 0.0002273023419547826,
      "learning_rate": 0.18896697844036384,
      "loss": 0.3558,
      "num_input_tokens_seen": 15458416,
      "step": 16655
    },
    {
      "epoch": 7.854785478547855,
      "grad_norm": 0.0005160541040822864,
      "learning_rate": 0.18891009290463137,
      "loss": 0.3029,
      "num_input_tokens_seen": 15463456,
      "step": 16660
    },
    {
      "epoch": 7.857142857142857,
      "grad_norm": 0.000307461858028546,
      "learning_rate": 0.18885320136847353,
      "loss": 0.3685,
      "num_input_tokens_seen": 15467440,
      "step": 16665
    },
    {
      "epoch": 7.859500235737859,
      "grad_norm": 0.0002598549472168088,
      "learning_rate": 0.1887963038406639,
      "loss": 0.3053,
      "num_input_tokens_seen": 15472912,
      "step": 16670
    },
    {
      "epoch": 7.861857614332862,
      "grad_norm": 0.0004997841897420585,
      "learning_rate": 0.18873940032997658,
      "loss": 0.337,
      "num_input_tokens_seen": 15477184,
      "step": 16675
    },
    {
      "epoch": 7.864214992927864,
      "grad_norm": 0.00038459678762592375,
      "learning_rate": 0.18868249084518693,
      "loss": 0.3185,
      "num_input_tokens_seen": 15481792,
      "step": 16680
    },
    {
      "epoch": 7.866572371522866,
      "grad_norm": 0.00021416356321424246,
      "learning_rate": 0.18862557539507102,
      "loss": 0.3397,
      "num_input_tokens_seen": 15485936,
      "step": 16685
    },
    {
      "epoch": 7.868929750117869,
      "grad_norm": 0.0005273995921015739,
      "learning_rate": 0.18856865398840605,
      "loss": 0.2833,
      "num_input_tokens_seen": 15491040,
      "step": 16690
    },
    {
      "epoch": 7.871287128712871,
      "grad_norm": 0.0004897058242931962,
      "learning_rate": 0.18851172663396995,
      "loss": 0.3188,
      "num_input_tokens_seen": 15495120,
      "step": 16695
    },
    {
      "epoch": 7.873644507307874,
      "grad_norm": 0.00022410275414586067,
      "learning_rate": 0.1884547933405416,
      "loss": 0.3124,
      "num_input_tokens_seen": 15500336,
      "step": 16700
    },
    {
      "epoch": 7.876001885902876,
      "grad_norm": 0.00045178973232395947,
      "learning_rate": 0.1883978541169009,
      "loss": 0.2647,
      "num_input_tokens_seen": 15504848,
      "step": 16705
    },
    {
      "epoch": 7.878359264497878,
      "grad_norm": 0.00022542728402186185,
      "learning_rate": 0.18834090897182854,
      "loss": 0.2912,
      "num_input_tokens_seen": 15508608,
      "step": 16710
    },
    {
      "epoch": 7.880716643092881,
      "grad_norm": 0.0007271292852237821,
      "learning_rate": 0.1882839579141062,
      "loss": 0.3536,
      "num_input_tokens_seen": 15512928,
      "step": 16715
    },
    {
      "epoch": 7.883074021687883,
      "grad_norm": 0.0003770659677684307,
      "learning_rate": 0.18822700095251646,
      "loss": 0.3568,
      "num_input_tokens_seen": 15517264,
      "step": 16720
    },
    {
      "epoch": 7.885431400282886,
      "grad_norm": 0.0004924650420434773,
      "learning_rate": 0.18817003809584273,
      "loss": 0.3605,
      "num_input_tokens_seen": 15521200,
      "step": 16725
    },
    {
      "epoch": 7.887788778877888,
      "grad_norm": 0.000538489839527756,
      "learning_rate": 0.1881130693528695,
      "loss": 0.3651,
      "num_input_tokens_seen": 15525680,
      "step": 16730
    },
    {
      "epoch": 7.89014615747289,
      "grad_norm": 0.00038299846346490085,
      "learning_rate": 0.18805609473238197,
      "loss": 0.3267,
      "num_input_tokens_seen": 15530848,
      "step": 16735
    },
    {
      "epoch": 7.892503536067893,
      "grad_norm": 0.00027041195426136255,
      "learning_rate": 0.18799911424316643,
      "loss": 0.3229,
      "num_input_tokens_seen": 15536048,
      "step": 16740
    },
    {
      "epoch": 7.894860914662895,
      "grad_norm": 0.00031644542468711734,
      "learning_rate": 0.18794212789400994,
      "loss": 0.3358,
      "num_input_tokens_seen": 15540480,
      "step": 16745
    },
    {
      "epoch": 7.897218293257898,
      "grad_norm": 0.00015878345584496856,
      "learning_rate": 0.18788513569370052,
      "loss": 0.2786,
      "num_input_tokens_seen": 15544976,
      "step": 16750
    },
    {
      "epoch": 7.899575671852899,
      "grad_norm": 0.000619702332187444,
      "learning_rate": 0.1878281376510271,
      "loss": 0.3916,
      "num_input_tokens_seen": 15549600,
      "step": 16755
    },
    {
      "epoch": 7.9019330504479015,
      "grad_norm": 0.0005837402422912419,
      "learning_rate": 0.18777113377477941,
      "loss": 0.3565,
      "num_input_tokens_seen": 15553888,
      "step": 16760
    },
    {
      "epoch": 7.904290429042904,
      "grad_norm": 0.00018715861369855702,
      "learning_rate": 0.1877141240737483,
      "loss": 0.3225,
      "num_input_tokens_seen": 15557360,
      "step": 16765
    },
    {
      "epoch": 7.906647807637906,
      "grad_norm": 0.00030243382207117975,
      "learning_rate": 0.18765710855672527,
      "loss": 0.3211,
      "num_input_tokens_seen": 15561968,
      "step": 16770
    },
    {
      "epoch": 7.909005186232909,
      "grad_norm": 0.00034778440021909773,
      "learning_rate": 0.18760008723250288,
      "loss": 0.3411,
      "num_input_tokens_seen": 15566240,
      "step": 16775
    },
    {
      "epoch": 7.911362564827911,
      "grad_norm": 0.00022542933584190905,
      "learning_rate": 0.18754306010987457,
      "loss": 0.3342,
      "num_input_tokens_seen": 15570736,
      "step": 16780
    },
    {
      "epoch": 7.9137199434229135,
      "grad_norm": 0.0004673406365327537,
      "learning_rate": 0.18748602719763457,
      "loss": 0.3518,
      "num_input_tokens_seen": 15575920,
      "step": 16785
    },
    {
      "epoch": 7.916077322017916,
      "grad_norm": 0.0002886454458348453,
      "learning_rate": 0.18742898850457804,
      "loss": 0.3347,
      "num_input_tokens_seen": 15580080,
      "step": 16790
    },
    {
      "epoch": 7.918434700612918,
      "grad_norm": 0.0005968176410533488,
      "learning_rate": 0.1873719440395012,
      "loss": 0.2959,
      "num_input_tokens_seen": 15585280,
      "step": 16795
    },
    {
      "epoch": 7.920792079207921,
      "grad_norm": 0.00022501104103866965,
      "learning_rate": 0.1873148938112009,
      "loss": 0.3308,
      "num_input_tokens_seen": 15589632,
      "step": 16800
    },
    {
      "epoch": 7.920792079207921,
      "eval_loss": 0.3269668221473694,
      "eval_runtime": 33.611,
      "eval_samples_per_second": 28.056,
      "eval_steps_per_second": 14.043,
      "num_input_tokens_seen": 15589632,
      "step": 16800
    },
    {
      "epoch": 7.923149457802923,
      "grad_norm": 0.0002895141369663179,
      "learning_rate": 0.18725783782847508,
      "loss": 0.2835,
      "num_input_tokens_seen": 15593968,
      "step": 16805
    },
    {
      "epoch": 7.9255068363979255,
      "grad_norm": 0.00019771986990235746,
      "learning_rate": 0.1872007761001224,
      "loss": 0.3051,
      "num_input_tokens_seen": 15598544,
      "step": 16810
    },
    {
      "epoch": 7.927864214992928,
      "grad_norm": 0.0002995284157805145,
      "learning_rate": 0.1871437086349426,
      "loss": 0.3275,
      "num_input_tokens_seen": 15602544,
      "step": 16815
    },
    {
      "epoch": 7.93022159358793,
      "grad_norm": 0.0002324941015103832,
      "learning_rate": 0.18708663544173615,
      "loss": 0.3084,
      "num_input_tokens_seen": 15606864,
      "step": 16820
    },
    {
      "epoch": 7.932578972182933,
      "grad_norm": 0.00038752544787712395,
      "learning_rate": 0.18702955652930442,
      "loss": 0.2873,
      "num_input_tokens_seen": 15611600,
      "step": 16825
    },
    {
      "epoch": 7.934936350777935,
      "grad_norm": 0.00021469297644216567,
      "learning_rate": 0.18697247190644972,
      "loss": 0.2105,
      "num_input_tokens_seen": 15615936,
      "step": 16830
    },
    {
      "epoch": 7.9372937293729375,
      "grad_norm": 0.0001412671263096854,
      "learning_rate": 0.18691538158197527,
      "loss": 0.3585,
      "num_input_tokens_seen": 15621520,
      "step": 16835
    },
    {
      "epoch": 7.93965110796794,
      "grad_norm": 0.00044941939995624125,
      "learning_rate": 0.1868582855646851,
      "loss": 0.3305,
      "num_input_tokens_seen": 15626656,
      "step": 16840
    },
    {
      "epoch": 7.942008486562942,
      "grad_norm": 0.0006781144766137004,
      "learning_rate": 0.18680118386338404,
      "loss": 0.2995,
      "num_input_tokens_seen": 15630944,
      "step": 16845
    },
    {
      "epoch": 7.944365865157945,
      "grad_norm": 0.0003952785045839846,
      "learning_rate": 0.18674407648687794,
      "loss": 0.3553,
      "num_input_tokens_seen": 15635632,
      "step": 16850
    },
    {
      "epoch": 7.946723243752947,
      "grad_norm": 0.0003063715703319758,
      "learning_rate": 0.1866869634439736,
      "loss": 0.3016,
      "num_input_tokens_seen": 15640672,
      "step": 16855
    },
    {
      "epoch": 7.9490806223479495,
      "grad_norm": 0.0003406623436603695,
      "learning_rate": 0.18662984474347838,
      "loss": 0.3396,
      "num_input_tokens_seen": 15646064,
      "step": 16860
    },
    {
      "epoch": 7.951438000942951,
      "grad_norm": 0.000697734416462481,
      "learning_rate": 0.1865727203942008,
      "loss": 0.3163,
      "num_input_tokens_seen": 15650896,
      "step": 16865
    },
    {
      "epoch": 7.9537953795379535,
      "grad_norm": 0.00041309764492325485,
      "learning_rate": 0.1865155904049501,
      "loss": 0.3704,
      "num_input_tokens_seen": 15655344,
      "step": 16870
    },
    {
      "epoch": 7.956152758132956,
      "grad_norm": 0.0009216254693455994,
      "learning_rate": 0.1864584547845365,
      "loss": 0.3137,
      "num_input_tokens_seen": 15660208,
      "step": 16875
    },
    {
      "epoch": 7.958510136727958,
      "grad_norm": 0.0009020057041198015,
      "learning_rate": 0.186401313541771,
      "loss": 0.3629,
      "num_input_tokens_seen": 15664752,
      "step": 16880
    },
    {
      "epoch": 7.960867515322961,
      "grad_norm": 0.0009619747288525105,
      "learning_rate": 0.18634416668546552,
      "loss": 0.3508,
      "num_input_tokens_seen": 15669184,
      "step": 16885
    },
    {
      "epoch": 7.963224893917963,
      "grad_norm": 0.0006307697622105479,
      "learning_rate": 0.1862870142244328,
      "loss": 0.3401,
      "num_input_tokens_seen": 15673520,
      "step": 16890
    },
    {
      "epoch": 7.9655822725129655,
      "grad_norm": 0.0003838291158899665,
      "learning_rate": 0.1862298561674865,
      "loss": 0.3063,
      "num_input_tokens_seen": 15678352,
      "step": 16895
    },
    {
      "epoch": 7.967939651107968,
      "grad_norm": 0.0005330453859642148,
      "learning_rate": 0.18617269252344104,
      "loss": 0.3627,
      "num_input_tokens_seen": 15682896,
      "step": 16900
    },
    {
      "epoch": 7.97029702970297,
      "grad_norm": 0.0004989198059774935,
      "learning_rate": 0.18611552330111186,
      "loss": 0.3812,
      "num_input_tokens_seen": 15688000,
      "step": 16905
    },
    {
      "epoch": 7.972654408297973,
      "grad_norm": 0.0004586662398651242,
      "learning_rate": 0.18605834850931507,
      "loss": 0.3617,
      "num_input_tokens_seen": 15692448,
      "step": 16910
    },
    {
      "epoch": 7.975011786892975,
      "grad_norm": 0.00039745314279571176,
      "learning_rate": 0.18600116815686787,
      "loss": 0.319,
      "num_input_tokens_seen": 15698336,
      "step": 16915
    },
    {
      "epoch": 7.9773691654879775,
      "grad_norm": 0.000259682274190709,
      "learning_rate": 0.1859439822525881,
      "loss": 0.2887,
      "num_input_tokens_seen": 15703872,
      "step": 16920
    },
    {
      "epoch": 7.97972654408298,
      "grad_norm": 0.0003800241684075445,
      "learning_rate": 0.18588679080529455,
      "loss": 0.3673,
      "num_input_tokens_seen": 15708944,
      "step": 16925
    },
    {
      "epoch": 7.982083922677982,
      "grad_norm": 0.0003813332295976579,
      "learning_rate": 0.1858295938238069,
      "loss": 0.2964,
      "num_input_tokens_seen": 15714016,
      "step": 16930
    },
    {
      "epoch": 7.984441301272985,
      "grad_norm": 0.0003936190332751721,
      "learning_rate": 0.18577239131694562,
      "loss": 0.342,
      "num_input_tokens_seen": 15719728,
      "step": 16935
    },
    {
      "epoch": 7.986798679867987,
      "grad_norm": 0.0004804225463885814,
      "learning_rate": 0.18571518329353204,
      "loss": 0.2886,
      "num_input_tokens_seen": 15724560,
      "step": 16940
    },
    {
      "epoch": 7.9891560584629895,
      "grad_norm": 0.00024070459767244756,
      "learning_rate": 0.18565796976238838,
      "loss": 0.2948,
      "num_input_tokens_seen": 15729584,
      "step": 16945
    },
    {
      "epoch": 7.991513437057992,
      "grad_norm": 0.0002541581925470382,
      "learning_rate": 0.18560075073233764,
      "loss": 0.3515,
      "num_input_tokens_seen": 15733760,
      "step": 16950
    },
    {
      "epoch": 7.993870815652993,
      "grad_norm": 0.0005358168855309486,
      "learning_rate": 0.18554352621220377,
      "loss": 0.3397,
      "num_input_tokens_seen": 15739456,
      "step": 16955
    },
    {
      "epoch": 7.996228194247996,
      "grad_norm": 0.0005348525010049343,
      "learning_rate": 0.18548629621081153,
      "loss": 0.3314,
      "num_input_tokens_seen": 15744096,
      "step": 16960
    },
    {
      "epoch": 7.998585572842998,
      "grad_norm": 0.0003517756995279342,
      "learning_rate": 0.18542906073698645,
      "loss": 0.3181,
      "num_input_tokens_seen": 15748416,
      "step": 16965
    },
    {
      "epoch": 8.000942951438,
      "grad_norm": 0.00023416058684233576,
      "learning_rate": 0.18537181979955494,
      "loss": 0.3268,
      "num_input_tokens_seen": 15753504,
      "step": 16970
    },
    {
      "epoch": 8.003300330033003,
      "grad_norm": 0.0005445053684525192,
      "learning_rate": 0.18531457340734434,
      "loss": 0.2545,
      "num_input_tokens_seen": 15757872,
      "step": 16975
    },
    {
      "epoch": 8.005657708628005,
      "grad_norm": 0.000295286881737411,
      "learning_rate": 0.1852573215691827,
      "loss": 0.3008,
      "num_input_tokens_seen": 15762736,
      "step": 16980
    },
    {
      "epoch": 8.008015087223008,
      "grad_norm": 0.0002746206009760499,
      "learning_rate": 0.18520006429389904,
      "loss": 0.3228,
      "num_input_tokens_seen": 15767536,
      "step": 16985
    },
    {
      "epoch": 8.01037246581801,
      "grad_norm": 0.000753149448428303,
      "learning_rate": 0.1851428015903231,
      "loss": 0.3323,
      "num_input_tokens_seen": 15772144,
      "step": 16990
    },
    {
      "epoch": 8.012729844413013,
      "grad_norm": 0.0006977831362746656,
      "learning_rate": 0.1850855334672855,
      "loss": 0.3711,
      "num_input_tokens_seen": 15776800,
      "step": 16995
    },
    {
      "epoch": 8.015087223008015,
      "grad_norm": 0.0005811756709590554,
      "learning_rate": 0.1850282599336178,
      "loss": 0.2996,
      "num_input_tokens_seen": 15781760,
      "step": 17000
    },
    {
      "epoch": 8.015087223008015,
      "eval_loss": 0.3276032507419586,
      "eval_runtime": 33.594,
      "eval_samples_per_second": 28.07,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 15781760,
      "step": 17000
    },
    {
      "epoch": 8.017444601603017,
      "grad_norm": 0.000225729716476053,
      "learning_rate": 0.18497098099815215,
      "loss": 0.2973,
      "num_input_tokens_seen": 15786000,
      "step": 17005
    },
    {
      "epoch": 8.01980198019802,
      "grad_norm": 0.0005325123784132302,
      "learning_rate": 0.18491369666972174,
      "loss": 0.3368,
      "num_input_tokens_seen": 15790560,
      "step": 17010
    },
    {
      "epoch": 8.022159358793022,
      "grad_norm": 0.00025341034051962197,
      "learning_rate": 0.1848564069571606,
      "loss": 0.3485,
      "num_input_tokens_seen": 15794992,
      "step": 17015
    },
    {
      "epoch": 8.024516737388025,
      "grad_norm": 0.000251166959060356,
      "learning_rate": 0.18479911186930348,
      "loss": 0.3868,
      "num_input_tokens_seen": 15799696,
      "step": 17020
    },
    {
      "epoch": 8.026874115983027,
      "grad_norm": 0.0003051766543649137,
      "learning_rate": 0.18474181141498597,
      "loss": 0.326,
      "num_input_tokens_seen": 15804384,
      "step": 17025
    },
    {
      "epoch": 8.02923149457803,
      "grad_norm": 0.00046633536112494767,
      "learning_rate": 0.18468450560304453,
      "loss": 0.37,
      "num_input_tokens_seen": 15809248,
      "step": 17030
    },
    {
      "epoch": 8.031588873173032,
      "grad_norm": 0.000686612562276423,
      "learning_rate": 0.1846271944423165,
      "loss": 0.3595,
      "num_input_tokens_seen": 15813680,
      "step": 17035
    },
    {
      "epoch": 8.033946251768034,
      "grad_norm": 0.00028769506025128067,
      "learning_rate": 0.18456987794163993,
      "loss": 0.3329,
      "num_input_tokens_seen": 15818816,
      "step": 17040
    },
    {
      "epoch": 8.036303630363037,
      "grad_norm": 0.0008562598377466202,
      "learning_rate": 0.18451255610985373,
      "loss": 0.3583,
      "num_input_tokens_seen": 15823760,
      "step": 17045
    },
    {
      "epoch": 8.038661008958039,
      "grad_norm": 0.00044938779319636524,
      "learning_rate": 0.18445522895579766,
      "loss": 0.3464,
      "num_input_tokens_seen": 15828800,
      "step": 17050
    },
    {
      "epoch": 8.041018387553041,
      "grad_norm": 0.00030482953297905624,
      "learning_rate": 0.1843978964883123,
      "loss": 0.3292,
      "num_input_tokens_seen": 15832880,
      "step": 17055
    },
    {
      "epoch": 8.043375766148044,
      "grad_norm": 0.000305117602692917,
      "learning_rate": 0.18434055871623906,
      "loss": 0.3155,
      "num_input_tokens_seen": 15837584,
      "step": 17060
    },
    {
      "epoch": 8.045733144743046,
      "grad_norm": 0.0003334605135023594,
      "learning_rate": 0.18428321564842007,
      "loss": 0.3304,
      "num_input_tokens_seen": 15841856,
      "step": 17065
    },
    {
      "epoch": 8.048090523338049,
      "grad_norm": 0.0005306003149598837,
      "learning_rate": 0.18422586729369841,
      "loss": 0.3324,
      "num_input_tokens_seen": 15846528,
      "step": 17070
    },
    {
      "epoch": 8.050447901933051,
      "grad_norm": 0.0011826605768874288,
      "learning_rate": 0.1841685136609179,
      "loss": 0.3478,
      "num_input_tokens_seen": 15851568,
      "step": 17075
    },
    {
      "epoch": 8.052805280528053,
      "grad_norm": 0.0003988984681200236,
      "learning_rate": 0.18411115475892326,
      "loss": 0.3418,
      "num_input_tokens_seen": 15856416,
      "step": 17080
    },
    {
      "epoch": 8.055162659123056,
      "grad_norm": 0.00040826015174388885,
      "learning_rate": 0.18405379059655982,
      "loss": 0.3555,
      "num_input_tokens_seen": 15861856,
      "step": 17085
    },
    {
      "epoch": 8.057520037718058,
      "grad_norm": 0.0003672083548735827,
      "learning_rate": 0.1839964211826739,
      "loss": 0.3005,
      "num_input_tokens_seen": 15866432,
      "step": 17090
    },
    {
      "epoch": 8.05987741631306,
      "grad_norm": 0.0006478044670075178,
      "learning_rate": 0.18393904652611265,
      "loss": 0.3292,
      "num_input_tokens_seen": 15870944,
      "step": 17095
    },
    {
      "epoch": 8.062234794908063,
      "grad_norm": 0.00021779544476885349,
      "learning_rate": 0.18388166663572392,
      "loss": 0.3172,
      "num_input_tokens_seen": 15875984,
      "step": 17100
    },
    {
      "epoch": 8.064592173503065,
      "grad_norm": 0.0012966010253876448,
      "learning_rate": 0.18382428152035643,
      "loss": 0.3801,
      "num_input_tokens_seen": 15881728,
      "step": 17105
    },
    {
      "epoch": 8.066949552098066,
      "grad_norm": 0.00041270809015259147,
      "learning_rate": 0.1837668911888596,
      "loss": 0.333,
      "num_input_tokens_seen": 15886144,
      "step": 17110
    },
    {
      "epoch": 8.069306930693068,
      "grad_norm": 0.0006507821963168681,
      "learning_rate": 0.18370949565008388,
      "loss": 0.315,
      "num_input_tokens_seen": 15890896,
      "step": 17115
    },
    {
      "epoch": 8.07166430928807,
      "grad_norm": 0.0002900815161410719,
      "learning_rate": 0.1836520949128803,
      "loss": 0.3242,
      "num_input_tokens_seen": 15895184,
      "step": 17120
    },
    {
      "epoch": 8.074021687883073,
      "grad_norm": 0.0002052258641924709,
      "learning_rate": 0.18359468898610076,
      "loss": 0.3252,
      "num_input_tokens_seen": 15900752,
      "step": 17125
    },
    {
      "epoch": 8.076379066478076,
      "grad_norm": 0.0008052071207202971,
      "learning_rate": 0.18353727787859797,
      "loss": 0.3462,
      "num_input_tokens_seen": 15904928,
      "step": 17130
    },
    {
      "epoch": 8.078736445073078,
      "grad_norm": 0.0002632287214510143,
      "learning_rate": 0.18347986159922552,
      "loss": 0.2956,
      "num_input_tokens_seen": 15909360,
      "step": 17135
    },
    {
      "epoch": 8.08109382366808,
      "grad_norm": 0.00023552932543680072,
      "learning_rate": 0.1834224401568377,
      "loss": 0.3754,
      "num_input_tokens_seen": 15914336,
      "step": 17140
    },
    {
      "epoch": 8.083451202263083,
      "grad_norm": 0.0007396420114673674,
      "learning_rate": 0.1833650135602896,
      "loss": 0.3661,
      "num_input_tokens_seen": 15917712,
      "step": 17145
    },
    {
      "epoch": 8.085808580858085,
      "grad_norm": 0.00048298208275809884,
      "learning_rate": 0.18330758181843707,
      "loss": 0.3011,
      "num_input_tokens_seen": 15922144,
      "step": 17150
    },
    {
      "epoch": 8.088165959453088,
      "grad_norm": 0.00041282863821834326,
      "learning_rate": 0.18325014494013686,
      "loss": 0.33,
      "num_input_tokens_seen": 15925792,
      "step": 17155
    },
    {
      "epoch": 8.09052333804809,
      "grad_norm": 0.00031351676443591714,
      "learning_rate": 0.18319270293424647,
      "loss": 0.3137,
      "num_input_tokens_seen": 15930784,
      "step": 17160
    },
    {
      "epoch": 8.092880716643092,
      "grad_norm": 0.0007431934936903417,
      "learning_rate": 0.18313525580962417,
      "loss": 0.3013,
      "num_input_tokens_seen": 15935056,
      "step": 17165
    },
    {
      "epoch": 8.095238095238095,
      "grad_norm": 0.0005927301826886833,
      "learning_rate": 0.18307780357512896,
      "loss": 0.3508,
      "num_input_tokens_seen": 15939648,
      "step": 17170
    },
    {
      "epoch": 8.097595473833097,
      "grad_norm": 0.000503462681081146,
      "learning_rate": 0.1830203462396208,
      "loss": 0.3387,
      "num_input_tokens_seen": 15944384,
      "step": 17175
    },
    {
      "epoch": 8.0999528524281,
      "grad_norm": 0.0002910495677497238,
      "learning_rate": 0.18296288381196033,
      "loss": 0.3537,
      "num_input_tokens_seen": 15949664,
      "step": 17180
    },
    {
      "epoch": 8.102310231023102,
      "grad_norm": 0.0006931686075404286,
      "learning_rate": 0.1829054163010089,
      "loss": 0.3069,
      "num_input_tokens_seen": 15953920,
      "step": 17185
    },
    {
      "epoch": 8.104667609618105,
      "grad_norm": 0.00031972574652172625,
      "learning_rate": 0.18284794371562874,
      "loss": 0.3266,
      "num_input_tokens_seen": 15958848,
      "step": 17190
    },
    {
      "epoch": 8.107024988213107,
      "grad_norm": 0.00030897505348548293,
      "learning_rate": 0.18279046606468288,
      "loss": 0.3271,
      "num_input_tokens_seen": 15963168,
      "step": 17195
    },
    {
      "epoch": 8.10938236680811,
      "grad_norm": 0.0003154225996695459,
      "learning_rate": 0.1827329833570351,
      "loss": 0.3615,
      "num_input_tokens_seen": 15967648,
      "step": 17200
    },
    {
      "epoch": 8.10938236680811,
      "eval_loss": 0.3266132175922394,
      "eval_runtime": 33.559,
      "eval_samples_per_second": 28.1,
      "eval_steps_per_second": 14.065,
      "num_input_tokens_seen": 15967648,
      "step": 17200
    },
    {
      "epoch": 8.111739745403112,
      "grad_norm": 0.00035441125510260463,
      "learning_rate": 0.18267549560154991,
      "loss": 0.3636,
      "num_input_tokens_seen": 15971920,
      "step": 17205
    },
    {
      "epoch": 8.114097123998114,
      "grad_norm": 0.0004869486147072166,
      "learning_rate": 0.18261800280709267,
      "loss": 0.3211,
      "num_input_tokens_seen": 15976656,
      "step": 17210
    },
    {
      "epoch": 8.116454502593117,
      "grad_norm": 0.0004579440865200013,
      "learning_rate": 0.18256050498252957,
      "loss": 0.3244,
      "num_input_tokens_seen": 15982144,
      "step": 17215
    },
    {
      "epoch": 8.118811881188119,
      "grad_norm": 0.0004885134985670447,
      "learning_rate": 0.18250300213672735,
      "loss": 0.3537,
      "num_input_tokens_seen": 15986208,
      "step": 17220
    },
    {
      "epoch": 8.121169259783121,
      "grad_norm": 0.0004185684665571898,
      "learning_rate": 0.18244549427855378,
      "loss": 0.3772,
      "num_input_tokens_seen": 15990896,
      "step": 17225
    },
    {
      "epoch": 8.123526638378124,
      "grad_norm": 0.0006653285818174481,
      "learning_rate": 0.1823879814168772,
      "loss": 0.3186,
      "num_input_tokens_seen": 15995312,
      "step": 17230
    },
    {
      "epoch": 8.125884016973126,
      "grad_norm": 0.00024280061188619584,
      "learning_rate": 0.18233046356056692,
      "loss": 0.3528,
      "num_input_tokens_seen": 15999904,
      "step": 17235
    },
    {
      "epoch": 8.128241395568129,
      "grad_norm": 0.0004984895931556821,
      "learning_rate": 0.18227294071849284,
      "loss": 0.3168,
      "num_input_tokens_seen": 16005424,
      "step": 17240
    },
    {
      "epoch": 8.130598774163131,
      "grad_norm": 0.0005346802645362914,
      "learning_rate": 0.18221541289952578,
      "loss": 0.3145,
      "num_input_tokens_seen": 16009600,
      "step": 17245
    },
    {
      "epoch": 8.132956152758133,
      "grad_norm": 0.00031788204796612263,
      "learning_rate": 0.18215788011253717,
      "loss": 0.3399,
      "num_input_tokens_seen": 16015248,
      "step": 17250
    },
    {
      "epoch": 8.135313531353136,
      "grad_norm": 0.00040718348463997245,
      "learning_rate": 0.18210034236639935,
      "loss": 0.3086,
      "num_input_tokens_seen": 16020816,
      "step": 17255
    },
    {
      "epoch": 8.137670909948138,
      "grad_norm": 0.00040172459557652473,
      "learning_rate": 0.1820427996699853,
      "loss": 0.2701,
      "num_input_tokens_seen": 16025200,
      "step": 17260
    },
    {
      "epoch": 8.14002828854314,
      "grad_norm": 0.00018395001825410873,
      "learning_rate": 0.1819852520321689,
      "loss": 0.3407,
      "num_input_tokens_seen": 16029792,
      "step": 17265
    },
    {
      "epoch": 8.142385667138143,
      "grad_norm": 0.00038328045047819614,
      "learning_rate": 0.18192769946182466,
      "loss": 0.3285,
      "num_input_tokens_seen": 16034080,
      "step": 17270
    },
    {
      "epoch": 8.144743045733145,
      "grad_norm": 0.00035317279980517924,
      "learning_rate": 0.18187014196782794,
      "loss": 0.2695,
      "num_input_tokens_seen": 16039440,
      "step": 17275
    },
    {
      "epoch": 8.147100424328148,
      "grad_norm": 0.00028849212685599923,
      "learning_rate": 0.18181257955905486,
      "loss": 0.2643,
      "num_input_tokens_seen": 16044800,
      "step": 17280
    },
    {
      "epoch": 8.14945780292315,
      "grad_norm": 0.0005132571095600724,
      "learning_rate": 0.18175501224438217,
      "loss": 0.3663,
      "num_input_tokens_seen": 16049392,
      "step": 17285
    },
    {
      "epoch": 8.151815181518153,
      "grad_norm": 0.0005847631255164742,
      "learning_rate": 0.18169744003268756,
      "loss": 0.4095,
      "num_input_tokens_seen": 16054336,
      "step": 17290
    },
    {
      "epoch": 8.154172560113155,
      "grad_norm": 0.0001598433154867962,
      "learning_rate": 0.18163986293284937,
      "loss": 0.4059,
      "num_input_tokens_seen": 16059264,
      "step": 17295
    },
    {
      "epoch": 8.156529938708157,
      "grad_norm": 0.0005239294259808958,
      "learning_rate": 0.18158228095374673,
      "loss": 0.3314,
      "num_input_tokens_seen": 16063968,
      "step": 17300
    },
    {
      "epoch": 8.15888731730316,
      "grad_norm": 0.00027282274095341563,
      "learning_rate": 0.18152469410425945,
      "loss": 0.3244,
      "num_input_tokens_seen": 16068704,
      "step": 17305
    },
    {
      "epoch": 8.16124469589816,
      "grad_norm": 0.0005093517247587442,
      "learning_rate": 0.18146710239326813,
      "loss": 0.3428,
      "num_input_tokens_seen": 16074432,
      "step": 17310
    },
    {
      "epoch": 8.163602074493163,
      "grad_norm": 0.00021159173047635704,
      "learning_rate": 0.18140950582965423,
      "loss": 0.3492,
      "num_input_tokens_seen": 16079312,
      "step": 17315
    },
    {
      "epoch": 8.165959453088165,
      "grad_norm": 0.0007319399155676365,
      "learning_rate": 0.1813519044222998,
      "loss": 0.3646,
      "num_input_tokens_seen": 16083888,
      "step": 17320
    },
    {
      "epoch": 8.168316831683168,
      "grad_norm": 0.0005143336020410061,
      "learning_rate": 0.18129429818008772,
      "loss": 0.341,
      "num_input_tokens_seen": 16088352,
      "step": 17325
    },
    {
      "epoch": 8.17067421027817,
      "grad_norm": 0.00044297604472376406,
      "learning_rate": 0.18123668711190163,
      "loss": 0.3188,
      "num_input_tokens_seen": 16092736,
      "step": 17330
    },
    {
      "epoch": 8.173031588873172,
      "grad_norm": 0.00025249889586120844,
      "learning_rate": 0.18117907122662583,
      "loss": 0.325,
      "num_input_tokens_seen": 16097568,
      "step": 17335
    },
    {
      "epoch": 8.175388967468175,
      "grad_norm": 0.0005351376021280885,
      "learning_rate": 0.1811214505331454,
      "loss": 0.2891,
      "num_input_tokens_seen": 16101808,
      "step": 17340
    },
    {
      "epoch": 8.177746346063177,
      "grad_norm": 0.00037075774162076414,
      "learning_rate": 0.1810638250403462,
      "loss": 0.3255,
      "num_input_tokens_seen": 16105824,
      "step": 17345
    },
    {
      "epoch": 8.18010372465818,
      "grad_norm": 0.00019074499141424894,
      "learning_rate": 0.1810061947571148,
      "loss": 0.328,
      "num_input_tokens_seen": 16109552,
      "step": 17350
    },
    {
      "epoch": 8.182461103253182,
      "grad_norm": 0.00024427540483884513,
      "learning_rate": 0.1809485596923385,
      "loss": 0.2756,
      "num_input_tokens_seen": 16113648,
      "step": 17355
    },
    {
      "epoch": 8.184818481848184,
      "grad_norm": 0.00017441211093682796,
      "learning_rate": 0.18089091985490546,
      "loss": 0.3555,
      "num_input_tokens_seen": 16117920,
      "step": 17360
    },
    {
      "epoch": 8.187175860443187,
      "grad_norm": 0.0004783869662787765,
      "learning_rate": 0.18083327525370432,
      "loss": 0.3493,
      "num_input_tokens_seen": 16121760,
      "step": 17365
    },
    {
      "epoch": 8.18953323903819,
      "grad_norm": 0.00159170338883996,
      "learning_rate": 0.18077562589762464,
      "loss": 0.37,
      "num_input_tokens_seen": 16125840,
      "step": 17370
    },
    {
      "epoch": 8.191890617633192,
      "grad_norm": 0.0002283254434587434,
      "learning_rate": 0.1807179717955567,
      "loss": 0.368,
      "num_input_tokens_seen": 16130256,
      "step": 17375
    },
    {
      "epoch": 8.194247996228194,
      "grad_norm": 0.0006015698309056461,
      "learning_rate": 0.1806603129563915,
      "loss": 0.3079,
      "num_input_tokens_seen": 16134320,
      "step": 17380
    },
    {
      "epoch": 8.196605374823196,
      "grad_norm": 0.0004827545490115881,
      "learning_rate": 0.1806026493890208,
      "loss": 0.3108,
      "num_input_tokens_seen": 16139504,
      "step": 17385
    },
    {
      "epoch": 8.198962753418199,
      "grad_norm": 0.0003193916636519134,
      "learning_rate": 0.18054498110233688,
      "loss": 0.3081,
      "num_input_tokens_seen": 16145120,
      "step": 17390
    },
    {
      "epoch": 8.201320132013201,
      "grad_norm": 0.00040037097642198205,
      "learning_rate": 0.1804873081052331,
      "loss": 0.3053,
      "num_input_tokens_seen": 16150512,
      "step": 17395
    },
    {
      "epoch": 8.203677510608204,
      "grad_norm": 0.0004879729531239718,
      "learning_rate": 0.18042963040660326,
      "loss": 0.264,
      "num_input_tokens_seen": 16155248,
      "step": 17400
    },
    {
      "epoch": 8.203677510608204,
      "eval_loss": 0.32720980048179626,
      "eval_runtime": 33.5896,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 16155248,
      "step": 17400
    },
    {
      "epoch": 8.206034889203206,
      "grad_norm": 0.00031486322404816747,
      "learning_rate": 0.180371948015342,
      "loss": 0.292,
      "num_input_tokens_seen": 16159808,
      "step": 17405
    },
    {
      "epoch": 8.208392267798208,
      "grad_norm": 0.00016074492305051535,
      "learning_rate": 0.18031426094034472,
      "loss": 0.3442,
      "num_input_tokens_seen": 16165360,
      "step": 17410
    },
    {
      "epoch": 8.21074964639321,
      "grad_norm": 0.00040153515874408185,
      "learning_rate": 0.18025656919050737,
      "loss": 0.2632,
      "num_input_tokens_seen": 16169392,
      "step": 17415
    },
    {
      "epoch": 8.213107024988213,
      "grad_norm": 0.00035954368649981916,
      "learning_rate": 0.18019887277472688,
      "loss": 0.2995,
      "num_input_tokens_seen": 16173440,
      "step": 17420
    },
    {
      "epoch": 8.215464403583216,
      "grad_norm": 0.0006675088661722839,
      "learning_rate": 0.18014117170190067,
      "loss": 0.3969,
      "num_input_tokens_seen": 16177840,
      "step": 17425
    },
    {
      "epoch": 8.217821782178218,
      "grad_norm": 0.0004360547463875264,
      "learning_rate": 0.18008346598092703,
      "loss": 0.3747,
      "num_input_tokens_seen": 16182448,
      "step": 17430
    },
    {
      "epoch": 8.22017916077322,
      "grad_norm": 0.00026428658748045564,
      "learning_rate": 0.18002575562070489,
      "loss": 0.3557,
      "num_input_tokens_seen": 16186928,
      "step": 17435
    },
    {
      "epoch": 8.222536539368223,
      "grad_norm": 0.0005883892299607396,
      "learning_rate": 0.1799680406301339,
      "loss": 0.282,
      "num_input_tokens_seen": 16191280,
      "step": 17440
    },
    {
      "epoch": 8.224893917963225,
      "grad_norm": 0.000517302833031863,
      "learning_rate": 0.17991032101811447,
      "loss": 0.3398,
      "num_input_tokens_seen": 16195648,
      "step": 17445
    },
    {
      "epoch": 8.227251296558228,
      "grad_norm": 0.0002960430283565074,
      "learning_rate": 0.1798525967935476,
      "loss": 0.3533,
      "num_input_tokens_seen": 16199328,
      "step": 17450
    },
    {
      "epoch": 8.22960867515323,
      "grad_norm": 0.00018069699581246823,
      "learning_rate": 0.17979486796533517,
      "loss": 0.3557,
      "num_input_tokens_seen": 16204144,
      "step": 17455
    },
    {
      "epoch": 8.231966053748232,
      "grad_norm": 0.00022007772349752486,
      "learning_rate": 0.1797371345423797,
      "loss": 0.3046,
      "num_input_tokens_seen": 16209296,
      "step": 17460
    },
    {
      "epoch": 8.234323432343235,
      "grad_norm": 0.0005171293159946799,
      "learning_rate": 0.17967939653358436,
      "loss": 0.3781,
      "num_input_tokens_seen": 16214192,
      "step": 17465
    },
    {
      "epoch": 8.236680810938237,
      "grad_norm": 0.00026039639487862587,
      "learning_rate": 0.17962165394785315,
      "loss": 0.3035,
      "num_input_tokens_seen": 16218848,
      "step": 17470
    },
    {
      "epoch": 8.23903818953324,
      "grad_norm": 0.00023461654200218618,
      "learning_rate": 0.17956390679409057,
      "loss": 0.3545,
      "num_input_tokens_seen": 16224000,
      "step": 17475
    },
    {
      "epoch": 8.241395568128242,
      "grad_norm": 0.00032407575054094195,
      "learning_rate": 0.1795061550812021,
      "loss": 0.34,
      "num_input_tokens_seen": 16228512,
      "step": 17480
    },
    {
      "epoch": 8.243752946723244,
      "grad_norm": 0.0002584989124443382,
      "learning_rate": 0.1794483988180937,
      "loss": 0.3359,
      "num_input_tokens_seen": 16233008,
      "step": 17485
    },
    {
      "epoch": 8.246110325318247,
      "grad_norm": 0.00024408724857494235,
      "learning_rate": 0.17939063801367214,
      "loss": 0.3304,
      "num_input_tokens_seen": 16238240,
      "step": 17490
    },
    {
      "epoch": 8.24846770391325,
      "grad_norm": 0.0004219076072331518,
      "learning_rate": 0.17933287267684483,
      "loss": 0.3686,
      "num_input_tokens_seen": 16242288,
      "step": 17495
    },
    {
      "epoch": 8.250825082508252,
      "grad_norm": 0.0005013042828068137,
      "learning_rate": 0.17927510281651995,
      "loss": 0.3323,
      "num_input_tokens_seen": 16246016,
      "step": 17500
    },
    {
      "epoch": 8.253182461103254,
      "grad_norm": 0.0007201025146059692,
      "learning_rate": 0.17921732844160634,
      "loss": 0.3517,
      "num_input_tokens_seen": 16250368,
      "step": 17505
    },
    {
      "epoch": 8.255539839698255,
      "grad_norm": 0.00015265624097082764,
      "learning_rate": 0.17915954956101351,
      "loss": 0.3417,
      "num_input_tokens_seen": 16254528,
      "step": 17510
    },
    {
      "epoch": 8.257897218293257,
      "grad_norm": 0.0003103270137216896,
      "learning_rate": 0.17910176618365165,
      "loss": 0.3507,
      "num_input_tokens_seen": 16261568,
      "step": 17515
    },
    {
      "epoch": 8.26025459688826,
      "grad_norm": 0.0003080293536186218,
      "learning_rate": 0.17904397831843177,
      "loss": 0.3285,
      "num_input_tokens_seen": 16266352,
      "step": 17520
    },
    {
      "epoch": 8.262611975483262,
      "grad_norm": 0.00031000046874396503,
      "learning_rate": 0.17898618597426547,
      "loss": 0.3145,
      "num_input_tokens_seen": 16270560,
      "step": 17525
    },
    {
      "epoch": 8.264969354078264,
      "grad_norm": 0.0004498746420722455,
      "learning_rate": 0.17892838916006495,
      "loss": 0.283,
      "num_input_tokens_seen": 16276464,
      "step": 17530
    },
    {
      "epoch": 8.267326732673267,
      "grad_norm": 0.0005242048064246774,
      "learning_rate": 0.17887058788474333,
      "loss": 0.2655,
      "num_input_tokens_seen": 16281232,
      "step": 17535
    },
    {
      "epoch": 8.269684111268269,
      "grad_norm": 0.00036958910641260445,
      "learning_rate": 0.17881278215721427,
      "loss": 0.2855,
      "num_input_tokens_seen": 16286240,
      "step": 17540
    },
    {
      "epoch": 8.272041489863271,
      "grad_norm": 0.00028744718292728066,
      "learning_rate": 0.1787549719863921,
      "loss": 0.4054,
      "num_input_tokens_seen": 16291040,
      "step": 17545
    },
    {
      "epoch": 8.274398868458274,
      "grad_norm": 0.00012846702884417027,
      "learning_rate": 0.17869715738119188,
      "loss": 0.4039,
      "num_input_tokens_seen": 16295392,
      "step": 17550
    },
    {
      "epoch": 8.276756247053276,
      "grad_norm": 0.0003230931470170617,
      "learning_rate": 0.17863933835052936,
      "loss": 0.3359,
      "num_input_tokens_seen": 16300544,
      "step": 17555
    },
    {
      "epoch": 8.279113625648279,
      "grad_norm": 0.0008025194983929396,
      "learning_rate": 0.17858151490332097,
      "loss": 0.357,
      "num_input_tokens_seen": 16304576,
      "step": 17560
    },
    {
      "epoch": 8.281471004243281,
      "grad_norm": 0.00047437509056180716,
      "learning_rate": 0.17852368704848381,
      "loss": 0.3447,
      "num_input_tokens_seen": 16308592,
      "step": 17565
    },
    {
      "epoch": 8.283828382838283,
      "grad_norm": 0.00026102567790076137,
      "learning_rate": 0.17846585479493565,
      "loss": 0.3514,
      "num_input_tokens_seen": 16313296,
      "step": 17570
    },
    {
      "epoch": 8.286185761433286,
      "grad_norm": 0.00023070385213941336,
      "learning_rate": 0.178408018151595,
      "loss": 0.314,
      "num_input_tokens_seen": 16318400,
      "step": 17575
    },
    {
      "epoch": 8.288543140028288,
      "grad_norm": 0.00027632652199827135,
      "learning_rate": 0.17835017712738085,
      "loss": 0.3217,
      "num_input_tokens_seen": 16324496,
      "step": 17580
    },
    {
      "epoch": 8.29090051862329,
      "grad_norm": 0.0003912379324901849,
      "learning_rate": 0.17829233173121323,
      "loss": 0.3335,
      "num_input_tokens_seen": 16329744,
      "step": 17585
    },
    {
      "epoch": 8.293257897218293,
      "grad_norm": 0.0005650826497003436,
      "learning_rate": 0.17823448197201244,
      "loss": 0.3387,
      "num_input_tokens_seen": 16334352,
      "step": 17590
    },
    {
      "epoch": 8.295615275813295,
      "grad_norm": 0.0003124678914900869,
      "learning_rate": 0.1781766278586997,
      "loss": 0.3305,
      "num_input_tokens_seen": 16338672,
      "step": 17595
    },
    {
      "epoch": 8.297972654408298,
      "grad_norm": 0.000696327246259898,
      "learning_rate": 0.1781187694001969,
      "loss": 0.3241,
      "num_input_tokens_seen": 16343648,
      "step": 17600
    },
    {
      "epoch": 8.297972654408298,
      "eval_loss": 0.3268844783306122,
      "eval_runtime": 33.5956,
      "eval_samples_per_second": 28.069,
      "eval_steps_per_second": 14.049,
      "num_input_tokens_seen": 16343648,
      "step": 17600
    },
    {
      "epoch": 8.3003300330033,
      "grad_norm": 0.0004929974675178528,
      "learning_rate": 0.1780609066054265,
      "loss": 0.3155,
      "num_input_tokens_seen": 16347648,
      "step": 17605
    },
    {
      "epoch": 8.302687411598303,
      "grad_norm": 0.0002471339248586446,
      "learning_rate": 0.17800303948331164,
      "loss": 0.3551,
      "num_input_tokens_seen": 16351440,
      "step": 17610
    },
    {
      "epoch": 8.305044790193305,
      "grad_norm": 0.0004606471920851618,
      "learning_rate": 0.1779451680427762,
      "loss": 0.3703,
      "num_input_tokens_seen": 16356144,
      "step": 17615
    },
    {
      "epoch": 8.307402168788308,
      "grad_norm": 0.00022450328106060624,
      "learning_rate": 0.17788729229274464,
      "loss": 0.3193,
      "num_input_tokens_seen": 16360112,
      "step": 17620
    },
    {
      "epoch": 8.30975954738331,
      "grad_norm": 0.0002670462417881936,
      "learning_rate": 0.17782941224214222,
      "loss": 0.3003,
      "num_input_tokens_seen": 16365216,
      "step": 17625
    },
    {
      "epoch": 8.312116925978312,
      "grad_norm": 0.00043486052891239524,
      "learning_rate": 0.17777152789989464,
      "loss": 0.3597,
      "num_input_tokens_seen": 16369136,
      "step": 17630
    },
    {
      "epoch": 8.314474304573315,
      "grad_norm": 0.0005045923753641546,
      "learning_rate": 0.17771363927492845,
      "loss": 0.3239,
      "num_input_tokens_seen": 16373328,
      "step": 17635
    },
    {
      "epoch": 8.316831683168317,
      "grad_norm": 0.00027445907471701503,
      "learning_rate": 0.17765574637617085,
      "loss": 0.3216,
      "num_input_tokens_seen": 16377824,
      "step": 17640
    },
    {
      "epoch": 8.31918906176332,
      "grad_norm": 0.0002739002520684153,
      "learning_rate": 0.17759784921254962,
      "loss": 0.3045,
      "num_input_tokens_seen": 16381584,
      "step": 17645
    },
    {
      "epoch": 8.321546440358322,
      "grad_norm": 0.00047795590944588184,
      "learning_rate": 0.1775399477929932,
      "loss": 0.3451,
      "num_input_tokens_seen": 16387216,
      "step": 17650
    },
    {
      "epoch": 8.323903818953324,
      "grad_norm": 0.0005194394616410136,
      "learning_rate": 0.17748204212643076,
      "loss": 0.3046,
      "num_input_tokens_seen": 16391440,
      "step": 17655
    },
    {
      "epoch": 8.326261197548327,
      "grad_norm": 0.0002706462692003697,
      "learning_rate": 0.17742413222179204,
      "loss": 0.2732,
      "num_input_tokens_seen": 16396352,
      "step": 17660
    },
    {
      "epoch": 8.32861857614333,
      "grad_norm": 0.00014219475269783288,
      "learning_rate": 0.17736621808800754,
      "loss": 0.3463,
      "num_input_tokens_seen": 16400544,
      "step": 17665
    },
    {
      "epoch": 8.330975954738332,
      "grad_norm": 0.00022757210535928607,
      "learning_rate": 0.17730829973400827,
      "loss": 0.3845,
      "num_input_tokens_seen": 16404848,
      "step": 17670
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.00044904774404130876,
      "learning_rate": 0.17725037716872602,
      "loss": 0.3652,
      "num_input_tokens_seen": 16410272,
      "step": 17675
    },
    {
      "epoch": 8.335690711928336,
      "grad_norm": 0.00040539581095799804,
      "learning_rate": 0.17719245040109313,
      "loss": 0.3053,
      "num_input_tokens_seen": 16414176,
      "step": 17680
    },
    {
      "epoch": 8.338048090523339,
      "grad_norm": 0.0001928264828165993,
      "learning_rate": 0.17713451944004271,
      "loss": 0.3435,
      "num_input_tokens_seen": 16418544,
      "step": 17685
    },
    {
      "epoch": 8.340405469118341,
      "grad_norm": 0.0004705993924289942,
      "learning_rate": 0.17707658429450843,
      "loss": 0.301,
      "num_input_tokens_seen": 16423968,
      "step": 17690
    },
    {
      "epoch": 8.342762847713344,
      "grad_norm": 0.00033738353522494435,
      "learning_rate": 0.1770186449734245,
      "loss": 0.3132,
      "num_input_tokens_seen": 16428464,
      "step": 17695
    },
    {
      "epoch": 8.345120226308346,
      "grad_norm": 0.000658202450722456,
      "learning_rate": 0.17696070148572599,
      "loss": 0.2726,
      "num_input_tokens_seen": 16433120,
      "step": 17700
    },
    {
      "epoch": 8.347477604903348,
      "grad_norm": 0.0005019245436415076,
      "learning_rate": 0.17690275384034856,
      "loss": 0.326,
      "num_input_tokens_seen": 16437120,
      "step": 17705
    },
    {
      "epoch": 8.34983498349835,
      "grad_norm": 0.0010863404022529721,
      "learning_rate": 0.17684480204622835,
      "loss": 0.3585,
      "num_input_tokens_seen": 16441776,
      "step": 17710
    },
    {
      "epoch": 8.352192362093351,
      "grad_norm": 0.00036559358704835176,
      "learning_rate": 0.1767868461123023,
      "loss": 0.3662,
      "num_input_tokens_seen": 16446032,
      "step": 17715
    },
    {
      "epoch": 8.354549740688354,
      "grad_norm": 0.00019661220721900463,
      "learning_rate": 0.176728886047508,
      "loss": 0.3451,
      "num_input_tokens_seen": 16449760,
      "step": 17720
    },
    {
      "epoch": 8.356907119283356,
      "grad_norm": 0.0001943078386830166,
      "learning_rate": 0.17667092186078362,
      "loss": 0.3488,
      "num_input_tokens_seen": 16454192,
      "step": 17725
    },
    {
      "epoch": 8.359264497878359,
      "grad_norm": 0.0003444980247877538,
      "learning_rate": 0.17661295356106785,
      "loss": 0.3106,
      "num_input_tokens_seen": 16458720,
      "step": 17730
    },
    {
      "epoch": 8.361621876473361,
      "grad_norm": 0.0006403803708963096,
      "learning_rate": 0.1765549811573002,
      "loss": 0.3589,
      "num_input_tokens_seen": 16463008,
      "step": 17735
    },
    {
      "epoch": 8.363979255068363,
      "grad_norm": 0.00023417103511746973,
      "learning_rate": 0.17649700465842078,
      "loss": 0.346,
      "num_input_tokens_seen": 16467104,
      "step": 17740
    },
    {
      "epoch": 8.366336633663366,
      "grad_norm": 0.00034623988904058933,
      "learning_rate": 0.17643902407337023,
      "loss": 0.339,
      "num_input_tokens_seen": 16472464,
      "step": 17745
    },
    {
      "epoch": 8.368694012258368,
      "grad_norm": 0.00020386620599310845,
      "learning_rate": 0.17638103941108993,
      "loss": 0.3428,
      "num_input_tokens_seen": 16476960,
      "step": 17750
    },
    {
      "epoch": 8.37105139085337,
      "grad_norm": 0.0001807829539757222,
      "learning_rate": 0.1763230506805218,
      "loss": 0.3244,
      "num_input_tokens_seen": 16482416,
      "step": 17755
    },
    {
      "epoch": 8.373408769448373,
      "grad_norm": 0.00023830824648030102,
      "learning_rate": 0.1762650578906085,
      "loss": 0.3653,
      "num_input_tokens_seen": 16486480,
      "step": 17760
    },
    {
      "epoch": 8.375766148043375,
      "grad_norm": 0.00016772343951743096,
      "learning_rate": 0.1762070610502932,
      "loss": 0.3295,
      "num_input_tokens_seen": 16491760,
      "step": 17765
    },
    {
      "epoch": 8.378123526638378,
      "grad_norm": 0.00016850901010911912,
      "learning_rate": 0.17614906016851975,
      "loss": 0.3316,
      "num_input_tokens_seen": 16496224,
      "step": 17770
    },
    {
      "epoch": 8.38048090523338,
      "grad_norm": 0.00020889111328870058,
      "learning_rate": 0.17609105525423258,
      "loss": 0.3346,
      "num_input_tokens_seen": 16500288,
      "step": 17775
    },
    {
      "epoch": 8.382838283828383,
      "grad_norm": 0.0003844626189675182,
      "learning_rate": 0.1760330463163768,
      "loss": 0.3476,
      "num_input_tokens_seen": 16505280,
      "step": 17780
    },
    {
      "epoch": 8.385195662423385,
      "grad_norm": 0.0004209390899632126,
      "learning_rate": 0.17597503336389816,
      "loss": 0.339,
      "num_input_tokens_seen": 16509840,
      "step": 17785
    },
    {
      "epoch": 8.387553041018387,
      "grad_norm": 0.0002445140271447599,
      "learning_rate": 0.17591701640574298,
      "loss": 0.3391,
      "num_input_tokens_seen": 16514816,
      "step": 17790
    },
    {
      "epoch": 8.38991041961339,
      "grad_norm": 0.0004741996235679835,
      "learning_rate": 0.17585899545085815,
      "loss": 0.3472,
      "num_input_tokens_seen": 16519056,
      "step": 17795
    },
    {
      "epoch": 8.392267798208392,
      "grad_norm": 0.0004211407795082778,
      "learning_rate": 0.17580097050819124,
      "loss": 0.3462,
      "num_input_tokens_seen": 16523360,
      "step": 17800
    },
    {
      "epoch": 8.392267798208392,
      "eval_loss": 0.32926198840141296,
      "eval_runtime": 33.5619,
      "eval_samples_per_second": 28.097,
      "eval_steps_per_second": 14.064,
      "num_input_tokens_seen": 16523360,
      "step": 17800
    },
    {
      "epoch": 8.394625176803395,
      "grad_norm": 0.00022886786609888077,
      "learning_rate": 0.17574294158669046,
      "loss": 0.3082,
      "num_input_tokens_seen": 16527968,
      "step": 17805
    },
    {
      "epoch": 8.396982555398397,
      "grad_norm": 0.0003879574069287628,
      "learning_rate": 0.17568490869530456,
      "loss": 0.3315,
      "num_input_tokens_seen": 16532432,
      "step": 17810
    },
    {
      "epoch": 8.3993399339934,
      "grad_norm": 0.0002273905702168122,
      "learning_rate": 0.17562687184298295,
      "loss": 0.2982,
      "num_input_tokens_seen": 16536832,
      "step": 17815
    },
    {
      "epoch": 8.401697312588402,
      "grad_norm": 0.0004732688539661467,
      "learning_rate": 0.1755688310386757,
      "loss": 0.3575,
      "num_input_tokens_seen": 16541296,
      "step": 17820
    },
    {
      "epoch": 8.404054691183404,
      "grad_norm": 0.0005205662455409765,
      "learning_rate": 0.17551078629133335,
      "loss": 0.332,
      "num_input_tokens_seen": 16546208,
      "step": 17825
    },
    {
      "epoch": 8.406412069778407,
      "grad_norm": 0.00025050085969269276,
      "learning_rate": 0.17545273760990718,
      "loss": 0.3564,
      "num_input_tokens_seen": 16551680,
      "step": 17830
    },
    {
      "epoch": 8.408769448373409,
      "grad_norm": 0.0005167443305253983,
      "learning_rate": 0.17539468500334904,
      "loss": 0.3305,
      "num_input_tokens_seen": 16556192,
      "step": 17835
    },
    {
      "epoch": 8.411126826968411,
      "grad_norm": 0.0003281477838754654,
      "learning_rate": 0.17533662848061132,
      "loss": 0.3626,
      "num_input_tokens_seen": 16561104,
      "step": 17840
    },
    {
      "epoch": 8.413484205563414,
      "grad_norm": 0.0002272997808177024,
      "learning_rate": 0.1752785680506471,
      "loss": 0.3176,
      "num_input_tokens_seen": 16565408,
      "step": 17845
    },
    {
      "epoch": 8.415841584158416,
      "grad_norm": 0.0002532305952627212,
      "learning_rate": 0.17522050372241,
      "loss": 0.3278,
      "num_input_tokens_seen": 16569920,
      "step": 17850
    },
    {
      "epoch": 8.418198962753419,
      "grad_norm": 0.0005432271864265203,
      "learning_rate": 0.17516243550485425,
      "loss": 0.3144,
      "num_input_tokens_seen": 16574880,
      "step": 17855
    },
    {
      "epoch": 8.420556341348421,
      "grad_norm": 0.00031315829255618155,
      "learning_rate": 0.17510436340693478,
      "loss": 0.3947,
      "num_input_tokens_seen": 16579984,
      "step": 17860
    },
    {
      "epoch": 8.422913719943423,
      "grad_norm": 0.00028152120648883283,
      "learning_rate": 0.175046287437607,
      "loss": 0.3522,
      "num_input_tokens_seen": 16584160,
      "step": 17865
    },
    {
      "epoch": 8.425271098538426,
      "grad_norm": 0.00031584943644702435,
      "learning_rate": 0.17498820760582695,
      "loss": 0.3551,
      "num_input_tokens_seen": 16589600,
      "step": 17870
    },
    {
      "epoch": 8.427628477133428,
      "grad_norm": 0.00047163141425698996,
      "learning_rate": 0.1749301239205512,
      "loss": 0.3506,
      "num_input_tokens_seen": 16593632,
      "step": 17875
    },
    {
      "epoch": 8.42998585572843,
      "grad_norm": 0.00041960697853937745,
      "learning_rate": 0.1748720363907371,
      "loss": 0.3516,
      "num_input_tokens_seen": 16598432,
      "step": 17880
    },
    {
      "epoch": 8.432343234323433,
      "grad_norm": 0.0006876853294670582,
      "learning_rate": 0.17481394502534242,
      "loss": 0.3422,
      "num_input_tokens_seen": 16603568,
      "step": 17885
    },
    {
      "epoch": 8.434700612918435,
      "grad_norm": 0.00033406680449843407,
      "learning_rate": 0.17475584983332562,
      "loss": 0.3281,
      "num_input_tokens_seen": 16609040,
      "step": 17890
    },
    {
      "epoch": 8.437057991513438,
      "grad_norm": 0.00022897250892128795,
      "learning_rate": 0.17469775082364558,
      "loss": 0.3631,
      "num_input_tokens_seen": 16613008,
      "step": 17895
    },
    {
      "epoch": 8.43941537010844,
      "grad_norm": 0.0002579981810413301,
      "learning_rate": 0.17463964800526205,
      "loss": 0.343,
      "num_input_tokens_seen": 16617824,
      "step": 17900
    },
    {
      "epoch": 8.441772748703443,
      "grad_norm": 0.00041572359623387456,
      "learning_rate": 0.17458154138713522,
      "loss": 0.3092,
      "num_input_tokens_seen": 16622368,
      "step": 17905
    },
    {
      "epoch": 8.444130127298443,
      "grad_norm": 0.00037549069384112954,
      "learning_rate": 0.17452343097822576,
      "loss": 0.3091,
      "num_input_tokens_seen": 16627488,
      "step": 17910
    },
    {
      "epoch": 8.446487505893446,
      "grad_norm": 0.00039805364212952554,
      "learning_rate": 0.17446531678749497,
      "loss": 0.3061,
      "num_input_tokens_seen": 16631104,
      "step": 17915
    },
    {
      "epoch": 8.448844884488448,
      "grad_norm": 0.00032161938725039363,
      "learning_rate": 0.17440719882390496,
      "loss": 0.3428,
      "num_input_tokens_seen": 16635472,
      "step": 17920
    },
    {
      "epoch": 8.45120226308345,
      "grad_norm": 0.000423205376137048,
      "learning_rate": 0.17434907709641814,
      "loss": 0.2424,
      "num_input_tokens_seen": 16639856,
      "step": 17925
    },
    {
      "epoch": 8.453559641678453,
      "grad_norm": 0.000634305237326771,
      "learning_rate": 0.17429095161399769,
      "loss": 0.3767,
      "num_input_tokens_seen": 16644656,
      "step": 17930
    },
    {
      "epoch": 8.455917020273455,
      "grad_norm": 0.00016552730812691152,
      "learning_rate": 0.1742328223856072,
      "loss": 0.2692,
      "num_input_tokens_seen": 16650064,
      "step": 17935
    },
    {
      "epoch": 8.458274398868458,
      "grad_norm": 0.00024697533808648586,
      "learning_rate": 0.174174689420211,
      "loss": 0.3821,
      "num_input_tokens_seen": 16653888,
      "step": 17940
    },
    {
      "epoch": 8.46063177746346,
      "grad_norm": 0.0002474896318744868,
      "learning_rate": 0.1741165527267739,
      "loss": 0.2707,
      "num_input_tokens_seen": 16658640,
      "step": 17945
    },
    {
      "epoch": 8.462989156058462,
      "grad_norm": 0.0003300097887404263,
      "learning_rate": 0.17405841231426125,
      "loss": 0.2661,
      "num_input_tokens_seen": 16664400,
      "step": 17950
    },
    {
      "epoch": 8.465346534653465,
      "grad_norm": 0.00029157919925637543,
      "learning_rate": 0.1740002681916391,
      "loss": 0.3679,
      "num_input_tokens_seen": 16668320,
      "step": 17955
    },
    {
      "epoch": 8.467703913248467,
      "grad_norm": 0.0002557329135015607,
      "learning_rate": 0.17394212036787401,
      "loss": 0.386,
      "num_input_tokens_seen": 16673504,
      "step": 17960
    },
    {
      "epoch": 8.47006129184347,
      "grad_norm": 0.0003849151253234595,
      "learning_rate": 0.1738839688519331,
      "loss": 0.287,
      "num_input_tokens_seen": 16677680,
      "step": 17965
    },
    {
      "epoch": 8.472418670438472,
      "grad_norm": 0.0002889696042984724,
      "learning_rate": 0.17382581365278402,
      "loss": 0.3574,
      "num_input_tokens_seen": 16683520,
      "step": 17970
    },
    {
      "epoch": 8.474776049033474,
      "grad_norm": 0.0019044385990127921,
      "learning_rate": 0.17376765477939507,
      "loss": 0.3735,
      "num_input_tokens_seen": 16688016,
      "step": 17975
    },
    {
      "epoch": 8.477133427628477,
      "grad_norm": 0.0016052662394940853,
      "learning_rate": 0.1737094922407351,
      "loss": 0.3437,
      "num_input_tokens_seen": 16691504,
      "step": 17980
    },
    {
      "epoch": 8.47949080622348,
      "grad_norm": 0.001000179909169674,
      "learning_rate": 0.1736513260457734,
      "loss": 0.3537,
      "num_input_tokens_seen": 16695888,
      "step": 17985
    },
    {
      "epoch": 8.481848184818482,
      "grad_norm": 0.0006709737936034799,
      "learning_rate": 0.17359315620348006,
      "loss": 0.3538,
      "num_input_tokens_seen": 16700432,
      "step": 17990
    },
    {
      "epoch": 8.484205563413484,
      "grad_norm": 0.0008160971920005977,
      "learning_rate": 0.17353498272282547,
      "loss": 0.3477,
      "num_input_tokens_seen": 16704256,
      "step": 17995
    },
    {
      "epoch": 8.486562942008486,
      "grad_norm": 0.0007703339215368032,
      "learning_rate": 0.17347680561278087,
      "loss": 0.3463,
      "num_input_tokens_seen": 16709008,
      "step": 18000
    },
    {
      "epoch": 8.486562942008486,
      "eval_loss": 0.3384087383747101,
      "eval_runtime": 33.5058,
      "eval_samples_per_second": 28.144,
      "eval_steps_per_second": 14.087,
      "num_input_tokens_seen": 16709008,
      "step": 18000
    },
    {
      "epoch": 8.488920320603489,
      "grad_norm": 0.0006498420261777937,
      "learning_rate": 0.1734186248823178,
      "loss": 0.362,
      "num_input_tokens_seen": 16713536,
      "step": 18005
    },
    {
      "epoch": 8.491277699198491,
      "grad_norm": 0.0006841386202722788,
      "learning_rate": 0.17336044054040844,
      "loss": 0.3448,
      "num_input_tokens_seen": 16718464,
      "step": 18010
    },
    {
      "epoch": 8.493635077793494,
      "grad_norm": 0.0003733358171302825,
      "learning_rate": 0.1733022525960256,
      "loss": 0.3203,
      "num_input_tokens_seen": 16723280,
      "step": 18015
    },
    {
      "epoch": 8.495992456388496,
      "grad_norm": 0.0005636721616610885,
      "learning_rate": 0.1732440610581426,
      "loss": 0.3109,
      "num_input_tokens_seen": 16727920,
      "step": 18020
    },
    {
      "epoch": 8.498349834983498,
      "grad_norm": 0.0004949169233441353,
      "learning_rate": 0.17318586593573326,
      "loss": 0.3389,
      "num_input_tokens_seen": 16731664,
      "step": 18025
    },
    {
      "epoch": 8.500707213578501,
      "grad_norm": 0.00024324460537172854,
      "learning_rate": 0.17312766723777204,
      "loss": 0.2635,
      "num_input_tokens_seen": 16735776,
      "step": 18030
    },
    {
      "epoch": 8.503064592173503,
      "grad_norm": 0.0006233148160390556,
      "learning_rate": 0.1730694649732339,
      "loss": 0.4023,
      "num_input_tokens_seen": 16739904,
      "step": 18035
    },
    {
      "epoch": 8.505421970768506,
      "grad_norm": 0.0005936193629167974,
      "learning_rate": 0.17301125915109428,
      "loss": 0.2618,
      "num_input_tokens_seen": 16744640,
      "step": 18040
    },
    {
      "epoch": 8.507779349363508,
      "grad_norm": 0.0007957287016324699,
      "learning_rate": 0.17295304978032938,
      "loss": 0.3867,
      "num_input_tokens_seen": 16749984,
      "step": 18045
    },
    {
      "epoch": 8.51013672795851,
      "grad_norm": 0.00034622306702658534,
      "learning_rate": 0.17289483686991577,
      "loss": 0.3706,
      "num_input_tokens_seen": 16754352,
      "step": 18050
    },
    {
      "epoch": 8.512494106553513,
      "grad_norm": 0.0004051152791362256,
      "learning_rate": 0.1728366204288306,
      "loss": 0.3263,
      "num_input_tokens_seen": 16758656,
      "step": 18055
    },
    {
      "epoch": 8.514851485148515,
      "grad_norm": 0.0008411546587012708,
      "learning_rate": 0.17277840046605153,
      "loss": 0.3465,
      "num_input_tokens_seen": 16764096,
      "step": 18060
    },
    {
      "epoch": 8.517208863743518,
      "grad_norm": 0.0006214522290974855,
      "learning_rate": 0.17272017699055686,
      "loss": 0.3303,
      "num_input_tokens_seen": 16768496,
      "step": 18065
    },
    {
      "epoch": 8.51956624233852,
      "grad_norm": 0.00030601161415688694,
      "learning_rate": 0.17266195001132542,
      "loss": 0.3385,
      "num_input_tokens_seen": 16772592,
      "step": 18070
    },
    {
      "epoch": 8.521923620933523,
      "grad_norm": 0.00033028374309651554,
      "learning_rate": 0.17260371953733647,
      "loss": 0.3216,
      "num_input_tokens_seen": 16777488,
      "step": 18075
    },
    {
      "epoch": 8.524280999528525,
      "grad_norm": 0.0002690412802621722,
      "learning_rate": 0.1725454855775699,
      "loss": 0.3196,
      "num_input_tokens_seen": 16781792,
      "step": 18080
    },
    {
      "epoch": 8.526638378123527,
      "grad_norm": 0.00026564591098576784,
      "learning_rate": 0.17248724814100616,
      "loss": 0.2903,
      "num_input_tokens_seen": 16786672,
      "step": 18085
    },
    {
      "epoch": 8.52899575671853,
      "grad_norm": 0.00043914912384934723,
      "learning_rate": 0.17242900723662619,
      "loss": 0.3466,
      "num_input_tokens_seen": 16790848,
      "step": 18090
    },
    {
      "epoch": 8.531353135313532,
      "grad_norm": 0.00023056451755110174,
      "learning_rate": 0.1723707628734114,
      "loss": 0.335,
      "num_input_tokens_seen": 16794608,
      "step": 18095
    },
    {
      "epoch": 8.533710513908535,
      "grad_norm": 0.00031438490259461105,
      "learning_rate": 0.1723125150603438,
      "loss": 0.3597,
      "num_input_tokens_seen": 16799840,
      "step": 18100
    },
    {
      "epoch": 8.536067892503535,
      "grad_norm": 0.00025029617245309055,
      "learning_rate": 0.1722542638064061,
      "loss": 0.3593,
      "num_input_tokens_seen": 16804496,
      "step": 18105
    },
    {
      "epoch": 8.53842527109854,
      "grad_norm": 0.0006060630548745394,
      "learning_rate": 0.17219600912058117,
      "loss": 0.3455,
      "num_input_tokens_seen": 16809168,
      "step": 18110
    },
    {
      "epoch": 8.54078264969354,
      "grad_norm": 0.0002783282252494246,
      "learning_rate": 0.17213775101185272,
      "loss": 0.318,
      "num_input_tokens_seen": 16813376,
      "step": 18115
    },
    {
      "epoch": 8.543140028288542,
      "grad_norm": 0.0006428889464586973,
      "learning_rate": 0.17207948948920485,
      "loss": 0.2884,
      "num_input_tokens_seen": 16817552,
      "step": 18120
    },
    {
      "epoch": 8.545497406883545,
      "grad_norm": 0.0001929989521158859,
      "learning_rate": 0.17202122456162228,
      "loss": 0.289,
      "num_input_tokens_seen": 16823344,
      "step": 18125
    },
    {
      "epoch": 8.547854785478547,
      "grad_norm": 0.00034416146809235215,
      "learning_rate": 0.17196295623809013,
      "loss": 0.4006,
      "num_input_tokens_seen": 16828480,
      "step": 18130
    },
    {
      "epoch": 8.55021216407355,
      "grad_norm": 0.0005377967609092593,
      "learning_rate": 0.1719046845275941,
      "loss": 0.3451,
      "num_input_tokens_seen": 16832784,
      "step": 18135
    },
    {
      "epoch": 8.552569542668552,
      "grad_norm": 0.0003553850401658565,
      "learning_rate": 0.17184640943912044,
      "loss": 0.3082,
      "num_input_tokens_seen": 16837888,
      "step": 18140
    },
    {
      "epoch": 8.554926921263554,
      "grad_norm": 0.00025663673295639455,
      "learning_rate": 0.1717881309816559,
      "loss": 0.3714,
      "num_input_tokens_seen": 16842656,
      "step": 18145
    },
    {
      "epoch": 8.557284299858557,
      "grad_norm": 0.0002717782626859844,
      "learning_rate": 0.1717298491641878,
      "loss": 0.3558,
      "num_input_tokens_seen": 16846368,
      "step": 18150
    },
    {
      "epoch": 8.55964167845356,
      "grad_norm": 0.0005905363941565156,
      "learning_rate": 0.17167156399570385,
      "loss": 0.3358,
      "num_input_tokens_seen": 16850560,
      "step": 18155
    },
    {
      "epoch": 8.561999057048562,
      "grad_norm": 0.0005647584912367165,
      "learning_rate": 0.17161327548519242,
      "loss": 0.2824,
      "num_input_tokens_seen": 16856064,
      "step": 18160
    },
    {
      "epoch": 8.564356435643564,
      "grad_norm": 0.00054876075591892,
      "learning_rate": 0.1715549836416423,
      "loss": 0.3132,
      "num_input_tokens_seen": 16860736,
      "step": 18165
    },
    {
      "epoch": 8.566713814238566,
      "grad_norm": 0.0002764662494882941,
      "learning_rate": 0.17149668847404279,
      "loss": 0.3846,
      "num_input_tokens_seen": 16865280,
      "step": 18170
    },
    {
      "epoch": 8.569071192833569,
      "grad_norm": 0.00031666431459598243,
      "learning_rate": 0.1714383899913838,
      "loss": 0.3129,
      "num_input_tokens_seen": 16870128,
      "step": 18175
    },
    {
      "epoch": 8.571428571428571,
      "grad_norm": 0.00023370006238110363,
      "learning_rate": 0.17138008820265563,
      "loss": 0.3603,
      "num_input_tokens_seen": 16874480,
      "step": 18180
    },
    {
      "epoch": 8.573785950023574,
      "grad_norm": 0.00017681909957900643,
      "learning_rate": 0.17132178311684917,
      "loss": 0.3231,
      "num_input_tokens_seen": 16879152,
      "step": 18185
    },
    {
      "epoch": 8.576143328618576,
      "grad_norm": 0.00019051978597417474,
      "learning_rate": 0.1712634747429559,
      "loss": 0.3442,
      "num_input_tokens_seen": 16884096,
      "step": 18190
    },
    {
      "epoch": 8.578500707213578,
      "grad_norm": 0.0002379443176323548,
      "learning_rate": 0.17120516308996753,
      "loss": 0.3429,
      "num_input_tokens_seen": 16888352,
      "step": 18195
    },
    {
      "epoch": 8.58085808580858,
      "grad_norm": 0.0001986596907954663,
      "learning_rate": 0.17114684816687653,
      "loss": 0.3472,
      "num_input_tokens_seen": 16893648,
      "step": 18200
    },
    {
      "epoch": 8.58085808580858,
      "eval_loss": 0.32867708802223206,
      "eval_runtime": 33.5946,
      "eval_samples_per_second": 28.07,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 16893648,
      "step": 18200
    },
    {
      "epoch": 8.583215464403583,
      "grad_norm": 0.0001553154579596594,
      "learning_rate": 0.17108852998267585,
      "loss": 0.3291,
      "num_input_tokens_seen": 16897552,
      "step": 18205
    },
    {
      "epoch": 8.585572842998586,
      "grad_norm": 0.00020567956380546093,
      "learning_rate": 0.17103020854635878,
      "loss": 0.3453,
      "num_input_tokens_seen": 16901024,
      "step": 18210
    },
    {
      "epoch": 8.587930221593588,
      "grad_norm": 0.0004696541582234204,
      "learning_rate": 0.1709718838669193,
      "loss": 0.3472,
      "num_input_tokens_seen": 16906752,
      "step": 18215
    },
    {
      "epoch": 8.59028760018859,
      "grad_norm": 0.00029359967447817326,
      "learning_rate": 0.17091355595335173,
      "loss": 0.3303,
      "num_input_tokens_seen": 16911680,
      "step": 18220
    },
    {
      "epoch": 8.592644978783593,
      "grad_norm": 0.00028079532785341144,
      "learning_rate": 0.17085522481465107,
      "loss": 0.3362,
      "num_input_tokens_seen": 16916064,
      "step": 18225
    },
    {
      "epoch": 8.595002357378595,
      "grad_norm": 0.00021667956025339663,
      "learning_rate": 0.17079689045981264,
      "loss": 0.3219,
      "num_input_tokens_seen": 16921088,
      "step": 18230
    },
    {
      "epoch": 8.597359735973598,
      "grad_norm": 0.0002661515318322927,
      "learning_rate": 0.17073855289783238,
      "loss": 0.3684,
      "num_input_tokens_seen": 16925760,
      "step": 18235
    },
    {
      "epoch": 8.5997171145686,
      "grad_norm": 0.0001796485303202644,
      "learning_rate": 0.1706802121377066,
      "loss": 0.3286,
      "num_input_tokens_seen": 16930176,
      "step": 18240
    },
    {
      "epoch": 8.602074493163602,
      "grad_norm": 0.0005491869524121284,
      "learning_rate": 0.17062186818843225,
      "loss": 0.3402,
      "num_input_tokens_seen": 16934784,
      "step": 18245
    },
    {
      "epoch": 8.604431871758605,
      "grad_norm": 0.0005668870289810002,
      "learning_rate": 0.17056352105900668,
      "loss": 0.3205,
      "num_input_tokens_seen": 16940032,
      "step": 18250
    },
    {
      "epoch": 8.606789250353607,
      "grad_norm": 0.00015367957530543208,
      "learning_rate": 0.17050517075842772,
      "loss": 0.3417,
      "num_input_tokens_seen": 16944640,
      "step": 18255
    },
    {
      "epoch": 8.60914662894861,
      "grad_norm": 0.0002034579374594614,
      "learning_rate": 0.17044681729569375,
      "loss": 0.3642,
      "num_input_tokens_seen": 16948736,
      "step": 18260
    },
    {
      "epoch": 8.611504007543612,
      "grad_norm": 0.00020862981909886003,
      "learning_rate": 0.17038846067980365,
      "loss": 0.3344,
      "num_input_tokens_seen": 16952672,
      "step": 18265
    },
    {
      "epoch": 8.613861386138614,
      "grad_norm": 0.00029305688804015517,
      "learning_rate": 0.17033010091975664,
      "loss": 0.3353,
      "num_input_tokens_seen": 16958352,
      "step": 18270
    },
    {
      "epoch": 8.616218764733617,
      "grad_norm": 0.0005822323146276176,
      "learning_rate": 0.17027173802455262,
      "loss": 0.3042,
      "num_input_tokens_seen": 16962816,
      "step": 18275
    },
    {
      "epoch": 8.61857614332862,
      "grad_norm": 0.00025230934261344373,
      "learning_rate": 0.1702133720031918,
      "loss": 0.3431,
      "num_input_tokens_seen": 16967984,
      "step": 18280
    },
    {
      "epoch": 8.620933521923622,
      "grad_norm": 0.0002371034206589684,
      "learning_rate": 0.17015500286467503,
      "loss": 0.3291,
      "num_input_tokens_seen": 16972544,
      "step": 18285
    },
    {
      "epoch": 8.623290900518624,
      "grad_norm": 0.00025400036247447133,
      "learning_rate": 0.17009663061800354,
      "loss": 0.3171,
      "num_input_tokens_seen": 16977280,
      "step": 18290
    },
    {
      "epoch": 8.625648279113626,
      "grad_norm": 0.00028427736833691597,
      "learning_rate": 0.17003825527217903,
      "loss": 0.3316,
      "num_input_tokens_seen": 16981744,
      "step": 18295
    },
    {
      "epoch": 8.628005657708629,
      "grad_norm": 0.00030255792080424726,
      "learning_rate": 0.16997987683620377,
      "loss": 0.4016,
      "num_input_tokens_seen": 16986480,
      "step": 18300
    },
    {
      "epoch": 8.630363036303631,
      "grad_norm": 0.00023485331621486694,
      "learning_rate": 0.16992149531908043,
      "loss": 0.3437,
      "num_input_tokens_seen": 16991424,
      "step": 18305
    },
    {
      "epoch": 8.632720414898632,
      "grad_norm": 0.00026254772092215717,
      "learning_rate": 0.16986311072981214,
      "loss": 0.3505,
      "num_input_tokens_seen": 16995344,
      "step": 18310
    },
    {
      "epoch": 8.635077793493634,
      "grad_norm": 0.0001611588231753558,
      "learning_rate": 0.16980472307740255,
      "loss": 0.3385,
      "num_input_tokens_seen": 17000896,
      "step": 18315
    },
    {
      "epoch": 8.637435172088637,
      "grad_norm": 0.00016922122449614108,
      "learning_rate": 0.1697463323708558,
      "loss": 0.3676,
      "num_input_tokens_seen": 17005264,
      "step": 18320
    },
    {
      "epoch": 8.639792550683639,
      "grad_norm": 0.00016506692918483168,
      "learning_rate": 0.16968793861917641,
      "loss": 0.3208,
      "num_input_tokens_seen": 17009776,
      "step": 18325
    },
    {
      "epoch": 8.642149929278641,
      "grad_norm": 0.00027047598268836737,
      "learning_rate": 0.16962954183136952,
      "loss": 0.3376,
      "num_input_tokens_seen": 17014320,
      "step": 18330
    },
    {
      "epoch": 8.644507307873644,
      "grad_norm": 0.0005256342701613903,
      "learning_rate": 0.16957114201644058,
      "loss": 0.3486,
      "num_input_tokens_seen": 17018640,
      "step": 18335
    },
    {
      "epoch": 8.646864686468646,
      "grad_norm": 0.0005251665133982897,
      "learning_rate": 0.16951273918339563,
      "loss": 0.3191,
      "num_input_tokens_seen": 17023536,
      "step": 18340
    },
    {
      "epoch": 8.649222065063649,
      "grad_norm": 0.00017063337145373225,
      "learning_rate": 0.16945433334124105,
      "loss": 0.3343,
      "num_input_tokens_seen": 17027776,
      "step": 18345
    },
    {
      "epoch": 8.651579443658651,
      "grad_norm": 0.0005043520941399038,
      "learning_rate": 0.1693959244989838,
      "loss": 0.3275,
      "num_input_tokens_seen": 17032496,
      "step": 18350
    },
    {
      "epoch": 8.653936822253653,
      "grad_norm": 0.00022826777421869338,
      "learning_rate": 0.16933751266563127,
      "loss": 0.3,
      "num_input_tokens_seen": 17036640,
      "step": 18355
    },
    {
      "epoch": 8.656294200848656,
      "grad_norm": 0.00023283605696633458,
      "learning_rate": 0.16927909785019118,
      "loss": 0.3106,
      "num_input_tokens_seen": 17041408,
      "step": 18360
    },
    {
      "epoch": 8.658651579443658,
      "grad_norm": 0.00018689392891246825,
      "learning_rate": 0.169220680061672,
      "loss": 0.2907,
      "num_input_tokens_seen": 17045744,
      "step": 18365
    },
    {
      "epoch": 8.66100895803866,
      "grad_norm": 0.0006348767783492804,
      "learning_rate": 0.16916225930908244,
      "loss": 0.3419,
      "num_input_tokens_seen": 17050384,
      "step": 18370
    },
    {
      "epoch": 8.663366336633663,
      "grad_norm": 0.001591173349879682,
      "learning_rate": 0.16910383560143163,
      "loss": 0.2628,
      "num_input_tokens_seen": 17056544,
      "step": 18375
    },
    {
      "epoch": 8.665723715228665,
      "grad_norm": 0.00040193984750658274,
      "learning_rate": 0.16904540894772935,
      "loss": 0.6051,
      "num_input_tokens_seen": 17061776,
      "step": 18380
    },
    {
      "epoch": 8.668081093823668,
      "grad_norm": 0.0007598794181831181,
      "learning_rate": 0.16898697935698562,
      "loss": 0.3479,
      "num_input_tokens_seen": 17066496,
      "step": 18385
    },
    {
      "epoch": 8.67043847241867,
      "grad_norm": 0.0005564987659454346,
      "learning_rate": 0.1689285468382111,
      "loss": 0.3272,
      "num_input_tokens_seen": 17070736,
      "step": 18390
    },
    {
      "epoch": 8.672795851013673,
      "grad_norm": 0.0008744975202716887,
      "learning_rate": 0.16887011140041677,
      "loss": 0.3355,
      "num_input_tokens_seen": 17075424,
      "step": 18395
    },
    {
      "epoch": 8.675153229608675,
      "grad_norm": 0.0002854962949641049,
      "learning_rate": 0.1688116730526141,
      "loss": 0.3603,
      "num_input_tokens_seen": 17079824,
      "step": 18400
    },
    {
      "epoch": 8.675153229608675,
      "eval_loss": 0.3281850516796112,
      "eval_runtime": 33.5805,
      "eval_samples_per_second": 28.082,
      "eval_steps_per_second": 14.056,
      "num_input_tokens_seen": 17079824,
      "step": 18400
    },
    {
      "epoch": 8.677510608203677,
      "grad_norm": 0.0006958601297810674,
      "learning_rate": 0.1687532318038151,
      "loss": 0.2931,
      "num_input_tokens_seen": 17083440,
      "step": 18405
    },
    {
      "epoch": 8.67986798679868,
      "grad_norm": 0.0007524597458541393,
      "learning_rate": 0.16869478766303206,
      "loss": 0.3638,
      "num_input_tokens_seen": 17087360,
      "step": 18410
    },
    {
      "epoch": 8.682225365393682,
      "grad_norm": 0.000683643389493227,
      "learning_rate": 0.16863634063927788,
      "loss": 0.3233,
      "num_input_tokens_seen": 17091520,
      "step": 18415
    },
    {
      "epoch": 8.684582743988685,
      "grad_norm": 0.00022398997680284083,
      "learning_rate": 0.16857789074156568,
      "loss": 0.2748,
      "num_input_tokens_seen": 17096864,
      "step": 18420
    },
    {
      "epoch": 8.686940122583687,
      "grad_norm": 0.000317933241603896,
      "learning_rate": 0.16851943797890928,
      "loss": 0.3579,
      "num_input_tokens_seen": 17101664,
      "step": 18425
    },
    {
      "epoch": 8.68929750117869,
      "grad_norm": 0.0013239358086138964,
      "learning_rate": 0.16846098236032284,
      "loss": 0.383,
      "num_input_tokens_seen": 17107168,
      "step": 18430
    },
    {
      "epoch": 8.691654879773692,
      "grad_norm": 0.00028061505872756243,
      "learning_rate": 0.16840252389482097,
      "loss": 0.2962,
      "num_input_tokens_seen": 17111776,
      "step": 18435
    },
    {
      "epoch": 8.694012258368694,
      "grad_norm": 0.00023572062491439283,
      "learning_rate": 0.16834406259141857,
      "loss": 0.3338,
      "num_input_tokens_seen": 17116848,
      "step": 18440
    },
    {
      "epoch": 8.696369636963697,
      "grad_norm": 0.00027306590345688164,
      "learning_rate": 0.16828559845913124,
      "loss": 0.3592,
      "num_input_tokens_seen": 17120672,
      "step": 18445
    },
    {
      "epoch": 8.698727015558699,
      "grad_norm": 0.0003705348935909569,
      "learning_rate": 0.16822713150697488,
      "loss": 0.3149,
      "num_input_tokens_seen": 17125984,
      "step": 18450
    },
    {
      "epoch": 8.701084394153701,
      "grad_norm": 0.00036439800169318914,
      "learning_rate": 0.16816866174396575,
      "loss": 0.2994,
      "num_input_tokens_seen": 17130064,
      "step": 18455
    },
    {
      "epoch": 8.703441772748704,
      "grad_norm": 0.00023946900910232216,
      "learning_rate": 0.16811018917912057,
      "loss": 0.3197,
      "num_input_tokens_seen": 17133968,
      "step": 18460
    },
    {
      "epoch": 8.705799151343706,
      "grad_norm": 0.00021922177984379232,
      "learning_rate": 0.16805171382145673,
      "loss": 0.3129,
      "num_input_tokens_seen": 17138400,
      "step": 18465
    },
    {
      "epoch": 8.708156529938709,
      "grad_norm": 0.00021332092001102865,
      "learning_rate": 0.16799323567999175,
      "loss": 0.3418,
      "num_input_tokens_seen": 17143424,
      "step": 18470
    },
    {
      "epoch": 8.710513908533711,
      "grad_norm": 0.0006663099629804492,
      "learning_rate": 0.16793475476374367,
      "loss": 0.3504,
      "num_input_tokens_seen": 17148400,
      "step": 18475
    },
    {
      "epoch": 8.712871287128714,
      "grad_norm": 0.00022236336371861398,
      "learning_rate": 0.1678762710817311,
      "loss": 0.3244,
      "num_input_tokens_seen": 17153424,
      "step": 18480
    },
    {
      "epoch": 8.715228665723716,
      "grad_norm": 0.0002380555379204452,
      "learning_rate": 0.1678177846429728,
      "loss": 0.2933,
      "num_input_tokens_seen": 17158768,
      "step": 18485
    },
    {
      "epoch": 8.717586044318718,
      "grad_norm": 0.0003210018330719322,
      "learning_rate": 0.16775929545648827,
      "loss": 0.2471,
      "num_input_tokens_seen": 17163024,
      "step": 18490
    },
    {
      "epoch": 8.71994342291372,
      "grad_norm": 0.0003290569584351033,
      "learning_rate": 0.16770080353129715,
      "loss": 0.3471,
      "num_input_tokens_seen": 17167376,
      "step": 18495
    },
    {
      "epoch": 8.722300801508723,
      "grad_norm": 0.0003826692409347743,
      "learning_rate": 0.16764230887641968,
      "loss": 0.3431,
      "num_input_tokens_seen": 17171904,
      "step": 18500
    },
    {
      "epoch": 8.724658180103724,
      "grad_norm": 0.0006813971558585763,
      "learning_rate": 0.1675838115008765,
      "loss": 0.321,
      "num_input_tokens_seen": 17176480,
      "step": 18505
    },
    {
      "epoch": 8.727015558698728,
      "grad_norm": 0.0003401397552806884,
      "learning_rate": 0.1675253114136886,
      "loss": 0.2814,
      "num_input_tokens_seen": 17181392,
      "step": 18510
    },
    {
      "epoch": 8.729372937293729,
      "grad_norm": 0.0005120254354551435,
      "learning_rate": 0.16746680862387747,
      "loss": 0.283,
      "num_input_tokens_seen": 17186976,
      "step": 18515
    },
    {
      "epoch": 8.731730315888731,
      "grad_norm": 0.00019252236234024167,
      "learning_rate": 0.16740830314046493,
      "loss": 0.2985,
      "num_input_tokens_seen": 17191072,
      "step": 18520
    },
    {
      "epoch": 8.734087694483733,
      "grad_norm": 0.0002084881707560271,
      "learning_rate": 0.1673497949724733,
      "loss": 0.3402,
      "num_input_tokens_seen": 17195152,
      "step": 18525
    },
    {
      "epoch": 8.736445073078736,
      "grad_norm": 0.0003195701283402741,
      "learning_rate": 0.16729128412892522,
      "loss": 0.3621,
      "num_input_tokens_seen": 17199392,
      "step": 18530
    },
    {
      "epoch": 8.738802451673738,
      "grad_norm": 0.0005778394406661391,
      "learning_rate": 0.16723277061884384,
      "loss": 0.3221,
      "num_input_tokens_seen": 17204112,
      "step": 18535
    },
    {
      "epoch": 8.74115983026874,
      "grad_norm": 0.00026623153826221824,
      "learning_rate": 0.16717425445125267,
      "loss": 0.3143,
      "num_input_tokens_seen": 17208736,
      "step": 18540
    },
    {
      "epoch": 8.743517208863743,
      "grad_norm": 0.00031970441341400146,
      "learning_rate": 0.16711573563517565,
      "loss": 0.3807,
      "num_input_tokens_seen": 17214000,
      "step": 18545
    },
    {
      "epoch": 8.745874587458745,
      "grad_norm": 0.000542485504411161,
      "learning_rate": 0.1670572141796371,
      "loss": 0.2846,
      "num_input_tokens_seen": 17218992,
      "step": 18550
    },
    {
      "epoch": 8.748231966053748,
      "grad_norm": 0.00023754667199682444,
      "learning_rate": 0.16699869009366175,
      "loss": 0.3038,
      "num_input_tokens_seen": 17224352,
      "step": 18555
    },
    {
      "epoch": 8.75058934464875,
      "grad_norm": 0.0002689691027626395,
      "learning_rate": 0.1669401633862748,
      "loss": 0.342,
      "num_input_tokens_seen": 17228416,
      "step": 18560
    },
    {
      "epoch": 8.752946723243753,
      "grad_norm": 0.00031762223807163537,
      "learning_rate": 0.16688163406650178,
      "loss": 0.3701,
      "num_input_tokens_seen": 17232960,
      "step": 18565
    },
    {
      "epoch": 8.755304101838755,
      "grad_norm": 0.0003142464265692979,
      "learning_rate": 0.1668231021433686,
      "loss": 0.3529,
      "num_input_tokens_seen": 17238416,
      "step": 18570
    },
    {
      "epoch": 8.757661480433757,
      "grad_norm": 0.0002805260301101953,
      "learning_rate": 0.1667645676259017,
      "loss": 0.3585,
      "num_input_tokens_seen": 17242800,
      "step": 18575
    },
    {
      "epoch": 8.76001885902876,
      "grad_norm": 0.00020618557755369693,
      "learning_rate": 0.1667060305231277,
      "loss": 0.3371,
      "num_input_tokens_seen": 17248144,
      "step": 18580
    },
    {
      "epoch": 8.762376237623762,
      "grad_norm": 0.0002639144076965749,
      "learning_rate": 0.16664749084407396,
      "loss": 0.3494,
      "num_input_tokens_seen": 17252912,
      "step": 18585
    },
    {
      "epoch": 8.764733616218765,
      "grad_norm": 0.00023337313905358315,
      "learning_rate": 0.16658894859776788,
      "loss": 0.3574,
      "num_input_tokens_seen": 17257008,
      "step": 18590
    },
    {
      "epoch": 8.767090994813767,
      "grad_norm": 0.000803612929303199,
      "learning_rate": 0.16653040379323752,
      "loss": 0.325,
      "num_input_tokens_seen": 17260752,
      "step": 18595
    },
    {
      "epoch": 8.76944837340877,
      "grad_norm": 0.0002792476734612137,
      "learning_rate": 0.16647185643951107,
      "loss": 0.3141,
      "num_input_tokens_seen": 17265072,
      "step": 18600
    },
    {
      "epoch": 8.76944837340877,
      "eval_loss": 0.32943475246429443,
      "eval_runtime": 33.539,
      "eval_samples_per_second": 28.117,
      "eval_steps_per_second": 14.073,
      "num_input_tokens_seen": 17265072,
      "step": 18600
    },
    {
      "epoch": 8.771805752003772,
      "grad_norm": 0.00029818303300999105,
      "learning_rate": 0.1664133065456174,
      "loss": 0.3167,
      "num_input_tokens_seen": 17269152,
      "step": 18605
    },
    {
      "epoch": 8.774163130598774,
      "grad_norm": 0.00023256558051798493,
      "learning_rate": 0.1663547541205856,
      "loss": 0.329,
      "num_input_tokens_seen": 17274032,
      "step": 18610
    },
    {
      "epoch": 8.776520509193777,
      "grad_norm": 0.00031405454501509666,
      "learning_rate": 0.16629619917344518,
      "loss": 0.3283,
      "num_input_tokens_seen": 17278256,
      "step": 18615
    },
    {
      "epoch": 8.778877887788779,
      "grad_norm": 0.00043474772246554494,
      "learning_rate": 0.16623764171322605,
      "loss": 0.3224,
      "num_input_tokens_seen": 17282432,
      "step": 18620
    },
    {
      "epoch": 8.781235266383781,
      "grad_norm": 0.0006570421392098069,
      "learning_rate": 0.1661790817489585,
      "loss": 0.3793,
      "num_input_tokens_seen": 17288256,
      "step": 18625
    },
    {
      "epoch": 8.783592644978784,
      "grad_norm": 0.0002664362546056509,
      "learning_rate": 0.16612051928967328,
      "loss": 0.3273,
      "num_input_tokens_seen": 17292384,
      "step": 18630
    },
    {
      "epoch": 8.785950023573786,
      "grad_norm": 0.0002369302965234965,
      "learning_rate": 0.16606195434440138,
      "loss": 0.3052,
      "num_input_tokens_seen": 17296224,
      "step": 18635
    },
    {
      "epoch": 8.788307402168789,
      "grad_norm": 0.00030767812859266996,
      "learning_rate": 0.16600338692217426,
      "loss": 0.3184,
      "num_input_tokens_seen": 17300032,
      "step": 18640
    },
    {
      "epoch": 8.790664780763791,
      "grad_norm": 0.0003609497507568449,
      "learning_rate": 0.16594481703202374,
      "loss": 0.3423,
      "num_input_tokens_seen": 17304272,
      "step": 18645
    },
    {
      "epoch": 8.793022159358793,
      "grad_norm": 0.00026586715830489993,
      "learning_rate": 0.1658862446829821,
      "loss": 0.308,
      "num_input_tokens_seen": 17309392,
      "step": 18650
    },
    {
      "epoch": 8.795379537953796,
      "grad_norm": 0.00026722459006123245,
      "learning_rate": 0.16582766988408187,
      "loss": 0.3466,
      "num_input_tokens_seen": 17313856,
      "step": 18655
    },
    {
      "epoch": 8.797736916548798,
      "grad_norm": 0.00025647354777902365,
      "learning_rate": 0.16576909264435608,
      "loss": 0.3103,
      "num_input_tokens_seen": 17318096,
      "step": 18660
    },
    {
      "epoch": 8.8000942951438,
      "grad_norm": 0.0005851966561749578,
      "learning_rate": 0.16571051297283798,
      "loss": 0.2965,
      "num_input_tokens_seen": 17323136,
      "step": 18665
    },
    {
      "epoch": 8.802451673738803,
      "grad_norm": 0.00024004033184610307,
      "learning_rate": 0.16565193087856137,
      "loss": 0.313,
      "num_input_tokens_seen": 17327056,
      "step": 18670
    },
    {
      "epoch": 8.804809052333805,
      "grad_norm": 0.0005661838804371655,
      "learning_rate": 0.16559334637056033,
      "loss": 0.3148,
      "num_input_tokens_seen": 17332000,
      "step": 18675
    },
    {
      "epoch": 8.807166430928808,
      "grad_norm": 0.0003256778290960938,
      "learning_rate": 0.16553475945786933,
      "loss": 0.3482,
      "num_input_tokens_seen": 17336624,
      "step": 18680
    },
    {
      "epoch": 8.80952380952381,
      "grad_norm": 0.0007900368073023856,
      "learning_rate": 0.16547617014952318,
      "loss": 0.3219,
      "num_input_tokens_seen": 17341456,
      "step": 18685
    },
    {
      "epoch": 8.811881188118813,
      "grad_norm": 0.0002688098174985498,
      "learning_rate": 0.1654175784545571,
      "loss": 0.2941,
      "num_input_tokens_seen": 17346464,
      "step": 18690
    },
    {
      "epoch": 8.814238566713815,
      "grad_norm": 0.0006481875316239893,
      "learning_rate": 0.1653589843820067,
      "loss": 0.3596,
      "num_input_tokens_seen": 17351808,
      "step": 18695
    },
    {
      "epoch": 8.816595945308817,
      "grad_norm": 0.00028800114523619413,
      "learning_rate": 0.1653003879409079,
      "loss": 0.3556,
      "num_input_tokens_seen": 17356096,
      "step": 18700
    },
    {
      "epoch": 8.81895332390382,
      "grad_norm": 0.0005955158267170191,
      "learning_rate": 0.165241789140297,
      "loss": 0.3498,
      "num_input_tokens_seen": 17359488,
      "step": 18705
    },
    {
      "epoch": 8.82131070249882,
      "grad_norm": 0.00027676665922626853,
      "learning_rate": 0.16518318798921064,
      "loss": 0.3187,
      "num_input_tokens_seen": 17363760,
      "step": 18710
    },
    {
      "epoch": 8.823668081093825,
      "grad_norm": 0.0006308397278189659,
      "learning_rate": 0.16512458449668593,
      "loss": 0.3021,
      "num_input_tokens_seen": 17368832,
      "step": 18715
    },
    {
      "epoch": 8.826025459688825,
      "grad_norm": 0.00026212516240775585,
      "learning_rate": 0.1650659786717602,
      "loss": 0.3238,
      "num_input_tokens_seen": 17373408,
      "step": 18720
    },
    {
      "epoch": 8.828382838283828,
      "grad_norm": 0.0010513822780922055,
      "learning_rate": 0.1650073705234712,
      "loss": 0.373,
      "num_input_tokens_seen": 17378096,
      "step": 18725
    },
    {
      "epoch": 8.83074021687883,
      "grad_norm": 0.0002267458476126194,
      "learning_rate": 0.16494876006085712,
      "loss": 0.3433,
      "num_input_tokens_seen": 17382288,
      "step": 18730
    },
    {
      "epoch": 8.833097595473832,
      "grad_norm": 0.00024007141473703086,
      "learning_rate": 0.16489014729295634,
      "loss": 0.3368,
      "num_input_tokens_seen": 17386704,
      "step": 18735
    },
    {
      "epoch": 8.835454974068835,
      "grad_norm": 0.00048513952060602605,
      "learning_rate": 0.16483153222880775,
      "loss": 0.3625,
      "num_input_tokens_seen": 17391088,
      "step": 18740
    },
    {
      "epoch": 8.837812352663837,
      "grad_norm": 0.0002941848651971668,
      "learning_rate": 0.16477291487745052,
      "loss": 0.3129,
      "num_input_tokens_seen": 17395936,
      "step": 18745
    },
    {
      "epoch": 8.84016973125884,
      "grad_norm": 0.0005477317608892918,
      "learning_rate": 0.16471429524792416,
      "loss": 0.3115,
      "num_input_tokens_seen": 17400448,
      "step": 18750
    },
    {
      "epoch": 8.842527109853842,
      "grad_norm": 0.0003845908213406801,
      "learning_rate": 0.16465567334926856,
      "loss": 0.2817,
      "num_input_tokens_seen": 17404784,
      "step": 18755
    },
    {
      "epoch": 8.844884488448844,
      "grad_norm": 0.0006519609596580267,
      "learning_rate": 0.16459704919052395,
      "loss": 0.3395,
      "num_input_tokens_seen": 17409632,
      "step": 18760
    },
    {
      "epoch": 8.847241867043847,
      "grad_norm": 0.0006821052520535886,
      "learning_rate": 0.16453842278073086,
      "loss": 0.3629,
      "num_input_tokens_seen": 17414400,
      "step": 18765
    },
    {
      "epoch": 8.84959924563885,
      "grad_norm": 0.0005143776652403176,
      "learning_rate": 0.16447979412893038,
      "loss": 0.3473,
      "num_input_tokens_seen": 17418448,
      "step": 18770
    },
    {
      "epoch": 8.851956624233852,
      "grad_norm": 0.0003422068839427084,
      "learning_rate": 0.16442116324416367,
      "loss": 0.361,
      "num_input_tokens_seen": 17422944,
      "step": 18775
    },
    {
      "epoch": 8.854314002828854,
      "grad_norm": 0.00041423397487960756,
      "learning_rate": 0.1643625301354723,
      "loss": 0.3489,
      "num_input_tokens_seen": 17427968,
      "step": 18780
    },
    {
      "epoch": 8.856671381423856,
      "grad_norm": 0.0008352480945177376,
      "learning_rate": 0.16430389481189828,
      "loss": 0.3271,
      "num_input_tokens_seen": 17432192,
      "step": 18785
    },
    {
      "epoch": 8.859028760018859,
      "grad_norm": 0.00021746718266513199,
      "learning_rate": 0.164245257282484,
      "loss": 0.305,
      "num_input_tokens_seen": 17436576,
      "step": 18790
    },
    {
      "epoch": 8.861386138613861,
      "grad_norm": 0.00026373271248303354,
      "learning_rate": 0.16418661755627195,
      "loss": 0.3146,
      "num_input_tokens_seen": 17440896,
      "step": 18795
    },
    {
      "epoch": 8.863743517208864,
      "grad_norm": 0.0004843666101805866,
      "learning_rate": 0.16412797564230527,
      "loss": 0.3251,
      "num_input_tokens_seen": 17445904,
      "step": 18800
    },
    {
      "epoch": 8.863743517208864,
      "eval_loss": 0.32759225368499756,
      "eval_runtime": 33.5157,
      "eval_samples_per_second": 28.136,
      "eval_steps_per_second": 14.083,
      "num_input_tokens_seen": 17445904,
      "step": 18800
    },
    {
      "epoch": 8.866100895803866,
      "grad_norm": 0.00022418131993617862,
      "learning_rate": 0.16406933154962713,
      "loss": 0.372,
      "num_input_tokens_seen": 17450672,
      "step": 18805
    },
    {
      "epoch": 8.868458274398868,
      "grad_norm": 0.0005764259840361774,
      "learning_rate": 0.16401068528728133,
      "loss": 0.3367,
      "num_input_tokens_seen": 17455232,
      "step": 18810
    },
    {
      "epoch": 8.87081565299387,
      "grad_norm": 0.0005430832970887423,
      "learning_rate": 0.16395203686431173,
      "loss": 0.3107,
      "num_input_tokens_seen": 17460032,
      "step": 18815
    },
    {
      "epoch": 8.873173031588873,
      "grad_norm": 0.00027286270051263273,
      "learning_rate": 0.16389338628976277,
      "loss": 0.3128,
      "num_input_tokens_seen": 17465152,
      "step": 18820
    },
    {
      "epoch": 8.875530410183876,
      "grad_norm": 0.0005992849473841488,
      "learning_rate": 0.163834733572679,
      "loss": 0.3135,
      "num_input_tokens_seen": 17470592,
      "step": 18825
    },
    {
      "epoch": 8.877887788778878,
      "grad_norm": 0.0005518378457054496,
      "learning_rate": 0.16377607872210545,
      "loss": 0.3437,
      "num_input_tokens_seen": 17476112,
      "step": 18830
    },
    {
      "epoch": 8.88024516737388,
      "grad_norm": 0.0006140660843811929,
      "learning_rate": 0.16371742174708748,
      "loss": 0.3284,
      "num_input_tokens_seen": 17480560,
      "step": 18835
    },
    {
      "epoch": 8.882602545968883,
      "grad_norm": 0.00038624118315055966,
      "learning_rate": 0.16365876265667065,
      "loss": 0.295,
      "num_input_tokens_seen": 17485248,
      "step": 18840
    },
    {
      "epoch": 8.884959924563885,
      "grad_norm": 0.000538304157089442,
      "learning_rate": 0.163600101459901,
      "loss": 0.2693,
      "num_input_tokens_seen": 17489760,
      "step": 18845
    },
    {
      "epoch": 8.887317303158888,
      "grad_norm": 0.00029150123009458184,
      "learning_rate": 0.16354143816582484,
      "loss": 0.2816,
      "num_input_tokens_seen": 17493536,
      "step": 18850
    },
    {
      "epoch": 8.88967468175389,
      "grad_norm": 0.000270515913143754,
      "learning_rate": 0.1634827727834887,
      "loss": 0.3774,
      "num_input_tokens_seen": 17497936,
      "step": 18855
    },
    {
      "epoch": 8.892032060348892,
      "grad_norm": 0.00032706905039958656,
      "learning_rate": 0.16342410532193954,
      "loss": 0.3944,
      "num_input_tokens_seen": 17502208,
      "step": 18860
    },
    {
      "epoch": 8.894389438943895,
      "grad_norm": 0.0002820689987856895,
      "learning_rate": 0.16336543579022464,
      "loss": 0.3702,
      "num_input_tokens_seen": 17506928,
      "step": 18865
    },
    {
      "epoch": 8.896746817538897,
      "grad_norm": 0.000309882452711463,
      "learning_rate": 0.16330676419739157,
      "loss": 0.3079,
      "num_input_tokens_seen": 17512304,
      "step": 18870
    },
    {
      "epoch": 8.8991041961339,
      "grad_norm": 0.0007811816176399589,
      "learning_rate": 0.1632480905524883,
      "loss": 0.3424,
      "num_input_tokens_seen": 17516400,
      "step": 18875
    },
    {
      "epoch": 8.901461574728902,
      "grad_norm": 0.00023292911646422,
      "learning_rate": 0.16318941486456293,
      "loss": 0.2885,
      "num_input_tokens_seen": 17520576,
      "step": 18880
    },
    {
      "epoch": 8.903818953323904,
      "grad_norm": 0.00035186985041946173,
      "learning_rate": 0.16313073714266405,
      "loss": 0.3106,
      "num_input_tokens_seen": 17526032,
      "step": 18885
    },
    {
      "epoch": 8.906176331918907,
      "grad_norm": 0.0006221283110789955,
      "learning_rate": 0.16307205739584052,
      "loss": 0.3638,
      "num_input_tokens_seen": 17530752,
      "step": 18890
    },
    {
      "epoch": 8.90853371051391,
      "grad_norm": 0.0005394392646849155,
      "learning_rate": 0.16301337563314144,
      "loss": 0.3319,
      "num_input_tokens_seen": 17534960,
      "step": 18895
    },
    {
      "epoch": 8.910891089108912,
      "grad_norm": 0.000638650031760335,
      "learning_rate": 0.1629546918636163,
      "loss": 0.2598,
      "num_input_tokens_seen": 17539136,
      "step": 18900
    },
    {
      "epoch": 8.913248467703912,
      "grad_norm": 0.0004349291848484427,
      "learning_rate": 0.16289600609631485,
      "loss": 0.3556,
      "num_input_tokens_seen": 17543984,
      "step": 18905
    },
    {
      "epoch": 8.915605846298917,
      "grad_norm": 0.00027025723829865456,
      "learning_rate": 0.16283731834028722,
      "loss": 0.2915,
      "num_input_tokens_seen": 17549360,
      "step": 18910
    },
    {
      "epoch": 8.917963224893917,
      "grad_norm": 0.0004675227974075824,
      "learning_rate": 0.16277862860458378,
      "loss": 0.3466,
      "num_input_tokens_seen": 17553808,
      "step": 18915
    },
    {
      "epoch": 8.92032060348892,
      "grad_norm": 0.0004927919944748282,
      "learning_rate": 0.16271993689825526,
      "loss": 0.307,
      "num_input_tokens_seen": 17558336,
      "step": 18920
    },
    {
      "epoch": 8.922677982083922,
      "grad_norm": 0.0008341146167367697,
      "learning_rate": 0.1626612432303526,
      "loss": 0.3735,
      "num_input_tokens_seen": 17562880,
      "step": 18925
    },
    {
      "epoch": 8.925035360678924,
      "grad_norm": 0.0003675576008390635,
      "learning_rate": 0.1626025476099271,
      "loss": 0.3246,
      "num_input_tokens_seen": 17567584,
      "step": 18930
    },
    {
      "epoch": 8.927392739273927,
      "grad_norm": 0.00026084031560458243,
      "learning_rate": 0.1625438500460304,
      "loss": 0.3501,
      "num_input_tokens_seen": 17572064,
      "step": 18935
    },
    {
      "epoch": 8.92975011786893,
      "grad_norm": 0.0005687650409527123,
      "learning_rate": 0.16248515054771442,
      "loss": 0.3331,
      "num_input_tokens_seen": 17576448,
      "step": 18940
    },
    {
      "epoch": 8.932107496463932,
      "grad_norm": 0.0005454415222629905,
      "learning_rate": 0.16242644912403123,
      "loss": 0.3213,
      "num_input_tokens_seen": 17581008,
      "step": 18945
    },
    {
      "epoch": 8.934464875058934,
      "grad_norm": 0.00032073710463009775,
      "learning_rate": 0.1623677457840335,
      "loss": 0.3229,
      "num_input_tokens_seen": 17585904,
      "step": 18950
    },
    {
      "epoch": 8.936822253653936,
      "grad_norm": 0.00027611455880105495,
      "learning_rate": 0.16230904053677397,
      "loss": 0.3272,
      "num_input_tokens_seen": 17590288,
      "step": 18955
    },
    {
      "epoch": 8.939179632248939,
      "grad_norm": 0.0009288862929679453,
      "learning_rate": 0.16225033339130568,
      "loss": 0.3233,
      "num_input_tokens_seen": 17594592,
      "step": 18960
    },
    {
      "epoch": 8.941537010843941,
      "grad_norm": 0.0002707663516048342,
      "learning_rate": 0.16219162435668197,
      "loss": 0.3238,
      "num_input_tokens_seen": 17598960,
      "step": 18965
    },
    {
      "epoch": 8.943894389438944,
      "grad_norm": 0.00019940662605222315,
      "learning_rate": 0.16213291344195666,
      "loss": 0.2729,
      "num_input_tokens_seen": 17602736,
      "step": 18970
    },
    {
      "epoch": 8.946251768033946,
      "grad_norm": 0.0005747780087403953,
      "learning_rate": 0.16207420065618358,
      "loss": 0.3335,
      "num_input_tokens_seen": 17607328,
      "step": 18975
    },
    {
      "epoch": 8.948609146628948,
      "grad_norm": 0.0012447459157556295,
      "learning_rate": 0.16201548600841706,
      "loss": 0.3363,
      "num_input_tokens_seen": 17611488,
      "step": 18980
    },
    {
      "epoch": 8.95096652522395,
      "grad_norm": 0.0005108154146000743,
      "learning_rate": 0.16195676950771154,
      "loss": 0.2905,
      "num_input_tokens_seen": 17615472,
      "step": 18985
    },
    {
      "epoch": 8.953323903818953,
      "grad_norm": 0.0014138059923425317,
      "learning_rate": 0.16189805116312198,
      "loss": 0.4118,
      "num_input_tokens_seen": 17619952,
      "step": 18990
    },
    {
      "epoch": 8.955681282413956,
      "grad_norm": 0.0002564803580753505,
      "learning_rate": 0.16183933098370337,
      "loss": 0.3523,
      "num_input_tokens_seen": 17626752,
      "step": 18995
    },
    {
      "epoch": 8.958038661008958,
      "grad_norm": 0.0007689870544709265,
      "learning_rate": 0.16178060897851115,
      "loss": 0.3337,
      "num_input_tokens_seen": 17631504,
      "step": 19000
    },
    {
      "epoch": 8.958038661008958,
      "eval_loss": 0.3268897533416748,
      "eval_runtime": 33.5888,
      "eval_samples_per_second": 28.075,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 17631504,
      "step": 19000
    },
    {
      "epoch": 8.96039603960396,
      "grad_norm": 0.0005451042670756578,
      "learning_rate": 0.16172188515660096,
      "loss": 0.3272,
      "num_input_tokens_seen": 17635584,
      "step": 19005
    },
    {
      "epoch": 8.962753418198963,
      "grad_norm": 0.0005104538868181407,
      "learning_rate": 0.16166315952702878,
      "loss": 0.3072,
      "num_input_tokens_seen": 17640960,
      "step": 19010
    },
    {
      "epoch": 8.965110796793965,
      "grad_norm": 0.00022846649517305195,
      "learning_rate": 0.16160443209885084,
      "loss": 0.3046,
      "num_input_tokens_seen": 17645840,
      "step": 19015
    },
    {
      "epoch": 8.967468175388968,
      "grad_norm": 0.00020530467736534774,
      "learning_rate": 0.16154570288112363,
      "loss": 0.3522,
      "num_input_tokens_seen": 17650304,
      "step": 19020
    },
    {
      "epoch": 8.96982555398397,
      "grad_norm": 0.00019886881636921316,
      "learning_rate": 0.16148697188290395,
      "loss": 0.3584,
      "num_input_tokens_seen": 17654784,
      "step": 19025
    },
    {
      "epoch": 8.972182932578972,
      "grad_norm": 0.00026946092839352787,
      "learning_rate": 0.16142823911324888,
      "loss": 0.3478,
      "num_input_tokens_seen": 17659328,
      "step": 19030
    },
    {
      "epoch": 8.974540311173975,
      "grad_norm": 0.0005551318172365427,
      "learning_rate": 0.16136950458121568,
      "loss": 0.3575,
      "num_input_tokens_seen": 17664528,
      "step": 19035
    },
    {
      "epoch": 8.976897689768977,
      "grad_norm": 0.00028211844619363546,
      "learning_rate": 0.16131076829586205,
      "loss": 0.3657,
      "num_input_tokens_seen": 17669136,
      "step": 19040
    },
    {
      "epoch": 8.97925506836398,
      "grad_norm": 0.0009501822059974074,
      "learning_rate": 0.1612520302662457,
      "loss": 0.3401,
      "num_input_tokens_seen": 17673264,
      "step": 19045
    },
    {
      "epoch": 8.981612446958982,
      "grad_norm": 0.00026580962003208697,
      "learning_rate": 0.16119329050142497,
      "loss": 0.3444,
      "num_input_tokens_seen": 17678096,
      "step": 19050
    },
    {
      "epoch": 8.983969825553984,
      "grad_norm": 0.0003864310565404594,
      "learning_rate": 0.16113454901045818,
      "loss": 0.3559,
      "num_input_tokens_seen": 17682768,
      "step": 19055
    },
    {
      "epoch": 8.986327204148987,
      "grad_norm": 0.0002235061547253281,
      "learning_rate": 0.16107580580240397,
      "loss": 0.3403,
      "num_input_tokens_seen": 17687552,
      "step": 19060
    },
    {
      "epoch": 8.98868458274399,
      "grad_norm": 0.00020401169604156166,
      "learning_rate": 0.16101706088632134,
      "loss": 0.3516,
      "num_input_tokens_seen": 17692240,
      "step": 19065
    },
    {
      "epoch": 8.991041961338992,
      "grad_norm": 0.00028761496650986373,
      "learning_rate": 0.16095831427126947,
      "loss": 0.3318,
      "num_input_tokens_seen": 17696320,
      "step": 19070
    },
    {
      "epoch": 8.993399339933994,
      "grad_norm": 0.0002471242914907634,
      "learning_rate": 0.16089956596630783,
      "loss": 0.3743,
      "num_input_tokens_seen": 17701120,
      "step": 19075
    },
    {
      "epoch": 8.995756718528996,
      "grad_norm": 0.0002175107365474105,
      "learning_rate": 0.16084081598049618,
      "loss": 0.3475,
      "num_input_tokens_seen": 17705712,
      "step": 19080
    },
    {
      "epoch": 8.998114097123999,
      "grad_norm": 0.00020408217096701264,
      "learning_rate": 0.1607820643228944,
      "loss": 0.3358,
      "num_input_tokens_seen": 17710256,
      "step": 19085
    },
    {
      "epoch": 9.000471475719001,
      "grad_norm": 0.0004902491928078234,
      "learning_rate": 0.16072331100256285,
      "loss": 0.3417,
      "num_input_tokens_seen": 17715056,
      "step": 19090
    },
    {
      "epoch": 9.002828854314004,
      "grad_norm": 0.00023191006039269269,
      "learning_rate": 0.16066455602856197,
      "loss": 0.3371,
      "num_input_tokens_seen": 17721472,
      "step": 19095
    },
    {
      "epoch": 9.005186232909006,
      "grad_norm": 0.00036980948061682284,
      "learning_rate": 0.16060579940995257,
      "loss": 0.3599,
      "num_input_tokens_seen": 17725888,
      "step": 19100
    },
    {
      "epoch": 9.007543611504008,
      "grad_norm": 0.00033476363751105964,
      "learning_rate": 0.16054704115579557,
      "loss": 0.3325,
      "num_input_tokens_seen": 17730784,
      "step": 19105
    },
    {
      "epoch": 9.009900990099009,
      "grad_norm": 0.0008299093460664153,
      "learning_rate": 0.1604882812751523,
      "loss": 0.3476,
      "num_input_tokens_seen": 17734912,
      "step": 19110
    },
    {
      "epoch": 9.012258368694011,
      "grad_norm": 0.00043334875954315066,
      "learning_rate": 0.16042951977708425,
      "loss": 0.3414,
      "num_input_tokens_seen": 17739680,
      "step": 19115
    },
    {
      "epoch": 9.014615747289014,
      "grad_norm": 0.0002574111276771873,
      "learning_rate": 0.16037075667065318,
      "loss": 0.3286,
      "num_input_tokens_seen": 17744480,
      "step": 19120
    },
    {
      "epoch": 9.016973125884016,
      "grad_norm": 0.0002649707312230021,
      "learning_rate": 0.1603119919649211,
      "loss": 0.3177,
      "num_input_tokens_seen": 17748736,
      "step": 19125
    },
    {
      "epoch": 9.019330504479019,
      "grad_norm": 0.00024284359824378043,
      "learning_rate": 0.16025322566895028,
      "loss": 0.341,
      "num_input_tokens_seen": 17753312,
      "step": 19130
    },
    {
      "epoch": 9.021687883074021,
      "grad_norm": 0.0004088107089046389,
      "learning_rate": 0.16019445779180322,
      "loss": 0.3407,
      "num_input_tokens_seen": 17757840,
      "step": 19135
    },
    {
      "epoch": 9.024045261669023,
      "grad_norm": 0.0004838320310227573,
      "learning_rate": 0.16013568834254271,
      "loss": 0.3197,
      "num_input_tokens_seen": 17762144,
      "step": 19140
    },
    {
      "epoch": 9.026402640264026,
      "grad_norm": 0.0003403393493499607,
      "learning_rate": 0.1600769173302316,
      "loss": 0.3522,
      "num_input_tokens_seen": 17766640,
      "step": 19145
    },
    {
      "epoch": 9.028760018859028,
      "grad_norm": 0.00024237582692876458,
      "learning_rate": 0.16001814476393322,
      "loss": 0.3354,
      "num_input_tokens_seen": 17771296,
      "step": 19150
    },
    {
      "epoch": 9.03111739745403,
      "grad_norm": 0.0009049459476955235,
      "learning_rate": 0.15995937065271104,
      "loss": 0.3344,
      "num_input_tokens_seen": 17774960,
      "step": 19155
    },
    {
      "epoch": 9.033474776049033,
      "grad_norm": 0.0006932261749170721,
      "learning_rate": 0.15990059500562873,
      "loss": 0.3223,
      "num_input_tokens_seen": 17779392,
      "step": 19160
    },
    {
      "epoch": 9.035832154644035,
      "grad_norm": 0.00018235082097817212,
      "learning_rate": 0.15984181783175025,
      "loss": 0.3671,
      "num_input_tokens_seen": 17784240,
      "step": 19165
    },
    {
      "epoch": 9.038189533239038,
      "grad_norm": 0.00026649117353372276,
      "learning_rate": 0.1597830391401398,
      "loss": 0.3402,
      "num_input_tokens_seen": 17789104,
      "step": 19170
    },
    {
      "epoch": 9.04054691183404,
      "grad_norm": 0.000573913159314543,
      "learning_rate": 0.15972425893986178,
      "loss": 0.3273,
      "num_input_tokens_seen": 17793856,
      "step": 19175
    },
    {
      "epoch": 9.042904290429043,
      "grad_norm": 0.00027014751685783267,
      "learning_rate": 0.15966547723998084,
      "loss": 0.3517,
      "num_input_tokens_seen": 17798112,
      "step": 19180
    },
    {
      "epoch": 9.045261669024045,
      "grad_norm": 0.0004447909304872155,
      "learning_rate": 0.15960669404956176,
      "loss": 0.3592,
      "num_input_tokens_seen": 17802928,
      "step": 19185
    },
    {
      "epoch": 9.047619047619047,
      "grad_norm": 0.0005581504083238542,
      "learning_rate": 0.1595479093776698,
      "loss": 0.284,
      "num_input_tokens_seen": 17808176,
      "step": 19190
    },
    {
      "epoch": 9.04997642621405,
      "grad_norm": 0.0005104118026793003,
      "learning_rate": 0.15948912323337022,
      "loss": 0.3254,
      "num_input_tokens_seen": 17814400,
      "step": 19195
    },
    {
      "epoch": 9.052333804809052,
      "grad_norm": 0.0005008674925193191,
      "learning_rate": 0.1594303356257286,
      "loss": 0.3541,
      "num_input_tokens_seen": 17818512,
      "step": 19200
    },
    {
      "epoch": 9.052333804809052,
      "eval_loss": 0.3275611400604248,
      "eval_runtime": 33.5758,
      "eval_samples_per_second": 28.086,
      "eval_steps_per_second": 14.058,
      "num_input_tokens_seen": 17818512,
      "step": 19200
    },
    {
      "epoch": 9.054691183404055,
      "grad_norm": 0.0007439543842338026,
      "learning_rate": 0.15937154656381072,
      "loss": 0.3517,
      "num_input_tokens_seen": 17822192,
      "step": 19205
    },
    {
      "epoch": 9.057048561999057,
      "grad_norm": 0.00025976612232625484,
      "learning_rate": 0.15931275605668258,
      "loss": 0.3088,
      "num_input_tokens_seen": 17827088,
      "step": 19210
    },
    {
      "epoch": 9.05940594059406,
      "grad_norm": 0.0004804992931894958,
      "learning_rate": 0.1592539641134104,
      "loss": 0.3722,
      "num_input_tokens_seen": 17832112,
      "step": 19215
    },
    {
      "epoch": 9.061763319189062,
      "grad_norm": 0.001007791724987328,
      "learning_rate": 0.1591951707430607,
      "loss": 0.3274,
      "num_input_tokens_seen": 17836512,
      "step": 19220
    },
    {
      "epoch": 9.064120697784064,
      "grad_norm": 0.0005101208807900548,
      "learning_rate": 0.15913637595470007,
      "loss": 0.3563,
      "num_input_tokens_seen": 17841136,
      "step": 19225
    },
    {
      "epoch": 9.066478076379067,
      "grad_norm": 0.0005288512329570949,
      "learning_rate": 0.15907757975739548,
      "loss": 0.3054,
      "num_input_tokens_seen": 17845424,
      "step": 19230
    },
    {
      "epoch": 9.068835454974069,
      "grad_norm": 0.0002533469523768872,
      "learning_rate": 0.159018782160214,
      "loss": 0.3447,
      "num_input_tokens_seen": 17850352,
      "step": 19235
    },
    {
      "epoch": 9.071192833569071,
      "grad_norm": 0.00021729161380790174,
      "learning_rate": 0.158959983172223,
      "loss": 0.3142,
      "num_input_tokens_seen": 17854624,
      "step": 19240
    },
    {
      "epoch": 9.073550212164074,
      "grad_norm": 0.00037189616705290973,
      "learning_rate": 0.15890118280249,
      "loss": 0.3235,
      "num_input_tokens_seen": 17859504,
      "step": 19245
    },
    {
      "epoch": 9.075907590759076,
      "grad_norm": 0.00023720327590126544,
      "learning_rate": 0.15884238106008275,
      "loss": 0.3375,
      "num_input_tokens_seen": 17864448,
      "step": 19250
    },
    {
      "epoch": 9.078264969354079,
      "grad_norm": 0.00025048520183190703,
      "learning_rate": 0.15878357795406922,
      "loss": 0.3548,
      "num_input_tokens_seen": 17869792,
      "step": 19255
    },
    {
      "epoch": 9.080622347949081,
      "grad_norm": 0.0005327775725163519,
      "learning_rate": 0.15872477349351757,
      "loss": 0.3211,
      "num_input_tokens_seen": 17873632,
      "step": 19260
    },
    {
      "epoch": 9.082979726544083,
      "grad_norm": 0.0004888260737061501,
      "learning_rate": 0.15866596768749622,
      "loss": 0.3363,
      "num_input_tokens_seen": 17878512,
      "step": 19265
    },
    {
      "epoch": 9.085337105139086,
      "grad_norm": 0.00018409223412163556,
      "learning_rate": 0.15860716054507373,
      "loss": 0.3665,
      "num_input_tokens_seen": 17883216,
      "step": 19270
    },
    {
      "epoch": 9.087694483734088,
      "grad_norm": 0.0005115984240546823,
      "learning_rate": 0.1585483520753189,
      "loss": 0.3565,
      "num_input_tokens_seen": 17887504,
      "step": 19275
    },
    {
      "epoch": 9.09005186232909,
      "grad_norm": 0.00041458720806986094,
      "learning_rate": 0.1584895422873008,
      "loss": 0.3194,
      "num_input_tokens_seen": 17892288,
      "step": 19280
    },
    {
      "epoch": 9.092409240924093,
      "grad_norm": 0.0002787454577628523,
      "learning_rate": 0.1584307311900886,
      "loss": 0.3479,
      "num_input_tokens_seen": 17897216,
      "step": 19285
    },
    {
      "epoch": 9.094766619519095,
      "grad_norm": 0.0005672007682733238,
      "learning_rate": 0.1583719187927517,
      "loss": 0.3042,
      "num_input_tokens_seen": 17901728,
      "step": 19290
    },
    {
      "epoch": 9.097123998114098,
      "grad_norm": 0.00034705689176917076,
      "learning_rate": 0.15831310510435967,
      "loss": 0.3154,
      "num_input_tokens_seen": 17905856,
      "step": 19295
    },
    {
      "epoch": 9.0994813767091,
      "grad_norm": 0.00022164583788253367,
      "learning_rate": 0.15825429013398243,
      "loss": 0.3594,
      "num_input_tokens_seen": 17910432,
      "step": 19300
    },
    {
      "epoch": 9.101838755304103,
      "grad_norm": 0.0002481662668287754,
      "learning_rate": 0.15819547389068986,
      "loss": 0.3201,
      "num_input_tokens_seen": 17914560,
      "step": 19305
    },
    {
      "epoch": 9.104196133899103,
      "grad_norm": 0.00017971069610211998,
      "learning_rate": 0.1581366563835522,
      "loss": 0.306,
      "num_input_tokens_seen": 17918800,
      "step": 19310
    },
    {
      "epoch": 9.106553512494106,
      "grad_norm": 0.0002126563631463796,
      "learning_rate": 0.15807783762163993,
      "loss": 0.3385,
      "num_input_tokens_seen": 17923568,
      "step": 19315
    },
    {
      "epoch": 9.108910891089108,
      "grad_norm": 0.0005658336449414492,
      "learning_rate": 0.15801901761402365,
      "loss": 0.2941,
      "num_input_tokens_seen": 17927728,
      "step": 19320
    },
    {
      "epoch": 9.11126826968411,
      "grad_norm": 0.0004650827613659203,
      "learning_rate": 0.157960196369774,
      "loss": 0.2704,
      "num_input_tokens_seen": 17933056,
      "step": 19325
    },
    {
      "epoch": 9.113625648279113,
      "grad_norm": 0.0002448541054036468,
      "learning_rate": 0.157901373897962,
      "loss": 0.3298,
      "num_input_tokens_seen": 17937040,
      "step": 19330
    },
    {
      "epoch": 9.115983026874115,
      "grad_norm": 0.0003029343206435442,
      "learning_rate": 0.15784255020765892,
      "loss": 0.3731,
      "num_input_tokens_seen": 17942688,
      "step": 19335
    },
    {
      "epoch": 9.118340405469118,
      "grad_norm": 0.0005348128615878522,
      "learning_rate": 0.157783725307936,
      "loss": 0.3117,
      "num_input_tokens_seen": 17947104,
      "step": 19340
    },
    {
      "epoch": 9.12069778406412,
      "grad_norm": 0.0004046169051434845,
      "learning_rate": 0.15772489920786484,
      "loss": 0.3598,
      "num_input_tokens_seen": 17952336,
      "step": 19345
    },
    {
      "epoch": 9.123055162659123,
      "grad_norm": 0.0005066440207883716,
      "learning_rate": 0.15766607191651713,
      "loss": 0.3318,
      "num_input_tokens_seen": 17956320,
      "step": 19350
    },
    {
      "epoch": 9.125412541254125,
      "grad_norm": 0.00048499685362912714,
      "learning_rate": 0.1576072434429648,
      "loss": 0.2891,
      "num_input_tokens_seen": 17961136,
      "step": 19355
    },
    {
      "epoch": 9.127769919849127,
      "grad_norm": 0.0003158603794872761,
      "learning_rate": 0.15754841379627998,
      "loss": 0.3599,
      "num_input_tokens_seen": 17965984,
      "step": 19360
    },
    {
      "epoch": 9.13012729844413,
      "grad_norm": 0.00023818221234250814,
      "learning_rate": 0.15748958298553484,
      "loss": 0.3078,
      "num_input_tokens_seen": 17971248,
      "step": 19365
    },
    {
      "epoch": 9.132484677039132,
      "grad_norm": 0.00019247242016717792,
      "learning_rate": 0.1574307510198019,
      "loss": 0.2834,
      "num_input_tokens_seen": 17975696,
      "step": 19370
    },
    {
      "epoch": 9.134842055634135,
      "grad_norm": 0.00023548481112811714,
      "learning_rate": 0.15737191790815375,
      "loss": 0.3359,
      "num_input_tokens_seen": 17980960,
      "step": 19375
    },
    {
      "epoch": 9.137199434229137,
      "grad_norm": 0.00030379387317225337,
      "learning_rate": 0.15731308365966323,
      "loss": 0.3601,
      "num_input_tokens_seen": 17986464,
      "step": 19380
    },
    {
      "epoch": 9.13955681282414,
      "grad_norm": 0.00022861731122247875,
      "learning_rate": 0.15725424828340331,
      "loss": 0.3055,
      "num_input_tokens_seen": 17990672,
      "step": 19385
    },
    {
      "epoch": 9.141914191419142,
      "grad_norm": 0.0003185221867170185,
      "learning_rate": 0.15719541178844715,
      "loss": 0.342,
      "num_input_tokens_seen": 17994928,
      "step": 19390
    },
    {
      "epoch": 9.144271570014144,
      "grad_norm": 0.0002596113190520555,
      "learning_rate": 0.15713657418386806,
      "loss": 0.3535,
      "num_input_tokens_seen": 18000272,
      "step": 19395
    },
    {
      "epoch": 9.146628948609147,
      "grad_norm": 0.00026495891506783664,
      "learning_rate": 0.15707773547873957,
      "loss": 0.3245,
      "num_input_tokens_seen": 18005200,
      "step": 19400
    },
    {
      "epoch": 9.146628948609147,
      "eval_loss": 0.3277372717857361,
      "eval_runtime": 33.5408,
      "eval_samples_per_second": 28.115,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 18005200,
      "step": 19400
    },
    {
      "epoch": 9.148986327204149,
      "grad_norm": 0.00021458094124682248,
      "learning_rate": 0.1570188956821353,
      "loss": 0.3439,
      "num_input_tokens_seen": 18010768,
      "step": 19405
    },
    {
      "epoch": 9.151343705799151,
      "grad_norm": 0.00021137652220204473,
      "learning_rate": 0.1569600548031291,
      "loss": 0.2917,
      "num_input_tokens_seen": 18014352,
      "step": 19410
    },
    {
      "epoch": 9.153701084394154,
      "grad_norm": 0.0007339115836657584,
      "learning_rate": 0.156901212850795,
      "loss": 0.3192,
      "num_input_tokens_seen": 18018480,
      "step": 19415
    },
    {
      "epoch": 9.156058462989156,
      "grad_norm": 0.0004929116694256663,
      "learning_rate": 0.15684236983420716,
      "loss": 0.3181,
      "num_input_tokens_seen": 18023008,
      "step": 19420
    },
    {
      "epoch": 9.158415841584159,
      "grad_norm": 0.00045123574091121554,
      "learning_rate": 0.1567835257624399,
      "loss": 0.339,
      "num_input_tokens_seen": 18026944,
      "step": 19425
    },
    {
      "epoch": 9.160773220179161,
      "grad_norm": 0.00027057365514338017,
      "learning_rate": 0.1567246806445677,
      "loss": 0.3252,
      "num_input_tokens_seen": 18031760,
      "step": 19430
    },
    {
      "epoch": 9.163130598774163,
      "grad_norm": 0.00031366595067083836,
      "learning_rate": 0.15666583448966526,
      "loss": 0.2921,
      "num_input_tokens_seen": 18036720,
      "step": 19435
    },
    {
      "epoch": 9.165487977369166,
      "grad_norm": 0.00020375648455228657,
      "learning_rate": 0.1566069873068074,
      "loss": 0.3359,
      "num_input_tokens_seen": 18041152,
      "step": 19440
    },
    {
      "epoch": 9.167845355964168,
      "grad_norm": 0.000581662985496223,
      "learning_rate": 0.156548139105069,
      "loss": 0.354,
      "num_input_tokens_seen": 18045952,
      "step": 19445
    },
    {
      "epoch": 9.17020273455917,
      "grad_norm": 0.00023564168077427894,
      "learning_rate": 0.15648928989352529,
      "loss": 0.3084,
      "num_input_tokens_seen": 18050400,
      "step": 19450
    },
    {
      "epoch": 9.172560113154173,
      "grad_norm": 0.00017562862194608897,
      "learning_rate": 0.15643043968125156,
      "loss": 0.3217,
      "num_input_tokens_seen": 18054352,
      "step": 19455
    },
    {
      "epoch": 9.174917491749175,
      "grad_norm": 0.00029268438811413944,
      "learning_rate": 0.15637158847732316,
      "loss": 0.3401,
      "num_input_tokens_seen": 18059184,
      "step": 19460
    },
    {
      "epoch": 9.177274870344178,
      "grad_norm": 0.00028100755298510194,
      "learning_rate": 0.15631273629081582,
      "loss": 0.3312,
      "num_input_tokens_seen": 18063712,
      "step": 19465
    },
    {
      "epoch": 9.17963224893918,
      "grad_norm": 0.00030611874535679817,
      "learning_rate": 0.15625388313080518,
      "loss": 0.3418,
      "num_input_tokens_seen": 18067968,
      "step": 19470
    },
    {
      "epoch": 9.181989627534183,
      "grad_norm": 0.0007961535011418164,
      "learning_rate": 0.15619502900636714,
      "loss": 0.3457,
      "num_input_tokens_seen": 18073216,
      "step": 19475
    },
    {
      "epoch": 9.184347006129185,
      "grad_norm": 0.00024992256658151746,
      "learning_rate": 0.15613617392657783,
      "loss": 0.3773,
      "num_input_tokens_seen": 18078432,
      "step": 19480
    },
    {
      "epoch": 9.186704384724187,
      "grad_norm": 0.0004273944068700075,
      "learning_rate": 0.15607731790051335,
      "loss": 0.324,
      "num_input_tokens_seen": 18083312,
      "step": 19485
    },
    {
      "epoch": 9.18906176331919,
      "grad_norm": 0.0006798124522902071,
      "learning_rate": 0.15601846093725008,
      "loss": 0.3643,
      "num_input_tokens_seen": 18088672,
      "step": 19490
    },
    {
      "epoch": 9.191419141914192,
      "grad_norm": 0.0005719382897950709,
      "learning_rate": 0.1559596030458645,
      "loss": 0.3011,
      "num_input_tokens_seen": 18092880,
      "step": 19495
    },
    {
      "epoch": 9.193776520509195,
      "grad_norm": 0.0007024147780612111,
      "learning_rate": 0.1559007442354333,
      "loss": 0.3076,
      "num_input_tokens_seen": 18096832,
      "step": 19500
    },
    {
      "epoch": 9.196133899104197,
      "grad_norm": 0.0005715689621865749,
      "learning_rate": 0.15584188451503314,
      "loss": 0.328,
      "num_input_tokens_seen": 18101856,
      "step": 19505
    },
    {
      "epoch": 9.198491277699198,
      "grad_norm": 0.0005788245471194386,
      "learning_rate": 0.15578302389374094,
      "loss": 0.3041,
      "num_input_tokens_seen": 18107024,
      "step": 19510
    },
    {
      "epoch": 9.2008486562942,
      "grad_norm": 0.0002798242785502225,
      "learning_rate": 0.1557241623806338,
      "loss": 0.2931,
      "num_input_tokens_seen": 18111152,
      "step": 19515
    },
    {
      "epoch": 9.203206034889202,
      "grad_norm": 0.0004608046147041023,
      "learning_rate": 0.15566529998478887,
      "loss": 0.3229,
      "num_input_tokens_seen": 18116272,
      "step": 19520
    },
    {
      "epoch": 9.205563413484205,
      "grad_norm": 0.00016807159408926964,
      "learning_rate": 0.15560643671528354,
      "loss": 0.3464,
      "num_input_tokens_seen": 18120864,
      "step": 19525
    },
    {
      "epoch": 9.207920792079207,
      "grad_norm": 0.0002950875787064433,
      "learning_rate": 0.15554757258119514,
      "loss": 0.3276,
      "num_input_tokens_seen": 18125408,
      "step": 19530
    },
    {
      "epoch": 9.21027817067421,
      "grad_norm": 0.00016923666407819837,
      "learning_rate": 0.1554887075916014,
      "loss": 0.3308,
      "num_input_tokens_seen": 18129632,
      "step": 19535
    },
    {
      "epoch": 9.212635549269212,
      "grad_norm": 0.0002732802531681955,
      "learning_rate": 0.15542984175558,
      "loss": 0.3751,
      "num_input_tokens_seen": 18134608,
      "step": 19540
    },
    {
      "epoch": 9.214992927864214,
      "grad_norm": 0.00017515204672235996,
      "learning_rate": 0.1553709750822087,
      "loss": 0.314,
      "num_input_tokens_seen": 18139472,
      "step": 19545
    },
    {
      "epoch": 9.217350306459217,
      "grad_norm": 0.0002154120011255145,
      "learning_rate": 0.15531210758056554,
      "loss": 0.3611,
      "num_input_tokens_seen": 18144032,
      "step": 19550
    },
    {
      "epoch": 9.21970768505422,
      "grad_norm": 0.0005229620146565139,
      "learning_rate": 0.15525323925972867,
      "loss": 0.409,
      "num_input_tokens_seen": 18149392,
      "step": 19555
    },
    {
      "epoch": 9.222065063649222,
      "grad_norm": 0.00021160893084015697,
      "learning_rate": 0.15519437012877627,
      "loss": 0.3255,
      "num_input_tokens_seen": 18153808,
      "step": 19560
    },
    {
      "epoch": 9.224422442244224,
      "grad_norm": 0.0005850710440427065,
      "learning_rate": 0.15513550019678676,
      "loss": 0.3318,
      "num_input_tokens_seen": 18157744,
      "step": 19565
    },
    {
      "epoch": 9.226779820839226,
      "grad_norm": 0.0006394606898538768,
      "learning_rate": 0.15507662947283854,
      "loss": 0.3403,
      "num_input_tokens_seen": 18162368,
      "step": 19570
    },
    {
      "epoch": 9.229137199434229,
      "grad_norm": 0.00024747595307417214,
      "learning_rate": 0.15501775796601028,
      "loss": 0.3045,
      "num_input_tokens_seen": 18165808,
      "step": 19575
    },
    {
      "epoch": 9.231494578029231,
      "grad_norm": 0.0003188427654094994,
      "learning_rate": 0.15495888568538066,
      "loss": 0.3154,
      "num_input_tokens_seen": 18171376,
      "step": 19580
    },
    {
      "epoch": 9.233851956624234,
      "grad_norm": 0.0002651400864124298,
      "learning_rate": 0.1549000126400286,
      "loss": 0.311,
      "num_input_tokens_seen": 18176384,
      "step": 19585
    },
    {
      "epoch": 9.236209335219236,
      "grad_norm": 0.0007040796335786581,
      "learning_rate": 0.15484113883903294,
      "loss": 0.3242,
      "num_input_tokens_seen": 18181984,
      "step": 19590
    },
    {
      "epoch": 9.238566713814238,
      "grad_norm": 0.0005115264211781323,
      "learning_rate": 0.15478226429147288,
      "loss": 0.3611,
      "num_input_tokens_seen": 18185408,
      "step": 19595
    },
    {
      "epoch": 9.24092409240924,
      "grad_norm": 0.0005640615127049387,
      "learning_rate": 0.15472338900642757,
      "loss": 0.3733,
      "num_input_tokens_seen": 18190416,
      "step": 19600
    },
    {
      "epoch": 9.24092409240924,
      "eval_loss": 0.32659822702407837,
      "eval_runtime": 33.5422,
      "eval_samples_per_second": 28.114,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 18190416,
      "step": 19600
    },
    {
      "epoch": 9.243281471004243,
      "grad_norm": 0.0005249274545349181,
      "learning_rate": 0.15466451299297632,
      "loss": 0.347,
      "num_input_tokens_seen": 18194960,
      "step": 19605
    },
    {
      "epoch": 9.245638849599246,
      "grad_norm": 0.00018111028475686908,
      "learning_rate": 0.15460563626019852,
      "loss": 0.3373,
      "num_input_tokens_seen": 18199328,
      "step": 19610
    },
    {
      "epoch": 9.247996228194248,
      "grad_norm": 0.0005297395982779562,
      "learning_rate": 0.15454675881717375,
      "loss": 0.3663,
      "num_input_tokens_seen": 18203744,
      "step": 19615
    },
    {
      "epoch": 9.25035360678925,
      "grad_norm": 0.0005039250245317817,
      "learning_rate": 0.1544878806729816,
      "loss": 0.3118,
      "num_input_tokens_seen": 18208048,
      "step": 19620
    },
    {
      "epoch": 9.252710985384253,
      "grad_norm": 0.0006324559799395502,
      "learning_rate": 0.1544290018367019,
      "loss": 0.3411,
      "num_input_tokens_seen": 18212064,
      "step": 19625
    },
    {
      "epoch": 9.255068363979255,
      "grad_norm": 0.0002734442241489887,
      "learning_rate": 0.15437012231741445,
      "loss": 0.3709,
      "num_input_tokens_seen": 18216256,
      "step": 19630
    },
    {
      "epoch": 9.257425742574258,
      "grad_norm": 0.0002388590801274404,
      "learning_rate": 0.1543112421241992,
      "loss": 0.3289,
      "num_input_tokens_seen": 18220304,
      "step": 19635
    },
    {
      "epoch": 9.25978312116926,
      "grad_norm": 0.0004525685217231512,
      "learning_rate": 0.15425236126613626,
      "loss": 0.3576,
      "num_input_tokens_seen": 18224592,
      "step": 19640
    },
    {
      "epoch": 9.262140499764262,
      "grad_norm": 0.00023768836399540305,
      "learning_rate": 0.15419347975230577,
      "loss": 0.3284,
      "num_input_tokens_seen": 18228736,
      "step": 19645
    },
    {
      "epoch": 9.264497878359265,
      "grad_norm": 0.0002419559605186805,
      "learning_rate": 0.154134597591788,
      "loss": 0.3314,
      "num_input_tokens_seen": 18233856,
      "step": 19650
    },
    {
      "epoch": 9.266855256954267,
      "grad_norm": 0.0002470795880071819,
      "learning_rate": 0.1540757147936633,
      "loss": 0.3405,
      "num_input_tokens_seen": 18238256,
      "step": 19655
    },
    {
      "epoch": 9.26921263554927,
      "grad_norm": 0.0002613880205899477,
      "learning_rate": 0.1540168313670122,
      "loss": 0.3443,
      "num_input_tokens_seen": 18242672,
      "step": 19660
    },
    {
      "epoch": 9.271570014144272,
      "grad_norm": 0.0004683298757299781,
      "learning_rate": 0.1539579473209152,
      "loss": 0.3492,
      "num_input_tokens_seen": 18246992,
      "step": 19665
    },
    {
      "epoch": 9.273927392739274,
      "grad_norm": 0.00018895810353569686,
      "learning_rate": 0.15389906266445294,
      "loss": 0.3489,
      "num_input_tokens_seen": 18251904,
      "step": 19670
    },
    {
      "epoch": 9.276284771334277,
      "grad_norm": 0.0005030030151829123,
      "learning_rate": 0.15384017740670627,
      "loss": 0.3066,
      "num_input_tokens_seen": 18255792,
      "step": 19675
    },
    {
      "epoch": 9.27864214992928,
      "grad_norm": 0.0002774049062281847,
      "learning_rate": 0.15378129155675602,
      "loss": 0.3313,
      "num_input_tokens_seen": 18260048,
      "step": 19680
    },
    {
      "epoch": 9.280999528524282,
      "grad_norm": 0.00021792402549181134,
      "learning_rate": 0.15372240512368307,
      "loss": 0.2677,
      "num_input_tokens_seen": 18264592,
      "step": 19685
    },
    {
      "epoch": 9.283356907119284,
      "grad_norm": 0.00046570159611292183,
      "learning_rate": 0.1536635181165684,
      "loss": 0.3066,
      "num_input_tokens_seen": 18269504,
      "step": 19690
    },
    {
      "epoch": 9.285714285714286,
      "grad_norm": 0.0002296911843586713,
      "learning_rate": 0.15360463054449328,
      "loss": 0.3068,
      "num_input_tokens_seen": 18273888,
      "step": 19695
    },
    {
      "epoch": 9.288071664309289,
      "grad_norm": 0.00015793541388120502,
      "learning_rate": 0.1535457424165388,
      "loss": 0.3492,
      "num_input_tokens_seen": 18279088,
      "step": 19700
    },
    {
      "epoch": 9.290429042904291,
      "grad_norm": 0.0004295976832509041,
      "learning_rate": 0.15348685374178628,
      "loss": 0.3427,
      "num_input_tokens_seen": 18284464,
      "step": 19705
    },
    {
      "epoch": 9.292786421499294,
      "grad_norm": 0.00023877399507910013,
      "learning_rate": 0.1534279645293171,
      "loss": 0.3421,
      "num_input_tokens_seen": 18288768,
      "step": 19710
    },
    {
      "epoch": 9.295143800094294,
      "grad_norm": 0.00016315412358380854,
      "learning_rate": 0.1533690747882127,
      "loss": 0.3533,
      "num_input_tokens_seen": 18293344,
      "step": 19715
    },
    {
      "epoch": 9.297501178689297,
      "grad_norm": 0.0002407797146588564,
      "learning_rate": 0.15331018452755465,
      "loss": 0.3714,
      "num_input_tokens_seen": 18297568,
      "step": 19720
    },
    {
      "epoch": 9.299858557284299,
      "grad_norm": 0.00019961992802564055,
      "learning_rate": 0.15325129375642457,
      "loss": 0.4163,
      "num_input_tokens_seen": 18302384,
      "step": 19725
    },
    {
      "epoch": 9.302215935879302,
      "grad_norm": 0.0005431256722658873,
      "learning_rate": 0.15319240248390406,
      "loss": 0.3194,
      "num_input_tokens_seen": 18307952,
      "step": 19730
    },
    {
      "epoch": 9.304573314474304,
      "grad_norm": 0.0004999044467695057,
      "learning_rate": 0.153133510719075,
      "loss": 0.3094,
      "num_input_tokens_seen": 18312480,
      "step": 19735
    },
    {
      "epoch": 9.306930693069306,
      "grad_norm": 0.0003001257427968085,
      "learning_rate": 0.15307461847101922,
      "loss": 0.3414,
      "num_input_tokens_seen": 18317376,
      "step": 19740
    },
    {
      "epoch": 9.309288071664309,
      "grad_norm": 0.00020134844817221165,
      "learning_rate": 0.15301572574881864,
      "loss": 0.3499,
      "num_input_tokens_seen": 18322816,
      "step": 19745
    },
    {
      "epoch": 9.311645450259311,
      "grad_norm": 0.0001819581084419042,
      "learning_rate": 0.15295683256155523,
      "loss": 0.3318,
      "num_input_tokens_seen": 18326560,
      "step": 19750
    },
    {
      "epoch": 9.314002828854314,
      "grad_norm": 0.00045568300993181765,
      "learning_rate": 0.15289793891831113,
      "loss": 0.3501,
      "num_input_tokens_seen": 18331312,
      "step": 19755
    },
    {
      "epoch": 9.316360207449316,
      "grad_norm": 0.00022228668967727572,
      "learning_rate": 0.15283904482816837,
      "loss": 0.3503,
      "num_input_tokens_seen": 18335552,
      "step": 19760
    },
    {
      "epoch": 9.318717586044318,
      "grad_norm": 0.0002994998940266669,
      "learning_rate": 0.15278015030020928,
      "loss": 0.3385,
      "num_input_tokens_seen": 18340544,
      "step": 19765
    },
    {
      "epoch": 9.32107496463932,
      "grad_norm": 0.00021721230586990714,
      "learning_rate": 0.152721255343516,
      "loss": 0.3554,
      "num_input_tokens_seen": 18345264,
      "step": 19770
    },
    {
      "epoch": 9.323432343234323,
      "grad_norm": 0.0004856205196119845,
      "learning_rate": 0.15266235996717098,
      "loss": 0.3241,
      "num_input_tokens_seen": 18349888,
      "step": 19775
    },
    {
      "epoch": 9.325789721829326,
      "grad_norm": 0.00019478598551359028,
      "learning_rate": 0.15260346418025664,
      "loss": 0.3409,
      "num_input_tokens_seen": 18353744,
      "step": 19780
    },
    {
      "epoch": 9.328147100424328,
      "grad_norm": 0.00023376963508781046,
      "learning_rate": 0.15254456799185537,
      "loss": 0.3361,
      "num_input_tokens_seen": 18358000,
      "step": 19785
    },
    {
      "epoch": 9.33050447901933,
      "grad_norm": 0.00023776786110829562,
      "learning_rate": 0.15248567141104974,
      "loss": 0.3032,
      "num_input_tokens_seen": 18362736,
      "step": 19790
    },
    {
      "epoch": 9.332861857614333,
      "grad_norm": 0.00022332780645228922,
      "learning_rate": 0.15242677444692232,
      "loss": 0.3045,
      "num_input_tokens_seen": 18367968,
      "step": 19795
    },
    {
      "epoch": 9.335219236209335,
      "grad_norm": 0.0004739617579616606,
      "learning_rate": 0.15236787710855584,
      "loss": 0.3328,
      "num_input_tokens_seen": 18373200,
      "step": 19800
    },
    {
      "epoch": 9.335219236209335,
      "eval_loss": 0.3273645043373108,
      "eval_runtime": 33.5852,
      "eval_samples_per_second": 28.078,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 18373200,
      "step": 19800
    },
    {
      "epoch": 9.337576614804338,
      "grad_norm": 0.0002167796337744221,
      "learning_rate": 0.1523089794050329,
      "loss": 0.2974,
      "num_input_tokens_seen": 18377600,
      "step": 19805
    },
    {
      "epoch": 9.33993399339934,
      "grad_norm": 0.00017441585077904165,
      "learning_rate": 0.15225008134543633,
      "loss": 0.3429,
      "num_input_tokens_seen": 18381408,
      "step": 19810
    },
    {
      "epoch": 9.342291371994342,
      "grad_norm": 0.0001524511753814295,
      "learning_rate": 0.15219118293884895,
      "loss": 0.312,
      "num_input_tokens_seen": 18385952,
      "step": 19815
    },
    {
      "epoch": 9.344648750589345,
      "grad_norm": 0.00017192403902299702,
      "learning_rate": 0.15213228419435362,
      "loss": 0.3149,
      "num_input_tokens_seen": 18390464,
      "step": 19820
    },
    {
      "epoch": 9.347006129184347,
      "grad_norm": 0.00023868080461397767,
      "learning_rate": 0.15207338512103327,
      "loss": 0.2858,
      "num_input_tokens_seen": 18394672,
      "step": 19825
    },
    {
      "epoch": 9.34936350777935,
      "grad_norm": 0.0004939463688060641,
      "learning_rate": 0.1520144857279709,
      "loss": 0.3764,
      "num_input_tokens_seen": 18399680,
      "step": 19830
    },
    {
      "epoch": 9.351720886374352,
      "grad_norm": 0.00021336114150471985,
      "learning_rate": 0.1519555860242495,
      "loss": 0.3083,
      "num_input_tokens_seen": 18403952,
      "step": 19835
    },
    {
      "epoch": 9.354078264969354,
      "grad_norm": 0.000179116555955261,
      "learning_rate": 0.15189668601895218,
      "loss": 0.363,
      "num_input_tokens_seen": 18408272,
      "step": 19840
    },
    {
      "epoch": 9.356435643564357,
      "grad_norm": 0.0003878224524669349,
      "learning_rate": 0.151837785721162,
      "loss": 0.3515,
      "num_input_tokens_seen": 18412336,
      "step": 19845
    },
    {
      "epoch": 9.35879302215936,
      "grad_norm": 0.00020145119924563915,
      "learning_rate": 0.15177888513996218,
      "loss": 0.4002,
      "num_input_tokens_seen": 18417104,
      "step": 19850
    },
    {
      "epoch": 9.361150400754362,
      "grad_norm": 0.00020232738461345434,
      "learning_rate": 0.15171998428443592,
      "loss": 0.3706,
      "num_input_tokens_seen": 18421680,
      "step": 19855
    },
    {
      "epoch": 9.363507779349364,
      "grad_norm": 0.00019353760580997914,
      "learning_rate": 0.1516610831636665,
      "loss": 0.3533,
      "num_input_tokens_seen": 18425600,
      "step": 19860
    },
    {
      "epoch": 9.365865157944366,
      "grad_norm": 0.000536170438863337,
      "learning_rate": 0.15160218178673715,
      "loss": 0.3113,
      "num_input_tokens_seen": 18430688,
      "step": 19865
    },
    {
      "epoch": 9.368222536539369,
      "grad_norm": 0.00018780304526444525,
      "learning_rate": 0.15154328016273122,
      "loss": 0.3639,
      "num_input_tokens_seen": 18435824,
      "step": 19870
    },
    {
      "epoch": 9.370579915134371,
      "grad_norm": 0.00024867645697668195,
      "learning_rate": 0.1514843783007321,
      "loss": 0.3236,
      "num_input_tokens_seen": 18440160,
      "step": 19875
    },
    {
      "epoch": 9.372937293729374,
      "grad_norm": 0.0002744712110143155,
      "learning_rate": 0.15142547620982322,
      "loss": 0.3298,
      "num_input_tokens_seen": 18444112,
      "step": 19880
    },
    {
      "epoch": 9.375294672324376,
      "grad_norm": 0.0004322607128415257,
      "learning_rate": 0.15136657389908797,
      "loss": 0.3466,
      "num_input_tokens_seen": 18448688,
      "step": 19885
    },
    {
      "epoch": 9.377652050919378,
      "grad_norm": 0.00053832633420825,
      "learning_rate": 0.15130767137760986,
      "loss": 0.3526,
      "num_input_tokens_seen": 18452688,
      "step": 19890
    },
    {
      "epoch": 9.38000942951438,
      "grad_norm": 0.0004152304318267852,
      "learning_rate": 0.15124876865447243,
      "loss": 0.3301,
      "num_input_tokens_seen": 18457136,
      "step": 19895
    },
    {
      "epoch": 9.382366808109383,
      "grad_norm": 0.00027273883461020887,
      "learning_rate": 0.15118986573875912,
      "loss": 0.3187,
      "num_input_tokens_seen": 18462656,
      "step": 19900
    },
    {
      "epoch": 9.384724186704386,
      "grad_norm": 0.0003007783379871398,
      "learning_rate": 0.15113096263955358,
      "loss": 0.3711,
      "num_input_tokens_seen": 18466848,
      "step": 19905
    },
    {
      "epoch": 9.387081565299386,
      "grad_norm": 0.0001573872723383829,
      "learning_rate": 0.1510720593659394,
      "loss": 0.3637,
      "num_input_tokens_seen": 18471888,
      "step": 19910
    },
    {
      "epoch": 9.389438943894389,
      "grad_norm": 0.0002516168460715562,
      "learning_rate": 0.15101315592700015,
      "loss": 0.3284,
      "num_input_tokens_seen": 18475984,
      "step": 19915
    },
    {
      "epoch": 9.391796322489391,
      "grad_norm": 0.00043548110988922417,
      "learning_rate": 0.15095425233181956,
      "loss": 0.3386,
      "num_input_tokens_seen": 18480368,
      "step": 19920
    },
    {
      "epoch": 9.394153701084393,
      "grad_norm": 0.00017234332335647196,
      "learning_rate": 0.15089534858948128,
      "loss": 0.3327,
      "num_input_tokens_seen": 18485776,
      "step": 19925
    },
    {
      "epoch": 9.396511079679396,
      "grad_norm": 0.00018836080562323332,
      "learning_rate": 0.15083644470906898,
      "loss": 0.3295,
      "num_input_tokens_seen": 18491184,
      "step": 19930
    },
    {
      "epoch": 9.398868458274398,
      "grad_norm": 0.0005402510869316757,
      "learning_rate": 0.1507775406996664,
      "loss": 0.3268,
      "num_input_tokens_seen": 18495392,
      "step": 19935
    },
    {
      "epoch": 9.4012258368694,
      "grad_norm": 0.00013722885341849178,
      "learning_rate": 0.15071863657035725,
      "loss": 0.3546,
      "num_input_tokens_seen": 18500592,
      "step": 19940
    },
    {
      "epoch": 9.403583215464403,
      "grad_norm": 0.0003866181359626353,
      "learning_rate": 0.15065973233022534,
      "loss": 0.3192,
      "num_input_tokens_seen": 18505424,
      "step": 19945
    },
    {
      "epoch": 9.405940594059405,
      "grad_norm": 0.0005133806262165308,
      "learning_rate": 0.15060082798835442,
      "loss": 0.3327,
      "num_input_tokens_seen": 18510928,
      "step": 19950
    },
    {
      "epoch": 9.408297972654408,
      "grad_norm": 0.0001988910516956821,
      "learning_rate": 0.15054192355382823,
      "loss": 0.3228,
      "num_input_tokens_seen": 18515344,
      "step": 19955
    },
    {
      "epoch": 9.41065535124941,
      "grad_norm": 0.00043311165063641965,
      "learning_rate": 0.15048301903573066,
      "loss": 0.3405,
      "num_input_tokens_seen": 18519408,
      "step": 19960
    },
    {
      "epoch": 9.413012729844413,
      "grad_norm": 0.0001642906863708049,
      "learning_rate": 0.15042411444314546,
      "loss": 0.3476,
      "num_input_tokens_seen": 18524000,
      "step": 19965
    },
    {
      "epoch": 9.415370108439415,
      "grad_norm": 0.0005206273635849357,
      "learning_rate": 0.1503652097851565,
      "loss": 0.2726,
      "num_input_tokens_seen": 18528368,
      "step": 19970
    },
    {
      "epoch": 9.417727487034417,
      "grad_norm": 0.00014850881416350603,
      "learning_rate": 0.15030630507084758,
      "loss": 0.2946,
      "num_input_tokens_seen": 18533520,
      "step": 19975
    },
    {
      "epoch": 9.42008486562942,
      "grad_norm": 0.00021397843374870718,
      "learning_rate": 0.1502474003093026,
      "loss": 0.3327,
      "num_input_tokens_seen": 18537328,
      "step": 19980
    },
    {
      "epoch": 9.422442244224422,
      "grad_norm": 0.0004591524484567344,
      "learning_rate": 0.15018849550960536,
      "loss": 0.293,
      "num_input_tokens_seen": 18541824,
      "step": 19985
    },
    {
      "epoch": 9.424799622819425,
      "grad_norm": 0.0002341819927096367,
      "learning_rate": 0.15012959068083975,
      "loss": 0.3107,
      "num_input_tokens_seen": 18547376,
      "step": 19990
    },
    {
      "epoch": 9.427157001414427,
      "grad_norm": 0.00012577848974615335,
      "learning_rate": 0.1500706858320896,
      "loss": 0.3053,
      "num_input_tokens_seen": 18551296,
      "step": 19995
    },
    {
      "epoch": 9.42951438000943,
      "grad_norm": 0.00019792676903307438,
      "learning_rate": 0.15001178097243886,
      "loss": 0.3801,
      "num_input_tokens_seen": 18556672,
      "step": 20000
    },
    {
      "epoch": 9.42951438000943,
      "eval_loss": 0.3273548185825348,
      "eval_runtime": 33.6136,
      "eval_samples_per_second": 28.054,
      "eval_steps_per_second": 14.042,
      "num_input_tokens_seen": 18556672,
      "step": 20000
    },
    {
      "epoch": 9.431871758604432,
      "grad_norm": 0.0005542922881431878,
      "learning_rate": 0.1499528761109713,
      "loss": 0.3104,
      "num_input_tokens_seen": 18560736,
      "step": 20005
    },
    {
      "epoch": 9.434229137199434,
      "grad_norm": 0.00039300715434364974,
      "learning_rate": 0.14989397125677087,
      "loss": 0.2697,
      "num_input_tokens_seen": 18564944,
      "step": 20010
    },
    {
      "epoch": 9.436586515794437,
      "grad_norm": 0.0001480244391132146,
      "learning_rate": 0.14983506641892141,
      "loss": 0.3637,
      "num_input_tokens_seen": 18569744,
      "step": 20015
    },
    {
      "epoch": 9.438943894389439,
      "grad_norm": 0.00031963828951120377,
      "learning_rate": 0.14977616160650672,
      "loss": 0.347,
      "num_input_tokens_seen": 18574560,
      "step": 20020
    },
    {
      "epoch": 9.441301272984441,
      "grad_norm": 0.00014544735313393176,
      "learning_rate": 0.14971725682861076,
      "loss": 0.2864,
      "num_input_tokens_seen": 18578624,
      "step": 20025
    },
    {
      "epoch": 9.443658651579444,
      "grad_norm": 0.0004100268706679344,
      "learning_rate": 0.14965835209431738,
      "loss": 0.3366,
      "num_input_tokens_seen": 18583504,
      "step": 20030
    },
    {
      "epoch": 9.446016030174446,
      "grad_norm": 0.00026598552358336747,
      "learning_rate": 0.14959944741271036,
      "loss": 0.2927,
      "num_input_tokens_seen": 18588368,
      "step": 20035
    },
    {
      "epoch": 9.448373408769449,
      "grad_norm": 0.0004186422738712281,
      "learning_rate": 0.14954054279287363,
      "loss": 0.3233,
      "num_input_tokens_seen": 18592416,
      "step": 20040
    },
    {
      "epoch": 9.450730787364451,
      "grad_norm": 0.0001788310328265652,
      "learning_rate": 0.14948163824389094,
      "loss": 0.2895,
      "num_input_tokens_seen": 18597072,
      "step": 20045
    },
    {
      "epoch": 9.453088165959453,
      "grad_norm": 0.00016260988195426762,
      "learning_rate": 0.14942273377484613,
      "loss": 0.2987,
      "num_input_tokens_seen": 18602352,
      "step": 20050
    },
    {
      "epoch": 9.455445544554456,
      "grad_norm": 9.216721809934825e-05,
      "learning_rate": 0.1493638293948231,
      "loss": 0.2858,
      "num_input_tokens_seen": 18607296,
      "step": 20055
    },
    {
      "epoch": 9.457802923149458,
      "grad_norm": 0.00038485537515953183,
      "learning_rate": 0.14930492511290547,
      "loss": 0.3252,
      "num_input_tokens_seen": 18612256,
      "step": 20060
    },
    {
      "epoch": 9.46016030174446,
      "grad_norm": 0.0003929882077500224,
      "learning_rate": 0.14924602093817715,
      "loss": 0.3601,
      "num_input_tokens_seen": 18617216,
      "step": 20065
    },
    {
      "epoch": 9.462517680339463,
      "grad_norm": 0.00038136454531922936,
      "learning_rate": 0.14918711687972194,
      "loss": 0.2463,
      "num_input_tokens_seen": 18622080,
      "step": 20070
    },
    {
      "epoch": 9.464875058934465,
      "grad_norm": 0.00012467136548366398,
      "learning_rate": 0.14912821294662346,
      "loss": 0.3033,
      "num_input_tokens_seen": 18626560,
      "step": 20075
    },
    {
      "epoch": 9.467232437529468,
      "grad_norm": 0.00040066722431220114,
      "learning_rate": 0.14906930914796554,
      "loss": 0.3449,
      "num_input_tokens_seen": 18630976,
      "step": 20080
    },
    {
      "epoch": 9.46958981612447,
      "grad_norm": 0.0003772313066292554,
      "learning_rate": 0.14901040549283182,
      "loss": 0.2464,
      "num_input_tokens_seen": 18635120,
      "step": 20085
    },
    {
      "epoch": 9.471947194719473,
      "grad_norm": 0.00018025968165602535,
      "learning_rate": 0.148951501990306,
      "loss": 0.3419,
      "num_input_tokens_seen": 18639008,
      "step": 20090
    },
    {
      "epoch": 9.474304573314475,
      "grad_norm": 0.0001761239836923778,
      "learning_rate": 0.14889259864947177,
      "loss": 0.3792,
      "num_input_tokens_seen": 18643488,
      "step": 20095
    },
    {
      "epoch": 9.476661951909477,
      "grad_norm": 0.00039270080742426217,
      "learning_rate": 0.14883369547941272,
      "loss": 0.3775,
      "num_input_tokens_seen": 18647888,
      "step": 20100
    },
    {
      "epoch": 9.47901933050448,
      "grad_norm": 0.00018041594012174755,
      "learning_rate": 0.14877479248921247,
      "loss": 0.2771,
      "num_input_tokens_seen": 18652800,
      "step": 20105
    },
    {
      "epoch": 9.481376709099482,
      "grad_norm": 0.00014016154455021024,
      "learning_rate": 0.14871588968795468,
      "loss": 0.3228,
      "num_input_tokens_seen": 18657504,
      "step": 20110
    },
    {
      "epoch": 9.483734087694483,
      "grad_norm": 0.0007890646229498088,
      "learning_rate": 0.1486569870847228,
      "loss": 0.3823,
      "num_input_tokens_seen": 18662720,
      "step": 20115
    },
    {
      "epoch": 9.486091466289485,
      "grad_norm": 0.00019712273206096143,
      "learning_rate": 0.1485980846886004,
      "loss": 0.2865,
      "num_input_tokens_seen": 18667424,
      "step": 20120
    },
    {
      "epoch": 9.488448844884488,
      "grad_norm": 0.0001708013442112133,
      "learning_rate": 0.14853918250867096,
      "loss": 0.2784,
      "num_input_tokens_seen": 18672256,
      "step": 20125
    },
    {
      "epoch": 9.49080622347949,
      "grad_norm": 0.00021525047486647964,
      "learning_rate": 0.1484802805540179,
      "loss": 0.3261,
      "num_input_tokens_seen": 18677376,
      "step": 20130
    },
    {
      "epoch": 9.493163602074493,
      "grad_norm": 0.00048020423855632544,
      "learning_rate": 0.14842137883372472,
      "loss": 0.4275,
      "num_input_tokens_seen": 18682176,
      "step": 20135
    },
    {
      "epoch": 9.495520980669495,
      "grad_norm": 0.00019357228302396834,
      "learning_rate": 0.14836247735687474,
      "loss": 0.3732,
      "num_input_tokens_seen": 18687808,
      "step": 20140
    },
    {
      "epoch": 9.497878359264497,
      "grad_norm": 0.0001885809178929776,
      "learning_rate": 0.14830357613255132,
      "loss": 0.3339,
      "num_input_tokens_seen": 18692448,
      "step": 20145
    },
    {
      "epoch": 9.5002357378595,
      "grad_norm": 0.0002758160699158907,
      "learning_rate": 0.1482446751698378,
      "loss": 0.3439,
      "num_input_tokens_seen": 18697488,
      "step": 20150
    },
    {
      "epoch": 9.502593116454502,
      "grad_norm": 0.00016926418174989522,
      "learning_rate": 0.14818577447781744,
      "loss": 0.3234,
      "num_input_tokens_seen": 18701616,
      "step": 20155
    },
    {
      "epoch": 9.504950495049505,
      "grad_norm": 0.0004769888473674655,
      "learning_rate": 0.14812687406557346,
      "loss": 0.3385,
      "num_input_tokens_seen": 18705616,
      "step": 20160
    },
    {
      "epoch": 9.507307873644507,
      "grad_norm": 0.0005313993315212429,
      "learning_rate": 0.14806797394218899,
      "loss": 0.3259,
      "num_input_tokens_seen": 18709632,
      "step": 20165
    },
    {
      "epoch": 9.50966525223951,
      "grad_norm": 0.00020884553669020534,
      "learning_rate": 0.1480090741167472,
      "loss": 0.3609,
      "num_input_tokens_seen": 18713920,
      "step": 20170
    },
    {
      "epoch": 9.512022630834512,
      "grad_norm": 0.0001739831641316414,
      "learning_rate": 0.1479501745983313,
      "loss": 0.3186,
      "num_input_tokens_seen": 18718256,
      "step": 20175
    },
    {
      "epoch": 9.514380009429514,
      "grad_norm": 0.0002161738957511261,
      "learning_rate": 0.14789127539602415,
      "loss": 0.3539,
      "num_input_tokens_seen": 18722640,
      "step": 20180
    },
    {
      "epoch": 9.516737388024517,
      "grad_norm": 0.0004055823665112257,
      "learning_rate": 0.14783237651890885,
      "loss": 0.3034,
      "num_input_tokens_seen": 18728304,
      "step": 20185
    },
    {
      "epoch": 9.519094766619519,
      "grad_norm": 0.00019410041568335146,
      "learning_rate": 0.14777347797606838,
      "loss": 0.3572,
      "num_input_tokens_seen": 18732944,
      "step": 20190
    },
    {
      "epoch": 9.521452145214521,
      "grad_norm": 0.00021861089044250548,
      "learning_rate": 0.14771457977658553,
      "loss": 0.3352,
      "num_input_tokens_seen": 18738240,
      "step": 20195
    },
    {
      "epoch": 9.523809523809524,
      "grad_norm": 0.0007380680763162673,
      "learning_rate": 0.14765568192954326,
      "loss": 0.3399,
      "num_input_tokens_seen": 18742816,
      "step": 20200
    },
    {
      "epoch": 9.523809523809524,
      "eval_loss": 0.328951358795166,
      "eval_runtime": 33.5151,
      "eval_samples_per_second": 28.137,
      "eval_steps_per_second": 14.083,
      "num_input_tokens_seen": 18742816,
      "step": 20200
    },
    {
      "epoch": 9.526166902404526,
      "grad_norm": 0.00022451482072938234,
      "learning_rate": 0.14759678444402421,
      "loss": 0.3415,
      "num_input_tokens_seen": 18747504,
      "step": 20205
    },
    {
      "epoch": 9.528524280999529,
      "grad_norm": 0.0007537776255048811,
      "learning_rate": 0.14753788732911122,
      "loss": 0.3425,
      "num_input_tokens_seen": 18752320,
      "step": 20210
    },
    {
      "epoch": 9.530881659594531,
      "grad_norm": 0.0001720917789498344,
      "learning_rate": 0.147478990593887,
      "loss": 0.3624,
      "num_input_tokens_seen": 18756832,
      "step": 20215
    },
    {
      "epoch": 9.533239038189533,
      "grad_norm": 0.00029185158200562,
      "learning_rate": 0.14742009424743405,
      "loss": 0.3402,
      "num_input_tokens_seen": 18760912,
      "step": 20220
    },
    {
      "epoch": 9.535596416784536,
      "grad_norm": 0.0005413575563579798,
      "learning_rate": 0.14736119829883504,
      "loss": 0.2916,
      "num_input_tokens_seen": 18766144,
      "step": 20225
    },
    {
      "epoch": 9.537953795379538,
      "grad_norm": 0.0004538462089840323,
      "learning_rate": 0.14730230275717243,
      "loss": 0.328,
      "num_input_tokens_seen": 18770416,
      "step": 20230
    },
    {
      "epoch": 9.54031117397454,
      "grad_norm": 0.0001737146667437628,
      "learning_rate": 0.14724340763152854,
      "loss": 0.3455,
      "num_input_tokens_seen": 18774848,
      "step": 20235
    },
    {
      "epoch": 9.542668552569543,
      "grad_norm": 0.00048630472156219184,
      "learning_rate": 0.14718451293098594,
      "loss": 0.3837,
      "num_input_tokens_seen": 18779952,
      "step": 20240
    },
    {
      "epoch": 9.545025931164545,
      "grad_norm": 0.000182992298505269,
      "learning_rate": 0.14712561866462676,
      "loss": 0.3236,
      "num_input_tokens_seen": 18784304,
      "step": 20245
    },
    {
      "epoch": 9.547383309759548,
      "grad_norm": 0.00046506713260896504,
      "learning_rate": 0.1470667248415333,
      "loss": 0.3277,
      "num_input_tokens_seen": 18789104,
      "step": 20250
    },
    {
      "epoch": 9.54974068835455,
      "grad_norm": 0.00019040697952732444,
      "learning_rate": 0.1470078314707878,
      "loss": 0.2995,
      "num_input_tokens_seen": 18793664,
      "step": 20255
    },
    {
      "epoch": 9.552098066949553,
      "grad_norm": 0.0004900143831036985,
      "learning_rate": 0.14694893856147223,
      "loss": 0.3174,
      "num_input_tokens_seen": 18798928,
      "step": 20260
    },
    {
      "epoch": 9.554455445544555,
      "grad_norm": 0.00019875532598234713,
      "learning_rate": 0.14689004612266868,
      "loss": 0.3333,
      "num_input_tokens_seen": 18802960,
      "step": 20265
    },
    {
      "epoch": 9.556812824139557,
      "grad_norm": 0.00026573092327453196,
      "learning_rate": 0.14683115416345913,
      "loss": 0.326,
      "num_input_tokens_seen": 18806832,
      "step": 20270
    },
    {
      "epoch": 9.55917020273456,
      "grad_norm": 0.00015868223272264004,
      "learning_rate": 0.1467722626929254,
      "loss": 0.2923,
      "num_input_tokens_seen": 18811456,
      "step": 20275
    },
    {
      "epoch": 9.561527581329562,
      "grad_norm": 0.0001748174399835989,
      "learning_rate": 0.14671337172014937,
      "loss": 0.3243,
      "num_input_tokens_seen": 18815824,
      "step": 20280
    },
    {
      "epoch": 9.563884959924565,
      "grad_norm": 0.00013179067173041403,
      "learning_rate": 0.14665448125421265,
      "loss": 0.333,
      "num_input_tokens_seen": 18820400,
      "step": 20285
    },
    {
      "epoch": 9.566242338519567,
      "grad_norm": 0.0003935774730052799,
      "learning_rate": 0.146595591304197,
      "loss": 0.3223,
      "num_input_tokens_seen": 18824896,
      "step": 20290
    },
    {
      "epoch": 9.56859971711457,
      "grad_norm": 0.0004145465209148824,
      "learning_rate": 0.14653670187918397,
      "loss": 0.3183,
      "num_input_tokens_seen": 18829328,
      "step": 20295
    },
    {
      "epoch": 9.570957095709572,
      "grad_norm": 0.000399757525883615,
      "learning_rate": 0.14647781298825502,
      "loss": 0.3188,
      "num_input_tokens_seen": 18834128,
      "step": 20300
    },
    {
      "epoch": 9.573314474304574,
      "grad_norm": 0.00024516950361430645,
      "learning_rate": 0.14641892464049153,
      "loss": 0.3487,
      "num_input_tokens_seen": 18838592,
      "step": 20305
    },
    {
      "epoch": 9.575671852899575,
      "grad_norm": 0.0002064661675831303,
      "learning_rate": 0.14636003684497495,
      "loss": 0.3931,
      "num_input_tokens_seen": 18843168,
      "step": 20310
    },
    {
      "epoch": 9.578029231494579,
      "grad_norm": 0.00019312830409035087,
      "learning_rate": 0.14630114961078636,
      "loss": 0.3337,
      "num_input_tokens_seen": 18847504,
      "step": 20315
    },
    {
      "epoch": 9.58038661008958,
      "grad_norm": 0.00045594622497446835,
      "learning_rate": 0.14624226294700704,
      "loss": 0.3117,
      "num_input_tokens_seen": 18853056,
      "step": 20320
    },
    {
      "epoch": 9.582743988684582,
      "grad_norm": 0.0004514790780376643,
      "learning_rate": 0.14618337686271793,
      "loss": 0.2718,
      "num_input_tokens_seen": 18857424,
      "step": 20325
    },
    {
      "epoch": 9.585101367279584,
      "grad_norm": 0.0005000782548449934,
      "learning_rate": 0.1461244913670001,
      "loss": 0.3982,
      "num_input_tokens_seen": 18862448,
      "step": 20330
    },
    {
      "epoch": 9.587458745874587,
      "grad_norm": 0.0006818649708293378,
      "learning_rate": 0.1460656064689344,
      "loss": 0.3182,
      "num_input_tokens_seen": 18867072,
      "step": 20335
    },
    {
      "epoch": 9.58981612446959,
      "grad_norm": 0.0002355792821617797,
      "learning_rate": 0.14600672217760163,
      "loss": 0.3353,
      "num_input_tokens_seen": 18872752,
      "step": 20340
    },
    {
      "epoch": 9.592173503064592,
      "grad_norm": 0.00022070347040425986,
      "learning_rate": 0.14594783850208248,
      "loss": 0.3252,
      "num_input_tokens_seen": 18877472,
      "step": 20345
    },
    {
      "epoch": 9.594530881659594,
      "grad_norm": 0.00048374809557572007,
      "learning_rate": 0.14588895545145758,
      "loss": 0.3326,
      "num_input_tokens_seen": 18882368,
      "step": 20350
    },
    {
      "epoch": 9.596888260254596,
      "grad_norm": 0.00020737868908327073,
      "learning_rate": 0.14583007303480738,
      "loss": 0.3234,
      "num_input_tokens_seen": 18887456,
      "step": 20355
    },
    {
      "epoch": 9.599245638849599,
      "grad_norm": 0.00020961494010407478,
      "learning_rate": 0.14577119126121235,
      "loss": 0.3388,
      "num_input_tokens_seen": 18892176,
      "step": 20360
    },
    {
      "epoch": 9.601603017444601,
      "grad_norm": 0.0001880214986158535,
      "learning_rate": 0.14571231013975272,
      "loss": 0.3398,
      "num_input_tokens_seen": 18896512,
      "step": 20365
    },
    {
      "epoch": 9.603960396039604,
      "grad_norm": 0.0002445728168822825,
      "learning_rate": 0.1456534296795088,
      "loss": 0.3056,
      "num_input_tokens_seen": 18901200,
      "step": 20370
    },
    {
      "epoch": 9.606317774634606,
      "grad_norm": 0.00032587075838819146,
      "learning_rate": 0.14559454988956066,
      "loss": 0.2949,
      "num_input_tokens_seen": 18906304,
      "step": 20375
    },
    {
      "epoch": 9.608675153229608,
      "grad_norm": 0.00047494290629401803,
      "learning_rate": 0.1455356707789882,
      "loss": 0.3761,
      "num_input_tokens_seen": 18912048,
      "step": 20380
    },
    {
      "epoch": 9.61103253182461,
      "grad_norm": 0.00018204154912382364,
      "learning_rate": 0.14547679235687147,
      "loss": 0.2981,
      "num_input_tokens_seen": 18916832,
      "step": 20385
    },
    {
      "epoch": 9.613389910419613,
      "grad_norm": 0.000453304237453267,
      "learning_rate": 0.14541791463229023,
      "loss": 0.3478,
      "num_input_tokens_seen": 18920752,
      "step": 20390
    },
    {
      "epoch": 9.615747289014616,
      "grad_norm": 0.00046077562728896737,
      "learning_rate": 0.14535903761432406,
      "loss": 0.2964,
      "num_input_tokens_seen": 18924976,
      "step": 20395
    },
    {
      "epoch": 9.618104667609618,
      "grad_norm": 0.00024152833793777972,
      "learning_rate": 0.1453001613120527,
      "loss": 0.3368,
      "num_input_tokens_seen": 18930224,
      "step": 20400
    },
    {
      "epoch": 9.618104667609618,
      "eval_loss": 0.3276175856590271,
      "eval_runtime": 33.557,
      "eval_samples_per_second": 28.101,
      "eval_steps_per_second": 14.066,
      "num_input_tokens_seen": 18930224,
      "step": 20400
    },
    {
      "epoch": 9.62046204620462,
      "grad_norm": 0.0005058204988017678,
      "learning_rate": 0.14524128573455547,
      "loss": 0.3229,
      "num_input_tokens_seen": 18934928,
      "step": 20405
    },
    {
      "epoch": 9.622819424799623,
      "grad_norm": 0.00020791799761354923,
      "learning_rate": 0.14518241089091177,
      "loss": 0.382,
      "num_input_tokens_seen": 18940240,
      "step": 20410
    },
    {
      "epoch": 9.625176803394625,
      "grad_norm": 0.00018377386732026935,
      "learning_rate": 0.1451235367902009,
      "loss": 0.3581,
      "num_input_tokens_seen": 18945008,
      "step": 20415
    },
    {
      "epoch": 9.627534181989628,
      "grad_norm": 0.0002371295413468033,
      "learning_rate": 0.1450646634415019,
      "loss": 0.3526,
      "num_input_tokens_seen": 18949408,
      "step": 20420
    },
    {
      "epoch": 9.62989156058463,
      "grad_norm": 0.00019868109666276723,
      "learning_rate": 0.1450057908538938,
      "loss": 0.3372,
      "num_input_tokens_seen": 18954304,
      "step": 20425
    },
    {
      "epoch": 9.632248939179632,
      "grad_norm": 0.00022447429364547133,
      "learning_rate": 0.14494691903645557,
      "loss": 0.3218,
      "num_input_tokens_seen": 18958208,
      "step": 20430
    },
    {
      "epoch": 9.634606317774635,
      "grad_norm": 0.00019773667736444622,
      "learning_rate": 0.14488804799826588,
      "loss": 0.3268,
      "num_input_tokens_seen": 18962512,
      "step": 20435
    },
    {
      "epoch": 9.636963696369637,
      "grad_norm": 0.00020299499738030136,
      "learning_rate": 0.14482917774840348,
      "loss": 0.3506,
      "num_input_tokens_seen": 18967216,
      "step": 20440
    },
    {
      "epoch": 9.63932107496464,
      "grad_norm": 0.000541017740033567,
      "learning_rate": 0.14477030829594684,
      "loss": 0.3241,
      "num_input_tokens_seen": 18971072,
      "step": 20445
    },
    {
      "epoch": 9.641678453559642,
      "grad_norm": 0.00023996669915504754,
      "learning_rate": 0.14471143964997432,
      "loss": 0.3279,
      "num_input_tokens_seen": 18975936,
      "step": 20450
    },
    {
      "epoch": 9.644035832154644,
      "grad_norm": 0.00018927949713543057,
      "learning_rate": 0.14465257181956434,
      "loss": 0.3328,
      "num_input_tokens_seen": 18980208,
      "step": 20455
    },
    {
      "epoch": 9.646393210749647,
      "grad_norm": 0.00046851576189510524,
      "learning_rate": 0.1445937048137949,
      "loss": 0.3408,
      "num_input_tokens_seen": 18984752,
      "step": 20460
    },
    {
      "epoch": 9.64875058934465,
      "grad_norm": 0.0007537495694123209,
      "learning_rate": 0.14453483864174416,
      "loss": 0.3276,
      "num_input_tokens_seen": 18988112,
      "step": 20465
    },
    {
      "epoch": 9.651107967939652,
      "grad_norm": 0.00023640893050469458,
      "learning_rate": 0.14447597331249,
      "loss": 0.3128,
      "num_input_tokens_seen": 18992880,
      "step": 20470
    },
    {
      "epoch": 9.653465346534654,
      "grad_norm": 0.0002030126197496429,
      "learning_rate": 0.1444171088351102,
      "loss": 0.3538,
      "num_input_tokens_seen": 18996960,
      "step": 20475
    },
    {
      "epoch": 9.655822725129656,
      "grad_norm": 0.0002302852808497846,
      "learning_rate": 0.14435824521868235,
      "loss": 0.3291,
      "num_input_tokens_seen": 19002128,
      "step": 20480
    },
    {
      "epoch": 9.658180103724659,
      "grad_norm": 0.0004672443901654333,
      "learning_rate": 0.14429938247228397,
      "loss": 0.2702,
      "num_input_tokens_seen": 19007472,
      "step": 20485
    },
    {
      "epoch": 9.660537482319661,
      "grad_norm": 0.00022377210552804172,
      "learning_rate": 0.14424052060499243,
      "loss": 0.3761,
      "num_input_tokens_seen": 19012912,
      "step": 20490
    },
    {
      "epoch": 9.662894860914664,
      "grad_norm": 0.00047501653898507357,
      "learning_rate": 0.14418165962588506,
      "loss": 0.3527,
      "num_input_tokens_seen": 19017840,
      "step": 20495
    },
    {
      "epoch": 9.665252239509666,
      "grad_norm": 0.0004792118852492422,
      "learning_rate": 0.1441227995440388,
      "loss": 0.2857,
      "num_input_tokens_seen": 19022336,
      "step": 20500
    },
    {
      "epoch": 9.667609618104667,
      "grad_norm": 0.0002012215554714203,
      "learning_rate": 0.14406394036853082,
      "loss": 0.3227,
      "num_input_tokens_seen": 19026640,
      "step": 20505
    },
    {
      "epoch": 9.66996699669967,
      "grad_norm": 0.00025363030727021396,
      "learning_rate": 0.14400508210843774,
      "loss": 0.3097,
      "num_input_tokens_seen": 19031824,
      "step": 20510
    },
    {
      "epoch": 9.672324375294671,
      "grad_norm": 0.0002183122414862737,
      "learning_rate": 0.1439462247728364,
      "loss": 0.3712,
      "num_input_tokens_seen": 19036064,
      "step": 20515
    },
    {
      "epoch": 9.674681753889674,
      "grad_norm": 0.0001785289350664243,
      "learning_rate": 0.14388736837080326,
      "loss": 0.3538,
      "num_input_tokens_seen": 19041568,
      "step": 20520
    },
    {
      "epoch": 9.677039132484676,
      "grad_norm": 0.0004627821035683155,
      "learning_rate": 0.14382851291141469,
      "loss": 0.3258,
      "num_input_tokens_seen": 19045728,
      "step": 20525
    },
    {
      "epoch": 9.679396511079679,
      "grad_norm": 0.00019475219596643,
      "learning_rate": 0.14376965840374697,
      "loss": 0.2889,
      "num_input_tokens_seen": 19050432,
      "step": 20530
    },
    {
      "epoch": 9.681753889674681,
      "grad_norm": 0.0005125609459355474,
      "learning_rate": 0.14371080485687632,
      "loss": 0.352,
      "num_input_tokens_seen": 19054896,
      "step": 20535
    },
    {
      "epoch": 9.684111268269683,
      "grad_norm": 0.00024575312272645533,
      "learning_rate": 0.1436519522798785,
      "loss": 0.3409,
      "num_input_tokens_seen": 19059184,
      "step": 20540
    },
    {
      "epoch": 9.686468646864686,
      "grad_norm": 0.00022791311494074762,
      "learning_rate": 0.14359310068182948,
      "loss": 0.3346,
      "num_input_tokens_seen": 19064048,
      "step": 20545
    },
    {
      "epoch": 9.688826025459688,
      "grad_norm": 0.0004739592841360718,
      "learning_rate": 0.14353425007180484,
      "loss": 0.2677,
      "num_input_tokens_seen": 19068528,
      "step": 20550
    },
    {
      "epoch": 9.69118340405469,
      "grad_norm": 0.00019549277203623205,
      "learning_rate": 0.14347540045888005,
      "loss": 0.3138,
      "num_input_tokens_seen": 19072976,
      "step": 20555
    },
    {
      "epoch": 9.693540782649693,
      "grad_norm": 0.00016937180771492422,
      "learning_rate": 0.14341655185213056,
      "loss": 0.3334,
      "num_input_tokens_seen": 19078496,
      "step": 20560
    },
    {
      "epoch": 9.695898161244696,
      "grad_norm": 0.0005332953296601772,
      "learning_rate": 0.14335770426063144,
      "loss": 0.3694,
      "num_input_tokens_seen": 19083200,
      "step": 20565
    },
    {
      "epoch": 9.698255539839698,
      "grad_norm": 0.0002936815144494176,
      "learning_rate": 0.1432988576934578,
      "loss": 0.2756,
      "num_input_tokens_seen": 19087952,
      "step": 20570
    },
    {
      "epoch": 9.7006129184347,
      "grad_norm": 0.0002849897718988359,
      "learning_rate": 0.14324001215968457,
      "loss": 0.2737,
      "num_input_tokens_seen": 19092544,
      "step": 20575
    },
    {
      "epoch": 9.702970297029703,
      "grad_norm": 0.0001670641067903489,
      "learning_rate": 0.14318116766838637,
      "loss": 0.3057,
      "num_input_tokens_seen": 19096736,
      "step": 20580
    },
    {
      "epoch": 9.705327675624705,
      "grad_norm": 0.0009350298205390573,
      "learning_rate": 0.14312232422863788,
      "loss": 0.3696,
      "num_input_tokens_seen": 19101296,
      "step": 20585
    },
    {
      "epoch": 9.707685054219708,
      "grad_norm": 0.00015924149192869663,
      "learning_rate": 0.14306348184951334,
      "loss": 0.3157,
      "num_input_tokens_seen": 19106256,
      "step": 20590
    },
    {
      "epoch": 9.71004243281471,
      "grad_norm": 0.00024626567028462887,
      "learning_rate": 0.1430046405400871,
      "loss": 0.3461,
      "num_input_tokens_seen": 19110240,
      "step": 20595
    },
    {
      "epoch": 9.712399811409712,
      "grad_norm": 0.00047379208263009787,
      "learning_rate": 0.14294580030943324,
      "loss": 0.3135,
      "num_input_tokens_seen": 19115456,
      "step": 20600
    },
    {
      "epoch": 9.712399811409712,
      "eval_loss": 0.3279764950275421,
      "eval_runtime": 33.5917,
      "eval_samples_per_second": 28.072,
      "eval_steps_per_second": 14.051,
      "num_input_tokens_seen": 19115456,
      "step": 20600
    },
    {
      "epoch": 9.714757190004715,
      "grad_norm": 0.000244295340962708,
      "learning_rate": 0.14288696116662553,
      "loss": 0.3859,
      "num_input_tokens_seen": 19120768,
      "step": 20605
    },
    {
      "epoch": 9.717114568599717,
      "grad_norm": 0.0005052966298535466,
      "learning_rate": 0.1428281231207378,
      "loss": 0.329,
      "num_input_tokens_seen": 19125600,
      "step": 20610
    },
    {
      "epoch": 9.71947194719472,
      "grad_norm": 0.0002414246555417776,
      "learning_rate": 0.1427692861808437,
      "loss": 0.3321,
      "num_input_tokens_seen": 19130032,
      "step": 20615
    },
    {
      "epoch": 9.721829325789722,
      "grad_norm": 0.0005383676616474986,
      "learning_rate": 0.1427104503560165,
      "loss": 0.3297,
      "num_input_tokens_seen": 19134912,
      "step": 20620
    },
    {
      "epoch": 9.724186704384724,
      "grad_norm": 0.000246914365561679,
      "learning_rate": 0.14265161565532947,
      "loss": 0.3096,
      "num_input_tokens_seen": 19139008,
      "step": 20625
    },
    {
      "epoch": 9.726544082979727,
      "grad_norm": 0.0005151435034349561,
      "learning_rate": 0.14259278208785564,
      "loss": 0.341,
      "num_input_tokens_seen": 19143792,
      "step": 20630
    },
    {
      "epoch": 9.72890146157473,
      "grad_norm": 0.00022814508702140301,
      "learning_rate": 0.14253394966266789,
      "loss": 0.3391,
      "num_input_tokens_seen": 19148528,
      "step": 20635
    },
    {
      "epoch": 9.731258840169732,
      "grad_norm": 0.000514842220582068,
      "learning_rate": 0.14247511838883894,
      "loss": 0.2955,
      "num_input_tokens_seen": 19153408,
      "step": 20640
    },
    {
      "epoch": 9.733616218764734,
      "grad_norm": 0.0001941973896464333,
      "learning_rate": 0.14241628827544126,
      "loss": 0.3465,
      "num_input_tokens_seen": 19157024,
      "step": 20645
    },
    {
      "epoch": 9.735973597359736,
      "grad_norm": 0.00022298669500742108,
      "learning_rate": 0.14235745933154723,
      "loss": 0.299,
      "num_input_tokens_seen": 19160864,
      "step": 20650
    },
    {
      "epoch": 9.738330975954739,
      "grad_norm": 0.000854135665576905,
      "learning_rate": 0.14229863156622907,
      "loss": 0.3843,
      "num_input_tokens_seen": 19165664,
      "step": 20655
    },
    {
      "epoch": 9.740688354549741,
      "grad_norm": 0.00025332107907161117,
      "learning_rate": 0.14223980498855868,
      "loss": 0.3898,
      "num_input_tokens_seen": 19169952,
      "step": 20660
    },
    {
      "epoch": 9.743045733144744,
      "grad_norm": 0.00032808224204927683,
      "learning_rate": 0.14218097960760792,
      "loss": 0.3376,
      "num_input_tokens_seen": 19173952,
      "step": 20665
    },
    {
      "epoch": 9.745403111739746,
      "grad_norm": 0.00032636086689308286,
      "learning_rate": 0.1421221554324483,
      "loss": 0.3652,
      "num_input_tokens_seen": 19178096,
      "step": 20670
    },
    {
      "epoch": 9.747760490334748,
      "grad_norm": 0.00036628160160034895,
      "learning_rate": 0.1420633324721513,
      "loss": 0.3251,
      "num_input_tokens_seen": 19182352,
      "step": 20675
    },
    {
      "epoch": 9.75011786892975,
      "grad_norm": 0.0003482702886685729,
      "learning_rate": 0.14200451073578824,
      "loss": 0.3379,
      "num_input_tokens_seen": 19187296,
      "step": 20680
    },
    {
      "epoch": 9.752475247524753,
      "grad_norm": 0.0003021560551133007,
      "learning_rate": 0.14194569023243003,
      "loss": 0.3552,
      "num_input_tokens_seen": 19192304,
      "step": 20685
    },
    {
      "epoch": 9.754832626119756,
      "grad_norm": 0.0008249367820098996,
      "learning_rate": 0.14188687097114766,
      "loss": 0.3467,
      "num_input_tokens_seen": 19196240,
      "step": 20690
    },
    {
      "epoch": 9.757190004714758,
      "grad_norm": 0.00041710975347086787,
      "learning_rate": 0.14182805296101172,
      "loss": 0.3509,
      "num_input_tokens_seen": 19200240,
      "step": 20695
    },
    {
      "epoch": 9.75954738330976,
      "grad_norm": 0.0004929911810904741,
      "learning_rate": 0.14176923621109272,
      "loss": 0.3457,
      "num_input_tokens_seen": 19205744,
      "step": 20700
    },
    {
      "epoch": 9.761904761904763,
      "grad_norm": 0.00024089834187179804,
      "learning_rate": 0.14171042073046097,
      "loss": 0.348,
      "num_input_tokens_seen": 19210240,
      "step": 20705
    },
    {
      "epoch": 9.764262140499763,
      "grad_norm": 0.000837471045088023,
      "learning_rate": 0.14165160652818642,
      "loss": 0.351,
      "num_input_tokens_seen": 19214416,
      "step": 20710
    },
    {
      "epoch": 9.766619519094768,
      "grad_norm": 0.0006929726805537939,
      "learning_rate": 0.14159279361333907,
      "loss": 0.3332,
      "num_input_tokens_seen": 19219216,
      "step": 20715
    },
    {
      "epoch": 9.768976897689768,
      "grad_norm": 0.00027803852572105825,
      "learning_rate": 0.14153398199498868,
      "loss": 0.3505,
      "num_input_tokens_seen": 19223360,
      "step": 20720
    },
    {
      "epoch": 9.77133427628477,
      "grad_norm": 0.00037674655322916806,
      "learning_rate": 0.14147517168220458,
      "loss": 0.333,
      "num_input_tokens_seen": 19227760,
      "step": 20725
    },
    {
      "epoch": 9.773691654879773,
      "grad_norm": 0.00034948578104376793,
      "learning_rate": 0.14141636268405616,
      "loss": 0.3312,
      "num_input_tokens_seen": 19231920,
      "step": 20730
    },
    {
      "epoch": 9.776049033474775,
      "grad_norm": 0.0004286618495825678,
      "learning_rate": 0.14135755500961253,
      "loss": 0.3324,
      "num_input_tokens_seen": 19236560,
      "step": 20735
    },
    {
      "epoch": 9.778406412069778,
      "grad_norm": 0.0005589701468124986,
      "learning_rate": 0.14129874866794245,
      "loss": 0.3465,
      "num_input_tokens_seen": 19241392,
      "step": 20740
    },
    {
      "epoch": 9.78076379066478,
      "grad_norm": 0.00044431761489249766,
      "learning_rate": 0.14123994366811476,
      "loss": 0.3383,
      "num_input_tokens_seen": 19245856,
      "step": 20745
    },
    {
      "epoch": 9.783121169259783,
      "grad_norm": 0.0005433108890429139,
      "learning_rate": 0.14118114001919774,
      "loss": 0.3126,
      "num_input_tokens_seen": 19250336,
      "step": 20750
    },
    {
      "epoch": 9.785478547854785,
      "grad_norm": 0.0005110562779009342,
      "learning_rate": 0.14112233773025978,
      "loss": 0.3013,
      "num_input_tokens_seen": 19255200,
      "step": 20755
    },
    {
      "epoch": 9.787835926449787,
      "grad_norm": 0.00022929157421458513,
      "learning_rate": 0.14106353681036896,
      "loss": 0.3312,
      "num_input_tokens_seen": 19259408,
      "step": 20760
    },
    {
      "epoch": 9.79019330504479,
      "grad_norm": 0.00025593655300326645,
      "learning_rate": 0.14100473726859303,
      "loss": 0.331,
      "num_input_tokens_seen": 19263328,
      "step": 20765
    },
    {
      "epoch": 9.792550683639792,
      "grad_norm": 0.0008578517590649426,
      "learning_rate": 0.14094593911399964,
      "loss": 0.3548,
      "num_input_tokens_seen": 19268304,
      "step": 20770
    },
    {
      "epoch": 9.794908062234795,
      "grad_norm": 0.0004818668821826577,
      "learning_rate": 0.14088714235565625,
      "loss": 0.3475,
      "num_input_tokens_seen": 19272544,
      "step": 20775
    },
    {
      "epoch": 9.797265440829797,
      "grad_norm": 0.0005135073442943394,
      "learning_rate": 0.14082834700263,
      "loss": 0.3083,
      "num_input_tokens_seen": 19277408,
      "step": 20780
    },
    {
      "epoch": 9.7996228194248,
      "grad_norm": 0.0002461857220623642,
      "learning_rate": 0.14076955306398795,
      "loss": 0.3677,
      "num_input_tokens_seen": 19281872,
      "step": 20785
    },
    {
      "epoch": 9.801980198019802,
      "grad_norm": 0.0006256322958506644,
      "learning_rate": 0.14071076054879675,
      "loss": 0.3829,
      "num_input_tokens_seen": 19286704,
      "step": 20790
    },
    {
      "epoch": 9.804337576614804,
      "grad_norm": 0.0004549767472781241,
      "learning_rate": 0.14065196946612302,
      "loss": 0.3772,
      "num_input_tokens_seen": 19291280,
      "step": 20795
    },
    {
      "epoch": 9.806694955209807,
      "grad_norm": 0.00025708507746458054,
      "learning_rate": 0.1405931798250331,
      "loss": 0.3251,
      "num_input_tokens_seen": 19296016,
      "step": 20800
    },
    {
      "epoch": 9.806694955209807,
      "eval_loss": 0.3300948739051819,
      "eval_runtime": 33.6084,
      "eval_samples_per_second": 28.058,
      "eval_steps_per_second": 14.044,
      "num_input_tokens_seen": 19296016,
      "step": 20800
    },
    {
      "epoch": 9.809052333804809,
      "grad_norm": 0.0002655794087331742,
      "learning_rate": 0.14053439163459308,
      "loss": 0.3367,
      "num_input_tokens_seen": 19299760,
      "step": 20805
    },
    {
      "epoch": 9.811409712399811,
      "grad_norm": 0.0006333107012324035,
      "learning_rate": 0.14047560490386876,
      "loss": 0.3346,
      "num_input_tokens_seen": 19303776,
      "step": 20810
    },
    {
      "epoch": 9.813767090994814,
      "grad_norm": 0.0005856687785126269,
      "learning_rate": 0.14041681964192593,
      "loss": 0.2967,
      "num_input_tokens_seen": 19308016,
      "step": 20815
    },
    {
      "epoch": 9.816124469589816,
      "grad_norm": 0.00020771163690369576,
      "learning_rate": 0.14035803585782988,
      "loss": 0.3547,
      "num_input_tokens_seen": 19312032,
      "step": 20820
    },
    {
      "epoch": 9.818481848184819,
      "grad_norm": 0.00020912768377456814,
      "learning_rate": 0.14029925356064593,
      "loss": 0.3315,
      "num_input_tokens_seen": 19316576,
      "step": 20825
    },
    {
      "epoch": 9.820839226779821,
      "grad_norm": 0.0005427135620266199,
      "learning_rate": 0.1402404727594389,
      "loss": 0.3271,
      "num_input_tokens_seen": 19321536,
      "step": 20830
    },
    {
      "epoch": 9.823196605374823,
      "grad_norm": 0.00021924804605077952,
      "learning_rate": 0.1401816934632737,
      "loss": 0.3473,
      "num_input_tokens_seen": 19326720,
      "step": 20835
    },
    {
      "epoch": 9.825553983969826,
      "grad_norm": 0.00035031919833272696,
      "learning_rate": 0.1401229156812147,
      "loss": 0.3547,
      "num_input_tokens_seen": 19331520,
      "step": 20840
    },
    {
      "epoch": 9.827911362564828,
      "grad_norm": 0.00018521133461035788,
      "learning_rate": 0.14006413942232626,
      "loss": 0.3654,
      "num_input_tokens_seen": 19335904,
      "step": 20845
    },
    {
      "epoch": 9.83026874115983,
      "grad_norm": 0.000585489789955318,
      "learning_rate": 0.14000536469567235,
      "loss": 0.3364,
      "num_input_tokens_seen": 19341184,
      "step": 20850
    },
    {
      "epoch": 9.832626119754833,
      "grad_norm": 0.0005438295775093138,
      "learning_rate": 0.13994659151031685,
      "loss": 0.3526,
      "num_input_tokens_seen": 19346496,
      "step": 20855
    },
    {
      "epoch": 9.834983498349835,
      "grad_norm": 0.0003802393330261111,
      "learning_rate": 0.13988781987532323,
      "loss": 0.3,
      "num_input_tokens_seen": 19351472,
      "step": 20860
    },
    {
      "epoch": 9.837340876944838,
      "grad_norm": 0.0001936336630024016,
      "learning_rate": 0.1398290497997549,
      "loss": 0.3459,
      "num_input_tokens_seen": 19355904,
      "step": 20865
    },
    {
      "epoch": 9.83969825553984,
      "grad_norm": 0.0002688298700377345,
      "learning_rate": 0.13977028129267488,
      "loss": 0.3421,
      "num_input_tokens_seen": 19360544,
      "step": 20870
    },
    {
      "epoch": 9.842055634134843,
      "grad_norm": 0.00019972812151536345,
      "learning_rate": 0.13971151436314605,
      "loss": 0.34,
      "num_input_tokens_seen": 19365440,
      "step": 20875
    },
    {
      "epoch": 9.844413012729845,
      "grad_norm": 0.0005588741623796523,
      "learning_rate": 0.13965274902023103,
      "loss": 0.3033,
      "num_input_tokens_seen": 19371088,
      "step": 20880
    },
    {
      "epoch": 9.846770391324847,
      "grad_norm": 0.00025410321541130543,
      "learning_rate": 0.13959398527299208,
      "loss": 0.3356,
      "num_input_tokens_seen": 19375200,
      "step": 20885
    },
    {
      "epoch": 9.84912776991985,
      "grad_norm": 0.0004987869178876281,
      "learning_rate": 0.13953522313049138,
      "loss": 0.3684,
      "num_input_tokens_seen": 19379872,
      "step": 20890
    },
    {
      "epoch": 9.851485148514852,
      "grad_norm": 0.00017667081556282938,
      "learning_rate": 0.13947646260179083,
      "loss": 0.3457,
      "num_input_tokens_seen": 19383408,
      "step": 20895
    },
    {
      "epoch": 9.853842527109855,
      "grad_norm": 0.0005303784273564816,
      "learning_rate": 0.13941770369595194,
      "loss": 0.3258,
      "num_input_tokens_seen": 19388768,
      "step": 20900
    },
    {
      "epoch": 9.856199905704855,
      "grad_norm": 0.0002147005870938301,
      "learning_rate": 0.1393589464220362,
      "loss": 0.3537,
      "num_input_tokens_seen": 19393264,
      "step": 20905
    },
    {
      "epoch": 9.85855728429986,
      "grad_norm": 0.00040090095717459917,
      "learning_rate": 0.13930019078910455,
      "loss": 0.3644,
      "num_input_tokens_seen": 19398144,
      "step": 20910
    },
    {
      "epoch": 9.86091466289486,
      "grad_norm": 0.0004996207426302135,
      "learning_rate": 0.139241436806218,
      "loss": 0.2963,
      "num_input_tokens_seen": 19402704,
      "step": 20915
    },
    {
      "epoch": 9.863272041489862,
      "grad_norm": 0.00042683951323851943,
      "learning_rate": 0.13918268448243712,
      "loss": 0.2764,
      "num_input_tokens_seen": 19407456,
      "step": 20920
    },
    {
      "epoch": 9.865629420084865,
      "grad_norm": 0.0002148112835129723,
      "learning_rate": 0.13912393382682217,
      "loss": 0.3188,
      "num_input_tokens_seen": 19412288,
      "step": 20925
    },
    {
      "epoch": 9.867986798679867,
      "grad_norm": 0.0004172043118160218,
      "learning_rate": 0.1390651848484333,
      "loss": 0.3377,
      "num_input_tokens_seen": 19417440,
      "step": 20930
    },
    {
      "epoch": 9.87034417727487,
      "grad_norm": 0.0001546095300000161,
      "learning_rate": 0.1390064375563304,
      "loss": 0.3525,
      "num_input_tokens_seen": 19422768,
      "step": 20935
    },
    {
      "epoch": 9.872701555869872,
      "grad_norm": 0.0004316763661336154,
      "learning_rate": 0.13894769195957293,
      "loss": 0.2926,
      "num_input_tokens_seen": 19427728,
      "step": 20940
    },
    {
      "epoch": 9.875058934464874,
      "grad_norm": 0.000166309138876386,
      "learning_rate": 0.13888894806722032,
      "loss": 0.3072,
      "num_input_tokens_seen": 19431888,
      "step": 20945
    },
    {
      "epoch": 9.877416313059877,
      "grad_norm": 0.0001584504934726283,
      "learning_rate": 0.1388302058883315,
      "loss": 0.3533,
      "num_input_tokens_seen": 19437008,
      "step": 20950
    },
    {
      "epoch": 9.87977369165488,
      "grad_norm": 0.00014793031732551754,
      "learning_rate": 0.13877146543196528,
      "loss": 0.3194,
      "num_input_tokens_seen": 19441232,
      "step": 20955
    },
    {
      "epoch": 9.882131070249882,
      "grad_norm": 0.00013959741045255214,
      "learning_rate": 0.13871272670718027,
      "loss": 0.2903,
      "num_input_tokens_seen": 19445728,
      "step": 20960
    },
    {
      "epoch": 9.884488448844884,
      "grad_norm": 0.0002067716559395194,
      "learning_rate": 0.13865398972303455,
      "loss": 0.3682,
      "num_input_tokens_seen": 19449984,
      "step": 20965
    },
    {
      "epoch": 9.886845827439886,
      "grad_norm": 0.00021854644000995904,
      "learning_rate": 0.13859525448858623,
      "loss": 0.3432,
      "num_input_tokens_seen": 19454352,
      "step": 20970
    },
    {
      "epoch": 9.889203206034889,
      "grad_norm": 0.00019170470477547497,
      "learning_rate": 0.13853652101289304,
      "loss": 0.2877,
      "num_input_tokens_seen": 19458480,
      "step": 20975
    },
    {
      "epoch": 9.891560584629891,
      "grad_norm": 0.0005071176565252244,
      "learning_rate": 0.13847778930501234,
      "loss": 0.249,
      "num_input_tokens_seen": 19463552,
      "step": 20980
    },
    {
      "epoch": 9.893917963224894,
      "grad_norm": 0.00017069715249817818,
      "learning_rate": 0.1384190593740013,
      "loss": 0.3193,
      "num_input_tokens_seen": 19468256,
      "step": 20985
    },
    {
      "epoch": 9.896275341819896,
      "grad_norm": 0.0002827803837135434,
      "learning_rate": 0.13836033122891686,
      "loss": 0.3596,
      "num_input_tokens_seen": 19472704,
      "step": 20990
    },
    {
      "epoch": 9.898632720414899,
      "grad_norm": 0.0008034288766793907,
      "learning_rate": 0.1383016048788156,
      "loss": 0.3307,
      "num_input_tokens_seen": 19477600,
      "step": 20995
    },
    {
      "epoch": 9.900990099009901,
      "grad_norm": 0.00025428287335671484,
      "learning_rate": 0.13824288033275392,
      "loss": 0.3095,
      "num_input_tokens_seen": 19482416,
      "step": 21000
    },
    {
      "epoch": 9.900990099009901,
      "eval_loss": 0.32812902331352234,
      "eval_runtime": 33.5397,
      "eval_samples_per_second": 28.116,
      "eval_steps_per_second": 14.073,
      "num_input_tokens_seen": 19482416,
      "step": 21000
    },
    {
      "epoch": 9.903347477604903,
      "grad_norm": 0.0003964564821217209,
      "learning_rate": 0.1381841575997878,
      "loss": 0.2292,
      "num_input_tokens_seen": 19485920,
      "step": 21005
    },
    {
      "epoch": 9.905704856199906,
      "grad_norm": 0.0003065102209802717,
      "learning_rate": 0.13812543668897306,
      "loss": 0.3483,
      "num_input_tokens_seen": 19491696,
      "step": 21010
    },
    {
      "epoch": 9.908062234794908,
      "grad_norm": 0.00017787264368962497,
      "learning_rate": 0.13806671760936526,
      "loss": 0.3191,
      "num_input_tokens_seen": 19496416,
      "step": 21015
    },
    {
      "epoch": 9.91041961338991,
      "grad_norm": 9.93976354948245e-05,
      "learning_rate": 0.13800800037001956,
      "loss": 0.258,
      "num_input_tokens_seen": 19501840,
      "step": 21020
    },
    {
      "epoch": 9.912776991984913,
      "grad_norm": 0.0002921503037214279,
      "learning_rate": 0.13794928497999087,
      "loss": 0.3265,
      "num_input_tokens_seen": 19507056,
      "step": 21025
    },
    {
      "epoch": 9.915134370579915,
      "grad_norm": 0.00014651230594608933,
      "learning_rate": 0.1378905714483339,
      "loss": 0.3329,
      "num_input_tokens_seen": 19511776,
      "step": 21030
    },
    {
      "epoch": 9.917491749174918,
      "grad_norm": 0.00013684527948498726,
      "learning_rate": 0.13783185978410295,
      "loss": 0.3222,
      "num_input_tokens_seen": 19515680,
      "step": 21035
    },
    {
      "epoch": 9.91984912776992,
      "grad_norm": 0.0001447622780688107,
      "learning_rate": 0.13777314999635218,
      "loss": 0.3071,
      "num_input_tokens_seen": 19520256,
      "step": 21040
    },
    {
      "epoch": 9.922206506364923,
      "grad_norm": 0.00016403422341682017,
      "learning_rate": 0.1377144420941353,
      "loss": 0.3221,
      "num_input_tokens_seen": 19525088,
      "step": 21045
    },
    {
      "epoch": 9.924563884959925,
      "grad_norm": 0.00016330176731571555,
      "learning_rate": 0.13765573608650586,
      "loss": 0.3178,
      "num_input_tokens_seen": 19529120,
      "step": 21050
    },
    {
      "epoch": 9.926921263554927,
      "grad_norm": 0.00018621016351971775,
      "learning_rate": 0.13759703198251702,
      "loss": 0.4004,
      "num_input_tokens_seen": 19533712,
      "step": 21055
    },
    {
      "epoch": 9.92927864214993,
      "grad_norm": 0.00020460723317228258,
      "learning_rate": 0.13753832979122174,
      "loss": 0.3538,
      "num_input_tokens_seen": 19538304,
      "step": 21060
    },
    {
      "epoch": 9.931636020744932,
      "grad_norm": 0.0001874824083643034,
      "learning_rate": 0.13747962952167264,
      "loss": 0.3314,
      "num_input_tokens_seen": 19542464,
      "step": 21065
    },
    {
      "epoch": 9.933993399339935,
      "grad_norm": 0.0002526667376514524,
      "learning_rate": 0.13742093118292192,
      "loss": 0.3657,
      "num_input_tokens_seen": 19547424,
      "step": 21070
    },
    {
      "epoch": 9.936350777934937,
      "grad_norm": 0.00017833479796536267,
      "learning_rate": 0.13736223478402174,
      "loss": 0.3556,
      "num_input_tokens_seen": 19551136,
      "step": 21075
    },
    {
      "epoch": 9.93870815652994,
      "grad_norm": 0.0002697406162042171,
      "learning_rate": 0.1373035403340238,
      "loss": 0.3063,
      "num_input_tokens_seen": 19556736,
      "step": 21080
    },
    {
      "epoch": 9.941065535124942,
      "grad_norm": 0.00019541448273230344,
      "learning_rate": 0.13724484784197943,
      "loss": 0.3339,
      "num_input_tokens_seen": 19561216,
      "step": 21085
    },
    {
      "epoch": 9.943422913719944,
      "grad_norm": 0.00024058643612079322,
      "learning_rate": 0.13718615731693987,
      "loss": 0.3218,
      "num_input_tokens_seen": 19566896,
      "step": 21090
    },
    {
      "epoch": 9.945780292314947,
      "grad_norm": 0.00027601575129665434,
      "learning_rate": 0.13712746876795587,
      "loss": 0.3204,
      "num_input_tokens_seen": 19570880,
      "step": 21095
    },
    {
      "epoch": 9.948137670909949,
      "grad_norm": 0.00020934878557454795,
      "learning_rate": 0.13706878220407792,
      "loss": 0.3498,
      "num_input_tokens_seen": 19575392,
      "step": 21100
    },
    {
      "epoch": 9.950495049504951,
      "grad_norm": 0.00023647749912925065,
      "learning_rate": 0.13701009763435631,
      "loss": 0.3134,
      "num_input_tokens_seen": 19579728,
      "step": 21105
    },
    {
      "epoch": 9.952852428099952,
      "grad_norm": 0.0004996338975615799,
      "learning_rate": 0.13695141506784084,
      "loss": 0.3425,
      "num_input_tokens_seen": 19585040,
      "step": 21110
    },
    {
      "epoch": 9.955209806694956,
      "grad_norm": 0.00019934635201934725,
      "learning_rate": 0.13689273451358114,
      "loss": 0.3601,
      "num_input_tokens_seen": 19588736,
      "step": 21115
    },
    {
      "epoch": 9.957567185289957,
      "grad_norm": 0.000498195004183799,
      "learning_rate": 0.13683405598062653,
      "loss": 0.3629,
      "num_input_tokens_seen": 19594448,
      "step": 21120
    },
    {
      "epoch": 9.95992456388496,
      "grad_norm": 0.0004976668860763311,
      "learning_rate": 0.1367753794780259,
      "loss": 0.3574,
      "num_input_tokens_seen": 19599296,
      "step": 21125
    },
    {
      "epoch": 9.962281942479962,
      "grad_norm": 0.0006285406998358667,
      "learning_rate": 0.13671670501482802,
      "loss": 0.315,
      "num_input_tokens_seen": 19603536,
      "step": 21130
    },
    {
      "epoch": 9.964639321074964,
      "grad_norm": 0.00026930178864859045,
      "learning_rate": 0.1366580326000811,
      "loss": 0.3157,
      "num_input_tokens_seen": 19607552,
      "step": 21135
    },
    {
      "epoch": 9.966996699669966,
      "grad_norm": 0.0004942564992234111,
      "learning_rate": 0.1365993622428332,
      "loss": 0.2997,
      "num_input_tokens_seen": 19612080,
      "step": 21140
    },
    {
      "epoch": 9.969354078264969,
      "grad_norm": 0.0002658129087649286,
      "learning_rate": 0.13654069395213211,
      "loss": 0.3085,
      "num_input_tokens_seen": 19617072,
      "step": 21145
    },
    {
      "epoch": 9.971711456859971,
      "grad_norm": 0.0002343043015571311,
      "learning_rate": 0.13648202773702509,
      "loss": 0.3614,
      "num_input_tokens_seen": 19621488,
      "step": 21150
    },
    {
      "epoch": 9.974068835454974,
      "grad_norm": 0.000507911725435406,
      "learning_rate": 0.13642336360655927,
      "loss": 0.3056,
      "num_input_tokens_seen": 19626976,
      "step": 21155
    },
    {
      "epoch": 9.976426214049976,
      "grad_norm": 0.00017143327568192035,
      "learning_rate": 0.13636470156978145,
      "loss": 0.3389,
      "num_input_tokens_seen": 19631744,
      "step": 21160
    },
    {
      "epoch": 9.978783592644978,
      "grad_norm": 0.00017118197865784168,
      "learning_rate": 0.13630604163573798,
      "loss": 0.2781,
      "num_input_tokens_seen": 19636784,
      "step": 21165
    },
    {
      "epoch": 9.98114097123998,
      "grad_norm": 0.0004151706234551966,
      "learning_rate": 0.13624738381347495,
      "loss": 0.2885,
      "num_input_tokens_seen": 19641616,
      "step": 21170
    },
    {
      "epoch": 9.983498349834983,
      "grad_norm": 0.00026181639987044036,
      "learning_rate": 0.1361887281120382,
      "loss": 0.3363,
      "num_input_tokens_seen": 19645872,
      "step": 21175
    },
    {
      "epoch": 9.985855728429986,
      "grad_norm": 0.0005768068367615342,
      "learning_rate": 0.13613007454047307,
      "loss": 0.3449,
      "num_input_tokens_seen": 19650784,
      "step": 21180
    },
    {
      "epoch": 9.988213107024988,
      "grad_norm": 0.00016758205310907215,
      "learning_rate": 0.13607142310782486,
      "loss": 0.3311,
      "num_input_tokens_seen": 19655824,
      "step": 21185
    },
    {
      "epoch": 9.99057048561999,
      "grad_norm": 0.00018700755026657134,
      "learning_rate": 0.13601277382313814,
      "loss": 0.31,
      "num_input_tokens_seen": 19660048,
      "step": 21190
    },
    {
      "epoch": 9.992927864214993,
      "grad_norm": 0.00030734026222489774,
      "learning_rate": 0.1359541266954575,
      "loss": 0.3233,
      "num_input_tokens_seen": 19664688,
      "step": 21195
    },
    {
      "epoch": 9.995285242809995,
      "grad_norm": 0.00018179183825850487,
      "learning_rate": 0.13589548173382707,
      "loss": 0.3491,
      "num_input_tokens_seen": 19668640,
      "step": 21200
    },
    {
      "epoch": 9.995285242809995,
      "eval_loss": 0.32785722613334656,
      "eval_runtime": 33.5679,
      "eval_samples_per_second": 28.092,
      "eval_steps_per_second": 14.061,
      "num_input_tokens_seen": 19668640,
      "step": 21200
    },
    {
      "epoch": 9.997642621404998,
      "grad_norm": 0.00018025316239800304,
      "learning_rate": 0.1358368389472906,
      "loss": 0.3785,
      "num_input_tokens_seen": 19672912,
      "step": 21205
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.00022545833780895919,
      "learning_rate": 0.13577819834489155,
      "loss": 0.3359,
      "num_input_tokens_seen": 19677056,
      "step": 21210
    },
    {
      "epoch": 10.002357378595002,
      "grad_norm": 0.0005735026788897812,
      "learning_rate": 0.135719559935673,
      "loss": 0.2713,
      "num_input_tokens_seen": 19682240,
      "step": 21215
    },
    {
      "epoch": 10.004714757190005,
      "grad_norm": 0.0002948282053694129,
      "learning_rate": 0.13566092372867775,
      "loss": 0.3345,
      "num_input_tokens_seen": 19687728,
      "step": 21220
    },
    {
      "epoch": 10.007072135785007,
      "grad_norm": 0.0002254251594422385,
      "learning_rate": 0.13560228973294833,
      "loss": 0.3205,
      "num_input_tokens_seen": 19693296,
      "step": 21225
    },
    {
      "epoch": 10.00942951438001,
      "grad_norm": 0.0005243614432401955,
      "learning_rate": 0.13554365795752668,
      "loss": 0.325,
      "num_input_tokens_seen": 19698304,
      "step": 21230
    },
    {
      "epoch": 10.011786892975012,
      "grad_norm": 0.0006132592097856104,
      "learning_rate": 0.1354850284114547,
      "loss": 0.3563,
      "num_input_tokens_seen": 19702464,
      "step": 21235
    },
    {
      "epoch": 10.014144271570014,
      "grad_norm": 0.0005801902734674513,
      "learning_rate": 0.13542640110377374,
      "loss": 0.3802,
      "num_input_tokens_seen": 19707760,
      "step": 21240
    },
    {
      "epoch": 10.016501650165017,
      "grad_norm": 0.0013342015445232391,
      "learning_rate": 0.13536777604352487,
      "loss": 0.3029,
      "num_input_tokens_seen": 19712000,
      "step": 21245
    },
    {
      "epoch": 10.01885902876002,
      "grad_norm": 0.0008719653123989701,
      "learning_rate": 0.13530915323974887,
      "loss": 0.3494,
      "num_input_tokens_seen": 19716144,
      "step": 21250
    },
    {
      "epoch": 10.021216407355022,
      "grad_norm": 0.014964240603148937,
      "learning_rate": 0.13525053270148596,
      "loss": 0.559,
      "num_input_tokens_seen": 19720896,
      "step": 21255
    },
    {
      "epoch": 10.023573785950024,
      "grad_norm": 0.0020662150345742702,
      "learning_rate": 0.13519191443777628,
      "loss": 0.3287,
      "num_input_tokens_seen": 19725200,
      "step": 21260
    },
    {
      "epoch": 10.025931164545026,
      "grad_norm": 0.00035069731529802084,
      "learning_rate": 0.13513329845765953,
      "loss": 0.3288,
      "num_input_tokens_seen": 19729904,
      "step": 21265
    },
    {
      "epoch": 10.028288543140029,
      "grad_norm": 0.00040303930290974677,
      "learning_rate": 0.13507468477017495,
      "loss": 0.3377,
      "num_input_tokens_seen": 19735008,
      "step": 21270
    },
    {
      "epoch": 10.030645921735031,
      "grad_norm": 0.0010452230926603079,
      "learning_rate": 0.13501607338436153,
      "loss": 0.2991,
      "num_input_tokens_seen": 19741376,
      "step": 21275
    },
    {
      "epoch": 10.033003300330034,
      "grad_norm": 0.0006346449954435229,
      "learning_rate": 0.13495746430925798,
      "loss": 0.3071,
      "num_input_tokens_seen": 19745824,
      "step": 21280
    },
    {
      "epoch": 10.035360678925036,
      "grad_norm": 0.0015799481188878417,
      "learning_rate": 0.13489885755390238,
      "loss": 0.3548,
      "num_input_tokens_seen": 19750544,
      "step": 21285
    },
    {
      "epoch": 10.037718057520038,
      "grad_norm": 0.0002551689394749701,
      "learning_rate": 0.13484025312733275,
      "loss": 0.4001,
      "num_input_tokens_seen": 19755408,
      "step": 21290
    },
    {
      "epoch": 10.04007543611504,
      "grad_norm": 0.0005856193602085114,
      "learning_rate": 0.13478165103858658,
      "loss": 0.2786,
      "num_input_tokens_seen": 19760080,
      "step": 21295
    },
    {
      "epoch": 10.042432814710043,
      "grad_norm": 0.0006617398466914892,
      "learning_rate": 0.13472305129670106,
      "loss": 0.2857,
      "num_input_tokens_seen": 19764736,
      "step": 21300
    },
    {
      "epoch": 10.044790193305046,
      "grad_norm": 0.0009530726238153875,
      "learning_rate": 0.13466445391071305,
      "loss": 0.3544,
      "num_input_tokens_seen": 19769536,
      "step": 21305
    },
    {
      "epoch": 10.047147571900048,
      "grad_norm": 0.000720711424946785,
      "learning_rate": 0.13460585888965895,
      "loss": 0.3231,
      "num_input_tokens_seen": 19773872,
      "step": 21310
    },
    {
      "epoch": 10.049504950495049,
      "grad_norm": 0.0007549019064754248,
      "learning_rate": 0.13454726624257482,
      "loss": 0.3785,
      "num_input_tokens_seen": 19778672,
      "step": 21315
    },
    {
      "epoch": 10.051862329090051,
      "grad_norm": 0.0010422976920381188,
      "learning_rate": 0.1344886759784965,
      "loss": 0.3464,
      "num_input_tokens_seen": 19783344,
      "step": 21320
    },
    {
      "epoch": 10.054219707685053,
      "grad_norm": 0.0006688429275527596,
      "learning_rate": 0.13443008810645923,
      "loss": 0.3216,
      "num_input_tokens_seen": 19788144,
      "step": 21325
    },
    {
      "epoch": 10.056577086280056,
      "grad_norm": 0.0003348552854731679,
      "learning_rate": 0.13437150263549807,
      "loss": 0.3505,
      "num_input_tokens_seen": 19792912,
      "step": 21330
    },
    {
      "epoch": 10.058934464875058,
      "grad_norm": 0.0005105366581119597,
      "learning_rate": 0.13431291957464755,
      "loss": 0.3222,
      "num_input_tokens_seen": 19797648,
      "step": 21335
    },
    {
      "epoch": 10.06129184347006,
      "grad_norm": 0.00031560129718855023,
      "learning_rate": 0.13425433893294197,
      "loss": 0.3272,
      "num_input_tokens_seen": 19802704,
      "step": 21340
    },
    {
      "epoch": 10.063649222065063,
      "grad_norm": 0.0007355795823968947,
      "learning_rate": 0.13419576071941525,
      "loss": 0.3517,
      "num_input_tokens_seen": 19807856,
      "step": 21345
    },
    {
      "epoch": 10.066006600660065,
      "grad_norm": 0.00042954806121997535,
      "learning_rate": 0.1341371849431008,
      "loss": 0.2847,
      "num_input_tokens_seen": 19812688,
      "step": 21350
    },
    {
      "epoch": 10.068363979255068,
      "grad_norm": 0.00032662678859196603,
      "learning_rate": 0.13407861161303178,
      "loss": 0.3494,
      "num_input_tokens_seen": 19817008,
      "step": 21355
    },
    {
      "epoch": 10.07072135785007,
      "grad_norm": 0.00048692282871343195,
      "learning_rate": 0.13402004073824098,
      "loss": 0.3551,
      "num_input_tokens_seen": 19821408,
      "step": 21360
    },
    {
      "epoch": 10.073078736445073,
      "grad_norm": 0.0006199581548571587,
      "learning_rate": 0.13396147232776062,
      "loss": 0.3338,
      "num_input_tokens_seen": 19826464,
      "step": 21365
    },
    {
      "epoch": 10.075436115040075,
      "grad_norm": 0.00037262478144839406,
      "learning_rate": 0.13390290639062288,
      "loss": 0.299,
      "num_input_tokens_seen": 19831600,
      "step": 21370
    },
    {
      "epoch": 10.077793493635077,
      "grad_norm": 0.00043163125519640744,
      "learning_rate": 0.13384434293585917,
      "loss": 0.2989,
      "num_input_tokens_seen": 19836336,
      "step": 21375
    },
    {
      "epoch": 10.08015087223008,
      "grad_norm": 0.0005743771907873452,
      "learning_rate": 0.13378578197250088,
      "loss": 0.3454,
      "num_input_tokens_seen": 19840992,
      "step": 21380
    },
    {
      "epoch": 10.082508250825082,
      "grad_norm": 0.00040385391912423074,
      "learning_rate": 0.13372722350957872,
      "loss": 0.3477,
      "num_input_tokens_seen": 19847136,
      "step": 21385
    },
    {
      "epoch": 10.084865629420085,
      "grad_norm": 0.00032060741796158254,
      "learning_rate": 0.13366866755612322,
      "loss": 0.3796,
      "num_input_tokens_seen": 19851264,
      "step": 21390
    },
    {
      "epoch": 10.087223008015087,
      "grad_norm": 0.0005558498669415712,
      "learning_rate": 0.13361011412116436,
      "loss": 0.3306,
      "num_input_tokens_seen": 19856640,
      "step": 21395
    },
    {
      "epoch": 10.08958038661009,
      "grad_norm": 0.00027873090584762394,
      "learning_rate": 0.13355156321373196,
      "loss": 0.324,
      "num_input_tokens_seen": 19860880,
      "step": 21400
    },
    {
      "epoch": 10.08958038661009,
      "eval_loss": 0.326662540435791,
      "eval_runtime": 33.6386,
      "eval_samples_per_second": 28.033,
      "eval_steps_per_second": 14.032,
      "num_input_tokens_seen": 19860880,
      "step": 21400
    },
    {
      "epoch": 10.091937765205092,
      "grad_norm": 0.00047071470180526376,
      "learning_rate": 0.13349301484285514,
      "loss": 0.3486,
      "num_input_tokens_seen": 19866544,
      "step": 21405
    },
    {
      "epoch": 10.094295143800094,
      "grad_norm": 0.0003491814131848514,
      "learning_rate": 0.13343446901756295,
      "loss": 0.3105,
      "num_input_tokens_seen": 19871328,
      "step": 21410
    },
    {
      "epoch": 10.096652522395097,
      "grad_norm": 0.0004021643253508955,
      "learning_rate": 0.13337592574688376,
      "loss": 0.3205,
      "num_input_tokens_seen": 19876208,
      "step": 21415
    },
    {
      "epoch": 10.099009900990099,
      "grad_norm": 0.0006029870710335672,
      "learning_rate": 0.13331738503984572,
      "loss": 0.3255,
      "num_input_tokens_seen": 19880512,
      "step": 21420
    },
    {
      "epoch": 10.101367279585101,
      "grad_norm": 0.0003568396205082536,
      "learning_rate": 0.1332588469054766,
      "loss": 0.3563,
      "num_input_tokens_seen": 19885920,
      "step": 21425
    },
    {
      "epoch": 10.103724658180104,
      "grad_norm": 0.0003200399805791676,
      "learning_rate": 0.1332003113528036,
      "loss": 0.3145,
      "num_input_tokens_seen": 19890784,
      "step": 21430
    },
    {
      "epoch": 10.106082036775106,
      "grad_norm": 0.000467163510620594,
      "learning_rate": 0.13314177839085373,
      "loss": 0.3455,
      "num_input_tokens_seen": 19895680,
      "step": 21435
    },
    {
      "epoch": 10.108439415370109,
      "grad_norm": 0.0002932569768745452,
      "learning_rate": 0.13308324802865354,
      "loss": 0.3112,
      "num_input_tokens_seen": 19900016,
      "step": 21440
    },
    {
      "epoch": 10.110796793965111,
      "grad_norm": 0.0004026366223115474,
      "learning_rate": 0.13302472027522905,
      "loss": 0.3485,
      "num_input_tokens_seen": 19904400,
      "step": 21445
    },
    {
      "epoch": 10.113154172560114,
      "grad_norm": 0.0003719131927937269,
      "learning_rate": 0.13296619513960606,
      "loss": 0.3715,
      "num_input_tokens_seen": 19909168,
      "step": 21450
    },
    {
      "epoch": 10.115511551155116,
      "grad_norm": 0.0003373950894456357,
      "learning_rate": 0.1329076726308098,
      "loss": 0.3221,
      "num_input_tokens_seen": 19913760,
      "step": 21455
    },
    {
      "epoch": 10.117868929750118,
      "grad_norm": 0.0003046811616513878,
      "learning_rate": 0.13284915275786519,
      "loss": 0.3248,
      "num_input_tokens_seen": 19917360,
      "step": 21460
    },
    {
      "epoch": 10.12022630834512,
      "grad_norm": 0.00025385539629496634,
      "learning_rate": 0.1327906355297968,
      "loss": 0.3233,
      "num_input_tokens_seen": 19922688,
      "step": 21465
    },
    {
      "epoch": 10.122583686940123,
      "grad_norm": 0.0003600963391363621,
      "learning_rate": 0.13273212095562867,
      "loss": 0.3008,
      "num_input_tokens_seen": 19927856,
      "step": 21470
    },
    {
      "epoch": 10.124941065535126,
      "grad_norm": 0.0005091020721010864,
      "learning_rate": 0.13267360904438444,
      "loss": 0.3579,
      "num_input_tokens_seen": 19933488,
      "step": 21475
    },
    {
      "epoch": 10.127298444130128,
      "grad_norm": 0.00033031139173544943,
      "learning_rate": 0.1326150998050875,
      "loss": 0.3515,
      "num_input_tokens_seen": 19938640,
      "step": 21480
    },
    {
      "epoch": 10.12965582272513,
      "grad_norm": 0.00016271391359623522,
      "learning_rate": 0.1325565932467606,
      "loss": 0.2911,
      "num_input_tokens_seen": 19942944,
      "step": 21485
    },
    {
      "epoch": 10.132013201320133,
      "grad_norm": 0.0003256801574025303,
      "learning_rate": 0.13249808937842628,
      "loss": 0.3311,
      "num_input_tokens_seen": 19947616,
      "step": 21490
    },
    {
      "epoch": 10.134370579915135,
      "grad_norm": 0.00023407101980410516,
      "learning_rate": 0.1324395882091065,
      "loss": 0.366,
      "num_input_tokens_seen": 19951856,
      "step": 21495
    },
    {
      "epoch": 10.136727958510138,
      "grad_norm": 0.00047703503514640033,
      "learning_rate": 0.13238108974782284,
      "loss": 0.308,
      "num_input_tokens_seen": 19956464,
      "step": 21500
    },
    {
      "epoch": 10.13908533710514,
      "grad_norm": 0.0003800627600867301,
      "learning_rate": 0.13232259400359664,
      "loss": 0.3096,
      "num_input_tokens_seen": 19960464,
      "step": 21505
    },
    {
      "epoch": 10.14144271570014,
      "grad_norm": 0.00023690404486842453,
      "learning_rate": 0.13226410098544852,
      "loss": 0.2897,
      "num_input_tokens_seen": 19965632,
      "step": 21510
    },
    {
      "epoch": 10.143800094295143,
      "grad_norm": 0.0003475834964774549,
      "learning_rate": 0.13220561070239892,
      "loss": 0.3703,
      "num_input_tokens_seen": 19970368,
      "step": 21515
    },
    {
      "epoch": 10.146157472890145,
      "grad_norm": 0.0003897086135111749,
      "learning_rate": 0.13214712316346783,
      "loss": 0.2789,
      "num_input_tokens_seen": 19975776,
      "step": 21520
    },
    {
      "epoch": 10.148514851485148,
      "grad_norm": 0.0002156263799406588,
      "learning_rate": 0.13208863837767465,
      "loss": 0.3223,
      "num_input_tokens_seen": 19979968,
      "step": 21525
    },
    {
      "epoch": 10.15087223008015,
      "grad_norm": 0.0004956820630468428,
      "learning_rate": 0.13203015635403856,
      "loss": 0.3039,
      "num_input_tokens_seen": 19985104,
      "step": 21530
    },
    {
      "epoch": 10.153229608675153,
      "grad_norm": 0.0005555637180805206,
      "learning_rate": 0.13197167710157817,
      "loss": 0.2761,
      "num_input_tokens_seen": 19990016,
      "step": 21535
    },
    {
      "epoch": 10.155586987270155,
      "grad_norm": 0.00045063605648465455,
      "learning_rate": 0.13191320062931167,
      "loss": 0.3179,
      "num_input_tokens_seen": 19994832,
      "step": 21540
    },
    {
      "epoch": 10.157944365865157,
      "grad_norm": 0.0002653885749168694,
      "learning_rate": 0.13185472694625702,
      "loss": 0.2557,
      "num_input_tokens_seen": 19999248,
      "step": 21545
    },
    {
      "epoch": 10.16030174446016,
      "grad_norm": 0.0005117940017953515,
      "learning_rate": 0.13179625606143142,
      "loss": 0.331,
      "num_input_tokens_seen": 20003680,
      "step": 21550
    },
    {
      "epoch": 10.162659123055162,
      "grad_norm": 0.0005817363853566349,
      "learning_rate": 0.13173778798385188,
      "loss": 0.4278,
      "num_input_tokens_seen": 20010192,
      "step": 21555
    },
    {
      "epoch": 10.165016501650165,
      "grad_norm": 0.00017367670079693198,
      "learning_rate": 0.13167932272253505,
      "loss": 0.3287,
      "num_input_tokens_seen": 20014608,
      "step": 21560
    },
    {
      "epoch": 10.167373880245167,
      "grad_norm": 0.0006002841982990503,
      "learning_rate": 0.1316208602864968,
      "loss": 0.3626,
      "num_input_tokens_seen": 20019072,
      "step": 21565
    },
    {
      "epoch": 10.16973125884017,
      "grad_norm": 0.000863925029989332,
      "learning_rate": 0.13156240068475292,
      "loss": 0.3595,
      "num_input_tokens_seen": 20024512,
      "step": 21570
    },
    {
      "epoch": 10.172088637435172,
      "grad_norm": 0.0002622583124320954,
      "learning_rate": 0.1315039439263185,
      "loss": 0.2533,
      "num_input_tokens_seen": 20030160,
      "step": 21575
    },
    {
      "epoch": 10.174446016030174,
      "grad_norm": 0.0005160214495845139,
      "learning_rate": 0.13144549002020833,
      "loss": 0.3289,
      "num_input_tokens_seen": 20034752,
      "step": 21580
    },
    {
      "epoch": 10.176803394625177,
      "grad_norm": 0.0005540588172152638,
      "learning_rate": 0.13138703897543688,
      "loss": 0.3848,
      "num_input_tokens_seen": 20039184,
      "step": 21585
    },
    {
      "epoch": 10.179160773220179,
      "grad_norm": 0.00031301353010348976,
      "learning_rate": 0.1313285908010178,
      "loss": 0.2707,
      "num_input_tokens_seen": 20043712,
      "step": 21590
    },
    {
      "epoch": 10.181518151815181,
      "grad_norm": 0.00017856041085906327,
      "learning_rate": 0.13127014550596475,
      "loss": 0.2699,
      "num_input_tokens_seen": 20048544,
      "step": 21595
    },
    {
      "epoch": 10.183875530410184,
      "grad_norm": 0.00022141990484669805,
      "learning_rate": 0.1312117030992906,
      "loss": 0.3144,
      "num_input_tokens_seen": 20052672,
      "step": 21600
    },
    {
      "epoch": 10.183875530410184,
      "eval_loss": 0.3266209065914154,
      "eval_runtime": 33.6566,
      "eval_samples_per_second": 28.018,
      "eval_steps_per_second": 14.024,
      "num_input_tokens_seen": 20052672,
      "step": 21600
    },
    {
      "epoch": 10.186232909005186,
      "grad_norm": 0.00045270242844708264,
      "learning_rate": 0.13115326359000795,
      "loss": 0.3494,
      "num_input_tokens_seen": 20058064,
      "step": 21605
    },
    {
      "epoch": 10.188590287600189,
      "grad_norm": 0.0002974230737891048,
      "learning_rate": 0.13109482698712896,
      "loss": 0.3384,
      "num_input_tokens_seen": 20062640,
      "step": 21610
    },
    {
      "epoch": 10.190947666195191,
      "grad_norm": 0.0002087033644784242,
      "learning_rate": 0.1310363932996651,
      "loss": 0.3517,
      "num_input_tokens_seen": 20066800,
      "step": 21615
    },
    {
      "epoch": 10.193305044790193,
      "grad_norm": 0.00036285712849348783,
      "learning_rate": 0.13097796253662775,
      "loss": 0.3383,
      "num_input_tokens_seen": 20071456,
      "step": 21620
    },
    {
      "epoch": 10.195662423385196,
      "grad_norm": 0.00044465731480158865,
      "learning_rate": 0.1309195347070277,
      "loss": 0.3239,
      "num_input_tokens_seen": 20076192,
      "step": 21625
    },
    {
      "epoch": 10.198019801980198,
      "grad_norm": 0.0002915556251537055,
      "learning_rate": 0.13086110981987506,
      "loss": 0.3256,
      "num_input_tokens_seen": 20081568,
      "step": 21630
    },
    {
      "epoch": 10.2003771805752,
      "grad_norm": 0.0002688919776119292,
      "learning_rate": 0.13080268788417987,
      "loss": 0.3072,
      "num_input_tokens_seen": 20085776,
      "step": 21635
    },
    {
      "epoch": 10.202734559170203,
      "grad_norm": 0.00022029867977835238,
      "learning_rate": 0.1307442689089515,
      "loss": 0.3665,
      "num_input_tokens_seen": 20089296,
      "step": 21640
    },
    {
      "epoch": 10.205091937765205,
      "grad_norm": 0.0009095919667743146,
      "learning_rate": 0.13068585290319873,
      "loss": 0.2903,
      "num_input_tokens_seen": 20093648,
      "step": 21645
    },
    {
      "epoch": 10.207449316360208,
      "grad_norm": 0.0003635133907664567,
      "learning_rate": 0.13062743987593026,
      "loss": 0.3235,
      "num_input_tokens_seen": 20097744,
      "step": 21650
    },
    {
      "epoch": 10.20980669495521,
      "grad_norm": 0.00044120909296907485,
      "learning_rate": 0.13056902983615395,
      "loss": 0.3391,
      "num_input_tokens_seen": 20102256,
      "step": 21655
    },
    {
      "epoch": 10.212164073550213,
      "grad_norm": 0.000503772811498493,
      "learning_rate": 0.13051062279287742,
      "loss": 0.3524,
      "num_input_tokens_seen": 20107088,
      "step": 21660
    },
    {
      "epoch": 10.214521452145215,
      "grad_norm": 0.0007493654265999794,
      "learning_rate": 0.13045221875510782,
      "loss": 0.3247,
      "num_input_tokens_seen": 20111440,
      "step": 21665
    },
    {
      "epoch": 10.216878830740217,
      "grad_norm": 0.0007394854910671711,
      "learning_rate": 0.13039381773185174,
      "loss": 0.3488,
      "num_input_tokens_seen": 20115776,
      "step": 21670
    },
    {
      "epoch": 10.21923620933522,
      "grad_norm": 0.0005437936051748693,
      "learning_rate": 0.1303354197321153,
      "loss": 0.325,
      "num_input_tokens_seen": 20120624,
      "step": 21675
    },
    {
      "epoch": 10.221593587930222,
      "grad_norm": 0.0008994879317469895,
      "learning_rate": 0.13027702476490433,
      "loss": 0.3369,
      "num_input_tokens_seen": 20124704,
      "step": 21680
    },
    {
      "epoch": 10.223950966525225,
      "grad_norm": 0.0016998440260067582,
      "learning_rate": 0.1302186328392239,
      "loss": 0.3418,
      "num_input_tokens_seen": 20129776,
      "step": 21685
    },
    {
      "epoch": 10.226308345120227,
      "grad_norm": 0.00052512192633003,
      "learning_rate": 0.130160243964079,
      "loss": 0.3205,
      "num_input_tokens_seen": 20134352,
      "step": 21690
    },
    {
      "epoch": 10.22866572371523,
      "grad_norm": 0.0016563128447160125,
      "learning_rate": 0.13010185814847372,
      "loss": 0.3181,
      "num_input_tokens_seen": 20138688,
      "step": 21695
    },
    {
      "epoch": 10.231023102310232,
      "grad_norm": 0.0008909815223887563,
      "learning_rate": 0.13004347540141192,
      "loss": 0.2874,
      "num_input_tokens_seen": 20143984,
      "step": 21700
    },
    {
      "epoch": 10.233380480905234,
      "grad_norm": 0.00023667243658564985,
      "learning_rate": 0.12998509573189712,
      "loss": 0.3563,
      "num_input_tokens_seen": 20148688,
      "step": 21705
    },
    {
      "epoch": 10.235737859500237,
      "grad_norm": 0.00023429159773513675,
      "learning_rate": 0.12992671914893203,
      "loss": 0.316,
      "num_input_tokens_seen": 20154528,
      "step": 21710
    },
    {
      "epoch": 10.238095238095237,
      "grad_norm": 0.0006362402928061783,
      "learning_rate": 0.12986834566151909,
      "loss": 0.3806,
      "num_input_tokens_seen": 20159072,
      "step": 21715
    },
    {
      "epoch": 10.24045261669024,
      "grad_norm": 0.00024170393589884043,
      "learning_rate": 0.12980997527866028,
      "loss": 0.3029,
      "num_input_tokens_seen": 20164208,
      "step": 21720
    },
    {
      "epoch": 10.242809995285242,
      "grad_norm": 0.00024050298088695854,
      "learning_rate": 0.12975160800935692,
      "loss": 0.3683,
      "num_input_tokens_seen": 20169152,
      "step": 21725
    },
    {
      "epoch": 10.245167373880244,
      "grad_norm": 0.00021312080207280815,
      "learning_rate": 0.12969324386261016,
      "loss": 0.2815,
      "num_input_tokens_seen": 20173856,
      "step": 21730
    },
    {
      "epoch": 10.247524752475247,
      "grad_norm": 0.0002488105383235961,
      "learning_rate": 0.12963488284742034,
      "loss": 0.3193,
      "num_input_tokens_seen": 20178432,
      "step": 21735
    },
    {
      "epoch": 10.24988213107025,
      "grad_norm": 0.0006744684651494026,
      "learning_rate": 0.12957652497278752,
      "loss": 0.3639,
      "num_input_tokens_seen": 20182544,
      "step": 21740
    },
    {
      "epoch": 10.252239509665252,
      "grad_norm": 0.0003603984951041639,
      "learning_rate": 0.12951817024771117,
      "loss": 0.2837,
      "num_input_tokens_seen": 20187392,
      "step": 21745
    },
    {
      "epoch": 10.254596888260254,
      "grad_norm": 0.0006515380810014904,
      "learning_rate": 0.12945981868119041,
      "loss": 0.3225,
      "num_input_tokens_seen": 20191728,
      "step": 21750
    },
    {
      "epoch": 10.256954266855256,
      "grad_norm": 0.0003320193209219724,
      "learning_rate": 0.12940147028222376,
      "loss": 0.3379,
      "num_input_tokens_seen": 20196112,
      "step": 21755
    },
    {
      "epoch": 10.259311645450259,
      "grad_norm": 0.0005706629599444568,
      "learning_rate": 0.12934312505980916,
      "loss": 0.3098,
      "num_input_tokens_seen": 20200432,
      "step": 21760
    },
    {
      "epoch": 10.261669024045261,
      "grad_norm": 0.0002140147116733715,
      "learning_rate": 0.1292847830229443,
      "loss": 0.2947,
      "num_input_tokens_seen": 20204992,
      "step": 21765
    },
    {
      "epoch": 10.264026402640264,
      "grad_norm": 0.00023206968035083264,
      "learning_rate": 0.12922644418062626,
      "loss": 0.3283,
      "num_input_tokens_seen": 20209072,
      "step": 21770
    },
    {
      "epoch": 10.266383781235266,
      "grad_norm": 0.0007838721503503621,
      "learning_rate": 0.1291681085418515,
      "loss": 0.3441,
      "num_input_tokens_seen": 20213248,
      "step": 21775
    },
    {
      "epoch": 10.268741159830268,
      "grad_norm": 0.001237295800819993,
      "learning_rate": 0.12910977611561628,
      "loss": 0.3822,
      "num_input_tokens_seen": 20218272,
      "step": 21780
    },
    {
      "epoch": 10.27109853842527,
      "grad_norm": 0.0003168810799252242,
      "learning_rate": 0.1290514469109161,
      "loss": 0.3279,
      "num_input_tokens_seen": 20223152,
      "step": 21785
    },
    {
      "epoch": 10.273455917020273,
      "grad_norm": 0.0004405510553624481,
      "learning_rate": 0.128993120936746,
      "loss": 0.2913,
      "num_input_tokens_seen": 20227680,
      "step": 21790
    },
    {
      "epoch": 10.275813295615276,
      "grad_norm": 0.0005129169439896941,
      "learning_rate": 0.12893479820210071,
      "loss": 0.3233,
      "num_input_tokens_seen": 20231520,
      "step": 21795
    },
    {
      "epoch": 10.278170674210278,
      "grad_norm": 0.0005347387050278485,
      "learning_rate": 0.1288764787159742,
      "loss": 0.335,
      "num_input_tokens_seen": 20236224,
      "step": 21800
    },
    {
      "epoch": 10.278170674210278,
      "eval_loss": 0.32749682664871216,
      "eval_runtime": 33.5676,
      "eval_samples_per_second": 28.093,
      "eval_steps_per_second": 14.061,
      "num_input_tokens_seen": 20236224,
      "step": 21800
    },
    {
      "epoch": 10.28052805280528,
      "grad_norm": 0.0003271040040999651,
      "learning_rate": 0.1288181624873601,
      "loss": 0.3159,
      "num_input_tokens_seen": 20241152,
      "step": 21805
    },
    {
      "epoch": 10.282885431400283,
      "grad_norm": 0.00022330274805426598,
      "learning_rate": 0.12875984952525163,
      "loss": 0.2922,
      "num_input_tokens_seen": 20246688,
      "step": 21810
    },
    {
      "epoch": 10.285242809995285,
      "grad_norm": 0.0005256006843410432,
      "learning_rate": 0.12870153983864122,
      "loss": 0.302,
      "num_input_tokens_seen": 20251440,
      "step": 21815
    },
    {
      "epoch": 10.287600188590288,
      "grad_norm": 0.000339162303134799,
      "learning_rate": 0.12864323343652104,
      "loss": 0.2958,
      "num_input_tokens_seen": 20256096,
      "step": 21820
    },
    {
      "epoch": 10.28995756718529,
      "grad_norm": 0.0003298511146567762,
      "learning_rate": 0.12858493032788268,
      "loss": 0.3899,
      "num_input_tokens_seen": 20261280,
      "step": 21825
    },
    {
      "epoch": 10.292314945780292,
      "grad_norm": 0.0004887924296781421,
      "learning_rate": 0.12852663052171714,
      "loss": 0.2963,
      "num_input_tokens_seen": 20265840,
      "step": 21830
    },
    {
      "epoch": 10.294672324375295,
      "grad_norm": 0.0007735456456430256,
      "learning_rate": 0.12846833402701507,
      "loss": 0.3369,
      "num_input_tokens_seen": 20270384,
      "step": 21835
    },
    {
      "epoch": 10.297029702970297,
      "grad_norm": 0.000337786041200161,
      "learning_rate": 0.12841004085276642,
      "loss": 0.3494,
      "num_input_tokens_seen": 20274624,
      "step": 21840
    },
    {
      "epoch": 10.2993870815653,
      "grad_norm": 0.0005040511023253202,
      "learning_rate": 0.12835175100796076,
      "loss": 0.3781,
      "num_input_tokens_seen": 20280064,
      "step": 21845
    },
    {
      "epoch": 10.301744460160302,
      "grad_norm": 0.0004882988287135959,
      "learning_rate": 0.12829346450158724,
      "loss": 0.3384,
      "num_input_tokens_seen": 20285104,
      "step": 21850
    },
    {
      "epoch": 10.304101838755304,
      "grad_norm": 0.0006952317780815065,
      "learning_rate": 0.12823518134263423,
      "loss": 0.3404,
      "num_input_tokens_seen": 20289584,
      "step": 21855
    },
    {
      "epoch": 10.306459217350307,
      "grad_norm": 0.001987326657399535,
      "learning_rate": 0.12817690154008973,
      "loss": 0.3144,
      "num_input_tokens_seen": 20294288,
      "step": 21860
    },
    {
      "epoch": 10.30881659594531,
      "grad_norm": 0.0004723917809315026,
      "learning_rate": 0.12811862510294134,
      "loss": 0.3339,
      "num_input_tokens_seen": 20298560,
      "step": 21865
    },
    {
      "epoch": 10.311173974540312,
      "grad_norm": 0.0005963409203104675,
      "learning_rate": 0.12806035204017585,
      "loss": 0.3084,
      "num_input_tokens_seen": 20302960,
      "step": 21870
    },
    {
      "epoch": 10.313531353135314,
      "grad_norm": 0.0006474296096712351,
      "learning_rate": 0.12800208236077987,
      "loss": 0.4069,
      "num_input_tokens_seen": 20308464,
      "step": 21875
    },
    {
      "epoch": 10.315888731730317,
      "grad_norm": 0.0003174856537953019,
      "learning_rate": 0.12794381607373917,
      "loss": 0.3528,
      "num_input_tokens_seen": 20312624,
      "step": 21880
    },
    {
      "epoch": 10.318246110325319,
      "grad_norm": 0.00029365168302319944,
      "learning_rate": 0.12788555318803924,
      "loss": 0.3373,
      "num_input_tokens_seen": 20317392,
      "step": 21885
    },
    {
      "epoch": 10.320603488920321,
      "grad_norm": 0.0005732022109441459,
      "learning_rate": 0.1278272937126649,
      "loss": 0.3003,
      "num_input_tokens_seen": 20321808,
      "step": 21890
    },
    {
      "epoch": 10.322960867515324,
      "grad_norm": 0.000534434977453202,
      "learning_rate": 0.1277690376566005,
      "loss": 0.3836,
      "num_input_tokens_seen": 20327120,
      "step": 21895
    },
    {
      "epoch": 10.325318246110326,
      "grad_norm": 0.0006899546715430915,
      "learning_rate": 0.12771078502882985,
      "loss": 0.3603,
      "num_input_tokens_seen": 20330976,
      "step": 21900
    },
    {
      "epoch": 10.327675624705329,
      "grad_norm": 0.000327753514284268,
      "learning_rate": 0.12765253583833633,
      "loss": 0.3519,
      "num_input_tokens_seen": 20334864,
      "step": 21905
    },
    {
      "epoch": 10.33003300330033,
      "grad_norm": 0.0003384822339285165,
      "learning_rate": 0.12759429009410256,
      "loss": 0.3106,
      "num_input_tokens_seen": 20339168,
      "step": 21910
    },
    {
      "epoch": 10.332390381895332,
      "grad_norm": 0.0002563666785135865,
      "learning_rate": 0.12753604780511085,
      "loss": 0.3307,
      "num_input_tokens_seen": 20343696,
      "step": 21915
    },
    {
      "epoch": 10.334747760490334,
      "grad_norm": 0.000403754529543221,
      "learning_rate": 0.12747780898034283,
      "loss": 0.3334,
      "num_input_tokens_seen": 20347872,
      "step": 21920
    },
    {
      "epoch": 10.337105139085336,
      "grad_norm": 0.0002730624401010573,
      "learning_rate": 0.12741957362877973,
      "loss": 0.3132,
      "num_input_tokens_seen": 20353504,
      "step": 21925
    },
    {
      "epoch": 10.339462517680339,
      "grad_norm": 0.00022851339599583298,
      "learning_rate": 0.12736134175940214,
      "loss": 0.3169,
      "num_input_tokens_seen": 20357856,
      "step": 21930
    },
    {
      "epoch": 10.341819896275341,
      "grad_norm": 0.0005106625612825155,
      "learning_rate": 0.12730311338119016,
      "loss": 0.4142,
      "num_input_tokens_seen": 20362976,
      "step": 21935
    },
    {
      "epoch": 10.344177274870344,
      "grad_norm": 0.0003400065179448575,
      "learning_rate": 0.12724488850312327,
      "loss": 0.3408,
      "num_input_tokens_seen": 20366944,
      "step": 21940
    },
    {
      "epoch": 10.346534653465346,
      "grad_norm": 0.00030691231950186193,
      "learning_rate": 0.1271866671341806,
      "loss": 0.3513,
      "num_input_tokens_seen": 20371616,
      "step": 21945
    },
    {
      "epoch": 10.348892032060348,
      "grad_norm": 0.00021460810967255384,
      "learning_rate": 0.12712844928334047,
      "loss": 0.3514,
      "num_input_tokens_seen": 20375744,
      "step": 21950
    },
    {
      "epoch": 10.35124941065535,
      "grad_norm": 0.0007700019050389528,
      "learning_rate": 0.12707023495958095,
      "loss": 0.3512,
      "num_input_tokens_seen": 20380320,
      "step": 21955
    },
    {
      "epoch": 10.353606789250353,
      "grad_norm": 0.0005225058412179351,
      "learning_rate": 0.12701202417187932,
      "loss": 0.3148,
      "num_input_tokens_seen": 20383936,
      "step": 21960
    },
    {
      "epoch": 10.355964167845356,
      "grad_norm": 0.0005559667479246855,
      "learning_rate": 0.12695381692921243,
      "loss": 0.3073,
      "num_input_tokens_seen": 20388816,
      "step": 21965
    },
    {
      "epoch": 10.358321546440358,
      "grad_norm": 0.0002971394278574735,
      "learning_rate": 0.12689561324055665,
      "loss": 0.3182,
      "num_input_tokens_seen": 20394320,
      "step": 21970
    },
    {
      "epoch": 10.36067892503536,
      "grad_norm": 0.0004413858987390995,
      "learning_rate": 0.12683741311488758,
      "loss": 0.3649,
      "num_input_tokens_seen": 20399280,
      "step": 21975
    },
    {
      "epoch": 10.363036303630363,
      "grad_norm": 0.00027839114773087204,
      "learning_rate": 0.1267792165611805,
      "loss": 0.3234,
      "num_input_tokens_seen": 20403728,
      "step": 21980
    },
    {
      "epoch": 10.365393682225365,
      "grad_norm": 0.0006095585413277149,
      "learning_rate": 0.1267210235884101,
      "loss": 0.3084,
      "num_input_tokens_seen": 20408016,
      "step": 21985
    },
    {
      "epoch": 10.367751060820368,
      "grad_norm": 0.0003357972018420696,
      "learning_rate": 0.12666283420555033,
      "loss": 0.3235,
      "num_input_tokens_seen": 20412688,
      "step": 21990
    },
    {
      "epoch": 10.37010843941537,
      "grad_norm": 0.00023882935056462884,
      "learning_rate": 0.12660464842157487,
      "loss": 0.3382,
      "num_input_tokens_seen": 20417872,
      "step": 21995
    },
    {
      "epoch": 10.372465818010372,
      "grad_norm": 0.00029437209013849497,
      "learning_rate": 0.1265464662454566,
      "loss": 0.3269,
      "num_input_tokens_seen": 20421632,
      "step": 22000
    },
    {
      "epoch": 10.372465818010372,
      "eval_loss": 0.3287336528301239,
      "eval_runtime": 33.6073,
      "eval_samples_per_second": 28.059,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 20421632,
      "step": 22000
    },
    {
      "epoch": 10.374823196605375,
      "grad_norm": 0.0003456748672761023,
      "learning_rate": 0.12648828768616793,
      "loss": 0.2886,
      "num_input_tokens_seen": 20425952,
      "step": 22005
    },
    {
      "epoch": 10.377180575200377,
      "grad_norm": 0.000428879662649706,
      "learning_rate": 0.12643011275268085,
      "loss": 0.3126,
      "num_input_tokens_seen": 20430256,
      "step": 22010
    },
    {
      "epoch": 10.37953795379538,
      "grad_norm": 0.00042265394586138427,
      "learning_rate": 0.1263719414539665,
      "loss": 0.2851,
      "num_input_tokens_seen": 20434528,
      "step": 22015
    },
    {
      "epoch": 10.381895332390382,
      "grad_norm": 0.0002838803338818252,
      "learning_rate": 0.1263137737989957,
      "loss": 0.3155,
      "num_input_tokens_seen": 20438400,
      "step": 22020
    },
    {
      "epoch": 10.384252710985384,
      "grad_norm": 0.0005452838959172368,
      "learning_rate": 0.1262556097967387,
      "loss": 0.3614,
      "num_input_tokens_seen": 20443664,
      "step": 22025
    },
    {
      "epoch": 10.386610089580387,
      "grad_norm": 0.00037004100158810616,
      "learning_rate": 0.126197449456165,
      "loss": 0.318,
      "num_input_tokens_seen": 20448752,
      "step": 22030
    },
    {
      "epoch": 10.38896746817539,
      "grad_norm": 0.0006482686731033027,
      "learning_rate": 0.12613929278624378,
      "loss": 0.3616,
      "num_input_tokens_seen": 20453888,
      "step": 22035
    },
    {
      "epoch": 10.391324846770392,
      "grad_norm": 0.0001922630035551265,
      "learning_rate": 0.12608113979594343,
      "loss": 0.3125,
      "num_input_tokens_seen": 20459360,
      "step": 22040
    },
    {
      "epoch": 10.393682225365394,
      "grad_norm": 0.00038079495425336063,
      "learning_rate": 0.1260229904942319,
      "loss": 0.3407,
      "num_input_tokens_seen": 20463712,
      "step": 22045
    },
    {
      "epoch": 10.396039603960396,
      "grad_norm": 0.00026088941376656294,
      "learning_rate": 0.12596484489007662,
      "loss": 0.3006,
      "num_input_tokens_seen": 20468784,
      "step": 22050
    },
    {
      "epoch": 10.398396982555399,
      "grad_norm": 0.0002898560487665236,
      "learning_rate": 0.1259067029924442,
      "loss": 0.3029,
      "num_input_tokens_seen": 20473184,
      "step": 22055
    },
    {
      "epoch": 10.400754361150401,
      "grad_norm": 0.0002336490579182282,
      "learning_rate": 0.12584856481030096,
      "loss": 0.2958,
      "num_input_tokens_seen": 20477744,
      "step": 22060
    },
    {
      "epoch": 10.403111739745404,
      "grad_norm": 0.0002550782810430974,
      "learning_rate": 0.12579043035261261,
      "loss": 0.3035,
      "num_input_tokens_seen": 20481664,
      "step": 22065
    },
    {
      "epoch": 10.405469118340406,
      "grad_norm": 0.00040943262865766883,
      "learning_rate": 0.1257322996283441,
      "loss": 0.3358,
      "num_input_tokens_seen": 20486992,
      "step": 22070
    },
    {
      "epoch": 10.407826496935408,
      "grad_norm": 0.000300951098324731,
      "learning_rate": 0.12567417264645994,
      "loss": 0.3005,
      "num_input_tokens_seen": 20491088,
      "step": 22075
    },
    {
      "epoch": 10.41018387553041,
      "grad_norm": 0.0002935974334832281,
      "learning_rate": 0.12561604941592408,
      "loss": 0.3767,
      "num_input_tokens_seen": 20495904,
      "step": 22080
    },
    {
      "epoch": 10.412541254125413,
      "grad_norm": 0.00039376853965222836,
      "learning_rate": 0.12555792994569978,
      "loss": 0.3393,
      "num_input_tokens_seen": 20500528,
      "step": 22085
    },
    {
      "epoch": 10.414898632720416,
      "grad_norm": 0.00022498227190226316,
      "learning_rate": 0.1254998142447499,
      "loss": 0.3701,
      "num_input_tokens_seen": 20505312,
      "step": 22090
    },
    {
      "epoch": 10.417256011315418,
      "grad_norm": 0.00019947155669797212,
      "learning_rate": 0.1254417023220365,
      "loss": 0.3486,
      "num_input_tokens_seen": 20510352,
      "step": 22095
    },
    {
      "epoch": 10.41961338991042,
      "grad_norm": 0.0004043800290673971,
      "learning_rate": 0.12538359418652126,
      "loss": 0.2847,
      "num_input_tokens_seen": 20516864,
      "step": 22100
    },
    {
      "epoch": 10.421970768505423,
      "grad_norm": 0.00036359461955726147,
      "learning_rate": 0.12532548984716513,
      "loss": 0.3158,
      "num_input_tokens_seen": 20521600,
      "step": 22105
    },
    {
      "epoch": 10.424328147100425,
      "grad_norm": 0.000504600175190717,
      "learning_rate": 0.12526738931292855,
      "loss": 0.3401,
      "num_input_tokens_seen": 20526016,
      "step": 22110
    },
    {
      "epoch": 10.426685525695426,
      "grad_norm": 0.0004976783529855311,
      "learning_rate": 0.1252092925927714,
      "loss": 0.4068,
      "num_input_tokens_seen": 20530176,
      "step": 22115
    },
    {
      "epoch": 10.429042904290428,
      "grad_norm": 0.0006978310993872583,
      "learning_rate": 0.12515119969565278,
      "loss": 0.3769,
      "num_input_tokens_seen": 20534688,
      "step": 22120
    },
    {
      "epoch": 10.43140028288543,
      "grad_norm": 0.0002344524982618168,
      "learning_rate": 0.12509311063053144,
      "loss": 0.3655,
      "num_input_tokens_seen": 20538784,
      "step": 22125
    },
    {
      "epoch": 10.433757661480433,
      "grad_norm": 0.00030164714553393424,
      "learning_rate": 0.1250350254063655,
      "loss": 0.3361,
      "num_input_tokens_seen": 20542832,
      "step": 22130
    },
    {
      "epoch": 10.436115040075435,
      "grad_norm": 0.0003101231704931706,
      "learning_rate": 0.1249769440321123,
      "loss": 0.3392,
      "num_input_tokens_seen": 20547552,
      "step": 22135
    },
    {
      "epoch": 10.438472418670438,
      "grad_norm": 0.0005830335430800915,
      "learning_rate": 0.12491886651672884,
      "loss": 0.3116,
      "num_input_tokens_seen": 20552000,
      "step": 22140
    },
    {
      "epoch": 10.44082979726544,
      "grad_norm": 0.0003989783290307969,
      "learning_rate": 0.12486079286917139,
      "loss": 0.3804,
      "num_input_tokens_seen": 20557040,
      "step": 22145
    },
    {
      "epoch": 10.443187175860443,
      "grad_norm": 0.00031890039099380374,
      "learning_rate": 0.12480272309839553,
      "loss": 0.3235,
      "num_input_tokens_seen": 20561664,
      "step": 22150
    },
    {
      "epoch": 10.445544554455445,
      "grad_norm": 0.00022509355039801449,
      "learning_rate": 0.12474465721335648,
      "loss": 0.3479,
      "num_input_tokens_seen": 20566080,
      "step": 22155
    },
    {
      "epoch": 10.447901933050447,
      "grad_norm": 0.0003141505876556039,
      "learning_rate": 0.12468659522300861,
      "loss": 0.3688,
      "num_input_tokens_seen": 20570720,
      "step": 22160
    },
    {
      "epoch": 10.45025931164545,
      "grad_norm": 0.0002631835814099759,
      "learning_rate": 0.12462853713630584,
      "loss": 0.3598,
      "num_input_tokens_seen": 20575056,
      "step": 22165
    },
    {
      "epoch": 10.452616690240452,
      "grad_norm": 0.0003997941967099905,
      "learning_rate": 0.12457048296220156,
      "loss": 0.3285,
      "num_input_tokens_seen": 20579600,
      "step": 22170
    },
    {
      "epoch": 10.454974068835455,
      "grad_norm": 0.000779474270530045,
      "learning_rate": 0.12451243270964832,
      "loss": 0.3296,
      "num_input_tokens_seen": 20584192,
      "step": 22175
    },
    {
      "epoch": 10.457331447430457,
      "grad_norm": 0.0002588582574389875,
      "learning_rate": 0.12445438638759827,
      "loss": 0.3616,
      "num_input_tokens_seen": 20589152,
      "step": 22180
    },
    {
      "epoch": 10.45968882602546,
      "grad_norm": 0.00022302038269117475,
      "learning_rate": 0.1243963440050029,
      "loss": 0.3162,
      "num_input_tokens_seen": 20594208,
      "step": 22185
    },
    {
      "epoch": 10.462046204620462,
      "grad_norm": 0.00048072534264065325,
      "learning_rate": 0.12433830557081298,
      "loss": 0.3522,
      "num_input_tokens_seen": 20598656,
      "step": 22190
    },
    {
      "epoch": 10.464403583215464,
      "grad_norm": 0.000227668002480641,
      "learning_rate": 0.12428027109397889,
      "loss": 0.3226,
      "num_input_tokens_seen": 20602864,
      "step": 22195
    },
    {
      "epoch": 10.466760961810467,
      "grad_norm": 0.00021946757624391466,
      "learning_rate": 0.12422224058345015,
      "loss": 0.3284,
      "num_input_tokens_seen": 20608320,
      "step": 22200
    },
    {
      "epoch": 10.466760961810467,
      "eval_loss": 0.3282213807106018,
      "eval_runtime": 33.5993,
      "eval_samples_per_second": 28.066,
      "eval_steps_per_second": 14.048,
      "num_input_tokens_seen": 20608320,
      "step": 22200
    },
    {
      "epoch": 10.469118340405469,
      "grad_norm": 0.00020163778390269727,
      "learning_rate": 0.12416421404817583,
      "loss": 0.3559,
      "num_input_tokens_seen": 20612224,
      "step": 22205
    },
    {
      "epoch": 10.471475719000471,
      "grad_norm": 0.0005641618627123535,
      "learning_rate": 0.12410619149710447,
      "loss": 0.3498,
      "num_input_tokens_seen": 20616704,
      "step": 22210
    },
    {
      "epoch": 10.473833097595474,
      "grad_norm": 0.0002363797539146617,
      "learning_rate": 0.12404817293918374,
      "loss": 0.382,
      "num_input_tokens_seen": 20620688,
      "step": 22215
    },
    {
      "epoch": 10.476190476190476,
      "grad_norm": 0.00029295412241481245,
      "learning_rate": 0.12399015838336086,
      "loss": 0.3172,
      "num_input_tokens_seen": 20624784,
      "step": 22220
    },
    {
      "epoch": 10.478547854785479,
      "grad_norm": 0.0005882316036149859,
      "learning_rate": 0.12393214783858246,
      "loss": 0.3019,
      "num_input_tokens_seen": 20629792,
      "step": 22225
    },
    {
      "epoch": 10.480905233380481,
      "grad_norm": 0.00041774180135689676,
      "learning_rate": 0.1238741413137944,
      "loss": 0.3762,
      "num_input_tokens_seen": 20634272,
      "step": 22230
    },
    {
      "epoch": 10.483262611975483,
      "grad_norm": 0.0001983655383810401,
      "learning_rate": 0.12381613881794212,
      "loss": 0.3372,
      "num_input_tokens_seen": 20638496,
      "step": 22235
    },
    {
      "epoch": 10.485619990570486,
      "grad_norm": 0.00023409188725054264,
      "learning_rate": 0.12375814035997022,
      "loss": 0.2815,
      "num_input_tokens_seen": 20643440,
      "step": 22240
    },
    {
      "epoch": 10.487977369165488,
      "grad_norm": 0.00042943848529830575,
      "learning_rate": 0.12370014594882285,
      "loss": 0.3336,
      "num_input_tokens_seen": 20648432,
      "step": 22245
    },
    {
      "epoch": 10.49033474776049,
      "grad_norm": 0.0002523224684409797,
      "learning_rate": 0.12364215559344356,
      "loss": 0.3075,
      "num_input_tokens_seen": 20652880,
      "step": 22250
    },
    {
      "epoch": 10.492692126355493,
      "grad_norm": 0.0004227451572660357,
      "learning_rate": 0.12358416930277506,
      "loss": 0.3422,
      "num_input_tokens_seen": 20657840,
      "step": 22255
    },
    {
      "epoch": 10.495049504950495,
      "grad_norm": 0.0005588291096501052,
      "learning_rate": 0.1235261870857596,
      "loss": 0.3204,
      "num_input_tokens_seen": 20663280,
      "step": 22260
    },
    {
      "epoch": 10.497406883545498,
      "grad_norm": 0.0003316580841783434,
      "learning_rate": 0.12346820895133884,
      "loss": 0.3268,
      "num_input_tokens_seen": 20667312,
      "step": 22265
    },
    {
      "epoch": 10.4997642621405,
      "grad_norm": 0.00025330742937512696,
      "learning_rate": 0.12341023490845361,
      "loss": 0.3213,
      "num_input_tokens_seen": 20671840,
      "step": 22270
    },
    {
      "epoch": 10.502121640735503,
      "grad_norm": 0.0003412136575207114,
      "learning_rate": 0.12335226496604437,
      "loss": 0.3083,
      "num_input_tokens_seen": 20676640,
      "step": 22275
    },
    {
      "epoch": 10.504479019330505,
      "grad_norm": 0.00020512969058472663,
      "learning_rate": 0.12329429913305069,
      "loss": 0.3826,
      "num_input_tokens_seen": 20680384,
      "step": 22280
    },
    {
      "epoch": 10.506836397925507,
      "grad_norm": 0.0004707430489361286,
      "learning_rate": 0.12323633741841171,
      "loss": 0.3649,
      "num_input_tokens_seen": 20685520,
      "step": 22285
    },
    {
      "epoch": 10.50919377652051,
      "grad_norm": 0.0004600058891810477,
      "learning_rate": 0.12317837983106583,
      "loss": 0.3005,
      "num_input_tokens_seen": 20690096,
      "step": 22290
    },
    {
      "epoch": 10.511551155115512,
      "grad_norm": 0.0003227174165658653,
      "learning_rate": 0.12312042637995087,
      "loss": 0.3013,
      "num_input_tokens_seen": 20694304,
      "step": 22295
    },
    {
      "epoch": 10.513908533710515,
      "grad_norm": 0.00037038917071186006,
      "learning_rate": 0.12306247707400389,
      "loss": 0.3401,
      "num_input_tokens_seen": 20698704,
      "step": 22300
    },
    {
      "epoch": 10.516265912305517,
      "grad_norm": 0.0002779648930300027,
      "learning_rate": 0.12300453192216154,
      "loss": 0.3528,
      "num_input_tokens_seen": 20702896,
      "step": 22305
    },
    {
      "epoch": 10.518623290900518,
      "grad_norm": 0.0003523591149132699,
      "learning_rate": 0.12294659093335956,
      "loss": 0.3444,
      "num_input_tokens_seen": 20708064,
      "step": 22310
    },
    {
      "epoch": 10.520980669495522,
      "grad_norm": 0.00044369895476847887,
      "learning_rate": 0.12288865411653327,
      "loss": 0.343,
      "num_input_tokens_seen": 20711968,
      "step": 22315
    },
    {
      "epoch": 10.523338048090523,
      "grad_norm": 0.00026312857517041266,
      "learning_rate": 0.12283072148061717,
      "loss": 0.3711,
      "num_input_tokens_seen": 20716912,
      "step": 22320
    },
    {
      "epoch": 10.525695426685525,
      "grad_norm": 0.00029559654649347067,
      "learning_rate": 0.12277279303454529,
      "loss": 0.3311,
      "num_input_tokens_seen": 20720752,
      "step": 22325
    },
    {
      "epoch": 10.528052805280527,
      "grad_norm": 0.00024759973166510463,
      "learning_rate": 0.12271486878725091,
      "loss": 0.349,
      "num_input_tokens_seen": 20724944,
      "step": 22330
    },
    {
      "epoch": 10.53041018387553,
      "grad_norm": 0.00028546032262966037,
      "learning_rate": 0.12265694874766658,
      "loss": 0.3389,
      "num_input_tokens_seen": 20729248,
      "step": 22335
    },
    {
      "epoch": 10.532767562470532,
      "grad_norm": 0.0002596615522634238,
      "learning_rate": 0.12259903292472435,
      "loss": 0.3183,
      "num_input_tokens_seen": 20732624,
      "step": 22340
    },
    {
      "epoch": 10.535124941065535,
      "grad_norm": 0.00022844922204967588,
      "learning_rate": 0.12254112132735567,
      "loss": 0.3515,
      "num_input_tokens_seen": 20737584,
      "step": 22345
    },
    {
      "epoch": 10.537482319660537,
      "grad_norm": 0.0006109303212724626,
      "learning_rate": 0.12248321396449108,
      "loss": 0.3361,
      "num_input_tokens_seen": 20741792,
      "step": 22350
    },
    {
      "epoch": 10.53983969825554,
      "grad_norm": 0.000410485896281898,
      "learning_rate": 0.12242531084506075,
      "loss": 0.3607,
      "num_input_tokens_seen": 20746432,
      "step": 22355
    },
    {
      "epoch": 10.542197076850542,
      "grad_norm": 0.0005565781029872596,
      "learning_rate": 0.122367411977994,
      "loss": 0.3448,
      "num_input_tokens_seen": 20751360,
      "step": 22360
    },
    {
      "epoch": 10.544554455445544,
      "grad_norm": 0.0003235766780562699,
      "learning_rate": 0.12230951737221954,
      "loss": 0.3181,
      "num_input_tokens_seen": 20755408,
      "step": 22365
    },
    {
      "epoch": 10.546911834040547,
      "grad_norm": 0.0001979330845642835,
      "learning_rate": 0.12225162703666555,
      "loss": 0.334,
      "num_input_tokens_seen": 20759984,
      "step": 22370
    },
    {
      "epoch": 10.549269212635549,
      "grad_norm": 0.00025342756998725235,
      "learning_rate": 0.1221937409802593,
      "loss": 0.3457,
      "num_input_tokens_seen": 20765392,
      "step": 22375
    },
    {
      "epoch": 10.551626591230551,
      "grad_norm": 0.0003203690575901419,
      "learning_rate": 0.12213585921192768,
      "loss": 0.3228,
      "num_input_tokens_seen": 20770720,
      "step": 22380
    },
    {
      "epoch": 10.553983969825554,
      "grad_norm": 0.00036987909697927535,
      "learning_rate": 0.1220779817405967,
      "loss": 0.3622,
      "num_input_tokens_seen": 20775776,
      "step": 22385
    },
    {
      "epoch": 10.556341348420556,
      "grad_norm": 0.0007516179466620088,
      "learning_rate": 0.12202010857519181,
      "loss": 0.3395,
      "num_input_tokens_seen": 20780272,
      "step": 22390
    },
    {
      "epoch": 10.558698727015559,
      "grad_norm": 0.00029158106190152466,
      "learning_rate": 0.12196223972463785,
      "loss": 0.3452,
      "num_input_tokens_seen": 20784224,
      "step": 22395
    },
    {
      "epoch": 10.561056105610561,
      "grad_norm": 0.0005208527436479926,
      "learning_rate": 0.12190437519785885,
      "loss": 0.3202,
      "num_input_tokens_seen": 20788112,
      "step": 22400
    },
    {
      "epoch": 10.561056105610561,
      "eval_loss": 0.3301067352294922,
      "eval_runtime": 33.5973,
      "eval_samples_per_second": 28.068,
      "eval_steps_per_second": 14.049,
      "num_input_tokens_seen": 20788112,
      "step": 22400
    },
    {
      "epoch": 10.563413484205563,
      "grad_norm": 0.00032862837542779744,
      "learning_rate": 0.12184651500377823,
      "loss": 0.3452,
      "num_input_tokens_seen": 20791696,
      "step": 22405
    },
    {
      "epoch": 10.565770862800566,
      "grad_norm": 0.0003797562385443598,
      "learning_rate": 0.12178865915131885,
      "loss": 0.3475,
      "num_input_tokens_seen": 20795920,
      "step": 22410
    },
    {
      "epoch": 10.568128241395568,
      "grad_norm": 0.0004354139673523605,
      "learning_rate": 0.1217308076494027,
      "loss": 0.3262,
      "num_input_tokens_seen": 20800464,
      "step": 22415
    },
    {
      "epoch": 10.57048561999057,
      "grad_norm": 0.00031461447360925376,
      "learning_rate": 0.12167296050695134,
      "loss": 0.3623,
      "num_input_tokens_seen": 20805280,
      "step": 22420
    },
    {
      "epoch": 10.572842998585573,
      "grad_norm": 0.00023782934295013547,
      "learning_rate": 0.12161511773288536,
      "loss": 0.3707,
      "num_input_tokens_seen": 20809824,
      "step": 22425
    },
    {
      "epoch": 10.575200377180575,
      "grad_norm": 0.000348260800819844,
      "learning_rate": 0.121557279336125,
      "loss": 0.3384,
      "num_input_tokens_seen": 20814528,
      "step": 22430
    },
    {
      "epoch": 10.577557755775578,
      "grad_norm": 0.00037893635453656316,
      "learning_rate": 0.12149944532558957,
      "loss": 0.3258,
      "num_input_tokens_seen": 20819024,
      "step": 22435
    },
    {
      "epoch": 10.57991513437058,
      "grad_norm": 0.0006146779633127153,
      "learning_rate": 0.12144161571019785,
      "loss": 0.3223,
      "num_input_tokens_seen": 20824512,
      "step": 22440
    },
    {
      "epoch": 10.582272512965583,
      "grad_norm": 0.00031735721859149635,
      "learning_rate": 0.12138379049886781,
      "loss": 0.3386,
      "num_input_tokens_seen": 20829472,
      "step": 22445
    },
    {
      "epoch": 10.584629891560585,
      "grad_norm": 0.00025298629770986736,
      "learning_rate": 0.12132596970051697,
      "loss": 0.3521,
      "num_input_tokens_seen": 20834016,
      "step": 22450
    },
    {
      "epoch": 10.586987270155587,
      "grad_norm": 0.0005543978186324239,
      "learning_rate": 0.12126815332406189,
      "loss": 0.3177,
      "num_input_tokens_seen": 20839008,
      "step": 22455
    },
    {
      "epoch": 10.58934464875059,
      "grad_norm": 0.0003711935132741928,
      "learning_rate": 0.12121034137841868,
      "loss": 0.3504,
      "num_input_tokens_seen": 20843936,
      "step": 22460
    },
    {
      "epoch": 10.591702027345592,
      "grad_norm": 0.0004729173379018903,
      "learning_rate": 0.12115253387250258,
      "loss": 0.3066,
      "num_input_tokens_seen": 20848864,
      "step": 22465
    },
    {
      "epoch": 10.594059405940595,
      "grad_norm": 0.0002732589782681316,
      "learning_rate": 0.12109473081522831,
      "loss": 0.3209,
      "num_input_tokens_seen": 20853472,
      "step": 22470
    },
    {
      "epoch": 10.596416784535597,
      "grad_norm": 0.00037089516990818083,
      "learning_rate": 0.12103693221550982,
      "loss": 0.2901,
      "num_input_tokens_seen": 20857952,
      "step": 22475
    },
    {
      "epoch": 10.5987741631306,
      "grad_norm": 0.0007801251485943794,
      "learning_rate": 0.12097913808226027,
      "loss": 0.3625,
      "num_input_tokens_seen": 20862368,
      "step": 22480
    },
    {
      "epoch": 10.601131541725602,
      "grad_norm": 0.00019037559104617685,
      "learning_rate": 0.12092134842439234,
      "loss": 0.3478,
      "num_input_tokens_seen": 20866848,
      "step": 22485
    },
    {
      "epoch": 10.603488920320604,
      "grad_norm": 0.0002557536354288459,
      "learning_rate": 0.12086356325081798,
      "loss": 0.3761,
      "num_input_tokens_seen": 20871296,
      "step": 22490
    },
    {
      "epoch": 10.605846298915607,
      "grad_norm": 0.00033348219585604966,
      "learning_rate": 0.12080578257044824,
      "loss": 0.3245,
      "num_input_tokens_seen": 20875568,
      "step": 22495
    },
    {
      "epoch": 10.608203677510609,
      "grad_norm": 0.0002495097287464887,
      "learning_rate": 0.12074800639219378,
      "loss": 0.3219,
      "num_input_tokens_seen": 20879904,
      "step": 22500
    },
    {
      "epoch": 10.61056105610561,
      "grad_norm": 0.0003991354606114328,
      "learning_rate": 0.12069023472496428,
      "loss": 0.315,
      "num_input_tokens_seen": 20883648,
      "step": 22505
    },
    {
      "epoch": 10.612918434700614,
      "grad_norm": 0.0002841163950506598,
      "learning_rate": 0.12063246757766893,
      "loss": 0.369,
      "num_input_tokens_seen": 20887520,
      "step": 22510
    },
    {
      "epoch": 10.615275813295614,
      "grad_norm": 0.0002578892163001001,
      "learning_rate": 0.12057470495921618,
      "loss": 0.3211,
      "num_input_tokens_seen": 20892720,
      "step": 22515
    },
    {
      "epoch": 10.617633191890617,
      "grad_norm": 0.0008098862017504871,
      "learning_rate": 0.12051694687851364,
      "loss": 0.3488,
      "num_input_tokens_seen": 20897600,
      "step": 22520
    },
    {
      "epoch": 10.61999057048562,
      "grad_norm": 0.00034912722185254097,
      "learning_rate": 0.12045919334446839,
      "loss": 0.3505,
      "num_input_tokens_seen": 20902112,
      "step": 22525
    },
    {
      "epoch": 10.622347949080622,
      "grad_norm": 0.00037541083293035626,
      "learning_rate": 0.12040144436598683,
      "loss": 0.3369,
      "num_input_tokens_seen": 20907120,
      "step": 22530
    },
    {
      "epoch": 10.624705327675624,
      "grad_norm": 0.000473073247121647,
      "learning_rate": 0.12034369995197444,
      "loss": 0.3381,
      "num_input_tokens_seen": 20911392,
      "step": 22535
    },
    {
      "epoch": 10.627062706270626,
      "grad_norm": 0.0002665048523340374,
      "learning_rate": 0.12028596011133627,
      "loss": 0.3716,
      "num_input_tokens_seen": 20915744,
      "step": 22540
    },
    {
      "epoch": 10.629420084865629,
      "grad_norm": 0.00017172464868053794,
      "learning_rate": 0.12022822485297643,
      "loss": 0.339,
      "num_input_tokens_seen": 20920528,
      "step": 22545
    },
    {
      "epoch": 10.631777463460631,
      "grad_norm": 0.0007088605780154467,
      "learning_rate": 0.12017049418579843,
      "loss": 0.3179,
      "num_input_tokens_seen": 20925008,
      "step": 22550
    },
    {
      "epoch": 10.634134842055634,
      "grad_norm": 0.0007849931134842336,
      "learning_rate": 0.12011276811870514,
      "loss": 0.3599,
      "num_input_tokens_seen": 20930144,
      "step": 22555
    },
    {
      "epoch": 10.636492220650636,
      "grad_norm": 0.00031108807888813317,
      "learning_rate": 0.12005504666059852,
      "loss": 0.3114,
      "num_input_tokens_seen": 20934688,
      "step": 22560
    },
    {
      "epoch": 10.638849599245638,
      "grad_norm": 0.0005739728803746402,
      "learning_rate": 0.11999732982038003,
      "loss": 0.3404,
      "num_input_tokens_seen": 20938784,
      "step": 22565
    },
    {
      "epoch": 10.64120697784064,
      "grad_norm": 0.00023501056421082467,
      "learning_rate": 0.11993961760695038,
      "loss": 0.3588,
      "num_input_tokens_seen": 20943104,
      "step": 22570
    },
    {
      "epoch": 10.643564356435643,
      "grad_norm": 0.00024132987891789526,
      "learning_rate": 0.11988191002920942,
      "loss": 0.362,
      "num_input_tokens_seen": 20947888,
      "step": 22575
    },
    {
      "epoch": 10.645921735030646,
      "grad_norm": 0.0005565991159528494,
      "learning_rate": 0.11982420709605641,
      "loss": 0.3753,
      "num_input_tokens_seen": 20952720,
      "step": 22580
    },
    {
      "epoch": 10.648279113625648,
      "grad_norm": 0.0004616831138264388,
      "learning_rate": 0.11976650881638991,
      "loss": 0.3109,
      "num_input_tokens_seen": 20957152,
      "step": 22585
    },
    {
      "epoch": 10.65063649222065,
      "grad_norm": 0.0003484697954263538,
      "learning_rate": 0.11970881519910764,
      "loss": 0.3269,
      "num_input_tokens_seen": 20961088,
      "step": 22590
    },
    {
      "epoch": 10.652993870815653,
      "grad_norm": 0.00048309480189345777,
      "learning_rate": 0.1196511262531068,
      "loss": 0.3284,
      "num_input_tokens_seen": 20964976,
      "step": 22595
    },
    {
      "epoch": 10.655351249410655,
      "grad_norm": 0.00022370847000274807,
      "learning_rate": 0.11959344198728361,
      "loss": 0.3279,
      "num_input_tokens_seen": 20969744,
      "step": 22600
    },
    {
      "epoch": 10.655351249410655,
      "eval_loss": 0.32901468873023987,
      "eval_runtime": 33.5785,
      "eval_samples_per_second": 28.083,
      "eval_steps_per_second": 14.057,
      "num_input_tokens_seen": 20969744,
      "step": 22600
    },
    {
      "epoch": 10.657708628005658,
      "grad_norm": 0.00030355295166373253,
      "learning_rate": 0.11953576241053378,
      "loss": 0.3411,
      "num_input_tokens_seen": 20973664,
      "step": 22605
    },
    {
      "epoch": 10.66006600660066,
      "grad_norm": 0.00047990502207539976,
      "learning_rate": 0.11947808753175228,
      "loss": 0.3128,
      "num_input_tokens_seen": 20977440,
      "step": 22610
    },
    {
      "epoch": 10.662423385195662,
      "grad_norm": 0.000349154433934018,
      "learning_rate": 0.1194204173598332,
      "loss": 0.308,
      "num_input_tokens_seen": 20981280,
      "step": 22615
    },
    {
      "epoch": 10.664780763790665,
      "grad_norm": 0.0008416998898610473,
      "learning_rate": 0.11936275190367007,
      "loss": 0.3454,
      "num_input_tokens_seen": 20986208,
      "step": 22620
    },
    {
      "epoch": 10.667138142385667,
      "grad_norm": 0.00020206095359753817,
      "learning_rate": 0.11930509117215563,
      "loss": 0.3204,
      "num_input_tokens_seen": 20990352,
      "step": 22625
    },
    {
      "epoch": 10.66949552098067,
      "grad_norm": 0.0003342652053106576,
      "learning_rate": 0.11924743517418179,
      "loss": 0.2882,
      "num_input_tokens_seen": 20995136,
      "step": 22630
    },
    {
      "epoch": 10.671852899575672,
      "grad_norm": 0.0002983577433042228,
      "learning_rate": 0.11918978391864,
      "loss": 0.3395,
      "num_input_tokens_seen": 20999616,
      "step": 22635
    },
    {
      "epoch": 10.674210278170674,
      "grad_norm": 0.0002914870565291494,
      "learning_rate": 0.11913213741442065,
      "loss": 0.3377,
      "num_input_tokens_seen": 21004032,
      "step": 22640
    },
    {
      "epoch": 10.676567656765677,
      "grad_norm": 0.00019551713194232434,
      "learning_rate": 0.11907449567041364,
      "loss": 0.4169,
      "num_input_tokens_seen": 21008880,
      "step": 22645
    },
    {
      "epoch": 10.67892503536068,
      "grad_norm": 0.00044530373997986317,
      "learning_rate": 0.11901685869550803,
      "loss": 0.3356,
      "num_input_tokens_seen": 21014304,
      "step": 22650
    },
    {
      "epoch": 10.681282413955682,
      "grad_norm": 0.00021305076370481402,
      "learning_rate": 0.1189592264985922,
      "loss": 0.329,
      "num_input_tokens_seen": 21018752,
      "step": 22655
    },
    {
      "epoch": 10.683639792550684,
      "grad_norm": 0.0006365689914673567,
      "learning_rate": 0.11890159908855373,
      "loss": 0.3298,
      "num_input_tokens_seen": 21022656,
      "step": 22660
    },
    {
      "epoch": 10.685997171145686,
      "grad_norm": 0.0002136038092430681,
      "learning_rate": 0.11884397647427941,
      "loss": 0.2925,
      "num_input_tokens_seen": 21027712,
      "step": 22665
    },
    {
      "epoch": 10.688354549740689,
      "grad_norm": 0.00023046116984914988,
      "learning_rate": 0.11878635866465546,
      "loss": 0.2901,
      "num_input_tokens_seen": 21031488,
      "step": 22670
    },
    {
      "epoch": 10.690711928335691,
      "grad_norm": 0.0002753752050921321,
      "learning_rate": 0.11872874566856734,
      "loss": 0.3283,
      "num_input_tokens_seen": 21036272,
      "step": 22675
    },
    {
      "epoch": 10.693069306930694,
      "grad_norm": 0.00026458397042006254,
      "learning_rate": 0.11867113749489955,
      "loss": 0.3007,
      "num_input_tokens_seen": 21041248,
      "step": 22680
    },
    {
      "epoch": 10.695426685525696,
      "grad_norm": 0.0005027663428336382,
      "learning_rate": 0.11861353415253607,
      "loss": 0.361,
      "num_input_tokens_seen": 21045552,
      "step": 22685
    },
    {
      "epoch": 10.697784064120698,
      "grad_norm": 0.00023394834715873003,
      "learning_rate": 0.11855593565036011,
      "loss": 0.3218,
      "num_input_tokens_seen": 21049904,
      "step": 22690
    },
    {
      "epoch": 10.700141442715701,
      "grad_norm": 0.0004443077777978033,
      "learning_rate": 0.11849834199725394,
      "loss": 0.3712,
      "num_input_tokens_seen": 21054176,
      "step": 22695
    },
    {
      "epoch": 10.702498821310703,
      "grad_norm": 0.0005218702717684209,
      "learning_rate": 0.1184407532020994,
      "loss": 0.3259,
      "num_input_tokens_seen": 21059008,
      "step": 22700
    },
    {
      "epoch": 10.704856199905706,
      "grad_norm": 0.0002442694967612624,
      "learning_rate": 0.11838316927377723,
      "loss": 0.3599,
      "num_input_tokens_seen": 21063792,
      "step": 22705
    },
    {
      "epoch": 10.707213578500706,
      "grad_norm": 0.00018073221144732088,
      "learning_rate": 0.11832559022116766,
      "loss": 0.3069,
      "num_input_tokens_seen": 21068272,
      "step": 22710
    },
    {
      "epoch": 10.70957095709571,
      "grad_norm": 0.0002435040078125894,
      "learning_rate": 0.11826801605315022,
      "loss": 0.3206,
      "num_input_tokens_seen": 21073152,
      "step": 22715
    },
    {
      "epoch": 10.711928335690711,
      "grad_norm": 0.00020072735787834972,
      "learning_rate": 0.1182104467786034,
      "loss": 0.3172,
      "num_input_tokens_seen": 21078128,
      "step": 22720
    },
    {
      "epoch": 10.714285714285714,
      "grad_norm": 0.00047979498049244285,
      "learning_rate": 0.1181528824064052,
      "loss": 0.3147,
      "num_input_tokens_seen": 21083264,
      "step": 22725
    },
    {
      "epoch": 10.716643092880716,
      "grad_norm": 0.0003285547427367419,
      "learning_rate": 0.11809532294543279,
      "loss": 0.3219,
      "num_input_tokens_seen": 21087040,
      "step": 22730
    },
    {
      "epoch": 10.719000471475718,
      "grad_norm": 0.00043308650492690504,
      "learning_rate": 0.11803776840456245,
      "loss": 0.3413,
      "num_input_tokens_seen": 21092800,
      "step": 22735
    },
    {
      "epoch": 10.72135785007072,
      "grad_norm": 0.00019422215700615197,
      "learning_rate": 0.11798021879266997,
      "loss": 0.3303,
      "num_input_tokens_seen": 21096944,
      "step": 22740
    },
    {
      "epoch": 10.723715228665723,
      "grad_norm": 0.0004932279116474092,
      "learning_rate": 0.11792267411863006,
      "loss": 0.2868,
      "num_input_tokens_seen": 21101312,
      "step": 22745
    },
    {
      "epoch": 10.726072607260726,
      "grad_norm": 0.000957579119130969,
      "learning_rate": 0.1178651343913169,
      "loss": 0.3339,
      "num_input_tokens_seen": 21106368,
      "step": 22750
    },
    {
      "epoch": 10.728429985855728,
      "grad_norm": 0.0004566428833641112,
      "learning_rate": 0.11780759961960392,
      "loss": 0.3527,
      "num_input_tokens_seen": 21110864,
      "step": 22755
    },
    {
      "epoch": 10.73078736445073,
      "grad_norm": 0.0004997086361981928,
      "learning_rate": 0.1177500698123636,
      "loss": 0.3323,
      "num_input_tokens_seen": 21115280,
      "step": 22760
    },
    {
      "epoch": 10.733144743045733,
      "grad_norm": 0.00032375764567404985,
      "learning_rate": 0.11769254497846778,
      "loss": 0.3818,
      "num_input_tokens_seen": 21120032,
      "step": 22765
    },
    {
      "epoch": 10.735502121640735,
      "grad_norm": 0.0002642756444402039,
      "learning_rate": 0.11763502512678758,
      "loss": 0.3255,
      "num_input_tokens_seen": 21123984,
      "step": 22770
    },
    {
      "epoch": 10.737859500235738,
      "grad_norm": 0.00037008433719165623,
      "learning_rate": 0.11757751026619315,
      "loss": 0.3217,
      "num_input_tokens_seen": 21128032,
      "step": 22775
    },
    {
      "epoch": 10.74021687883074,
      "grad_norm": 0.0008292989805340767,
      "learning_rate": 0.11752000040555416,
      "loss": 0.358,
      "num_input_tokens_seen": 21133072,
      "step": 22780
    },
    {
      "epoch": 10.742574257425742,
      "grad_norm": 0.000826061877887696,
      "learning_rate": 0.11746249555373921,
      "loss": 0.3156,
      "num_input_tokens_seen": 21138208,
      "step": 22785
    },
    {
      "epoch": 10.744931636020745,
      "grad_norm": 0.000507204735185951,
      "learning_rate": 0.11740499571961638,
      "loss": 0.3085,
      "num_input_tokens_seen": 21142240,
      "step": 22790
    },
    {
      "epoch": 10.747289014615747,
      "grad_norm": 0.0009190146229229867,
      "learning_rate": 0.11734750091205279,
      "loss": 0.338,
      "num_input_tokens_seen": 21147440,
      "step": 22795
    },
    {
      "epoch": 10.74964639321075,
      "grad_norm": 0.000781613343860954,
      "learning_rate": 0.11729001113991493,
      "loss": 0.3447,
      "num_input_tokens_seen": 21151648,
      "step": 22800
    },
    {
      "epoch": 10.74964639321075,
      "eval_loss": 0.32681530714035034,
      "eval_runtime": 33.6094,
      "eval_samples_per_second": 28.058,
      "eval_steps_per_second": 14.044,
      "num_input_tokens_seen": 21151648,
      "step": 22800
    },
    {
      "epoch": 10.752003771805752,
      "grad_norm": 0.00025602549430914223,
      "learning_rate": 0.11723252641206837,
      "loss": 0.3346,
      "num_input_tokens_seen": 21156352,
      "step": 22805
    },
    {
      "epoch": 10.754361150400754,
      "grad_norm": 0.00027906839386560023,
      "learning_rate": 0.11717504673737808,
      "loss": 0.3542,
      "num_input_tokens_seen": 21160656,
      "step": 22810
    },
    {
      "epoch": 10.756718528995757,
      "grad_norm": 0.001548982341773808,
      "learning_rate": 0.11711757212470802,
      "loss": 0.3277,
      "num_input_tokens_seen": 21164784,
      "step": 22815
    },
    {
      "epoch": 10.75907590759076,
      "grad_norm": 0.0003029629588127136,
      "learning_rate": 0.11706010258292165,
      "loss": 0.3198,
      "num_input_tokens_seen": 21169504,
      "step": 22820
    },
    {
      "epoch": 10.761433286185762,
      "grad_norm": 0.0003037933201994747,
      "learning_rate": 0.11700263812088131,
      "loss": 0.3067,
      "num_input_tokens_seen": 21173200,
      "step": 22825
    },
    {
      "epoch": 10.763790664780764,
      "grad_norm": 0.000800616922788322,
      "learning_rate": 0.11694517874744892,
      "loss": 0.2959,
      "num_input_tokens_seen": 21177504,
      "step": 22830
    },
    {
      "epoch": 10.766148043375766,
      "grad_norm": 0.0006633769953623414,
      "learning_rate": 0.11688772447148532,
      "loss": 0.3303,
      "num_input_tokens_seen": 21182576,
      "step": 22835
    },
    {
      "epoch": 10.768505421970769,
      "grad_norm": 0.0008949418552219868,
      "learning_rate": 0.11683027530185074,
      "loss": 0.293,
      "num_input_tokens_seen": 21186800,
      "step": 22840
    },
    {
      "epoch": 10.770862800565771,
      "grad_norm": 0.0014357605250552297,
      "learning_rate": 0.11677283124740451,
      "loss": 0.3234,
      "num_input_tokens_seen": 21191728,
      "step": 22845
    },
    {
      "epoch": 10.773220179160774,
      "grad_norm": 0.0007767216884531081,
      "learning_rate": 0.11671539231700531,
      "loss": 0.3107,
      "num_input_tokens_seen": 21195536,
      "step": 22850
    },
    {
      "epoch": 10.775577557755776,
      "grad_norm": 0.00022164701658766717,
      "learning_rate": 0.11665795851951084,
      "loss": 0.292,
      "num_input_tokens_seen": 21200496,
      "step": 22855
    },
    {
      "epoch": 10.777934936350778,
      "grad_norm": 0.0004420377663336694,
      "learning_rate": 0.11660052986377825,
      "loss": 0.2868,
      "num_input_tokens_seen": 21205008,
      "step": 22860
    },
    {
      "epoch": 10.78029231494578,
      "grad_norm": 0.00017944732098840177,
      "learning_rate": 0.1165431063586636,
      "loss": 0.3554,
      "num_input_tokens_seen": 21209408,
      "step": 22865
    },
    {
      "epoch": 10.782649693540783,
      "grad_norm": 0.0004923004889860749,
      "learning_rate": 0.11648568801302245,
      "loss": 0.3552,
      "num_input_tokens_seen": 21214160,
      "step": 22870
    },
    {
      "epoch": 10.785007072135786,
      "grad_norm": 0.0004955750773660839,
      "learning_rate": 0.11642827483570937,
      "loss": 0.2848,
      "num_input_tokens_seen": 21218448,
      "step": 22875
    },
    {
      "epoch": 10.787364450730788,
      "grad_norm": 0.00023863320529926568,
      "learning_rate": 0.11637086683557815,
      "loss": 0.3307,
      "num_input_tokens_seen": 21223504,
      "step": 22880
    },
    {
      "epoch": 10.78972182932579,
      "grad_norm": 0.0003816616372205317,
      "learning_rate": 0.11631346402148188,
      "loss": 0.3648,
      "num_input_tokens_seen": 21228080,
      "step": 22885
    },
    {
      "epoch": 10.792079207920793,
      "grad_norm": 0.0004768140788655728,
      "learning_rate": 0.11625606640227285,
      "loss": 0.3314,
      "num_input_tokens_seen": 21232384,
      "step": 22890
    },
    {
      "epoch": 10.794436586515795,
      "grad_norm": 0.0006411910871975124,
      "learning_rate": 0.11619867398680238,
      "loss": 0.3506,
      "num_input_tokens_seen": 21237200,
      "step": 22895
    },
    {
      "epoch": 10.796793965110798,
      "grad_norm": 0.00031542847864329815,
      "learning_rate": 0.11614128678392119,
      "loss": 0.3398,
      "num_input_tokens_seen": 21241744,
      "step": 22900
    },
    {
      "epoch": 10.799151343705798,
      "grad_norm": 0.00030825339490547776,
      "learning_rate": 0.11608390480247906,
      "loss": 0.3421,
      "num_input_tokens_seen": 21246240,
      "step": 22905
    },
    {
      "epoch": 10.801508722300802,
      "grad_norm": 0.0002117982949130237,
      "learning_rate": 0.11602652805132499,
      "loss": 0.34,
      "num_input_tokens_seen": 21250496,
      "step": 22910
    },
    {
      "epoch": 10.803866100895803,
      "grad_norm": 0.00041191058699041605,
      "learning_rate": 0.11596915653930731,
      "loss": 0.333,
      "num_input_tokens_seen": 21255088,
      "step": 22915
    },
    {
      "epoch": 10.806223479490805,
      "grad_norm": 0.00021862874564249068,
      "learning_rate": 0.11591179027527328,
      "loss": 0.3054,
      "num_input_tokens_seen": 21259872,
      "step": 22920
    },
    {
      "epoch": 10.808580858085808,
      "grad_norm": 0.00022569243446923792,
      "learning_rate": 0.11585442926806956,
      "loss": 0.3333,
      "num_input_tokens_seen": 21265280,
      "step": 22925
    },
    {
      "epoch": 10.81093823668081,
      "grad_norm": 0.0009057732531800866,
      "learning_rate": 0.11579707352654202,
      "loss": 0.3416,
      "num_input_tokens_seen": 21272336,
      "step": 22930
    },
    {
      "epoch": 10.813295615275813,
      "grad_norm": 0.00038240867434069514,
      "learning_rate": 0.11573972305953548,
      "loss": 0.3372,
      "num_input_tokens_seen": 21276080,
      "step": 22935
    },
    {
      "epoch": 10.815652993870815,
      "grad_norm": 0.0005837275530211627,
      "learning_rate": 0.11568237787589426,
      "loss": 0.3011,
      "num_input_tokens_seen": 21281200,
      "step": 22940
    },
    {
      "epoch": 10.818010372465817,
      "grad_norm": 0.0004847233649343252,
      "learning_rate": 0.11562503798446161,
      "loss": 0.3797,
      "num_input_tokens_seen": 21286096,
      "step": 22945
    },
    {
      "epoch": 10.82036775106082,
      "grad_norm": 0.0008708573295734823,
      "learning_rate": 0.11556770339408005,
      "loss": 0.292,
      "num_input_tokens_seen": 21290752,
      "step": 22950
    },
    {
      "epoch": 10.822725129655822,
      "grad_norm": 0.000603966589551419,
      "learning_rate": 0.1155103741135914,
      "loss": 0.3149,
      "num_input_tokens_seen": 21294560,
      "step": 22955
    },
    {
      "epoch": 10.825082508250825,
      "grad_norm": 0.0007836691220290959,
      "learning_rate": 0.1154530501518364,
      "loss": 0.3656,
      "num_input_tokens_seen": 21298608,
      "step": 22960
    },
    {
      "epoch": 10.827439886845827,
      "grad_norm": 0.0008670144597999752,
      "learning_rate": 0.11539573151765523,
      "loss": 0.3228,
      "num_input_tokens_seen": 21303120,
      "step": 22965
    },
    {
      "epoch": 10.82979726544083,
      "grad_norm": 0.0010446934029459953,
      "learning_rate": 0.11533841821988719,
      "loss": 0.299,
      "num_input_tokens_seen": 21306976,
      "step": 22970
    },
    {
      "epoch": 10.832154644035832,
      "grad_norm": 0.0009030736400745809,
      "learning_rate": 0.11528111026737059,
      "loss": 0.3063,
      "num_input_tokens_seen": 21311440,
      "step": 22975
    },
    {
      "epoch": 10.834512022630834,
      "grad_norm": 0.0016502648359164596,
      "learning_rate": 0.11522380766894312,
      "loss": 0.3446,
      "num_input_tokens_seen": 21316048,
      "step": 22980
    },
    {
      "epoch": 10.836869401225837,
      "grad_norm": 0.001105144969187677,
      "learning_rate": 0.11516651043344152,
      "loss": 0.3164,
      "num_input_tokens_seen": 21320752,
      "step": 22985
    },
    {
      "epoch": 10.839226779820839,
      "grad_norm": 0.00021002802532166243,
      "learning_rate": 0.11510921856970172,
      "loss": 0.3008,
      "num_input_tokens_seen": 21325584,
      "step": 22990
    },
    {
      "epoch": 10.841584158415841,
      "grad_norm": 0.0004297703562770039,
      "learning_rate": 0.11505193208655895,
      "loss": 0.3165,
      "num_input_tokens_seen": 21330928,
      "step": 22995
    },
    {
      "epoch": 10.843941537010844,
      "grad_norm": 0.0006734732887707651,
      "learning_rate": 0.11499465099284738,
      "loss": 0.3432,
      "num_input_tokens_seen": 21335600,
      "step": 23000
    },
    {
      "epoch": 10.843941537010844,
      "eval_loss": 0.3269374668598175,
      "eval_runtime": 33.6294,
      "eval_samples_per_second": 28.041,
      "eval_steps_per_second": 14.035,
      "num_input_tokens_seen": 21335600,
      "step": 23000
    },
    {
      "epoch": 10.846298915605846,
      "grad_norm": 0.00046911585377529263,
      "learning_rate": 0.1149373752974006,
      "loss": 0.2835,
      "num_input_tokens_seen": 21339952,
      "step": 23005
    },
    {
      "epoch": 10.848656294200849,
      "grad_norm": 0.0006267541320994496,
      "learning_rate": 0.11488010500905109,
      "loss": 0.3449,
      "num_input_tokens_seen": 21345232,
      "step": 23010
    },
    {
      "epoch": 10.851013672795851,
      "grad_norm": 0.00024681611103005707,
      "learning_rate": 0.11482284013663077,
      "loss": 0.3584,
      "num_input_tokens_seen": 21349936,
      "step": 23015
    },
    {
      "epoch": 10.853371051390853,
      "grad_norm": 0.0003120381443295628,
      "learning_rate": 0.11476558068897061,
      "loss": 0.3638,
      "num_input_tokens_seen": 21354784,
      "step": 23020
    },
    {
      "epoch": 10.855728429985856,
      "grad_norm": 0.0002811809245031327,
      "learning_rate": 0.11470832667490061,
      "loss": 0.3406,
      "num_input_tokens_seen": 21358944,
      "step": 23025
    },
    {
      "epoch": 10.858085808580858,
      "grad_norm": 0.00045519208651967347,
      "learning_rate": 0.11465107810325013,
      "loss": 0.3922,
      "num_input_tokens_seen": 21363696,
      "step": 23030
    },
    {
      "epoch": 10.86044318717586,
      "grad_norm": 0.000807907257694751,
      "learning_rate": 0.11459383498284771,
      "loss": 0.3722,
      "num_input_tokens_seen": 21368224,
      "step": 23035
    },
    {
      "epoch": 10.862800565770863,
      "grad_norm": 0.00030826960573904216,
      "learning_rate": 0.11453659732252082,
      "loss": 0.339,
      "num_input_tokens_seen": 21372400,
      "step": 23040
    },
    {
      "epoch": 10.865157944365865,
      "grad_norm": 0.0007585408166050911,
      "learning_rate": 0.11447936513109633,
      "loss": 0.317,
      "num_input_tokens_seen": 21377520,
      "step": 23045
    },
    {
      "epoch": 10.867515322960868,
      "grad_norm": 0.00053151830798015,
      "learning_rate": 0.11442213841740011,
      "loss": 0.3517,
      "num_input_tokens_seen": 21381776,
      "step": 23050
    },
    {
      "epoch": 10.86987270155587,
      "grad_norm": 0.0004313295357860625,
      "learning_rate": 0.1143649171902572,
      "loss": 0.3399,
      "num_input_tokens_seen": 21386048,
      "step": 23055
    },
    {
      "epoch": 10.872230080150873,
      "grad_norm": 0.00031851843232288957,
      "learning_rate": 0.11430770145849194,
      "loss": 0.3177,
      "num_input_tokens_seen": 21390528,
      "step": 23060
    },
    {
      "epoch": 10.874587458745875,
      "grad_norm": 0.00034178514033555984,
      "learning_rate": 0.11425049123092756,
      "loss": 0.3086,
      "num_input_tokens_seen": 21395776,
      "step": 23065
    },
    {
      "epoch": 10.876944837340877,
      "grad_norm": 0.0002334976161364466,
      "learning_rate": 0.11419328651638674,
      "loss": 0.3304,
      "num_input_tokens_seen": 21401136,
      "step": 23070
    },
    {
      "epoch": 10.87930221593588,
      "grad_norm": 0.0005781151703558862,
      "learning_rate": 0.11413608732369115,
      "loss": 0.2909,
      "num_input_tokens_seen": 21406176,
      "step": 23075
    },
    {
      "epoch": 10.881659594530882,
      "grad_norm": 0.0002403662947472185,
      "learning_rate": 0.11407889366166153,
      "loss": 0.3302,
      "num_input_tokens_seen": 21411344,
      "step": 23080
    },
    {
      "epoch": 10.884016973125885,
      "grad_norm": 0.0007420627516694367,
      "learning_rate": 0.11402170553911797,
      "loss": 0.3199,
      "num_input_tokens_seen": 21415696,
      "step": 23085
    },
    {
      "epoch": 10.886374351720887,
      "grad_norm": 0.00020896978094242513,
      "learning_rate": 0.11396452296487955,
      "loss": 0.3313,
      "num_input_tokens_seen": 21420288,
      "step": 23090
    },
    {
      "epoch": 10.88873173031589,
      "grad_norm": 0.0007293483358807862,
      "learning_rate": 0.11390734594776449,
      "loss": 0.3477,
      "num_input_tokens_seen": 21424608,
      "step": 23095
    },
    {
      "epoch": 10.891089108910892,
      "grad_norm": 0.00042683511856012046,
      "learning_rate": 0.11385017449659031,
      "loss": 0.3133,
      "num_input_tokens_seen": 21428480,
      "step": 23100
    },
    {
      "epoch": 10.893446487505894,
      "grad_norm": 0.000276614329777658,
      "learning_rate": 0.11379300862017344,
      "loss": 0.3172,
      "num_input_tokens_seen": 21433600,
      "step": 23105
    },
    {
      "epoch": 10.895803866100895,
      "grad_norm": 0.0002105256571667269,
      "learning_rate": 0.11373584832732966,
      "loss": 0.3235,
      "num_input_tokens_seen": 21438464,
      "step": 23110
    },
    {
      "epoch": 10.898161244695899,
      "grad_norm": 0.0003069443046115339,
      "learning_rate": 0.11367869362687386,
      "loss": 0.3394,
      "num_input_tokens_seen": 21442336,
      "step": 23115
    },
    {
      "epoch": 10.9005186232909,
      "grad_norm": 0.0006437849951907992,
      "learning_rate": 0.11362154452761988,
      "loss": 0.2777,
      "num_input_tokens_seen": 21446864,
      "step": 23120
    },
    {
      "epoch": 10.902876001885902,
      "grad_norm": 0.0007454275619238615,
      "learning_rate": 0.11356440103838095,
      "loss": 0.325,
      "num_input_tokens_seen": 21451568,
      "step": 23125
    },
    {
      "epoch": 10.905233380480905,
      "grad_norm": 0.0005085932207293808,
      "learning_rate": 0.11350726316796922,
      "loss": 0.3433,
      "num_input_tokens_seen": 21456064,
      "step": 23130
    },
    {
      "epoch": 10.907590759075907,
      "grad_norm": 0.00041702837916091084,
      "learning_rate": 0.11345013092519607,
      "loss": 0.2879,
      "num_input_tokens_seen": 21460768,
      "step": 23135
    },
    {
      "epoch": 10.90994813767091,
      "grad_norm": 0.0004452786815818399,
      "learning_rate": 0.11339300431887213,
      "loss": 0.3376,
      "num_input_tokens_seen": 21465744,
      "step": 23140
    },
    {
      "epoch": 10.912305516265912,
      "grad_norm": 0.000284658424789086,
      "learning_rate": 0.11333588335780687,
      "loss": 0.3622,
      "num_input_tokens_seen": 21472432,
      "step": 23145
    },
    {
      "epoch": 10.914662894860914,
      "grad_norm": 0.0005224459455348551,
      "learning_rate": 0.11327876805080916,
      "loss": 0.3011,
      "num_input_tokens_seen": 21476800,
      "step": 23150
    },
    {
      "epoch": 10.917020273455917,
      "grad_norm": 0.0006906077032908797,
      "learning_rate": 0.11322165840668696,
      "loss": 0.3212,
      "num_input_tokens_seen": 21481456,
      "step": 23155
    },
    {
      "epoch": 10.919377652050919,
      "grad_norm": 0.00019323057495057583,
      "learning_rate": 0.11316455443424717,
      "loss": 0.3078,
      "num_input_tokens_seen": 21485600,
      "step": 23160
    },
    {
      "epoch": 10.921735030645921,
      "grad_norm": 0.0005363483214750886,
      "learning_rate": 0.11310745614229603,
      "loss": 0.3897,
      "num_input_tokens_seen": 21490480,
      "step": 23165
    },
    {
      "epoch": 10.924092409240924,
      "grad_norm": 0.0003831910726148635,
      "learning_rate": 0.1130503635396387,
      "loss": 0.3714,
      "num_input_tokens_seen": 21494800,
      "step": 23170
    },
    {
      "epoch": 10.926449787835926,
      "grad_norm": 0.0007313520764000714,
      "learning_rate": 0.11299327663507966,
      "loss": 0.2742,
      "num_input_tokens_seen": 21499200,
      "step": 23175
    },
    {
      "epoch": 10.928807166430929,
      "grad_norm": 0.000586296955589205,
      "learning_rate": 0.11293619543742246,
      "loss": 0.3395,
      "num_input_tokens_seen": 21503488,
      "step": 23180
    },
    {
      "epoch": 10.931164545025931,
      "grad_norm": 0.00016662539565004408,
      "learning_rate": 0.11287911995546965,
      "loss": 0.3306,
      "num_input_tokens_seen": 21507872,
      "step": 23185
    },
    {
      "epoch": 10.933521923620933,
      "grad_norm": 0.000622073479462415,
      "learning_rate": 0.11282205019802308,
      "loss": 0.3397,
      "num_input_tokens_seen": 21513296,
      "step": 23190
    },
    {
      "epoch": 10.935879302215936,
      "grad_norm": 0.00022980385983828455,
      "learning_rate": 0.11276498617388354,
      "loss": 0.2926,
      "num_input_tokens_seen": 21517728,
      "step": 23195
    },
    {
      "epoch": 10.938236680810938,
      "grad_norm": 0.000653088151011616,
      "learning_rate": 0.11270792789185109,
      "loss": 0.353,
      "num_input_tokens_seen": 21522352,
      "step": 23200
    },
    {
      "epoch": 10.938236680810938,
      "eval_loss": 0.3270900547504425,
      "eval_runtime": 33.6065,
      "eval_samples_per_second": 28.06,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 21522352,
      "step": 23200
    },
    {
      "epoch": 10.94059405940594,
      "grad_norm": 0.00029677950078621507,
      "learning_rate": 0.11265087536072482,
      "loss": 0.2884,
      "num_input_tokens_seen": 21527488,
      "step": 23205
    },
    {
      "epoch": 10.942951438000943,
      "grad_norm": 0.0011508552124723792,
      "learning_rate": 0.11259382858930288,
      "loss": 0.322,
      "num_input_tokens_seen": 21532448,
      "step": 23210
    },
    {
      "epoch": 10.945308816595945,
      "grad_norm": 0.0003607538528740406,
      "learning_rate": 0.11253678758638262,
      "loss": 0.334,
      "num_input_tokens_seen": 21537296,
      "step": 23215
    },
    {
      "epoch": 10.947666195190948,
      "grad_norm": 0.0004153844201937318,
      "learning_rate": 0.11247975236076059,
      "loss": 0.2877,
      "num_input_tokens_seen": 21542320,
      "step": 23220
    },
    {
      "epoch": 10.95002357378595,
      "grad_norm": 0.00038007149123586714,
      "learning_rate": 0.11242272292123218,
      "loss": 0.3881,
      "num_input_tokens_seen": 21546448,
      "step": 23225
    },
    {
      "epoch": 10.952380952380953,
      "grad_norm": 0.00042589311487972736,
      "learning_rate": 0.11236569927659217,
      "loss": 0.348,
      "num_input_tokens_seen": 21551536,
      "step": 23230
    },
    {
      "epoch": 10.954738330975955,
      "grad_norm": 0.0007768294308334589,
      "learning_rate": 0.11230868143563429,
      "loss": 0.3508,
      "num_input_tokens_seen": 21556112,
      "step": 23235
    },
    {
      "epoch": 10.957095709570957,
      "grad_norm": 0.00047128714504651725,
      "learning_rate": 0.11225166940715131,
      "loss": 0.3472,
      "num_input_tokens_seen": 21559744,
      "step": 23240
    },
    {
      "epoch": 10.95945308816596,
      "grad_norm": 0.0004440801276359707,
      "learning_rate": 0.11219466319993537,
      "loss": 0.32,
      "num_input_tokens_seen": 21564320,
      "step": 23245
    },
    {
      "epoch": 10.961810466760962,
      "grad_norm": 0.00037474476266652346,
      "learning_rate": 0.11213766282277739,
      "loss": 0.3714,
      "num_input_tokens_seen": 21568976,
      "step": 23250
    },
    {
      "epoch": 10.964167845355965,
      "grad_norm": 0.00017916930664796382,
      "learning_rate": 0.11208066828446761,
      "loss": 0.3219,
      "num_input_tokens_seen": 21574112,
      "step": 23255
    },
    {
      "epoch": 10.966525223950967,
      "grad_norm": 0.0008629374788142741,
      "learning_rate": 0.11202367959379537,
      "loss": 0.3509,
      "num_input_tokens_seen": 21578320,
      "step": 23260
    },
    {
      "epoch": 10.96888260254597,
      "grad_norm": 0.0002452951157465577,
      "learning_rate": 0.11196669675954894,
      "loss": 0.3433,
      "num_input_tokens_seen": 21583152,
      "step": 23265
    },
    {
      "epoch": 10.971239981140972,
      "grad_norm": 0.0002719956682994962,
      "learning_rate": 0.1119097197905158,
      "loss": 0.2741,
      "num_input_tokens_seen": 21587472,
      "step": 23270
    },
    {
      "epoch": 10.973597359735974,
      "grad_norm": 0.0003013134410139173,
      "learning_rate": 0.11185274869548259,
      "loss": 0.34,
      "num_input_tokens_seen": 21591312,
      "step": 23275
    },
    {
      "epoch": 10.975954738330977,
      "grad_norm": 0.0001822449266910553,
      "learning_rate": 0.11179578348323486,
      "loss": 0.2921,
      "num_input_tokens_seen": 21595696,
      "step": 23280
    },
    {
      "epoch": 10.978312116925979,
      "grad_norm": 0.0003290121676400304,
      "learning_rate": 0.1117388241625575,
      "loss": 0.3148,
      "num_input_tokens_seen": 21600000,
      "step": 23285
    },
    {
      "epoch": 10.980669495520981,
      "grad_norm": 0.0006592884892597795,
      "learning_rate": 0.11168187074223421,
      "loss": 0.3625,
      "num_input_tokens_seen": 21605168,
      "step": 23290
    },
    {
      "epoch": 10.983026874115984,
      "grad_norm": 0.0007290711509995162,
      "learning_rate": 0.11162492323104796,
      "loss": 0.3137,
      "num_input_tokens_seen": 21610240,
      "step": 23295
    },
    {
      "epoch": 10.985384252710986,
      "grad_norm": 0.0010073004523292184,
      "learning_rate": 0.11156798163778091,
      "loss": 0.3787,
      "num_input_tokens_seen": 21614592,
      "step": 23300
    },
    {
      "epoch": 10.987741631305987,
      "grad_norm": 0.0005211042007431388,
      "learning_rate": 0.11151104597121399,
      "loss": 0.2894,
      "num_input_tokens_seen": 21619824,
      "step": 23305
    },
    {
      "epoch": 10.990099009900991,
      "grad_norm": 0.0005260066827759147,
      "learning_rate": 0.11145411624012742,
      "loss": 0.3311,
      "num_input_tokens_seen": 21623936,
      "step": 23310
    },
    {
      "epoch": 10.992456388495992,
      "grad_norm": 0.00041114259511232376,
      "learning_rate": 0.11139719245330063,
      "loss": 0.2863,
      "num_input_tokens_seen": 21629696,
      "step": 23315
    },
    {
      "epoch": 10.994813767090994,
      "grad_norm": 0.0006187364342622459,
      "learning_rate": 0.11134027461951179,
      "loss": 0.3466,
      "num_input_tokens_seen": 21634224,
      "step": 23320
    },
    {
      "epoch": 10.997171145685996,
      "grad_norm": 0.0002393437025602907,
      "learning_rate": 0.11128336274753849,
      "loss": 0.308,
      "num_input_tokens_seen": 21639104,
      "step": 23325
    },
    {
      "epoch": 10.999528524280999,
      "grad_norm": 0.0007853709394112229,
      "learning_rate": 0.11122645684615715,
      "loss": 0.3478,
      "num_input_tokens_seen": 21643488,
      "step": 23330
    },
    {
      "epoch": 11.001885902876001,
      "grad_norm": 0.00043194156023673713,
      "learning_rate": 0.11116955692414345,
      "loss": 0.3027,
      "num_input_tokens_seen": 21647696,
      "step": 23335
    },
    {
      "epoch": 11.004243281471004,
      "grad_norm": 0.0003512892872095108,
      "learning_rate": 0.11111266299027203,
      "loss": 0.3194,
      "num_input_tokens_seen": 21652976,
      "step": 23340
    },
    {
      "epoch": 11.006600660066006,
      "grad_norm": 0.0002482856798451394,
      "learning_rate": 0.11105577505331668,
      "loss": 0.3401,
      "num_input_tokens_seen": 21657872,
      "step": 23345
    },
    {
      "epoch": 11.008958038661008,
      "grad_norm": 0.0003674325707834214,
      "learning_rate": 0.11099889312205018,
      "loss": 0.3408,
      "num_input_tokens_seen": 21661856,
      "step": 23350
    },
    {
      "epoch": 11.01131541725601,
      "grad_norm": 0.000501192465890199,
      "learning_rate": 0.11094201720524455,
      "loss": 0.3827,
      "num_input_tokens_seen": 21666896,
      "step": 23355
    },
    {
      "epoch": 11.013672795851013,
      "grad_norm": 0.0005698961322195828,
      "learning_rate": 0.11088514731167064,
      "loss": 0.3176,
      "num_input_tokens_seen": 21672544,
      "step": 23360
    },
    {
      "epoch": 11.016030174446016,
      "grad_norm": 0.0003382459981366992,
      "learning_rate": 0.11082828345009862,
      "loss": 0.3395,
      "num_input_tokens_seen": 21676320,
      "step": 23365
    },
    {
      "epoch": 11.018387553041018,
      "grad_norm": 0.000340337777743116,
      "learning_rate": 0.11077142562929748,
      "loss": 0.3571,
      "num_input_tokens_seen": 21680864,
      "step": 23370
    },
    {
      "epoch": 11.02074493163602,
      "grad_norm": 0.000561154040042311,
      "learning_rate": 0.11071457385803554,
      "loss": 0.3322,
      "num_input_tokens_seen": 21685408,
      "step": 23375
    },
    {
      "epoch": 11.023102310231023,
      "grad_norm": 0.00036412017652764916,
      "learning_rate": 0.11065772814508001,
      "loss": 0.3572,
      "num_input_tokens_seen": 21690080,
      "step": 23380
    },
    {
      "epoch": 11.025459688826025,
      "grad_norm": 0.00026251739473082125,
      "learning_rate": 0.11060088849919715,
      "loss": 0.3228,
      "num_input_tokens_seen": 21694720,
      "step": 23385
    },
    {
      "epoch": 11.027817067421028,
      "grad_norm": 0.000361796235665679,
      "learning_rate": 0.11054405492915244,
      "loss": 0.2963,
      "num_input_tokens_seen": 21699920,
      "step": 23390
    },
    {
      "epoch": 11.03017444601603,
      "grad_norm": 0.0006628578412346542,
      "learning_rate": 0.11048722744371031,
      "loss": 0.3336,
      "num_input_tokens_seen": 21703936,
      "step": 23395
    },
    {
      "epoch": 11.032531824611032,
      "grad_norm": 0.000822587579023093,
      "learning_rate": 0.1104304060516342,
      "loss": 0.3276,
      "num_input_tokens_seen": 21709568,
      "step": 23400
    },
    {
      "epoch": 11.032531824611032,
      "eval_loss": 0.32751578092575073,
      "eval_runtime": 33.5404,
      "eval_samples_per_second": 28.115,
      "eval_steps_per_second": 14.073,
      "num_input_tokens_seen": 21709568,
      "step": 23400
    },
    {
      "epoch": 11.034889203206035,
      "grad_norm": 0.0002495891530998051,
      "learning_rate": 0.11037359076168682,
      "loss": 0.3843,
      "num_input_tokens_seen": 21713616,
      "step": 23405
    },
    {
      "epoch": 11.037246581801037,
      "grad_norm": 0.00021674249728675932,
      "learning_rate": 0.11031678158262966,
      "loss": 0.3207,
      "num_input_tokens_seen": 21718288,
      "step": 23410
    },
    {
      "epoch": 11.03960396039604,
      "grad_norm": 0.00037447692011483014,
      "learning_rate": 0.11025997852322349,
      "loss": 0.3126,
      "num_input_tokens_seen": 21722272,
      "step": 23415
    },
    {
      "epoch": 11.041961338991042,
      "grad_norm": 0.00024485416361130774,
      "learning_rate": 0.11020318159222807,
      "loss": 0.3429,
      "num_input_tokens_seen": 21726864,
      "step": 23420
    },
    {
      "epoch": 11.044318717586044,
      "grad_norm": 0.0003557216841727495,
      "learning_rate": 0.1101463907984021,
      "loss": 0.2957,
      "num_input_tokens_seen": 21731680,
      "step": 23425
    },
    {
      "epoch": 11.046676096181047,
      "grad_norm": 0.00024290711735375226,
      "learning_rate": 0.11008960615050352,
      "loss": 0.3525,
      "num_input_tokens_seen": 21736000,
      "step": 23430
    },
    {
      "epoch": 11.04903347477605,
      "grad_norm": 0.00033408778836019337,
      "learning_rate": 0.11003282765728925,
      "loss": 0.3108,
      "num_input_tokens_seen": 21740368,
      "step": 23435
    },
    {
      "epoch": 11.051390853371052,
      "grad_norm": 0.0002146523620467633,
      "learning_rate": 0.10997605532751518,
      "loss": 0.2784,
      "num_input_tokens_seen": 21745072,
      "step": 23440
    },
    {
      "epoch": 11.053748231966054,
      "grad_norm": 0.0003442812885623425,
      "learning_rate": 0.1099192891699364,
      "loss": 0.3256,
      "num_input_tokens_seen": 21749328,
      "step": 23445
    },
    {
      "epoch": 11.056105610561056,
      "grad_norm": 0.0008002383983694017,
      "learning_rate": 0.10986252919330687,
      "loss": 0.3311,
      "num_input_tokens_seen": 21753904,
      "step": 23450
    },
    {
      "epoch": 11.058462989156059,
      "grad_norm": 0.0007344749174080789,
      "learning_rate": 0.10980577540637973,
      "loss": 0.3035,
      "num_input_tokens_seen": 21758496,
      "step": 23455
    },
    {
      "epoch": 11.060820367751061,
      "grad_norm": 0.00023628318740520626,
      "learning_rate": 0.10974902781790719,
      "loss": 0.3936,
      "num_input_tokens_seen": 21764256,
      "step": 23460
    },
    {
      "epoch": 11.063177746346064,
      "grad_norm": 0.0007414199062623084,
      "learning_rate": 0.10969228643664032,
      "loss": 0.3669,
      "num_input_tokens_seen": 21768240,
      "step": 23465
    },
    {
      "epoch": 11.065535124941066,
      "grad_norm": 0.0009078974253498018,
      "learning_rate": 0.10963555127132942,
      "loss": 0.3545,
      "num_input_tokens_seen": 21772608,
      "step": 23470
    },
    {
      "epoch": 11.067892503536068,
      "grad_norm": 0.0008113111834973097,
      "learning_rate": 0.10957882233072382,
      "loss": 0.3422,
      "num_input_tokens_seen": 21777712,
      "step": 23475
    },
    {
      "epoch": 11.07024988213107,
      "grad_norm": 0.00041626737220212817,
      "learning_rate": 0.10952209962357176,
      "loss": 0.3251,
      "num_input_tokens_seen": 21782624,
      "step": 23480
    },
    {
      "epoch": 11.072607260726073,
      "grad_norm": 0.000872589647769928,
      "learning_rate": 0.10946538315862062,
      "loss": 0.3484,
      "num_input_tokens_seen": 21787152,
      "step": 23485
    },
    {
      "epoch": 11.074964639321076,
      "grad_norm": 0.0002652721886988729,
      "learning_rate": 0.10940867294461679,
      "loss": 0.3256,
      "num_input_tokens_seen": 21791408,
      "step": 23490
    },
    {
      "epoch": 11.077322017916078,
      "grad_norm": 0.000991890556178987,
      "learning_rate": 0.10935196899030565,
      "loss": 0.347,
      "num_input_tokens_seen": 21795696,
      "step": 23495
    },
    {
      "epoch": 11.07967939651108,
      "grad_norm": 0.0004866236122325063,
      "learning_rate": 0.10929527130443177,
      "loss": 0.3565,
      "num_input_tokens_seen": 21800768,
      "step": 23500
    },
    {
      "epoch": 11.082036775106083,
      "grad_norm": 0.0002931943745352328,
      "learning_rate": 0.1092385798957385,
      "loss": 0.3508,
      "num_input_tokens_seen": 21804912,
      "step": 23505
    },
    {
      "epoch": 11.084394153701085,
      "grad_norm": 0.0004531329032033682,
      "learning_rate": 0.10918189477296848,
      "loss": 0.3339,
      "num_input_tokens_seen": 21809312,
      "step": 23510
    },
    {
      "epoch": 11.086751532296086,
      "grad_norm": 0.0005491398624144495,
      "learning_rate": 0.1091252159448633,
      "loss": 0.3273,
      "num_input_tokens_seen": 21814176,
      "step": 23515
    },
    {
      "epoch": 11.089108910891088,
      "grad_norm": 0.000712089182343334,
      "learning_rate": 0.10906854342016345,
      "loss": 0.3652,
      "num_input_tokens_seen": 21819056,
      "step": 23520
    },
    {
      "epoch": 11.09146628948609,
      "grad_norm": 0.0005022280965931714,
      "learning_rate": 0.10901187720760858,
      "loss": 0.352,
      "num_input_tokens_seen": 21823168,
      "step": 23525
    },
    {
      "epoch": 11.093823668081093,
      "grad_norm": 0.0007647427264600992,
      "learning_rate": 0.10895521731593734,
      "loss": 0.3242,
      "num_input_tokens_seen": 21827920,
      "step": 23530
    },
    {
      "epoch": 11.096181046676096,
      "grad_norm": 0.0008043039124459028,
      "learning_rate": 0.10889856375388733,
      "loss": 0.3378,
      "num_input_tokens_seen": 21832704,
      "step": 23535
    },
    {
      "epoch": 11.098538425271098,
      "grad_norm": 0.0007503227097913623,
      "learning_rate": 0.1088419165301954,
      "loss": 0.3157,
      "num_input_tokens_seen": 21837040,
      "step": 23540
    },
    {
      "epoch": 11.1008958038661,
      "grad_norm": 0.00036659694160334766,
      "learning_rate": 0.1087852756535971,
      "loss": 0.3488,
      "num_input_tokens_seen": 21842160,
      "step": 23545
    },
    {
      "epoch": 11.103253182461103,
      "grad_norm": 0.00021600854233838618,
      "learning_rate": 0.10872864113282725,
      "loss": 0.3108,
      "num_input_tokens_seen": 21846768,
      "step": 23550
    },
    {
      "epoch": 11.105610561056105,
      "grad_norm": 0.0002546993491705507,
      "learning_rate": 0.10867201297661958,
      "loss": 0.3339,
      "num_input_tokens_seen": 21852512,
      "step": 23555
    },
    {
      "epoch": 11.107967939651108,
      "grad_norm": 0.0003710894088726491,
      "learning_rate": 0.10861539119370689,
      "loss": 0.3723,
      "num_input_tokens_seen": 21858192,
      "step": 23560
    },
    {
      "epoch": 11.11032531824611,
      "grad_norm": 0.0006362179992720485,
      "learning_rate": 0.10855877579282096,
      "loss": 0.3217,
      "num_input_tokens_seen": 21862912,
      "step": 23565
    },
    {
      "epoch": 11.112682696841112,
      "grad_norm": 0.001175709767267108,
      "learning_rate": 0.10850216678269252,
      "loss": 0.3342,
      "num_input_tokens_seen": 21867760,
      "step": 23570
    },
    {
      "epoch": 11.115040075436115,
      "grad_norm": 0.0003298923256807029,
      "learning_rate": 0.10844556417205146,
      "loss": 0.2944,
      "num_input_tokens_seen": 21871952,
      "step": 23575
    },
    {
      "epoch": 11.117397454031117,
      "grad_norm": 0.00029088303563185036,
      "learning_rate": 0.10838896796962669,
      "loss": 0.3603,
      "num_input_tokens_seen": 21876752,
      "step": 23580
    },
    {
      "epoch": 11.11975483262612,
      "grad_norm": 0.0006199999479576945,
      "learning_rate": 0.1083323781841459,
      "loss": 0.336,
      "num_input_tokens_seen": 21880576,
      "step": 23585
    },
    {
      "epoch": 11.122112211221122,
      "grad_norm": 0.00043699779780581594,
      "learning_rate": 0.10827579482433607,
      "loss": 0.3746,
      "num_input_tokens_seen": 21884944,
      "step": 23590
    },
    {
      "epoch": 11.124469589816124,
      "grad_norm": 0.0008693858981132507,
      "learning_rate": 0.10821921789892304,
      "loss": 0.293,
      "num_input_tokens_seen": 21889392,
      "step": 23595
    },
    {
      "epoch": 11.126826968411127,
      "grad_norm": 0.0003667220298666507,
      "learning_rate": 0.10816264741663158,
      "loss": 0.325,
      "num_input_tokens_seen": 21894592,
      "step": 23600
    },
    {
      "epoch": 11.126826968411127,
      "eval_loss": 0.32699790596961975,
      "eval_runtime": 33.6038,
      "eval_samples_per_second": 28.062,
      "eval_steps_per_second": 14.046,
      "num_input_tokens_seen": 21894592,
      "step": 23600
    },
    {
      "epoch": 11.12918434700613,
      "grad_norm": 0.00034773393417708576,
      "learning_rate": 0.10810608338618573,
      "loss": 0.3059,
      "num_input_tokens_seen": 21899520,
      "step": 23605
    },
    {
      "epoch": 11.131541725601132,
      "grad_norm": 0.0005587266641668975,
      "learning_rate": 0.10804952581630821,
      "loss": 0.3183,
      "num_input_tokens_seen": 21904192,
      "step": 23610
    },
    {
      "epoch": 11.133899104196134,
      "grad_norm": 0.0003675998596008867,
      "learning_rate": 0.10799297471572102,
      "loss": 0.2889,
      "num_input_tokens_seen": 21908480,
      "step": 23615
    },
    {
      "epoch": 11.136256482791136,
      "grad_norm": 0.00020758123719133437,
      "learning_rate": 0.10793643009314507,
      "loss": 0.3159,
      "num_input_tokens_seen": 21913184,
      "step": 23620
    },
    {
      "epoch": 11.138613861386139,
      "grad_norm": 0.0003240859368816018,
      "learning_rate": 0.10787989195730015,
      "loss": 0.322,
      "num_input_tokens_seen": 21917664,
      "step": 23625
    },
    {
      "epoch": 11.140971239981141,
      "grad_norm": 0.00021821084374096245,
      "learning_rate": 0.10782336031690525,
      "loss": 0.3383,
      "num_input_tokens_seen": 21922416,
      "step": 23630
    },
    {
      "epoch": 11.143328618576144,
      "grad_norm": 0.0006961858016438782,
      "learning_rate": 0.10776683518067821,
      "loss": 0.3818,
      "num_input_tokens_seen": 21926608,
      "step": 23635
    },
    {
      "epoch": 11.145685997171146,
      "grad_norm": 0.00034265988506376743,
      "learning_rate": 0.10771031655733587,
      "loss": 0.3554,
      "num_input_tokens_seen": 21932544,
      "step": 23640
    },
    {
      "epoch": 11.148043375766148,
      "grad_norm": 0.00029265350895002484,
      "learning_rate": 0.10765380445559422,
      "loss": 0.3543,
      "num_input_tokens_seen": 21936784,
      "step": 23645
    },
    {
      "epoch": 11.15040075436115,
      "grad_norm": 0.0003219782665837556,
      "learning_rate": 0.10759729888416801,
      "loss": 0.3864,
      "num_input_tokens_seen": 21940976,
      "step": 23650
    },
    {
      "epoch": 11.152758132956153,
      "grad_norm": 0.000867877562996,
      "learning_rate": 0.10754079985177119,
      "loss": 0.3118,
      "num_input_tokens_seen": 21945776,
      "step": 23655
    },
    {
      "epoch": 11.155115511551156,
      "grad_norm": 0.0007469597039744258,
      "learning_rate": 0.10748430736711667,
      "loss": 0.3184,
      "num_input_tokens_seen": 21950624,
      "step": 23660
    },
    {
      "epoch": 11.157472890146158,
      "grad_norm": 0.00032998251845128834,
      "learning_rate": 0.10742782143891623,
      "loss": 0.3395,
      "num_input_tokens_seen": 21954624,
      "step": 23665
    },
    {
      "epoch": 11.15983026874116,
      "grad_norm": 0.0003061429597437382,
      "learning_rate": 0.10737134207588069,
      "loss": 0.3307,
      "num_input_tokens_seen": 21958960,
      "step": 23670
    },
    {
      "epoch": 11.162187647336163,
      "grad_norm": 0.00030108296778053045,
      "learning_rate": 0.10731486928671992,
      "loss": 0.3643,
      "num_input_tokens_seen": 21962928,
      "step": 23675
    },
    {
      "epoch": 11.164545025931165,
      "grad_norm": 0.0008385048131458461,
      "learning_rate": 0.10725840308014269,
      "loss": 0.2989,
      "num_input_tokens_seen": 21967520,
      "step": 23680
    },
    {
      "epoch": 11.166902404526168,
      "grad_norm": 0.0007799259619787335,
      "learning_rate": 0.10720194346485688,
      "loss": 0.3192,
      "num_input_tokens_seen": 21971824,
      "step": 23685
    },
    {
      "epoch": 11.16925978312117,
      "grad_norm": 0.00030278877238743007,
      "learning_rate": 0.10714549044956918,
      "loss": 0.304,
      "num_input_tokens_seen": 21976640,
      "step": 23690
    },
    {
      "epoch": 11.171617161716172,
      "grad_norm": 0.00032314268173649907,
      "learning_rate": 0.10708904404298542,
      "loss": 0.3499,
      "num_input_tokens_seen": 21981280,
      "step": 23695
    },
    {
      "epoch": 11.173974540311175,
      "grad_norm": 0.0002396700729150325,
      "learning_rate": 0.1070326042538103,
      "loss": 0.3215,
      "num_input_tokens_seen": 21985840,
      "step": 23700
    },
    {
      "epoch": 11.176331918906177,
      "grad_norm": 0.0004732573579531163,
      "learning_rate": 0.10697617109074758,
      "loss": 0.3119,
      "num_input_tokens_seen": 21990304,
      "step": 23705
    },
    {
      "epoch": 11.17868929750118,
      "grad_norm": 0.00046408636262640357,
      "learning_rate": 0.10691974456249999,
      "loss": 0.3163,
      "num_input_tokens_seen": 21994288,
      "step": 23710
    },
    {
      "epoch": 11.18104667609618,
      "grad_norm": 0.0005082811694592237,
      "learning_rate": 0.10686332467776909,
      "loss": 0.3328,
      "num_input_tokens_seen": 21999008,
      "step": 23715
    },
    {
      "epoch": 11.183404054691183,
      "grad_norm": 0.0005855803028680384,
      "learning_rate": 0.10680691144525563,
      "loss": 0.3045,
      "num_input_tokens_seen": 22005136,
      "step": 23720
    },
    {
      "epoch": 11.185761433286185,
      "grad_norm": 0.00026958511443808675,
      "learning_rate": 0.10675050487365928,
      "loss": 0.2973,
      "num_input_tokens_seen": 22008912,
      "step": 23725
    },
    {
      "epoch": 11.188118811881187,
      "grad_norm": 0.0005403747200034559,
      "learning_rate": 0.10669410497167851,
      "loss": 0.2384,
      "num_input_tokens_seen": 22013328,
      "step": 23730
    },
    {
      "epoch": 11.19047619047619,
      "grad_norm": 0.0001461469946661964,
      "learning_rate": 0.10663771174801102,
      "loss": 0.2708,
      "num_input_tokens_seen": 22017120,
      "step": 23735
    },
    {
      "epoch": 11.192833569071192,
      "grad_norm": 0.0004743998288176954,
      "learning_rate": 0.10658132521135329,
      "loss": 0.3108,
      "num_input_tokens_seen": 22021760,
      "step": 23740
    },
    {
      "epoch": 11.195190947666195,
      "grad_norm": 0.000188468475244008,
      "learning_rate": 0.10652494537040084,
      "loss": 0.2484,
      "num_input_tokens_seen": 22027216,
      "step": 23745
    },
    {
      "epoch": 11.197548326261197,
      "grad_norm": 0.0006001690053381026,
      "learning_rate": 0.1064685722338482,
      "loss": 0.2879,
      "num_input_tokens_seen": 22031328,
      "step": 23750
    },
    {
      "epoch": 11.1999057048562,
      "grad_norm": 0.000374667695723474,
      "learning_rate": 0.10641220581038871,
      "loss": 0.3847,
      "num_input_tokens_seen": 22036240,
      "step": 23755
    },
    {
      "epoch": 11.202263083451202,
      "grad_norm": 0.0009654187597334385,
      "learning_rate": 0.10635584610871483,
      "loss": 0.3443,
      "num_input_tokens_seen": 22042240,
      "step": 23760
    },
    {
      "epoch": 11.204620462046204,
      "grad_norm": 0.00037068146048113704,
      "learning_rate": 0.10629949313751803,
      "loss": 0.4074,
      "num_input_tokens_seen": 22046320,
      "step": 23765
    },
    {
      "epoch": 11.206977840641207,
      "grad_norm": 0.000504577939864248,
      "learning_rate": 0.10624314690548849,
      "loss": 0.3017,
      "num_input_tokens_seen": 22051184,
      "step": 23770
    },
    {
      "epoch": 11.209335219236209,
      "grad_norm": 0.0002119764540111646,
      "learning_rate": 0.1061868074213156,
      "loss": 0.3552,
      "num_input_tokens_seen": 22055216,
      "step": 23775
    },
    {
      "epoch": 11.211692597831211,
      "grad_norm": 0.0005448166048154235,
      "learning_rate": 0.10613047469368765,
      "loss": 0.3453,
      "num_input_tokens_seen": 22060192,
      "step": 23780
    },
    {
      "epoch": 11.214049976426214,
      "grad_norm": 0.0004132364992983639,
      "learning_rate": 0.10607414873129171,
      "loss": 0.3132,
      "num_input_tokens_seen": 22065248,
      "step": 23785
    },
    {
      "epoch": 11.216407355021216,
      "grad_norm": 0.0002063406864181161,
      "learning_rate": 0.10601782954281413,
      "loss": 0.4087,
      "num_input_tokens_seen": 22071104,
      "step": 23790
    },
    {
      "epoch": 11.218764733616219,
      "grad_norm": 0.0002909360046032816,
      "learning_rate": 0.1059615171369399,
      "loss": 0.2529,
      "num_input_tokens_seen": 22075472,
      "step": 23795
    },
    {
      "epoch": 11.221122112211221,
      "grad_norm": 0.00034871220123022795,
      "learning_rate": 0.10590521152235312,
      "loss": 0.3204,
      "num_input_tokens_seen": 22079344,
      "step": 23800
    },
    {
      "epoch": 11.221122112211221,
      "eval_loss": 0.3273259103298187,
      "eval_runtime": 33.6167,
      "eval_samples_per_second": 28.052,
      "eval_steps_per_second": 14.041,
      "num_input_tokens_seen": 22079344,
      "step": 23800
    },
    {
      "epoch": 11.223479490806223,
      "grad_norm": 0.0002585058973636478,
      "learning_rate": 0.1058489127077369,
      "loss": 0.278,
      "num_input_tokens_seen": 22083456,
      "step": 23805
    },
    {
      "epoch": 11.225836869401226,
      "grad_norm": 0.0002831140882335603,
      "learning_rate": 0.1057926207017732,
      "loss": 0.3324,
      "num_input_tokens_seen": 22088560,
      "step": 23810
    },
    {
      "epoch": 11.228194247996228,
      "grad_norm": 0.00023241383314598352,
      "learning_rate": 0.10573633551314285,
      "loss": 0.4005,
      "num_input_tokens_seen": 22092784,
      "step": 23815
    },
    {
      "epoch": 11.23055162659123,
      "grad_norm": 0.0003337845264468342,
      "learning_rate": 0.1056800571505259,
      "loss": 0.3418,
      "num_input_tokens_seen": 22098080,
      "step": 23820
    },
    {
      "epoch": 11.232909005186233,
      "grad_norm": 0.0004916680045425892,
      "learning_rate": 0.10562378562260105,
      "loss": 0.3716,
      "num_input_tokens_seen": 22103152,
      "step": 23825
    },
    {
      "epoch": 11.235266383781235,
      "grad_norm": 0.0011064553400501609,
      "learning_rate": 0.10556752093804615,
      "loss": 0.3519,
      "num_input_tokens_seen": 22107760,
      "step": 23830
    },
    {
      "epoch": 11.237623762376238,
      "grad_norm": 0.000588323746342212,
      "learning_rate": 0.10551126310553786,
      "loss": 0.3741,
      "num_input_tokens_seen": 22112624,
      "step": 23835
    },
    {
      "epoch": 11.23998114097124,
      "grad_norm": 0.0004840165202040225,
      "learning_rate": 0.10545501213375187,
      "loss": 0.3261,
      "num_input_tokens_seen": 22117472,
      "step": 23840
    },
    {
      "epoch": 11.242338519566243,
      "grad_norm": 0.0010823578340932727,
      "learning_rate": 0.10539876803136287,
      "loss": 0.328,
      "num_input_tokens_seen": 22122352,
      "step": 23845
    },
    {
      "epoch": 11.244695898161245,
      "grad_norm": 0.0002626599743962288,
      "learning_rate": 0.10534253080704428,
      "loss": 0.3368,
      "num_input_tokens_seen": 22127104,
      "step": 23850
    },
    {
      "epoch": 11.247053276756247,
      "grad_norm": 0.0002729067055042833,
      "learning_rate": 0.10528630046946862,
      "loss": 0.3495,
      "num_input_tokens_seen": 22132160,
      "step": 23855
    },
    {
      "epoch": 11.24941065535125,
      "grad_norm": 0.0007459769840352237,
      "learning_rate": 0.1052300770273074,
      "loss": 0.3249,
      "num_input_tokens_seen": 22136832,
      "step": 23860
    },
    {
      "epoch": 11.251768033946252,
      "grad_norm": 0.0003788408066611737,
      "learning_rate": 0.10517386048923086,
      "loss": 0.3282,
      "num_input_tokens_seen": 22140928,
      "step": 23865
    },
    {
      "epoch": 11.254125412541255,
      "grad_norm": 0.0008907293668016791,
      "learning_rate": 0.10511765086390841,
      "loss": 0.3435,
      "num_input_tokens_seen": 22145728,
      "step": 23870
    },
    {
      "epoch": 11.256482791136257,
      "grad_norm": 0.0010614116908982396,
      "learning_rate": 0.10506144816000816,
      "loss": 0.3466,
      "num_input_tokens_seen": 22150064,
      "step": 23875
    },
    {
      "epoch": 11.25884016973126,
      "grad_norm": 0.0005170928197912872,
      "learning_rate": 0.10500525238619736,
      "loss": 0.3152,
      "num_input_tokens_seen": 22154352,
      "step": 23880
    },
    {
      "epoch": 11.261197548326262,
      "grad_norm": 0.000438788061728701,
      "learning_rate": 0.10494906355114209,
      "loss": 0.3652,
      "num_input_tokens_seen": 22160896,
      "step": 23885
    },
    {
      "epoch": 11.263554926921264,
      "grad_norm": 0.00029531956533901393,
      "learning_rate": 0.10489288166350737,
      "loss": 0.3829,
      "num_input_tokens_seen": 22167040,
      "step": 23890
    },
    {
      "epoch": 11.265912305516267,
      "grad_norm": 0.00024861516430974007,
      "learning_rate": 0.10483670673195711,
      "loss": 0.2998,
      "num_input_tokens_seen": 22172352,
      "step": 23895
    },
    {
      "epoch": 11.268269684111269,
      "grad_norm": 0.0006545570213347673,
      "learning_rate": 0.10478053876515431,
      "loss": 0.3306,
      "num_input_tokens_seen": 22176720,
      "step": 23900
    },
    {
      "epoch": 11.270627062706271,
      "grad_norm": 0.0006434139795601368,
      "learning_rate": 0.10472437777176061,
      "loss": 0.3372,
      "num_input_tokens_seen": 22180880,
      "step": 23905
    },
    {
      "epoch": 11.272984441301272,
      "grad_norm": 0.0001517965574748814,
      "learning_rate": 0.1046682237604369,
      "loss": 0.3527,
      "num_input_tokens_seen": 22185776,
      "step": 23910
    },
    {
      "epoch": 11.275341819896274,
      "grad_norm": 0.0004778874572366476,
      "learning_rate": 0.1046120767398427,
      "loss": 0.286,
      "num_input_tokens_seen": 22191024,
      "step": 23915
    },
    {
      "epoch": 11.277699198491277,
      "grad_norm": 0.00022092912695370615,
      "learning_rate": 0.10455593671863667,
      "loss": 0.304,
      "num_input_tokens_seen": 22196000,
      "step": 23920
    },
    {
      "epoch": 11.28005657708628,
      "grad_norm": 0.00023788584803696722,
      "learning_rate": 0.1044998037054763,
      "loss": 0.3405,
      "num_input_tokens_seen": 22199968,
      "step": 23925
    },
    {
      "epoch": 11.282413955681282,
      "grad_norm": 0.00024363577540498227,
      "learning_rate": 0.10444367770901794,
      "loss": 0.3449,
      "num_input_tokens_seen": 22205120,
      "step": 23930
    },
    {
      "epoch": 11.284771334276284,
      "grad_norm": 0.0005997284315526485,
      "learning_rate": 0.10438755873791698,
      "loss": 0.3341,
      "num_input_tokens_seen": 22209248,
      "step": 23935
    },
    {
      "epoch": 11.287128712871286,
      "grad_norm": 0.0003260348457843065,
      "learning_rate": 0.10433144680082775,
      "loss": 0.3267,
      "num_input_tokens_seen": 22214160,
      "step": 23940
    },
    {
      "epoch": 11.289486091466289,
      "grad_norm": 0.0002481089031789452,
      "learning_rate": 0.10427534190640322,
      "loss": 0.3638,
      "num_input_tokens_seen": 22218672,
      "step": 23945
    },
    {
      "epoch": 11.291843470061291,
      "grad_norm": 0.0003961207112297416,
      "learning_rate": 0.10421924406329568,
      "loss": 0.355,
      "num_input_tokens_seen": 22223120,
      "step": 23950
    },
    {
      "epoch": 11.294200848656294,
      "grad_norm": 0.00037669006269425154,
      "learning_rate": 0.10416315328015598,
      "loss": 0.3097,
      "num_input_tokens_seen": 22228176,
      "step": 23955
    },
    {
      "epoch": 11.296558227251296,
      "grad_norm": 0.00028062696219421923,
      "learning_rate": 0.10410706956563402,
      "loss": 0.3445,
      "num_input_tokens_seen": 22232880,
      "step": 23960
    },
    {
      "epoch": 11.298915605846299,
      "grad_norm": 0.00023383545340038836,
      "learning_rate": 0.10405099292837874,
      "loss": 0.3205,
      "num_input_tokens_seen": 22237584,
      "step": 23965
    },
    {
      "epoch": 11.301272984441301,
      "grad_norm": 0.00031885571661405265,
      "learning_rate": 0.10399492337703771,
      "loss": 0.3334,
      "num_input_tokens_seen": 22242336,
      "step": 23970
    },
    {
      "epoch": 11.303630363036303,
      "grad_norm": 0.00048505491577088833,
      "learning_rate": 0.10393886092025764,
      "loss": 0.3393,
      "num_input_tokens_seen": 22246400,
      "step": 23975
    },
    {
      "epoch": 11.305987741631306,
      "grad_norm": 0.0009370830375701189,
      "learning_rate": 0.10388280556668412,
      "loss": 0.3581,
      "num_input_tokens_seen": 22250128,
      "step": 23980
    },
    {
      "epoch": 11.308345120226308,
      "grad_norm": 0.00016487104585394263,
      "learning_rate": 0.10382675732496145,
      "loss": 0.345,
      "num_input_tokens_seen": 22255584,
      "step": 23985
    },
    {
      "epoch": 11.31070249882131,
      "grad_norm": 0.00024030794156715274,
      "learning_rate": 0.10377071620373311,
      "loss": 0.3157,
      "num_input_tokens_seen": 22260064,
      "step": 23990
    },
    {
      "epoch": 11.313059877416313,
      "grad_norm": 0.0008527315803803504,
      "learning_rate": 0.10371468221164128,
      "loss": 0.3225,
      "num_input_tokens_seen": 22264880,
      "step": 23995
    },
    {
      "epoch": 11.315417256011315,
      "grad_norm": 0.001103373826481402,
      "learning_rate": 0.10365865535732706,
      "loss": 0.3423,
      "num_input_tokens_seen": 22269152,
      "step": 24000
    },
    {
      "epoch": 11.315417256011315,
      "eval_loss": 0.3277986943721771,
      "eval_runtime": 33.6253,
      "eval_samples_per_second": 28.044,
      "eval_steps_per_second": 14.037,
      "num_input_tokens_seen": 22269152,
      "step": 24000
    },
    {
      "epoch": 11.317774634606318,
      "grad_norm": 0.0005113022634759545,
      "learning_rate": 0.10360263564943062,
      "loss": 0.2902,
      "num_input_tokens_seen": 22273248,
      "step": 24005
    },
    {
      "epoch": 11.32013201320132,
      "grad_norm": 0.0003864451718982309,
      "learning_rate": 0.10354662309659075,
      "loss": 0.3034,
      "num_input_tokens_seen": 22277888,
      "step": 24010
    },
    {
      "epoch": 11.322489391796323,
      "grad_norm": 0.00026149486075155437,
      "learning_rate": 0.10349061770744537,
      "loss": 0.3687,
      "num_input_tokens_seen": 22282048,
      "step": 24015
    },
    {
      "epoch": 11.324846770391325,
      "grad_norm": 0.00022470943804364651,
      "learning_rate": 0.10343461949063128,
      "loss": 0.3719,
      "num_input_tokens_seen": 22287024,
      "step": 24020
    },
    {
      "epoch": 11.327204148986327,
      "grad_norm": 0.0002551408251747489,
      "learning_rate": 0.103378628454784,
      "loss": 0.3207,
      "num_input_tokens_seen": 22290928,
      "step": 24025
    },
    {
      "epoch": 11.32956152758133,
      "grad_norm": 0.0003411611542105675,
      "learning_rate": 0.10332264460853811,
      "loss": 0.3554,
      "num_input_tokens_seen": 22295776,
      "step": 24030
    },
    {
      "epoch": 11.331918906176332,
      "grad_norm": 0.00023435252660419792,
      "learning_rate": 0.10326666796052701,
      "loss": 0.3367,
      "num_input_tokens_seen": 22300416,
      "step": 24035
    },
    {
      "epoch": 11.334276284771335,
      "grad_norm": 0.00047872684081085026,
      "learning_rate": 0.10321069851938296,
      "loss": 0.3134,
      "num_input_tokens_seen": 22304848,
      "step": 24040
    },
    {
      "epoch": 11.336633663366337,
      "grad_norm": 0.00040602884837426245,
      "learning_rate": 0.10315473629373724,
      "loss": 0.3284,
      "num_input_tokens_seen": 22308736,
      "step": 24045
    },
    {
      "epoch": 11.33899104196134,
      "grad_norm": 0.0004153707704972476,
      "learning_rate": 0.10309878129221982,
      "loss": 0.3255,
      "num_input_tokens_seen": 22314944,
      "step": 24050
    },
    {
      "epoch": 11.341348420556342,
      "grad_norm": 0.00042527905316092074,
      "learning_rate": 0.10304283352345973,
      "loss": 0.3233,
      "num_input_tokens_seen": 22318544,
      "step": 24055
    },
    {
      "epoch": 11.343705799151344,
      "grad_norm": 0.0005883683334104717,
      "learning_rate": 0.10298689299608486,
      "loss": 0.3471,
      "num_input_tokens_seen": 22322784,
      "step": 24060
    },
    {
      "epoch": 11.346063177746347,
      "grad_norm": 0.00037716483348049223,
      "learning_rate": 0.10293095971872188,
      "loss": 0.3123,
      "num_input_tokens_seen": 22328480,
      "step": 24065
    },
    {
      "epoch": 11.348420556341349,
      "grad_norm": 0.0003828468616120517,
      "learning_rate": 0.10287503369999645,
      "loss": 0.3182,
      "num_input_tokens_seen": 22332672,
      "step": 24070
    },
    {
      "epoch": 11.350777934936351,
      "grad_norm": 0.0005479988176375628,
      "learning_rate": 0.10281911494853295,
      "loss": 0.3079,
      "num_input_tokens_seen": 22337104,
      "step": 24075
    },
    {
      "epoch": 11.353135313531354,
      "grad_norm": 0.0004476563772186637,
      "learning_rate": 0.10276320347295485,
      "loss": 0.3014,
      "num_input_tokens_seen": 22341920,
      "step": 24080
    },
    {
      "epoch": 11.355492692126356,
      "grad_norm": 0.0005815752665512264,
      "learning_rate": 0.10270729928188446,
      "loss": 0.4202,
      "num_input_tokens_seen": 22346896,
      "step": 24085
    },
    {
      "epoch": 11.357850070721359,
      "grad_norm": 0.0003308783925604075,
      "learning_rate": 0.10265140238394276,
      "loss": 0.3206,
      "num_input_tokens_seen": 22352128,
      "step": 24090
    },
    {
      "epoch": 11.360207449316361,
      "grad_norm": 0.00044726053602062166,
      "learning_rate": 0.10259551278774988,
      "loss": 0.3646,
      "num_input_tokens_seen": 22357968,
      "step": 24095
    },
    {
      "epoch": 11.362564827911363,
      "grad_norm": 0.00024105019110720605,
      "learning_rate": 0.10253963050192462,
      "loss": 0.3151,
      "num_input_tokens_seen": 22362976,
      "step": 24100
    },
    {
      "epoch": 11.364922206506366,
      "grad_norm": 0.0003134921134915203,
      "learning_rate": 0.10248375553508478,
      "loss": 0.3009,
      "num_input_tokens_seen": 22367008,
      "step": 24105
    },
    {
      "epoch": 11.367279585101368,
      "grad_norm": 0.0007250872440636158,
      "learning_rate": 0.102427887895847,
      "loss": 0.314,
      "num_input_tokens_seen": 22371456,
      "step": 24110
    },
    {
      "epoch": 11.369636963696369,
      "grad_norm": 0.0005662095500156283,
      "learning_rate": 0.10237202759282668,
      "loss": 0.3456,
      "num_input_tokens_seen": 22376800,
      "step": 24115
    },
    {
      "epoch": 11.371994342291371,
      "grad_norm": 0.0005914725479669869,
      "learning_rate": 0.10231617463463821,
      "loss": 0.3423,
      "num_input_tokens_seen": 22381504,
      "step": 24120
    },
    {
      "epoch": 11.374351720886374,
      "grad_norm": 0.00026517739752307534,
      "learning_rate": 0.10226032902989492,
      "loss": 0.3332,
      "num_input_tokens_seen": 22385760,
      "step": 24125
    },
    {
      "epoch": 11.376709099481376,
      "grad_norm": 0.00021774311608169228,
      "learning_rate": 0.10220449078720877,
      "loss": 0.3239,
      "num_input_tokens_seen": 22390320,
      "step": 24130
    },
    {
      "epoch": 11.379066478076378,
      "grad_norm": 0.00025955200544558465,
      "learning_rate": 0.1021486599151908,
      "loss": 0.3598,
      "num_input_tokens_seen": 22393952,
      "step": 24135
    },
    {
      "epoch": 11.38142385667138,
      "grad_norm": 0.00036928310873918235,
      "learning_rate": 0.10209283642245084,
      "loss": 0.3509,
      "num_input_tokens_seen": 22397760,
      "step": 24140
    },
    {
      "epoch": 11.383781235266383,
      "grad_norm": 0.00021621488849632442,
      "learning_rate": 0.10203702031759748,
      "loss": 0.3015,
      "num_input_tokens_seen": 22402624,
      "step": 24145
    },
    {
      "epoch": 11.386138613861386,
      "grad_norm": 0.00021709689463023096,
      "learning_rate": 0.1019812116092384,
      "loss": 0.2716,
      "num_input_tokens_seen": 22407184,
      "step": 24150
    },
    {
      "epoch": 11.388495992456388,
      "grad_norm": 0.0003306225989945233,
      "learning_rate": 0.10192541030597986,
      "loss": 0.3378,
      "num_input_tokens_seen": 22411360,
      "step": 24155
    },
    {
      "epoch": 11.39085337105139,
      "grad_norm": 0.00027947884518653154,
      "learning_rate": 0.1018696164164272,
      "loss": 0.314,
      "num_input_tokens_seen": 22416544,
      "step": 24160
    },
    {
      "epoch": 11.393210749646393,
      "grad_norm": 0.00020056201901752502,
      "learning_rate": 0.10181382994918459,
      "loss": 0.3609,
      "num_input_tokens_seen": 22420560,
      "step": 24165
    },
    {
      "epoch": 11.395568128241395,
      "grad_norm": 0.00029997635283507407,
      "learning_rate": 0.10175805091285492,
      "loss": 0.2988,
      "num_input_tokens_seen": 22425008,
      "step": 24170
    },
    {
      "epoch": 11.397925506836398,
      "grad_norm": 0.0003559257893357426,
      "learning_rate": 0.10170227931603999,
      "loss": 0.3646,
      "num_input_tokens_seen": 22428896,
      "step": 24175
    },
    {
      "epoch": 11.4002828854314,
      "grad_norm": 0.0006496778805740178,
      "learning_rate": 0.10164651516734062,
      "loss": 0.3492,
      "num_input_tokens_seen": 22432992,
      "step": 24180
    },
    {
      "epoch": 11.402640264026402,
      "grad_norm": 0.00023216540284920484,
      "learning_rate": 0.1015907584753562,
      "loss": 0.3437,
      "num_input_tokens_seen": 22437264,
      "step": 24185
    },
    {
      "epoch": 11.404997642621405,
      "grad_norm": 0.0007113043684512377,
      "learning_rate": 0.10153500924868523,
      "loss": 0.3398,
      "num_input_tokens_seen": 22441760,
      "step": 24190
    },
    {
      "epoch": 11.407355021216407,
      "grad_norm": 0.0002484412398189306,
      "learning_rate": 0.10147926749592483,
      "loss": 0.2744,
      "num_input_tokens_seen": 22446560,
      "step": 24195
    },
    {
      "epoch": 11.40971239981141,
      "grad_norm": 0.0004151595931034535,
      "learning_rate": 0.10142353322567112,
      "loss": 0.3098,
      "num_input_tokens_seen": 22451760,
      "step": 24200
    },
    {
      "epoch": 11.40971239981141,
      "eval_loss": 0.3266035318374634,
      "eval_runtime": 33.5308,
      "eval_samples_per_second": 28.123,
      "eval_steps_per_second": 14.077,
      "num_input_tokens_seen": 22451760,
      "step": 24200
    },
    {
      "epoch": 11.412069778406412,
      "grad_norm": 0.00021444543381221592,
      "learning_rate": 0.1013678064465191,
      "loss": 0.2881,
      "num_input_tokens_seen": 22456448,
      "step": 24205
    },
    {
      "epoch": 11.414427157001414,
      "grad_norm": 0.0004661607672460377,
      "learning_rate": 0.10131208716706244,
      "loss": 0.3123,
      "num_input_tokens_seen": 22460992,
      "step": 24210
    },
    {
      "epoch": 11.416784535596417,
      "grad_norm": 0.0006516546709463,
      "learning_rate": 0.10125637539589379,
      "loss": 0.3746,
      "num_input_tokens_seen": 22465744,
      "step": 24215
    },
    {
      "epoch": 11.41914191419142,
      "grad_norm": 0.0005718646571040154,
      "learning_rate": 0.10120067114160464,
      "loss": 0.3233,
      "num_input_tokens_seen": 22470400,
      "step": 24220
    },
    {
      "epoch": 11.421499292786422,
      "grad_norm": 0.0005659692105837166,
      "learning_rate": 0.10114497441278517,
      "loss": 0.2927,
      "num_input_tokens_seen": 22474336,
      "step": 24225
    },
    {
      "epoch": 11.423856671381424,
      "grad_norm": 0.0004010073025710881,
      "learning_rate": 0.10108928521802468,
      "loss": 0.3667,
      "num_input_tokens_seen": 22478720,
      "step": 24230
    },
    {
      "epoch": 11.426214049976426,
      "grad_norm": 0.0008139809942804277,
      "learning_rate": 0.101033603565911,
      "loss": 0.3311,
      "num_input_tokens_seen": 22484384,
      "step": 24235
    },
    {
      "epoch": 11.428571428571429,
      "grad_norm": 0.0003332076594233513,
      "learning_rate": 0.10097792946503102,
      "loss": 0.3386,
      "num_input_tokens_seen": 22490736,
      "step": 24240
    },
    {
      "epoch": 11.430928807166431,
      "grad_norm": 0.00038218419649638236,
      "learning_rate": 0.10092226292397039,
      "loss": 0.3021,
      "num_input_tokens_seen": 22496128,
      "step": 24245
    },
    {
      "epoch": 11.433286185761434,
      "grad_norm": 0.00022441391774918884,
      "learning_rate": 0.10086660395131354,
      "loss": 0.3131,
      "num_input_tokens_seen": 22500608,
      "step": 24250
    },
    {
      "epoch": 11.435643564356436,
      "grad_norm": 0.00042218496673740447,
      "learning_rate": 0.10081095255564385,
      "loss": 0.3284,
      "num_input_tokens_seen": 22504736,
      "step": 24255
    },
    {
      "epoch": 11.438000942951438,
      "grad_norm": 0.00034093038993887603,
      "learning_rate": 0.10075530874554335,
      "loss": 0.3489,
      "num_input_tokens_seen": 22508880,
      "step": 24260
    },
    {
      "epoch": 11.44035832154644,
      "grad_norm": 0.0004987854044884443,
      "learning_rate": 0.10069967252959311,
      "loss": 0.3364,
      "num_input_tokens_seen": 22513632,
      "step": 24265
    },
    {
      "epoch": 11.442715700141443,
      "grad_norm": 0.0003449399955570698,
      "learning_rate": 0.10064404391637297,
      "loss": 0.3488,
      "num_input_tokens_seen": 22518032,
      "step": 24270
    },
    {
      "epoch": 11.445073078736446,
      "grad_norm": 0.0003409422643017024,
      "learning_rate": 0.10058842291446145,
      "loss": 0.3491,
      "num_input_tokens_seen": 22522640,
      "step": 24275
    },
    {
      "epoch": 11.447430457331448,
      "grad_norm": 0.00021915171237196773,
      "learning_rate": 0.10053280953243608,
      "loss": 0.3235,
      "num_input_tokens_seen": 22527648,
      "step": 24280
    },
    {
      "epoch": 11.44978783592645,
      "grad_norm": 0.0004933718009851873,
      "learning_rate": 0.10047720377887315,
      "loss": 0.4003,
      "num_input_tokens_seen": 22532976,
      "step": 24285
    },
    {
      "epoch": 11.452145214521453,
      "grad_norm": 0.0004755235859192908,
      "learning_rate": 0.10042160566234767,
      "loss": 0.3388,
      "num_input_tokens_seen": 22536640,
      "step": 24290
    },
    {
      "epoch": 11.454502593116455,
      "grad_norm": 0.0005586832412518561,
      "learning_rate": 0.10036601519143372,
      "loss": 0.3278,
      "num_input_tokens_seen": 22540864,
      "step": 24295
    },
    {
      "epoch": 11.456859971711458,
      "grad_norm": 0.0002480389375705272,
      "learning_rate": 0.1003104323747039,
      "loss": 0.3288,
      "num_input_tokens_seen": 22544576,
      "step": 24300
    },
    {
      "epoch": 11.45921735030646,
      "grad_norm": 0.00035802190541289747,
      "learning_rate": 0.10025485722072984,
      "loss": 0.3381,
      "num_input_tokens_seen": 22549168,
      "step": 24305
    },
    {
      "epoch": 11.46157472890146,
      "grad_norm": 0.0001925686519825831,
      "learning_rate": 0.10019928973808201,
      "loss": 0.3494,
      "num_input_tokens_seen": 22554720,
      "step": 24310
    },
    {
      "epoch": 11.463932107496463,
      "grad_norm": 0.00026326533406972885,
      "learning_rate": 0.10014372993532945,
      "loss": 0.3376,
      "num_input_tokens_seen": 22559360,
      "step": 24315
    },
    {
      "epoch": 11.466289486091465,
      "grad_norm": 0.0004498049966059625,
      "learning_rate": 0.1000881778210403,
      "loss": 0.3903,
      "num_input_tokens_seen": 22564288,
      "step": 24320
    },
    {
      "epoch": 11.468646864686468,
      "grad_norm": 0.00039574061520397663,
      "learning_rate": 0.10003263340378142,
      "loss": 0.3337,
      "num_input_tokens_seen": 22568912,
      "step": 24325
    },
    {
      "epoch": 11.47100424328147,
      "grad_norm": 0.0002430749882478267,
      "learning_rate": 0.09997709669211834,
      "loss": 0.3324,
      "num_input_tokens_seen": 22574080,
      "step": 24330
    },
    {
      "epoch": 11.473361621876473,
      "grad_norm": 0.0005179829895496368,
      "learning_rate": 0.0999215676946156,
      "loss": 0.3412,
      "num_input_tokens_seen": 22578304,
      "step": 24335
    },
    {
      "epoch": 11.475719000471475,
      "grad_norm": 0.0003137186577077955,
      "learning_rate": 0.0998660464198364,
      "loss": 0.3408,
      "num_input_tokens_seen": 22582672,
      "step": 24340
    },
    {
      "epoch": 11.478076379066477,
      "grad_norm": 0.0005346799734979868,
      "learning_rate": 0.09981053287634288,
      "loss": 0.2976,
      "num_input_tokens_seen": 22587872,
      "step": 24345
    },
    {
      "epoch": 11.48043375766148,
      "grad_norm": 0.000528760370798409,
      "learning_rate": 0.09975502707269596,
      "loss": 0.3451,
      "num_input_tokens_seen": 22592288,
      "step": 24350
    },
    {
      "epoch": 11.482791136256482,
      "grad_norm": 0.0002004151901928708,
      "learning_rate": 0.09969952901745524,
      "loss": 0.3462,
      "num_input_tokens_seen": 22596224,
      "step": 24355
    },
    {
      "epoch": 11.485148514851485,
      "grad_norm": 0.000532567675691098,
      "learning_rate": 0.09964403871917925,
      "loss": 0.3379,
      "num_input_tokens_seen": 22600592,
      "step": 24360
    },
    {
      "epoch": 11.487505893446487,
      "grad_norm": 0.0005281645571812987,
      "learning_rate": 0.09958855618642536,
      "loss": 0.346,
      "num_input_tokens_seen": 22606352,
      "step": 24365
    },
    {
      "epoch": 11.48986327204149,
      "grad_norm": 0.0002469404716975987,
      "learning_rate": 0.09953308142774955,
      "loss": 0.3481,
      "num_input_tokens_seen": 22610752,
      "step": 24370
    },
    {
      "epoch": 11.492220650636492,
      "grad_norm": 0.0003440286382101476,
      "learning_rate": 0.09947761445170686,
      "loss": 0.2931,
      "num_input_tokens_seen": 22616096,
      "step": 24375
    },
    {
      "epoch": 11.494578029231494,
      "grad_norm": 0.00042140070581808686,
      "learning_rate": 0.09942215526685086,
      "loss": 0.3345,
      "num_input_tokens_seen": 22620336,
      "step": 24380
    },
    {
      "epoch": 11.496935407826497,
      "grad_norm": 0.0006158342002891004,
      "learning_rate": 0.09936670388173414,
      "loss": 0.3512,
      "num_input_tokens_seen": 22625232,
      "step": 24385
    },
    {
      "epoch": 11.499292786421499,
      "grad_norm": 0.0005583286983892322,
      "learning_rate": 0.09931126030490799,
      "loss": 0.3139,
      "num_input_tokens_seen": 22629376,
      "step": 24390
    },
    {
      "epoch": 11.501650165016502,
      "grad_norm": 0.0004356768331490457,
      "learning_rate": 0.0992558245449225,
      "loss": 0.2956,
      "num_input_tokens_seen": 22634624,
      "step": 24395
    },
    {
      "epoch": 11.504007543611504,
      "grad_norm": 0.000535409664735198,
      "learning_rate": 0.09920039661032651,
      "loss": 0.3876,
      "num_input_tokens_seen": 22639312,
      "step": 24400
    },
    {
      "epoch": 11.504007543611504,
      "eval_loss": 0.3275822699069977,
      "eval_runtime": 33.5929,
      "eval_samples_per_second": 28.071,
      "eval_steps_per_second": 14.051,
      "num_input_tokens_seen": 22639312,
      "step": 24400
    },
    {
      "epoch": 11.506364922206506,
      "grad_norm": 0.00039520414429716766,
      "learning_rate": 0.09914497650966782,
      "loss": 0.3326,
      "num_input_tokens_seen": 22643824,
      "step": 24405
    },
    {
      "epoch": 11.508722300801509,
      "grad_norm": 0.0004051105643156916,
      "learning_rate": 0.09908956425149276,
      "loss": 0.3289,
      "num_input_tokens_seen": 22647488,
      "step": 24410
    },
    {
      "epoch": 11.511079679396511,
      "grad_norm": 0.0002406531129963696,
      "learning_rate": 0.09903415984434677,
      "loss": 0.3279,
      "num_input_tokens_seen": 22652848,
      "step": 24415
    },
    {
      "epoch": 11.513437057991514,
      "grad_norm": 0.0002979541604872793,
      "learning_rate": 0.09897876329677373,
      "loss": 0.3414,
      "num_input_tokens_seen": 22657056,
      "step": 24420
    },
    {
      "epoch": 11.515794436586516,
      "grad_norm": 0.0004254818195477128,
      "learning_rate": 0.09892337461731658,
      "loss": 0.3045,
      "num_input_tokens_seen": 22661552,
      "step": 24425
    },
    {
      "epoch": 11.518151815181518,
      "grad_norm": 0.00028919344185851514,
      "learning_rate": 0.09886799381451693,
      "loss": 0.3261,
      "num_input_tokens_seen": 22666640,
      "step": 24430
    },
    {
      "epoch": 11.52050919377652,
      "grad_norm": 0.00023290494573302567,
      "learning_rate": 0.09881262089691521,
      "loss": 0.3676,
      "num_input_tokens_seen": 22670896,
      "step": 24435
    },
    {
      "epoch": 11.522866572371523,
      "grad_norm": 0.0002687414817046374,
      "learning_rate": 0.09875725587305059,
      "loss": 0.3132,
      "num_input_tokens_seen": 22675328,
      "step": 24440
    },
    {
      "epoch": 11.525223950966526,
      "grad_norm": 0.00036061624996364117,
      "learning_rate": 0.09870189875146111,
      "loss": 0.3256,
      "num_input_tokens_seen": 22680688,
      "step": 24445
    },
    {
      "epoch": 11.527581329561528,
      "grad_norm": 0.00047321117017418146,
      "learning_rate": 0.09864654954068346,
      "loss": 0.3358,
      "num_input_tokens_seen": 22684720,
      "step": 24450
    },
    {
      "epoch": 11.52993870815653,
      "grad_norm": 0.0005468802992254496,
      "learning_rate": 0.09859120824925326,
      "loss": 0.3107,
      "num_input_tokens_seen": 22689488,
      "step": 24455
    },
    {
      "epoch": 11.532296086751533,
      "grad_norm": 0.0006867770571261644,
      "learning_rate": 0.09853587488570474,
      "loss": 0.2885,
      "num_input_tokens_seen": 22693824,
      "step": 24460
    },
    {
      "epoch": 11.534653465346535,
      "grad_norm": 0.000976761570200324,
      "learning_rate": 0.09848054945857107,
      "loss": 0.3771,
      "num_input_tokens_seen": 22698608,
      "step": 24465
    },
    {
      "epoch": 11.537010843941538,
      "grad_norm": 0.00044151744805276394,
      "learning_rate": 0.09842523197638416,
      "loss": 0.2799,
      "num_input_tokens_seen": 22703136,
      "step": 24470
    },
    {
      "epoch": 11.53936822253654,
      "grad_norm": 0.0002575217804405838,
      "learning_rate": 0.09836992244767452,
      "loss": 0.3064,
      "num_input_tokens_seen": 22708288,
      "step": 24475
    },
    {
      "epoch": 11.541725601131542,
      "grad_norm": 0.0005212469841353595,
      "learning_rate": 0.09831462088097168,
      "loss": 0.3563,
      "num_input_tokens_seen": 22712288,
      "step": 24480
    },
    {
      "epoch": 11.544082979726545,
      "grad_norm": 0.00044147545122541487,
      "learning_rate": 0.09825932728480385,
      "loss": 0.3244,
      "num_input_tokens_seen": 22716656,
      "step": 24485
    },
    {
      "epoch": 11.546440358321547,
      "grad_norm": 0.0005543137085624039,
      "learning_rate": 0.09820404166769794,
      "loss": 0.3935,
      "num_input_tokens_seen": 22721632,
      "step": 24490
    },
    {
      "epoch": 11.54879773691655,
      "grad_norm": 0.0005243106279522181,
      "learning_rate": 0.09814876403817978,
      "loss": 0.3112,
      "num_input_tokens_seen": 22725552,
      "step": 24495
    },
    {
      "epoch": 11.551155115511552,
      "grad_norm": 0.00019290261843707412,
      "learning_rate": 0.09809349440477376,
      "loss": 0.3407,
      "num_input_tokens_seen": 22730192,
      "step": 24500
    },
    {
      "epoch": 11.553512494106554,
      "grad_norm": 0.0006048440118320286,
      "learning_rate": 0.09803823277600317,
      "loss": 0.3438,
      "num_input_tokens_seen": 22735056,
      "step": 24505
    },
    {
      "epoch": 11.555869872701557,
      "grad_norm": 0.00035417996696196496,
      "learning_rate": 0.09798297916039014,
      "loss": 0.3532,
      "num_input_tokens_seen": 22739152,
      "step": 24510
    },
    {
      "epoch": 11.558227251296557,
      "grad_norm": 0.0003170485724695027,
      "learning_rate": 0.09792773356645534,
      "loss": 0.362,
      "num_input_tokens_seen": 22743456,
      "step": 24515
    },
    {
      "epoch": 11.56058462989156,
      "grad_norm": 0.0011701055336743593,
      "learning_rate": 0.09787249600271843,
      "loss": 0.347,
      "num_input_tokens_seen": 22748336,
      "step": 24520
    },
    {
      "epoch": 11.562942008486562,
      "grad_norm": 0.0004961691447533667,
      "learning_rate": 0.09781726647769776,
      "loss": 0.3643,
      "num_input_tokens_seen": 22752944,
      "step": 24525
    },
    {
      "epoch": 11.565299387081565,
      "grad_norm": 0.0005528401816263795,
      "learning_rate": 0.0977620449999103,
      "loss": 0.3429,
      "num_input_tokens_seen": 22757072,
      "step": 24530
    },
    {
      "epoch": 11.567656765676567,
      "grad_norm": 0.001047729980200529,
      "learning_rate": 0.09770683157787204,
      "loss": 0.3408,
      "num_input_tokens_seen": 22760832,
      "step": 24535
    },
    {
      "epoch": 11.57001414427157,
      "grad_norm": 0.0008395847980864346,
      "learning_rate": 0.09765162622009745,
      "loss": 0.3268,
      "num_input_tokens_seen": 22766512,
      "step": 24540
    },
    {
      "epoch": 11.572371522866572,
      "grad_norm": 0.0007807271322235465,
      "learning_rate": 0.09759642893509995,
      "loss": 0.357,
      "num_input_tokens_seen": 22771632,
      "step": 24545
    },
    {
      "epoch": 11.574728901461574,
      "grad_norm": 0.00024037070397753268,
      "learning_rate": 0.09754123973139169,
      "loss": 0.3254,
      "num_input_tokens_seen": 22776016,
      "step": 24550
    },
    {
      "epoch": 11.577086280056577,
      "grad_norm": 0.000462111464003101,
      "learning_rate": 0.09748605861748345,
      "loss": 0.3213,
      "num_input_tokens_seen": 22781248,
      "step": 24555
    },
    {
      "epoch": 11.579443658651579,
      "grad_norm": 0.00044297720887698233,
      "learning_rate": 0.0974308856018849,
      "loss": 0.3493,
      "num_input_tokens_seen": 22785152,
      "step": 24560
    },
    {
      "epoch": 11.581801037246581,
      "grad_norm": 0.0003214412136003375,
      "learning_rate": 0.09737572069310449,
      "loss": 0.3078,
      "num_input_tokens_seen": 22789520,
      "step": 24565
    },
    {
      "epoch": 11.584158415841584,
      "grad_norm": 0.0009768089512363076,
      "learning_rate": 0.09732056389964922,
      "loss": 0.3644,
      "num_input_tokens_seen": 22794496,
      "step": 24570
    },
    {
      "epoch": 11.586515794436586,
      "grad_norm": 0.0003757704980671406,
      "learning_rate": 0.097265415230025,
      "loss": 0.3377,
      "num_input_tokens_seen": 22799136,
      "step": 24575
    },
    {
      "epoch": 11.588873173031589,
      "grad_norm": 0.0003137866733595729,
      "learning_rate": 0.09721027469273648,
      "loss": 0.3342,
      "num_input_tokens_seen": 22803760,
      "step": 24580
    },
    {
      "epoch": 11.591230551626591,
      "grad_norm": 0.0002969765628222376,
      "learning_rate": 0.09715514229628695,
      "loss": 0.3155,
      "num_input_tokens_seen": 22807792,
      "step": 24585
    },
    {
      "epoch": 11.593587930221593,
      "grad_norm": 0.0004070790018886328,
      "learning_rate": 0.09710001804917864,
      "loss": 0.3396,
      "num_input_tokens_seen": 22812864,
      "step": 24590
    },
    {
      "epoch": 11.595945308816596,
      "grad_norm": 0.0007460379274562001,
      "learning_rate": 0.09704490195991226,
      "loss": 0.3217,
      "num_input_tokens_seen": 22817472,
      "step": 24595
    },
    {
      "epoch": 11.598302687411598,
      "grad_norm": 0.0005466388538479805,
      "learning_rate": 0.09698979403698753,
      "loss": 0.3428,
      "num_input_tokens_seen": 22821728,
      "step": 24600
    },
    {
      "epoch": 11.598302687411598,
      "eval_loss": 0.3286554515361786,
      "eval_runtime": 33.5943,
      "eval_samples_per_second": 28.07,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 22821728,
      "step": 24600
    },
    {
      "epoch": 11.6006600660066,
      "grad_norm": 0.00025570078287273645,
      "learning_rate": 0.0969346942889027,
      "loss": 0.3297,
      "num_input_tokens_seen": 22826400,
      "step": 24605
    },
    {
      "epoch": 11.603017444601603,
      "grad_norm": 0.00025021974579431117,
      "learning_rate": 0.09687960272415487,
      "loss": 0.3133,
      "num_input_tokens_seen": 22830608,
      "step": 24610
    },
    {
      "epoch": 11.605374823196605,
      "grad_norm": 0.0004969537258148193,
      "learning_rate": 0.0968245193512399,
      "loss": 0.3221,
      "num_input_tokens_seen": 22835008,
      "step": 24615
    },
    {
      "epoch": 11.607732201791608,
      "grad_norm": 0.0004003907088190317,
      "learning_rate": 0.09676944417865221,
      "loss": 0.3554,
      "num_input_tokens_seen": 22839360,
      "step": 24620
    },
    {
      "epoch": 11.61008958038661,
      "grad_norm": 0.0004919799393974245,
      "learning_rate": 0.09671437721488517,
      "loss": 0.3269,
      "num_input_tokens_seen": 22844080,
      "step": 24625
    },
    {
      "epoch": 11.612446958981613,
      "grad_norm": 0.0002871329488698393,
      "learning_rate": 0.09665931846843086,
      "loss": 0.2969,
      "num_input_tokens_seen": 22848768,
      "step": 24630
    },
    {
      "epoch": 11.614804337576615,
      "grad_norm": 0.00042112270602956414,
      "learning_rate": 0.0966042679477799,
      "loss": 0.3153,
      "num_input_tokens_seen": 22854000,
      "step": 24635
    },
    {
      "epoch": 11.617161716171617,
      "grad_norm": 0.0001763677573762834,
      "learning_rate": 0.09654922566142186,
      "loss": 0.3427,
      "num_input_tokens_seen": 22858224,
      "step": 24640
    },
    {
      "epoch": 11.61951909476662,
      "grad_norm": 0.00043916082358919084,
      "learning_rate": 0.09649419161784498,
      "loss": 0.3354,
      "num_input_tokens_seen": 22863168,
      "step": 24645
    },
    {
      "epoch": 11.621876473361622,
      "grad_norm": 0.0003243070386815816,
      "learning_rate": 0.09643916582553606,
      "loss": 0.3387,
      "num_input_tokens_seen": 22867136,
      "step": 24650
    },
    {
      "epoch": 11.624233851956625,
      "grad_norm": 0.000474045576993376,
      "learning_rate": 0.09638414829298093,
      "loss": 0.2665,
      "num_input_tokens_seen": 22872224,
      "step": 24655
    },
    {
      "epoch": 11.626591230551627,
      "grad_norm": 0.00042365831905044615,
      "learning_rate": 0.09632913902866386,
      "loss": 0.3845,
      "num_input_tokens_seen": 22877136,
      "step": 24660
    },
    {
      "epoch": 11.62894860914663,
      "grad_norm": 0.0001940650399774313,
      "learning_rate": 0.096274138041068,
      "loss": 0.3236,
      "num_input_tokens_seen": 22881920,
      "step": 24665
    },
    {
      "epoch": 11.631305987741632,
      "grad_norm": 0.000452397478511557,
      "learning_rate": 0.09621914533867527,
      "loss": 0.319,
      "num_input_tokens_seen": 22885520,
      "step": 24670
    },
    {
      "epoch": 11.633663366336634,
      "grad_norm": 0.000681213685311377,
      "learning_rate": 0.09616416092996616,
      "loss": 0.2973,
      "num_input_tokens_seen": 22890080,
      "step": 24675
    },
    {
      "epoch": 11.636020744931637,
      "grad_norm": 0.0002457236987538636,
      "learning_rate": 0.09610918482342,
      "loss": 0.3082,
      "num_input_tokens_seen": 22895040,
      "step": 24680
    },
    {
      "epoch": 11.638378123526639,
      "grad_norm": 0.0004405370564199984,
      "learning_rate": 0.09605421702751478,
      "loss": 0.3167,
      "num_input_tokens_seen": 22899264,
      "step": 24685
    },
    {
      "epoch": 11.640735502121641,
      "grad_norm": 0.00026732622063718736,
      "learning_rate": 0.09599925755072718,
      "loss": 0.3144,
      "num_input_tokens_seen": 22903776,
      "step": 24690
    },
    {
      "epoch": 11.643092880716644,
      "grad_norm": 0.0003237082564737648,
      "learning_rate": 0.09594430640153273,
      "loss": 0.3137,
      "num_input_tokens_seen": 22907968,
      "step": 24695
    },
    {
      "epoch": 11.645450259311646,
      "grad_norm": 0.0005477318773046136,
      "learning_rate": 0.09588936358840547,
      "loss": 0.3688,
      "num_input_tokens_seen": 22911728,
      "step": 24700
    },
    {
      "epoch": 11.647807637906649,
      "grad_norm": 0.0005574875976890326,
      "learning_rate": 0.09583442911981836,
      "loss": 0.3139,
      "num_input_tokens_seen": 22916080,
      "step": 24705
    },
    {
      "epoch": 11.65016501650165,
      "grad_norm": 0.0005423418479040265,
      "learning_rate": 0.09577950300424302,
      "loss": 0.3234,
      "num_input_tokens_seen": 22921456,
      "step": 24710
    },
    {
      "epoch": 11.652522395096653,
      "grad_norm": 0.0005106567987240851,
      "learning_rate": 0.09572458525014967,
      "loss": 0.3564,
      "num_input_tokens_seen": 22926112,
      "step": 24715
    },
    {
      "epoch": 11.654879773691654,
      "grad_norm": 0.00023024817346595228,
      "learning_rate": 0.0956696758660073,
      "loss": 0.2903,
      "num_input_tokens_seen": 22931360,
      "step": 24720
    },
    {
      "epoch": 11.657237152286656,
      "grad_norm": 0.00022484709916170686,
      "learning_rate": 0.09561477486028373,
      "loss": 0.3399,
      "num_input_tokens_seen": 22936928,
      "step": 24725
    },
    {
      "epoch": 11.659594530881659,
      "grad_norm": 0.0002572951780166477,
      "learning_rate": 0.09555988224144528,
      "loss": 0.2905,
      "num_input_tokens_seen": 22941584,
      "step": 24730
    },
    {
      "epoch": 11.661951909476661,
      "grad_norm": 0.00037414717371575534,
      "learning_rate": 0.09550499801795717,
      "loss": 0.3741,
      "num_input_tokens_seen": 22946144,
      "step": 24735
    },
    {
      "epoch": 11.664309288071664,
      "grad_norm": 0.00020769258844666183,
      "learning_rate": 0.09545012219828314,
      "loss": 0.3177,
      "num_input_tokens_seen": 22951328,
      "step": 24740
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.0004470340791158378,
      "learning_rate": 0.09539525479088577,
      "loss": 0.3379,
      "num_input_tokens_seen": 22956432,
      "step": 24745
    },
    {
      "epoch": 11.669024045261668,
      "grad_norm": 0.00019383615290280432,
      "learning_rate": 0.0953403958042264,
      "loss": 0.3185,
      "num_input_tokens_seen": 22961200,
      "step": 24750
    },
    {
      "epoch": 11.67138142385667,
      "grad_norm": 0.00021851350902579725,
      "learning_rate": 0.09528554524676484,
      "loss": 0.288,
      "num_input_tokens_seen": 22965760,
      "step": 24755
    },
    {
      "epoch": 11.673738802451673,
      "grad_norm": 0.0002812118618749082,
      "learning_rate": 0.09523070312695978,
      "loss": 0.3509,
      "num_input_tokens_seen": 22969376,
      "step": 24760
    },
    {
      "epoch": 11.676096181046676,
      "grad_norm": 0.00022226900910027325,
      "learning_rate": 0.09517586945326863,
      "loss": 0.3802,
      "num_input_tokens_seen": 22973360,
      "step": 24765
    },
    {
      "epoch": 11.678453559641678,
      "grad_norm": 0.00023544393479824066,
      "learning_rate": 0.0951210442341473,
      "loss": 0.2578,
      "num_input_tokens_seen": 22977696,
      "step": 24770
    },
    {
      "epoch": 11.68081093823668,
      "grad_norm": 0.00025622310931794345,
      "learning_rate": 0.09506622747805066,
      "loss": 0.3248,
      "num_input_tokens_seen": 22982016,
      "step": 24775
    },
    {
      "epoch": 11.683168316831683,
      "grad_norm": 0.0004627734888345003,
      "learning_rate": 0.09501141919343203,
      "loss": 0.3989,
      "num_input_tokens_seen": 22987040,
      "step": 24780
    },
    {
      "epoch": 11.685525695426685,
      "grad_norm": 0.0005810625734739006,
      "learning_rate": 0.09495661938874361,
      "loss": 0.2912,
      "num_input_tokens_seen": 22991712,
      "step": 24785
    },
    {
      "epoch": 11.687883074021688,
      "grad_norm": 0.0003524064377415925,
      "learning_rate": 0.0949018280724362,
      "loss": 0.3407,
      "num_input_tokens_seen": 22996128,
      "step": 24790
    },
    {
      "epoch": 11.69024045261669,
      "grad_norm": 0.0004767634382005781,
      "learning_rate": 0.09484704525295934,
      "loss": 0.328,
      "num_input_tokens_seen": 23001584,
      "step": 24795
    },
    {
      "epoch": 11.692597831211692,
      "grad_norm": 0.0002035405341302976,
      "learning_rate": 0.09479227093876112,
      "loss": 0.3634,
      "num_input_tokens_seen": 23005696,
      "step": 24800
    },
    {
      "epoch": 11.692597831211692,
      "eval_loss": 0.32750260829925537,
      "eval_runtime": 33.6448,
      "eval_samples_per_second": 28.028,
      "eval_steps_per_second": 14.029,
      "num_input_tokens_seen": 23005696,
      "step": 24800
    },
    {
      "epoch": 11.694955209806695,
      "grad_norm": 0.0007223578286357224,
      "learning_rate": 0.0947375051382886,
      "loss": 0.3434,
      "num_input_tokens_seen": 23011136,
      "step": 24805
    },
    {
      "epoch": 11.697312588401697,
      "grad_norm": 0.00019007005903404206,
      "learning_rate": 0.09468274785998718,
      "loss": 0.3239,
      "num_input_tokens_seen": 23015856,
      "step": 24810
    },
    {
      "epoch": 11.6996699669967,
      "grad_norm": 0.001073985593393445,
      "learning_rate": 0.09462799911230127,
      "loss": 0.3824,
      "num_input_tokens_seen": 23020416,
      "step": 24815
    },
    {
      "epoch": 11.702027345591702,
      "grad_norm": 0.00031602976378053427,
      "learning_rate": 0.0945732589036737,
      "loss": 0.3218,
      "num_input_tokens_seen": 23024480,
      "step": 24820
    },
    {
      "epoch": 11.704384724186705,
      "grad_norm": 0.0006394603988155723,
      "learning_rate": 0.09451852724254614,
      "loss": 0.3231,
      "num_input_tokens_seen": 23029248,
      "step": 24825
    },
    {
      "epoch": 11.706742102781707,
      "grad_norm": 0.00037765182787552476,
      "learning_rate": 0.09446380413735894,
      "loss": 0.3218,
      "num_input_tokens_seen": 23033440,
      "step": 24830
    },
    {
      "epoch": 11.70909948137671,
      "grad_norm": 0.0005393201136030257,
      "learning_rate": 0.09440908959655099,
      "loss": 0.3547,
      "num_input_tokens_seen": 23038944,
      "step": 24835
    },
    {
      "epoch": 11.711456859971712,
      "grad_norm": 0.00025650751194916666,
      "learning_rate": 0.09435438362856004,
      "loss": 0.3115,
      "num_input_tokens_seen": 23044240,
      "step": 24840
    },
    {
      "epoch": 11.713814238566714,
      "grad_norm": 0.0007845918880775571,
      "learning_rate": 0.0942996862418225,
      "loss": 0.3513,
      "num_input_tokens_seen": 23049200,
      "step": 24845
    },
    {
      "epoch": 11.716171617161717,
      "grad_norm": 0.0007059758645482361,
      "learning_rate": 0.09424499744477322,
      "loss": 0.3348,
      "num_input_tokens_seen": 23053328,
      "step": 24850
    },
    {
      "epoch": 11.718528995756719,
      "grad_norm": 0.00019361056911293417,
      "learning_rate": 0.09419031724584608,
      "loss": 0.2707,
      "num_input_tokens_seen": 23058048,
      "step": 24855
    },
    {
      "epoch": 11.720886374351721,
      "grad_norm": 0.0002221408940386027,
      "learning_rate": 0.09413564565347331,
      "loss": 0.2797,
      "num_input_tokens_seen": 23062736,
      "step": 24860
    },
    {
      "epoch": 11.723243752946724,
      "grad_norm": 0.0005696064326912165,
      "learning_rate": 0.094080982676086,
      "loss": 0.3044,
      "num_input_tokens_seen": 23067632,
      "step": 24865
    },
    {
      "epoch": 11.725601131541726,
      "grad_norm": 0.0003970164980273694,
      "learning_rate": 0.09402632832211395,
      "loss": 0.3138,
      "num_input_tokens_seen": 23071584,
      "step": 24870
    },
    {
      "epoch": 11.727958510136729,
      "grad_norm": 0.0005247208173386753,
      "learning_rate": 0.09397168259998541,
      "loss": 0.3568,
      "num_input_tokens_seen": 23076336,
      "step": 24875
    },
    {
      "epoch": 11.730315888731731,
      "grad_norm": 0.00032633254886604846,
      "learning_rate": 0.09391704551812759,
      "loss": 0.3264,
      "num_input_tokens_seen": 23080896,
      "step": 24880
    },
    {
      "epoch": 11.732673267326733,
      "grad_norm": 0.00022528089175466448,
      "learning_rate": 0.09386241708496605,
      "loss": 0.3734,
      "num_input_tokens_seen": 23084944,
      "step": 24885
    },
    {
      "epoch": 11.735030645921736,
      "grad_norm": 0.0006200555944815278,
      "learning_rate": 0.09380779730892527,
      "loss": 0.3058,
      "num_input_tokens_seen": 23090544,
      "step": 24890
    },
    {
      "epoch": 11.737388024516738,
      "grad_norm": 0.0001637651730561629,
      "learning_rate": 0.09375318619842836,
      "loss": 0.289,
      "num_input_tokens_seen": 23094880,
      "step": 24895
    },
    {
      "epoch": 11.73974540311174,
      "grad_norm": 0.0004894857993349433,
      "learning_rate": 0.09369858376189696,
      "loss": 0.3406,
      "num_input_tokens_seen": 23099680,
      "step": 24900
    },
    {
      "epoch": 11.742102781706743,
      "grad_norm": 0.0004085547407157719,
      "learning_rate": 0.09364399000775143,
      "loss": 0.2987,
      "num_input_tokens_seen": 23103776,
      "step": 24905
    },
    {
      "epoch": 11.744460160301745,
      "grad_norm": 0.00027057703118771315,
      "learning_rate": 0.09358940494441093,
      "loss": 0.2893,
      "num_input_tokens_seen": 23108384,
      "step": 24910
    },
    {
      "epoch": 11.746817538896746,
      "grad_norm": 0.0002587097987998277,
      "learning_rate": 0.09353482858029301,
      "loss": 0.3331,
      "num_input_tokens_seen": 23113360,
      "step": 24915
    },
    {
      "epoch": 11.749174917491748,
      "grad_norm": 0.0003118181193713099,
      "learning_rate": 0.09348026092381419,
      "loss": 0.3557,
      "num_input_tokens_seen": 23117584,
      "step": 24920
    },
    {
      "epoch": 11.75153229608675,
      "grad_norm": 0.0005885744467377663,
      "learning_rate": 0.09342570198338931,
      "loss": 0.3236,
      "num_input_tokens_seen": 23122480,
      "step": 24925
    },
    {
      "epoch": 11.753889674681753,
      "grad_norm": 0.0002687140950001776,
      "learning_rate": 0.0933711517674322,
      "loss": 0.2809,
      "num_input_tokens_seen": 23127136,
      "step": 24930
    },
    {
      "epoch": 11.756247053276756,
      "grad_norm": 0.0004678129917010665,
      "learning_rate": 0.09331661028435513,
      "loss": 0.2937,
      "num_input_tokens_seen": 23132288,
      "step": 24935
    },
    {
      "epoch": 11.758604431871758,
      "grad_norm": 0.0002860959793906659,
      "learning_rate": 0.09326207754256909,
      "loss": 0.3003,
      "num_input_tokens_seen": 23137344,
      "step": 24940
    },
    {
      "epoch": 11.76096181046676,
      "grad_norm": 0.0001513692259322852,
      "learning_rate": 0.09320755355048366,
      "loss": 0.3586,
      "num_input_tokens_seen": 23141952,
      "step": 24945
    },
    {
      "epoch": 11.763319189061763,
      "grad_norm": 0.00021299724176060408,
      "learning_rate": 0.09315303831650722,
      "loss": 0.4265,
      "num_input_tokens_seen": 23146720,
      "step": 24950
    },
    {
      "epoch": 11.765676567656765,
      "grad_norm": 0.0006305932765826583,
      "learning_rate": 0.09309853184904661,
      "loss": 0.3155,
      "num_input_tokens_seen": 23151280,
      "step": 24955
    },
    {
      "epoch": 11.768033946251768,
      "grad_norm": 0.00023448403226211667,
      "learning_rate": 0.09304403415650753,
      "loss": 0.3145,
      "num_input_tokens_seen": 23155600,
      "step": 24960
    },
    {
      "epoch": 11.77039132484677,
      "grad_norm": 0.0009074413101188838,
      "learning_rate": 0.09298954524729405,
      "loss": 0.3315,
      "num_input_tokens_seen": 23159392,
      "step": 24965
    },
    {
      "epoch": 11.772748703441772,
      "grad_norm": 0.00033857746166177094,
      "learning_rate": 0.09293506512980916,
      "loss": 0.3523,
      "num_input_tokens_seen": 23164384,
      "step": 24970
    },
    {
      "epoch": 11.775106082036775,
      "grad_norm": 0.0002497537643648684,
      "learning_rate": 0.0928805938124544,
      "loss": 0.3259,
      "num_input_tokens_seen": 23168672,
      "step": 24975
    },
    {
      "epoch": 11.777463460631777,
      "grad_norm": 0.00026446912670508027,
      "learning_rate": 0.09282613130362982,
      "loss": 0.2676,
      "num_input_tokens_seen": 23173280,
      "step": 24980
    },
    {
      "epoch": 11.77982083922678,
      "grad_norm": 0.00021819186804350466,
      "learning_rate": 0.09277167761173427,
      "loss": 0.363,
      "num_input_tokens_seen": 23177936,
      "step": 24985
    },
    {
      "epoch": 11.782178217821782,
      "grad_norm": 0.0006312475306913257,
      "learning_rate": 0.0927172327451653,
      "loss": 0.3235,
      "num_input_tokens_seen": 23182144,
      "step": 24990
    },
    {
      "epoch": 11.784535596416784,
      "grad_norm": 0.00020179332932457328,
      "learning_rate": 0.09266279671231882,
      "loss": 0.2571,
      "num_input_tokens_seen": 23186736,
      "step": 24995
    },
    {
      "epoch": 11.786892975011787,
      "grad_norm": 0.0005009484011679888,
      "learning_rate": 0.09260836952158967,
      "loss": 0.296,
      "num_input_tokens_seen": 23192112,
      "step": 25000
    },
    {
      "epoch": 11.786892975011787,
      "eval_loss": 0.3259987235069275,
      "eval_runtime": 33.5551,
      "eval_samples_per_second": 28.103,
      "eval_steps_per_second": 14.066,
      "num_input_tokens_seen": 23192112,
      "step": 25000
    },
    {
      "epoch": 11.78925035360679,
      "grad_norm": 0.0007165277493186295,
      "learning_rate": 0.09255395118137114,
      "loss": 0.3725,
      "num_input_tokens_seen": 23196080,
      "step": 25005
    },
    {
      "epoch": 11.791607732201792,
      "grad_norm": 0.0007396425935439765,
      "learning_rate": 0.09249954170005527,
      "loss": 0.3164,
      "num_input_tokens_seen": 23200976,
      "step": 25010
    },
    {
      "epoch": 11.793965110796794,
      "grad_norm": 0.0004929900169372559,
      "learning_rate": 0.0924451410860327,
      "loss": 0.2696,
      "num_input_tokens_seen": 23205328,
      "step": 25015
    },
    {
      "epoch": 11.796322489391796,
      "grad_norm": 0.00018755218479782343,
      "learning_rate": 0.09239074934769258,
      "loss": 0.338,
      "num_input_tokens_seen": 23209536,
      "step": 25020
    },
    {
      "epoch": 11.798679867986799,
      "grad_norm": 0.00037919642636552453,
      "learning_rate": 0.09233636649342288,
      "loss": 0.3403,
      "num_input_tokens_seen": 23214448,
      "step": 25025
    },
    {
      "epoch": 11.801037246581801,
      "grad_norm": 0.0005696666776202619,
      "learning_rate": 0.09228199253161017,
      "loss": 0.3259,
      "num_input_tokens_seen": 23219184,
      "step": 25030
    },
    {
      "epoch": 11.803394625176804,
      "grad_norm": 0.0002820479276124388,
      "learning_rate": 0.09222762747063949,
      "loss": 0.3948,
      "num_input_tokens_seen": 23223328,
      "step": 25035
    },
    {
      "epoch": 11.805752003771806,
      "grad_norm": 0.0002795850159600377,
      "learning_rate": 0.09217327131889473,
      "loss": 0.3176,
      "num_input_tokens_seen": 23227632,
      "step": 25040
    },
    {
      "epoch": 11.808109382366808,
      "grad_norm": 0.0004158426891081035,
      "learning_rate": 0.09211892408475818,
      "loss": 0.32,
      "num_input_tokens_seen": 23232256,
      "step": 25045
    },
    {
      "epoch": 11.81046676096181,
      "grad_norm": 0.0003705502604134381,
      "learning_rate": 0.09206458577661089,
      "loss": 0.3107,
      "num_input_tokens_seen": 23236704,
      "step": 25050
    },
    {
      "epoch": 11.812824139556813,
      "grad_norm": 0.0003707340802066028,
      "learning_rate": 0.09201025640283263,
      "loss": 0.3214,
      "num_input_tokens_seen": 23241152,
      "step": 25055
    },
    {
      "epoch": 11.815181518151816,
      "grad_norm": 0.0003254258481319994,
      "learning_rate": 0.09195593597180148,
      "loss": 0.3073,
      "num_input_tokens_seen": 23245312,
      "step": 25060
    },
    {
      "epoch": 11.817538896746818,
      "grad_norm": 0.000327233545249328,
      "learning_rate": 0.09190162449189444,
      "loss": 0.3893,
      "num_input_tokens_seen": 23249472,
      "step": 25065
    },
    {
      "epoch": 11.81989627534182,
      "grad_norm": 0.0007439456530846655,
      "learning_rate": 0.09184732197148705,
      "loss": 0.3068,
      "num_input_tokens_seen": 23254864,
      "step": 25070
    },
    {
      "epoch": 11.822253653936823,
      "grad_norm": 0.0003630339924711734,
      "learning_rate": 0.09179302841895343,
      "loss": 0.3454,
      "num_input_tokens_seen": 23259424,
      "step": 25075
    },
    {
      "epoch": 11.824611032531825,
      "grad_norm": 0.0005749320262111723,
      "learning_rate": 0.09173874384266625,
      "loss": 0.2787,
      "num_input_tokens_seen": 23264720,
      "step": 25080
    },
    {
      "epoch": 11.826968411126828,
      "grad_norm": 0.0005539932753890753,
      "learning_rate": 0.09168446825099695,
      "loss": 0.3237,
      "num_input_tokens_seen": 23269040,
      "step": 25085
    },
    {
      "epoch": 11.82932578972183,
      "grad_norm": 0.00043899178854189813,
      "learning_rate": 0.09163020165231545,
      "loss": 0.3576,
      "num_input_tokens_seen": 23273552,
      "step": 25090
    },
    {
      "epoch": 11.831683168316832,
      "grad_norm": 0.0003104877832811326,
      "learning_rate": 0.09157594405499044,
      "loss": 0.2967,
      "num_input_tokens_seen": 23278192,
      "step": 25095
    },
    {
      "epoch": 11.834040546911835,
      "grad_norm": 0.00037812654045410454,
      "learning_rate": 0.09152169546738899,
      "loss": 0.3562,
      "num_input_tokens_seen": 23282816,
      "step": 25100
    },
    {
      "epoch": 11.836397925506837,
      "grad_norm": 0.0003514551790431142,
      "learning_rate": 0.09146745589787698,
      "loss": 0.3184,
      "num_input_tokens_seen": 23287168,
      "step": 25105
    },
    {
      "epoch": 11.838755304101838,
      "grad_norm": 0.0007296538096852601,
      "learning_rate": 0.09141322535481891,
      "loss": 0.3368,
      "num_input_tokens_seen": 23291904,
      "step": 25110
    },
    {
      "epoch": 11.841112682696842,
      "grad_norm": 0.0006191571592353284,
      "learning_rate": 0.0913590038465777,
      "loss": 0.3314,
      "num_input_tokens_seen": 23296976,
      "step": 25115
    },
    {
      "epoch": 11.843470061291843,
      "grad_norm": 0.0005656919674947858,
      "learning_rate": 0.09130479138151505,
      "loss": 0.2721,
      "num_input_tokens_seen": 23301376,
      "step": 25120
    },
    {
      "epoch": 11.845827439886845,
      "grad_norm": 0.00023109483299776912,
      "learning_rate": 0.09125058796799114,
      "loss": 0.3231,
      "num_input_tokens_seen": 23306368,
      "step": 25125
    },
    {
      "epoch": 11.848184818481847,
      "grad_norm": 0.0003357685054652393,
      "learning_rate": 0.09119639361436485,
      "loss": 0.3452,
      "num_input_tokens_seen": 23310512,
      "step": 25130
    },
    {
      "epoch": 11.85054219707685,
      "grad_norm": 0.0006169508560560644,
      "learning_rate": 0.09114220832899368,
      "loss": 0.3649,
      "num_input_tokens_seen": 23315456,
      "step": 25135
    },
    {
      "epoch": 11.852899575671852,
      "grad_norm": 0.0018639399204403162,
      "learning_rate": 0.0910880321202336,
      "loss": 0.3793,
      "num_input_tokens_seen": 23320640,
      "step": 25140
    },
    {
      "epoch": 11.855256954266855,
      "grad_norm": 0.00036470688064582646,
      "learning_rate": 0.09103386499643933,
      "loss": 0.3613,
      "num_input_tokens_seen": 23324768,
      "step": 25145
    },
    {
      "epoch": 11.857614332861857,
      "grad_norm": 0.000989451422356069,
      "learning_rate": 0.09097970696596407,
      "loss": 0.3232,
      "num_input_tokens_seen": 23329280,
      "step": 25150
    },
    {
      "epoch": 11.85997171145686,
      "grad_norm": 0.0004783881886396557,
      "learning_rate": 0.09092555803715971,
      "loss": 0.3399,
      "num_input_tokens_seen": 23333488,
      "step": 25155
    },
    {
      "epoch": 11.862329090051862,
      "grad_norm": 0.0006018067360855639,
      "learning_rate": 0.0908714182183767,
      "loss": 0.3368,
      "num_input_tokens_seen": 23337520,
      "step": 25160
    },
    {
      "epoch": 11.864686468646864,
      "grad_norm": 0.0002835870545823127,
      "learning_rate": 0.090817287517964,
      "loss": 0.3325,
      "num_input_tokens_seen": 23341696,
      "step": 25165
    },
    {
      "epoch": 11.867043847241867,
      "grad_norm": 0.0006385606830008328,
      "learning_rate": 0.09076316594426931,
      "loss": 0.33,
      "num_input_tokens_seen": 23346672,
      "step": 25170
    },
    {
      "epoch": 11.869401225836869,
      "grad_norm": 0.00030336028430610895,
      "learning_rate": 0.09070905350563888,
      "loss": 0.3419,
      "num_input_tokens_seen": 23351232,
      "step": 25175
    },
    {
      "epoch": 11.871758604431871,
      "grad_norm": 0.0006567868404090405,
      "learning_rate": 0.09065495021041745,
      "loss": 0.2907,
      "num_input_tokens_seen": 23356000,
      "step": 25180
    },
    {
      "epoch": 11.874115983026874,
      "grad_norm": 0.0010971806477755308,
      "learning_rate": 0.09060085606694851,
      "loss": 0.3127,
      "num_input_tokens_seen": 23359936,
      "step": 25185
    },
    {
      "epoch": 11.876473361621876,
      "grad_norm": 0.00034912402043119073,
      "learning_rate": 0.09054677108357405,
      "loss": 0.3418,
      "num_input_tokens_seen": 23364864,
      "step": 25190
    },
    {
      "epoch": 11.878830740216879,
      "grad_norm": 0.0008518710965290666,
      "learning_rate": 0.09049269526863457,
      "loss": 0.3427,
      "num_input_tokens_seen": 23368960,
      "step": 25195
    },
    {
      "epoch": 11.881188118811881,
      "grad_norm": 0.0006735942442901433,
      "learning_rate": 0.09043862863046935,
      "loss": 0.3063,
      "num_input_tokens_seen": 23373840,
      "step": 25200
    },
    {
      "epoch": 11.881188118811881,
      "eval_loss": 0.32624489068984985,
      "eval_runtime": 33.6067,
      "eval_samples_per_second": 28.06,
      "eval_steps_per_second": 14.045,
      "num_input_tokens_seen": 23373840,
      "step": 25200
    },
    {
      "epoch": 11.883545497406883,
      "grad_norm": 0.0005591331282630563,
      "learning_rate": 0.09038457117741602,
      "loss": 0.347,
      "num_input_tokens_seen": 23378416,
      "step": 25205
    },
    {
      "epoch": 11.885902876001886,
      "grad_norm": 0.0006093556294217706,
      "learning_rate": 0.09033052291781099,
      "loss": 0.3396,
      "num_input_tokens_seen": 23382736,
      "step": 25210
    },
    {
      "epoch": 11.888260254596888,
      "grad_norm": 0.0005590502987615764,
      "learning_rate": 0.09027648385998926,
      "loss": 0.2966,
      "num_input_tokens_seen": 23386976,
      "step": 25215
    },
    {
      "epoch": 11.89061763319189,
      "grad_norm": 0.0005728938267566264,
      "learning_rate": 0.09022245401228417,
      "loss": 0.3067,
      "num_input_tokens_seen": 23391504,
      "step": 25220
    },
    {
      "epoch": 11.892975011786893,
      "grad_norm": 0.0003671474405564368,
      "learning_rate": 0.09016843338302792,
      "loss": 0.3363,
      "num_input_tokens_seen": 23396528,
      "step": 25225
    },
    {
      "epoch": 11.895332390381895,
      "grad_norm": 0.00037888524821028113,
      "learning_rate": 0.09011442198055115,
      "loss": 0.3027,
      "num_input_tokens_seen": 23401376,
      "step": 25230
    },
    {
      "epoch": 11.897689768976898,
      "grad_norm": 0.0002972743532154709,
      "learning_rate": 0.09006041981318305,
      "loss": 0.3369,
      "num_input_tokens_seen": 23406720,
      "step": 25235
    },
    {
      "epoch": 11.9000471475719,
      "grad_norm": 0.00021284881222527474,
      "learning_rate": 0.09000642688925149,
      "loss": 0.3123,
      "num_input_tokens_seen": 23411040,
      "step": 25240
    },
    {
      "epoch": 11.902404526166903,
      "grad_norm": 0.0010267386678606272,
      "learning_rate": 0.0899524432170828,
      "loss": 0.3112,
      "num_input_tokens_seen": 23416064,
      "step": 25245
    },
    {
      "epoch": 11.904761904761905,
      "grad_norm": 0.000505126838106662,
      "learning_rate": 0.08989846880500196,
      "loss": 0.3513,
      "num_input_tokens_seen": 23420896,
      "step": 25250
    },
    {
      "epoch": 11.907119283356908,
      "grad_norm": 0.0003207749978173524,
      "learning_rate": 0.08984450366133256,
      "loss": 0.3126,
      "num_input_tokens_seen": 23425392,
      "step": 25255
    },
    {
      "epoch": 11.90947666195191,
      "grad_norm": 0.00039372369064949453,
      "learning_rate": 0.08979054779439664,
      "loss": 0.3801,
      "num_input_tokens_seen": 23429792,
      "step": 25260
    },
    {
      "epoch": 11.911834040546912,
      "grad_norm": 0.0013810023665428162,
      "learning_rate": 0.08973660121251485,
      "loss": 0.355,
      "num_input_tokens_seen": 23434384,
      "step": 25265
    },
    {
      "epoch": 11.914191419141915,
      "grad_norm": 0.00026892777532339096,
      "learning_rate": 0.08968266392400655,
      "loss": 0.3269,
      "num_input_tokens_seen": 23438560,
      "step": 25270
    },
    {
      "epoch": 11.916548797736917,
      "grad_norm": 0.00026761635672301054,
      "learning_rate": 0.0896287359371894,
      "loss": 0.3099,
      "num_input_tokens_seen": 23442352,
      "step": 25275
    },
    {
      "epoch": 11.91890617633192,
      "grad_norm": 0.00036398760857991874,
      "learning_rate": 0.08957481726037989,
      "loss": 0.2915,
      "num_input_tokens_seen": 23447360,
      "step": 25280
    },
    {
      "epoch": 11.921263554926922,
      "grad_norm": 0.000667450949549675,
      "learning_rate": 0.08952090790189286,
      "loss": 0.2835,
      "num_input_tokens_seen": 23452256,
      "step": 25285
    },
    {
      "epoch": 11.923620933521924,
      "grad_norm": 0.0003055485140066594,
      "learning_rate": 0.08946700787004187,
      "loss": 0.3546,
      "num_input_tokens_seen": 23456592,
      "step": 25290
    },
    {
      "epoch": 11.925978312116927,
      "grad_norm": 0.0002301438944414258,
      "learning_rate": 0.08941311717313899,
      "loss": 0.2872,
      "num_input_tokens_seen": 23460416,
      "step": 25295
    },
    {
      "epoch": 11.92833569071193,
      "grad_norm": 0.00030279820202849805,
      "learning_rate": 0.08935923581949483,
      "loss": 0.3206,
      "num_input_tokens_seen": 23464656,
      "step": 25300
    },
    {
      "epoch": 11.930693069306932,
      "grad_norm": 0.00033896591048687696,
      "learning_rate": 0.0893053638174185,
      "loss": 0.3661,
      "num_input_tokens_seen": 23469200,
      "step": 25305
    },
    {
      "epoch": 11.933050447901934,
      "grad_norm": 0.00045902066631242633,
      "learning_rate": 0.0892515011752179,
      "loss": 0.361,
      "num_input_tokens_seen": 23474576,
      "step": 25310
    },
    {
      "epoch": 11.935407826496935,
      "grad_norm": 0.0007249775226227939,
      "learning_rate": 0.08919764790119918,
      "loss": 0.344,
      "num_input_tokens_seen": 23478832,
      "step": 25315
    },
    {
      "epoch": 11.937765205091937,
      "grad_norm": 0.0002450923784635961,
      "learning_rate": 0.08914380400366727,
      "loss": 0.3669,
      "num_input_tokens_seen": 23483824,
      "step": 25320
    },
    {
      "epoch": 11.94012258368694,
      "grad_norm": 0.0013534111203625798,
      "learning_rate": 0.08908996949092551,
      "loss": 0.3107,
      "num_input_tokens_seen": 23490240,
      "step": 25325
    },
    {
      "epoch": 11.942479962281942,
      "grad_norm": 0.0002848617441486567,
      "learning_rate": 0.08903614437127592,
      "loss": 0.3045,
      "num_input_tokens_seen": 23494992,
      "step": 25330
    },
    {
      "epoch": 11.944837340876944,
      "grad_norm": 0.0005099168047308922,
      "learning_rate": 0.088982328653019,
      "loss": 0.3664,
      "num_input_tokens_seen": 23499680,
      "step": 25335
    },
    {
      "epoch": 11.947194719471947,
      "grad_norm": 0.00039183985791169107,
      "learning_rate": 0.0889285223444538,
      "loss": 0.3373,
      "num_input_tokens_seen": 23503568,
      "step": 25340
    },
    {
      "epoch": 11.949552098066949,
      "grad_norm": 0.00029854514286853373,
      "learning_rate": 0.08887472545387787,
      "loss": 0.3083,
      "num_input_tokens_seen": 23507616,
      "step": 25345
    },
    {
      "epoch": 11.951909476661951,
      "grad_norm": 0.0005309765692800283,
      "learning_rate": 0.08882093798958751,
      "loss": 0.3293,
      "num_input_tokens_seen": 23512128,
      "step": 25350
    },
    {
      "epoch": 11.954266855256954,
      "grad_norm": 0.0002835858322214335,
      "learning_rate": 0.08876715995987726,
      "loss": 0.3252,
      "num_input_tokens_seen": 23517488,
      "step": 25355
    },
    {
      "epoch": 11.956624233851956,
      "grad_norm": 0.00046439821016974747,
      "learning_rate": 0.08871339137304052,
      "loss": 0.3529,
      "num_input_tokens_seen": 23521536,
      "step": 25360
    },
    {
      "epoch": 11.958981612446959,
      "grad_norm": 0.00033289234852418303,
      "learning_rate": 0.0886596322373689,
      "loss": 0.3592,
      "num_input_tokens_seen": 23527088,
      "step": 25365
    },
    {
      "epoch": 11.961338991041961,
      "grad_norm": 0.0004411080153658986,
      "learning_rate": 0.08860588256115293,
      "loss": 0.3334,
      "num_input_tokens_seen": 23531552,
      "step": 25370
    },
    {
      "epoch": 11.963696369636963,
      "grad_norm": 0.000654912437312305,
      "learning_rate": 0.0885521423526814,
      "loss": 0.3129,
      "num_input_tokens_seen": 23536288,
      "step": 25375
    },
    {
      "epoch": 11.966053748231966,
      "grad_norm": 0.0003779998223762959,
      "learning_rate": 0.08849841162024165,
      "loss": 0.3009,
      "num_input_tokens_seen": 23541552,
      "step": 25380
    },
    {
      "epoch": 11.968411126826968,
      "grad_norm": 0.0004708580090664327,
      "learning_rate": 0.08844469037211973,
      "loss": 0.376,
      "num_input_tokens_seen": 23546496,
      "step": 25385
    },
    {
      "epoch": 11.97076850542197,
      "grad_norm": 0.00020678630971815437,
      "learning_rate": 0.08839097861660014,
      "loss": 0.3182,
      "num_input_tokens_seen": 23552096,
      "step": 25390
    },
    {
      "epoch": 11.973125884016973,
      "grad_norm": 0.0004754637193400413,
      "learning_rate": 0.08833727636196585,
      "loss": 0.3315,
      "num_input_tokens_seen": 23555744,
      "step": 25395
    },
    {
      "epoch": 11.975483262611975,
      "grad_norm": 0.0006875020335428417,
      "learning_rate": 0.08828358361649848,
      "loss": 0.3055,
      "num_input_tokens_seen": 23559968,
      "step": 25400
    },
    {
      "epoch": 11.975483262611975,
      "eval_loss": 0.32809603214263916,
      "eval_runtime": 33.6172,
      "eval_samples_per_second": 28.051,
      "eval_steps_per_second": 14.04,
      "num_input_tokens_seen": 23559968,
      "step": 25400
    },
    {
      "epoch": 11.977840641206978,
      "grad_norm": 0.00028413848485797644,
      "learning_rate": 0.08822990038847807,
      "loss": 0.3482,
      "num_input_tokens_seen": 23564816,
      "step": 25405
    },
    {
      "epoch": 11.98019801980198,
      "grad_norm": 0.0007922236691229045,
      "learning_rate": 0.08817622668618325,
      "loss": 0.3153,
      "num_input_tokens_seen": 23568992,
      "step": 25410
    },
    {
      "epoch": 11.982555398396983,
      "grad_norm": 0.0003905164485331625,
      "learning_rate": 0.08812256251789125,
      "loss": 0.3172,
      "num_input_tokens_seen": 23574112,
      "step": 25415
    },
    {
      "epoch": 11.984912776991985,
      "grad_norm": 0.00029271916719153523,
      "learning_rate": 0.08806890789187766,
      "loss": 0.3591,
      "num_input_tokens_seen": 23578384,
      "step": 25420
    },
    {
      "epoch": 11.987270155586987,
      "grad_norm": 0.0006128951208665967,
      "learning_rate": 0.08801526281641672,
      "loss": 0.4035,
      "num_input_tokens_seen": 23582368,
      "step": 25425
    },
    {
      "epoch": 11.98962753418199,
      "grad_norm": 0.0004141548997722566,
      "learning_rate": 0.0879616272997813,
      "loss": 0.3422,
      "num_input_tokens_seen": 23586560,
      "step": 25430
    },
    {
      "epoch": 11.991984912776992,
      "grad_norm": 0.00029031001031398773,
      "learning_rate": 0.08790800135024247,
      "loss": 0.3462,
      "num_input_tokens_seen": 23590976,
      "step": 25435
    },
    {
      "epoch": 11.994342291371995,
      "grad_norm": 0.0006855164538137615,
      "learning_rate": 0.08785438497607023,
      "loss": 0.3022,
      "num_input_tokens_seen": 23596192,
      "step": 25440
    },
    {
      "epoch": 11.996699669966997,
      "grad_norm": 0.000688950065523386,
      "learning_rate": 0.08780077818553277,
      "loss": 0.2742,
      "num_input_tokens_seen": 23600624,
      "step": 25445
    },
    {
      "epoch": 11.999057048562,
      "grad_norm": 0.0003462849126663059,
      "learning_rate": 0.0877471809868969,
      "loss": 0.3196,
      "num_input_tokens_seen": 23604640,
      "step": 25450
    },
    {
      "epoch": 12.001414427157002,
      "grad_norm": 0.0003291376924607903,
      "learning_rate": 0.08769359338842811,
      "loss": 0.3894,
      "num_input_tokens_seen": 23609408,
      "step": 25455
    },
    {
      "epoch": 12.003771805752004,
      "grad_norm": 0.0005021170363761485,
      "learning_rate": 0.08764001539839016,
      "loss": 0.295,
      "num_input_tokens_seen": 23613568,
      "step": 25460
    },
    {
      "epoch": 12.006129184347007,
      "grad_norm": 0.00020413281163200736,
      "learning_rate": 0.08758644702504548,
      "loss": 0.2984,
      "num_input_tokens_seen": 23618720,
      "step": 25465
    },
    {
      "epoch": 12.008486562942009,
      "grad_norm": 0.000383976410375908,
      "learning_rate": 0.0875328882766551,
      "loss": 0.3243,
      "num_input_tokens_seen": 23623104,
      "step": 25470
    },
    {
      "epoch": 12.010843941537011,
      "grad_norm": 0.0003071047831326723,
      "learning_rate": 0.08747933916147828,
      "loss": 0.3299,
      "num_input_tokens_seen": 23627280,
      "step": 25475
    },
    {
      "epoch": 12.013201320132014,
      "grad_norm": 0.00017726740043144673,
      "learning_rate": 0.0874257996877731,
      "loss": 0.2714,
      "num_input_tokens_seen": 23631856,
      "step": 25480
    },
    {
      "epoch": 12.015558698727016,
      "grad_norm": 0.00020452099852263927,
      "learning_rate": 0.08737226986379593,
      "loss": 0.3247,
      "num_input_tokens_seen": 23637280,
      "step": 25485
    },
    {
      "epoch": 12.017916077322019,
      "grad_norm": 0.00020019427756778896,
      "learning_rate": 0.08731874969780173,
      "loss": 0.2909,
      "num_input_tokens_seen": 23641200,
      "step": 25490
    },
    {
      "epoch": 12.020273455917021,
      "grad_norm": 0.0004143771075177938,
      "learning_rate": 0.08726523919804412,
      "loss": 0.4106,
      "num_input_tokens_seen": 23645520,
      "step": 25495
    },
    {
      "epoch": 12.022630834512023,
      "grad_norm": 0.0005494941142387688,
      "learning_rate": 0.08721173837277492,
      "loss": 0.3427,
      "num_input_tokens_seen": 23650256,
      "step": 25500
    },
    {
      "epoch": 12.024988213107026,
      "grad_norm": 0.0005081029376015067,
      "learning_rate": 0.08715824723024479,
      "loss": 0.3175,
      "num_input_tokens_seen": 23654688,
      "step": 25505
    },
    {
      "epoch": 12.027345591702028,
      "grad_norm": 0.00028966032550670207,
      "learning_rate": 0.08710476577870258,
      "loss": 0.3139,
      "num_input_tokens_seen": 23658608,
      "step": 25510
    },
    {
      "epoch": 12.029702970297029,
      "grad_norm": 0.00021966245549265295,
      "learning_rate": 0.08705129402639587,
      "loss": 0.3388,
      "num_input_tokens_seen": 23663200,
      "step": 25515
    },
    {
      "epoch": 12.032060348892031,
      "grad_norm": 0.0005007226718589664,
      "learning_rate": 0.08699783198157078,
      "loss": 0.3163,
      "num_input_tokens_seen": 23668592,
      "step": 25520
    },
    {
      "epoch": 12.034417727487034,
      "grad_norm": 0.00024415075313299894,
      "learning_rate": 0.08694437965247163,
      "loss": 0.3237,
      "num_input_tokens_seen": 23672896,
      "step": 25525
    },
    {
      "epoch": 12.036775106082036,
      "grad_norm": 0.0002867183357011527,
      "learning_rate": 0.08689093704734165,
      "loss": 0.3635,
      "num_input_tokens_seen": 23677984,
      "step": 25530
    },
    {
      "epoch": 12.039132484677038,
      "grad_norm": 0.0003637697664089501,
      "learning_rate": 0.08683750417442222,
      "loss": 0.3204,
      "num_input_tokens_seen": 23681840,
      "step": 25535
    },
    {
      "epoch": 12.04148986327204,
      "grad_norm": 0.000325189670547843,
      "learning_rate": 0.08678408104195334,
      "loss": 0.3409,
      "num_input_tokens_seen": 23686880,
      "step": 25540
    },
    {
      "epoch": 12.043847241867043,
      "grad_norm": 0.00044889748096466064,
      "learning_rate": 0.08673066765817365,
      "loss": 0.337,
      "num_input_tokens_seen": 23691696,
      "step": 25545
    },
    {
      "epoch": 12.046204620462046,
      "grad_norm": 0.00030615186551585793,
      "learning_rate": 0.08667726403132005,
      "loss": 0.3152,
      "num_input_tokens_seen": 23695440,
      "step": 25550
    },
    {
      "epoch": 12.048561999057048,
      "grad_norm": 0.00035999069223180413,
      "learning_rate": 0.0866238701696281,
      "loss": 0.3257,
      "num_input_tokens_seen": 23699248,
      "step": 25555
    },
    {
      "epoch": 12.05091937765205,
      "grad_norm": 0.0002524088486097753,
      "learning_rate": 0.08657048608133185,
      "loss": 0.3521,
      "num_input_tokens_seen": 23704640,
      "step": 25560
    },
    {
      "epoch": 12.053276756247053,
      "grad_norm": 0.0005004997365176678,
      "learning_rate": 0.08651711177466369,
      "loss": 0.3039,
      "num_input_tokens_seen": 23709360,
      "step": 25565
    },
    {
      "epoch": 12.055634134842055,
      "grad_norm": 0.0002535658422857523,
      "learning_rate": 0.08646374725785466,
      "loss": 0.3244,
      "num_input_tokens_seen": 23714752,
      "step": 25570
    },
    {
      "epoch": 12.057991513437058,
      "grad_norm": 0.00034079173929058015,
      "learning_rate": 0.08641039253913434,
      "loss": 0.3771,
      "num_input_tokens_seen": 23718832,
      "step": 25575
    },
    {
      "epoch": 12.06034889203206,
      "grad_norm": 0.0010778360301628709,
      "learning_rate": 0.08635704762673052,
      "loss": 0.3318,
      "num_input_tokens_seen": 23723200,
      "step": 25580
    },
    {
      "epoch": 12.062706270627062,
      "grad_norm": 0.00040956924203783274,
      "learning_rate": 0.08630371252886981,
      "loss": 0.3401,
      "num_input_tokens_seen": 23728416,
      "step": 25585
    },
    {
      "epoch": 12.065063649222065,
      "grad_norm": 0.00046851145452819765,
      "learning_rate": 0.08625038725377704,
      "loss": 0.344,
      "num_input_tokens_seen": 23734880,
      "step": 25590
    },
    {
      "epoch": 12.067421027817067,
      "grad_norm": 0.000629682035651058,
      "learning_rate": 0.08619707180967566,
      "loss": 0.3183,
      "num_input_tokens_seen": 23738800,
      "step": 25595
    },
    {
      "epoch": 12.06977840641207,
      "grad_norm": 0.0003725344722624868,
      "learning_rate": 0.08614376620478768,
      "loss": 0.3414,
      "num_input_tokens_seen": 23743680,
      "step": 25600
    },
    {
      "epoch": 12.06977840641207,
      "eval_loss": 0.33338475227355957,
      "eval_runtime": 33.5898,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 23743680,
      "step": 25600
    },
    {
      "epoch": 12.072135785007072,
      "grad_norm": 0.0003904739860445261,
      "learning_rate": 0.08609047044733344,
      "loss": 0.3424,
      "num_input_tokens_seen": 23747824,
      "step": 25605
    },
    {
      "epoch": 12.074493163602074,
      "grad_norm": 0.0004977887729182839,
      "learning_rate": 0.08603718454553168,
      "loss": 0.3267,
      "num_input_tokens_seen": 23752208,
      "step": 25610
    },
    {
      "epoch": 12.076850542197077,
      "grad_norm": 0.00034530163975432515,
      "learning_rate": 0.08598390850759997,
      "loss": 0.3279,
      "num_input_tokens_seen": 23756944,
      "step": 25615
    },
    {
      "epoch": 12.07920792079208,
      "grad_norm": 0.0007592470501549542,
      "learning_rate": 0.08593064234175397,
      "loss": 0.3565,
      "num_input_tokens_seen": 23761824,
      "step": 25620
    },
    {
      "epoch": 12.081565299387082,
      "grad_norm": 0.0007075589965097606,
      "learning_rate": 0.08587738605620815,
      "loss": 0.3189,
      "num_input_tokens_seen": 23766480,
      "step": 25625
    },
    {
      "epoch": 12.083922677982084,
      "grad_norm": 0.0002288512041559443,
      "learning_rate": 0.08582413965917512,
      "loss": 0.3646,
      "num_input_tokens_seen": 23771520,
      "step": 25630
    },
    {
      "epoch": 12.086280056577086,
      "grad_norm": 0.0003380265843588859,
      "learning_rate": 0.08577090315886628,
      "loss": 0.3383,
      "num_input_tokens_seen": 23776368,
      "step": 25635
    },
    {
      "epoch": 12.088637435172089,
      "grad_norm": 0.00018323358381167054,
      "learning_rate": 0.08571767656349136,
      "loss": 0.3417,
      "num_input_tokens_seen": 23780304,
      "step": 25640
    },
    {
      "epoch": 12.090994813767091,
      "grad_norm": 0.0008803679957054555,
      "learning_rate": 0.08566445988125847,
      "loss": 0.3039,
      "num_input_tokens_seen": 23785024,
      "step": 25645
    },
    {
      "epoch": 12.093352192362094,
      "grad_norm": 0.0003103936032857746,
      "learning_rate": 0.08561125312037436,
      "loss": 0.3184,
      "num_input_tokens_seen": 23790096,
      "step": 25650
    },
    {
      "epoch": 12.095709570957096,
      "grad_norm": 0.00046897458378225565,
      "learning_rate": 0.08555805628904424,
      "loss": 0.3186,
      "num_input_tokens_seen": 23794736,
      "step": 25655
    },
    {
      "epoch": 12.098066949552098,
      "grad_norm": 0.0005686543881893158,
      "learning_rate": 0.08550486939547161,
      "loss": 0.3274,
      "num_input_tokens_seen": 23799472,
      "step": 25660
    },
    {
      "epoch": 12.100424328147101,
      "grad_norm": 0.0002982688893098384,
      "learning_rate": 0.08545169244785869,
      "loss": 0.3273,
      "num_input_tokens_seen": 23805120,
      "step": 25665
    },
    {
      "epoch": 12.102781706742103,
      "grad_norm": 0.00029262335738167167,
      "learning_rate": 0.08539852545440589,
      "loss": 0.3468,
      "num_input_tokens_seen": 23810096,
      "step": 25670
    },
    {
      "epoch": 12.105139085337106,
      "grad_norm": 0.00033408295712433755,
      "learning_rate": 0.08534536842331235,
      "loss": 0.3306,
      "num_input_tokens_seen": 23814304,
      "step": 25675
    },
    {
      "epoch": 12.107496463932108,
      "grad_norm": 0.0002649369416758418,
      "learning_rate": 0.08529222136277545,
      "loss": 0.3849,
      "num_input_tokens_seen": 23819600,
      "step": 25680
    },
    {
      "epoch": 12.10985384252711,
      "grad_norm": 0.0002641764294821769,
      "learning_rate": 0.08523908428099125,
      "loss": 0.364,
      "num_input_tokens_seen": 23824160,
      "step": 25685
    },
    {
      "epoch": 12.112211221122113,
      "grad_norm": 0.0006470149965025485,
      "learning_rate": 0.08518595718615402,
      "loss": 0.3368,
      "num_input_tokens_seen": 23828176,
      "step": 25690
    },
    {
      "epoch": 12.114568599717115,
      "grad_norm": 0.00067592115374282,
      "learning_rate": 0.08513284008645675,
      "loss": 0.3121,
      "num_input_tokens_seen": 23832944,
      "step": 25695
    },
    {
      "epoch": 12.116925978312118,
      "grad_norm": 0.00040487517253495753,
      "learning_rate": 0.08507973299009065,
      "loss": 0.3578,
      "num_input_tokens_seen": 23836672,
      "step": 25700
    },
    {
      "epoch": 12.11928335690712,
      "grad_norm": 0.0007048594998195767,
      "learning_rate": 0.08502663590524563,
      "loss": 0.3045,
      "num_input_tokens_seen": 23841440,
      "step": 25705
    },
    {
      "epoch": 12.121640735502123,
      "grad_norm": 0.00022054070723243058,
      "learning_rate": 0.08497354884010981,
      "loss": 0.3002,
      "num_input_tokens_seen": 23846896,
      "step": 25710
    },
    {
      "epoch": 12.123998114097123,
      "grad_norm": 0.0006308541633188725,
      "learning_rate": 0.0849204718028699,
      "loss": 0.3133,
      "num_input_tokens_seen": 23851840,
      "step": 25715
    },
    {
      "epoch": 12.126355492692126,
      "grad_norm": 0.0002872350160032511,
      "learning_rate": 0.08486740480171118,
      "loss": 0.3068,
      "num_input_tokens_seen": 23856512,
      "step": 25720
    },
    {
      "epoch": 12.128712871287128,
      "grad_norm": 0.0004823031777050346,
      "learning_rate": 0.08481434784481706,
      "loss": 0.3809,
      "num_input_tokens_seen": 23860832,
      "step": 25725
    },
    {
      "epoch": 12.13107024988213,
      "grad_norm": 0.00030290588620118797,
      "learning_rate": 0.08476130094036968,
      "loss": 0.3196,
      "num_input_tokens_seen": 23865936,
      "step": 25730
    },
    {
      "epoch": 12.133427628477133,
      "grad_norm": 0.0008640820742584765,
      "learning_rate": 0.08470826409654961,
      "loss": 0.3641,
      "num_input_tokens_seen": 23871120,
      "step": 25735
    },
    {
      "epoch": 12.135785007072135,
      "grad_norm": 0.00033456343226134777,
      "learning_rate": 0.08465523732153564,
      "loss": 0.3386,
      "num_input_tokens_seen": 23875376,
      "step": 25740
    },
    {
      "epoch": 12.138142385667138,
      "grad_norm": 0.0005662787007167935,
      "learning_rate": 0.08460222062350532,
      "loss": 0.2855,
      "num_input_tokens_seen": 23879296,
      "step": 25745
    },
    {
      "epoch": 12.14049976426214,
      "grad_norm": 0.0004507428966462612,
      "learning_rate": 0.08454921401063442,
      "loss": 0.3937,
      "num_input_tokens_seen": 23883888,
      "step": 25750
    },
    {
      "epoch": 12.142857142857142,
      "grad_norm": 0.0004229951882734895,
      "learning_rate": 0.08449621749109716,
      "loss": 0.3549,
      "num_input_tokens_seen": 23888736,
      "step": 25755
    },
    {
      "epoch": 12.145214521452145,
      "grad_norm": 0.0005597811541520059,
      "learning_rate": 0.08444323107306641,
      "loss": 0.3034,
      "num_input_tokens_seen": 23893296,
      "step": 25760
    },
    {
      "epoch": 12.147571900047147,
      "grad_norm": 0.0010036913445219398,
      "learning_rate": 0.0843902547647132,
      "loss": 0.3198,
      "num_input_tokens_seen": 23898016,
      "step": 25765
    },
    {
      "epoch": 12.14992927864215,
      "grad_norm": 0.0010204702848568559,
      "learning_rate": 0.0843372885742072,
      "loss": 0.3602,
      "num_input_tokens_seen": 23902672,
      "step": 25770
    },
    {
      "epoch": 12.152286657237152,
      "grad_norm": 0.0004809122474398464,
      "learning_rate": 0.08428433250971652,
      "loss": 0.3243,
      "num_input_tokens_seen": 23907264,
      "step": 25775
    },
    {
      "epoch": 12.154644035832154,
      "grad_norm": 0.0003221008519176394,
      "learning_rate": 0.08423138657940757,
      "loss": 0.3374,
      "num_input_tokens_seen": 23912368,
      "step": 25780
    },
    {
      "epoch": 12.157001414427157,
      "grad_norm": 0.0006822989671491086,
      "learning_rate": 0.08417845079144536,
      "loss": 0.2901,
      "num_input_tokens_seen": 23917552,
      "step": 25785
    },
    {
      "epoch": 12.15935879302216,
      "grad_norm": 0.00070236372994259,
      "learning_rate": 0.08412552515399314,
      "loss": 0.33,
      "num_input_tokens_seen": 23921808,
      "step": 25790
    },
    {
      "epoch": 12.161716171617162,
      "grad_norm": 0.00033482006983831525,
      "learning_rate": 0.08407260967521278,
      "loss": 0.3941,
      "num_input_tokens_seen": 23926144,
      "step": 25795
    },
    {
      "epoch": 12.164073550212164,
      "grad_norm": 0.0003339544637128711,
      "learning_rate": 0.08401970436326454,
      "loss": 0.3125,
      "num_input_tokens_seen": 23931472,
      "step": 25800
    },
    {
      "epoch": 12.164073550212164,
      "eval_loss": 0.3279121518135071,
      "eval_runtime": 33.5259,
      "eval_samples_per_second": 28.128,
      "eval_steps_per_second": 14.079,
      "num_input_tokens_seen": 23931472,
      "step": 25800
    },
    {
      "epoch": 12.166430928807166,
      "grad_norm": 0.0002752876316662878,
      "learning_rate": 0.08396680922630702,
      "loss": 0.342,
      "num_input_tokens_seen": 23936224,
      "step": 25805
    },
    {
      "epoch": 12.168788307402169,
      "grad_norm": 0.00037305697333067656,
      "learning_rate": 0.08391392427249732,
      "loss": 0.3399,
      "num_input_tokens_seen": 23941264,
      "step": 25810
    },
    {
      "epoch": 12.171145685997171,
      "grad_norm": 0.0004161954566370696,
      "learning_rate": 0.08386104950999107,
      "loss": 0.2641,
      "num_input_tokens_seen": 23945536,
      "step": 25815
    },
    {
      "epoch": 12.173503064592174,
      "grad_norm": 0.0004406941880006343,
      "learning_rate": 0.0838081849469421,
      "loss": 0.3599,
      "num_input_tokens_seen": 23950176,
      "step": 25820
    },
    {
      "epoch": 12.175860443187176,
      "grad_norm": 0.0003168944676872343,
      "learning_rate": 0.08375533059150281,
      "loss": 0.3207,
      "num_input_tokens_seen": 23955008,
      "step": 25825
    },
    {
      "epoch": 12.178217821782178,
      "grad_norm": 0.00033530424116179347,
      "learning_rate": 0.08370248645182406,
      "loss": 0.2764,
      "num_input_tokens_seen": 23959168,
      "step": 25830
    },
    {
      "epoch": 12.18057520037718,
      "grad_norm": 0.0006226921686902642,
      "learning_rate": 0.083649652536055,
      "loss": 0.3043,
      "num_input_tokens_seen": 23964624,
      "step": 25835
    },
    {
      "epoch": 12.182932578972183,
      "grad_norm": 0.00027843296993523836,
      "learning_rate": 0.08359682885234339,
      "loss": 0.3854,
      "num_input_tokens_seen": 23970176,
      "step": 25840
    },
    {
      "epoch": 12.185289957567186,
      "grad_norm": 0.0006969415117055178,
      "learning_rate": 0.08354401540883516,
      "loss": 0.2754,
      "num_input_tokens_seen": 23974464,
      "step": 25845
    },
    {
      "epoch": 12.187647336162188,
      "grad_norm": 0.0002688789099920541,
      "learning_rate": 0.0834912122136749,
      "loss": 0.2673,
      "num_input_tokens_seen": 23980048,
      "step": 25850
    },
    {
      "epoch": 12.19000471475719,
      "grad_norm": 0.00029106889269314706,
      "learning_rate": 0.0834384192750056,
      "loss": 0.3497,
      "num_input_tokens_seen": 23984256,
      "step": 25855
    },
    {
      "epoch": 12.192362093352193,
      "grad_norm": 0.000399017590098083,
      "learning_rate": 0.08338563660096844,
      "loss": 0.2807,
      "num_input_tokens_seen": 23988976,
      "step": 25860
    },
    {
      "epoch": 12.194719471947195,
      "grad_norm": 0.000558530620764941,
      "learning_rate": 0.08333286419970329,
      "loss": 0.3973,
      "num_input_tokens_seen": 23993888,
      "step": 25865
    },
    {
      "epoch": 12.197076850542198,
      "grad_norm": 0.0007615178474225104,
      "learning_rate": 0.08328010207934824,
      "loss": 0.3141,
      "num_input_tokens_seen": 23999536,
      "step": 25870
    },
    {
      "epoch": 12.1994342291372,
      "grad_norm": 0.00032371090492233634,
      "learning_rate": 0.08322735024803989,
      "loss": 0.3446,
      "num_input_tokens_seen": 24003296,
      "step": 25875
    },
    {
      "epoch": 12.201791607732202,
      "grad_norm": 0.00019496117602102458,
      "learning_rate": 0.08317460871391331,
      "loss": 0.3074,
      "num_input_tokens_seen": 24007856,
      "step": 25880
    },
    {
      "epoch": 12.204148986327205,
      "grad_norm": 0.0004413048445712775,
      "learning_rate": 0.08312187748510179,
      "loss": 0.3478,
      "num_input_tokens_seen": 24013824,
      "step": 25885
    },
    {
      "epoch": 12.206506364922207,
      "grad_norm": 0.0007047271938063204,
      "learning_rate": 0.08306915656973726,
      "loss": 0.3742,
      "num_input_tokens_seen": 24019040,
      "step": 25890
    },
    {
      "epoch": 12.20886374351721,
      "grad_norm": 0.00037642515962943435,
      "learning_rate": 0.08301644597594988,
      "loss": 0.2734,
      "num_input_tokens_seen": 24024464,
      "step": 25895
    },
    {
      "epoch": 12.211221122112212,
      "grad_norm": 0.0008425177074968815,
      "learning_rate": 0.08296374571186826,
      "loss": 0.3661,
      "num_input_tokens_seen": 24028544,
      "step": 25900
    },
    {
      "epoch": 12.213578500707214,
      "grad_norm": 0.0006948501104488969,
      "learning_rate": 0.08291105578561955,
      "loss": 0.3201,
      "num_input_tokens_seen": 24033072,
      "step": 25905
    },
    {
      "epoch": 12.215935879302217,
      "grad_norm": 0.00036161093157716095,
      "learning_rate": 0.08285837620532904,
      "loss": 0.302,
      "num_input_tokens_seen": 24037600,
      "step": 25910
    },
    {
      "epoch": 12.218293257897217,
      "grad_norm": 0.00044494032044894993,
      "learning_rate": 0.0828057069791207,
      "loss": 0.3309,
      "num_input_tokens_seen": 24041776,
      "step": 25915
    },
    {
      "epoch": 12.22065063649222,
      "grad_norm": 0.0003327679878566414,
      "learning_rate": 0.0827530481151168,
      "loss": 0.3683,
      "num_input_tokens_seen": 24045936,
      "step": 25920
    },
    {
      "epoch": 12.223008015087222,
      "grad_norm": 0.00029137375531718135,
      "learning_rate": 0.08270039962143792,
      "loss": 0.3139,
      "num_input_tokens_seen": 24051104,
      "step": 25925
    },
    {
      "epoch": 12.225365393682225,
      "grad_norm": 0.0005438521038740873,
      "learning_rate": 0.08264776150620314,
      "loss": 0.3723,
      "num_input_tokens_seen": 24055200,
      "step": 25930
    },
    {
      "epoch": 12.227722772277227,
      "grad_norm": 0.0005542199942283332,
      "learning_rate": 0.08259513377753,
      "loss": 0.3045,
      "num_input_tokens_seen": 24058768,
      "step": 25935
    },
    {
      "epoch": 12.23008015087223,
      "grad_norm": 0.0003053678956348449,
      "learning_rate": 0.08254251644353423,
      "loss": 0.3437,
      "num_input_tokens_seen": 24062624,
      "step": 25940
    },
    {
      "epoch": 12.232437529467232,
      "grad_norm": 0.00043928661034442484,
      "learning_rate": 0.08248990951233022,
      "loss": 0.3393,
      "num_input_tokens_seen": 24067456,
      "step": 25945
    },
    {
      "epoch": 12.234794908062234,
      "grad_norm": 0.0005768443807028234,
      "learning_rate": 0.08243731299203048,
      "loss": 0.3534,
      "num_input_tokens_seen": 24072464,
      "step": 25950
    },
    {
      "epoch": 12.237152286657237,
      "grad_norm": 0.0008081916021183133,
      "learning_rate": 0.08238472689074612,
      "loss": 0.3424,
      "num_input_tokens_seen": 24077536,
      "step": 25955
    },
    {
      "epoch": 12.239509665252239,
      "grad_norm": 0.0008115469827316701,
      "learning_rate": 0.08233215121658666,
      "loss": 0.371,
      "num_input_tokens_seen": 24082320,
      "step": 25960
    },
    {
      "epoch": 12.241867043847241,
      "grad_norm": 0.0012530597159639,
      "learning_rate": 0.08227958597765982,
      "loss": 0.3106,
      "num_input_tokens_seen": 24086416,
      "step": 25965
    },
    {
      "epoch": 12.244224422442244,
      "grad_norm": 0.0005308337858878076,
      "learning_rate": 0.08222703118207181,
      "loss": 0.3351,
      "num_input_tokens_seen": 24091056,
      "step": 25970
    },
    {
      "epoch": 12.246581801037246,
      "grad_norm": 0.000799057015683502,
      "learning_rate": 0.08217448683792734,
      "loss": 0.3243,
      "num_input_tokens_seen": 24095792,
      "step": 25975
    },
    {
      "epoch": 12.248939179632249,
      "grad_norm": 0.00027948536444455385,
      "learning_rate": 0.08212195295332926,
      "loss": 0.3614,
      "num_input_tokens_seen": 24099760,
      "step": 25980
    },
    {
      "epoch": 12.251296558227251,
      "grad_norm": 0.00044782852637581527,
      "learning_rate": 0.08206942953637915,
      "loss": 0.3373,
      "num_input_tokens_seen": 24105776,
      "step": 25985
    },
    {
      "epoch": 12.253653936822253,
      "grad_norm": 0.0012581474147737026,
      "learning_rate": 0.08201691659517658,
      "loss": 0.4045,
      "num_input_tokens_seen": 24110320,
      "step": 25990
    },
    {
      "epoch": 12.256011315417256,
      "grad_norm": 0.00038937441422604024,
      "learning_rate": 0.08196441413781981,
      "loss": 0.3635,
      "num_input_tokens_seen": 24114960,
      "step": 25995
    },
    {
      "epoch": 12.258368694012258,
      "grad_norm": 0.0006475341506302357,
      "learning_rate": 0.08191192217240544,
      "loss": 0.3537,
      "num_input_tokens_seen": 24118800,
      "step": 26000
    },
    {
      "epoch": 12.258368694012258,
      "eval_loss": 0.3308323323726654,
      "eval_runtime": 33.5854,
      "eval_samples_per_second": 28.078,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 24118800,
      "step": 26000
    },
    {
      "epoch": 12.26072607260726,
      "grad_norm": 0.00034954858710989356,
      "learning_rate": 0.08185944070702823,
      "loss": 0.2999,
      "num_input_tokens_seen": 24122992,
      "step": 26005
    },
    {
      "epoch": 12.263083451202263,
      "grad_norm": 0.0004276564286556095,
      "learning_rate": 0.08180696974978159,
      "loss": 0.3045,
      "num_input_tokens_seen": 24128432,
      "step": 26010
    },
    {
      "epoch": 12.265440829797265,
      "grad_norm": 0.00024015242524910718,
      "learning_rate": 0.08175450930875724,
      "loss": 0.3428,
      "num_input_tokens_seen": 24133424,
      "step": 26015
    },
    {
      "epoch": 12.267798208392268,
      "grad_norm": 0.0005138582200743258,
      "learning_rate": 0.08170205939204513,
      "loss": 0.3654,
      "num_input_tokens_seen": 24137472,
      "step": 26020
    },
    {
      "epoch": 12.27015558698727,
      "grad_norm": 0.0007570696761831641,
      "learning_rate": 0.08164962000773379,
      "loss": 0.3107,
      "num_input_tokens_seen": 24142560,
      "step": 26025
    },
    {
      "epoch": 12.272512965582273,
      "grad_norm": 0.0004046568355988711,
      "learning_rate": 0.08159719116390995,
      "loss": 0.2713,
      "num_input_tokens_seen": 24147792,
      "step": 26030
    },
    {
      "epoch": 12.274870344177275,
      "grad_norm": 0.0003391552600078285,
      "learning_rate": 0.08154477286865887,
      "loss": 0.3342,
      "num_input_tokens_seen": 24152416,
      "step": 26035
    },
    {
      "epoch": 12.277227722772277,
      "grad_norm": 0.0002496388915460557,
      "learning_rate": 0.08149236513006404,
      "loss": 0.2973,
      "num_input_tokens_seen": 24156976,
      "step": 26040
    },
    {
      "epoch": 12.27958510136728,
      "grad_norm": 0.0005529567715711892,
      "learning_rate": 0.08143996795620746,
      "loss": 0.3477,
      "num_input_tokens_seen": 24162112,
      "step": 26045
    },
    {
      "epoch": 12.281942479962282,
      "grad_norm": 0.0006698276265524328,
      "learning_rate": 0.08138758135516938,
      "loss": 0.281,
      "num_input_tokens_seen": 24165904,
      "step": 26050
    },
    {
      "epoch": 12.284299858557285,
      "grad_norm": 0.0002541172143537551,
      "learning_rate": 0.08133520533502851,
      "loss": 0.3284,
      "num_input_tokens_seen": 24170768,
      "step": 26055
    },
    {
      "epoch": 12.286657237152287,
      "grad_norm": 0.0006861069705337286,
      "learning_rate": 0.08128283990386184,
      "loss": 0.3003,
      "num_input_tokens_seen": 24177184,
      "step": 26060
    },
    {
      "epoch": 12.28901461574729,
      "grad_norm": 0.00031348495394922793,
      "learning_rate": 0.08123048506974488,
      "loss": 0.3182,
      "num_input_tokens_seen": 24181984,
      "step": 26065
    },
    {
      "epoch": 12.291371994342292,
      "grad_norm": 0.0002772605512291193,
      "learning_rate": 0.08117814084075124,
      "loss": 0.2872,
      "num_input_tokens_seen": 24186512,
      "step": 26070
    },
    {
      "epoch": 12.293729372937294,
      "grad_norm": 0.0008260418544523418,
      "learning_rate": 0.08112580722495318,
      "loss": 0.3527,
      "num_input_tokens_seen": 24190768,
      "step": 26075
    },
    {
      "epoch": 12.296086751532297,
      "grad_norm": 0.00030038118711672723,
      "learning_rate": 0.08107348423042122,
      "loss": 0.2517,
      "num_input_tokens_seen": 24195904,
      "step": 26080
    },
    {
      "epoch": 12.298444130127299,
      "grad_norm": 0.0008592205122113228,
      "learning_rate": 0.08102117186522413,
      "loss": 0.3149,
      "num_input_tokens_seen": 24200992,
      "step": 26085
    },
    {
      "epoch": 12.300801508722301,
      "grad_norm": 0.0005326112732291222,
      "learning_rate": 0.08096887013742916,
      "loss": 0.3391,
      "num_input_tokens_seen": 24205888,
      "step": 26090
    },
    {
      "epoch": 12.303158887317304,
      "grad_norm": 0.0003191886644344777,
      "learning_rate": 0.08091657905510198,
      "loss": 0.4009,
      "num_input_tokens_seen": 24210032,
      "step": 26095
    },
    {
      "epoch": 12.305516265912306,
      "grad_norm": 0.0004119850345887244,
      "learning_rate": 0.08086429862630642,
      "loss": 0.3391,
      "num_input_tokens_seen": 24214896,
      "step": 26100
    },
    {
      "epoch": 12.307873644507309,
      "grad_norm": 0.0004904413362964988,
      "learning_rate": 0.08081202885910488,
      "loss": 0.3539,
      "num_input_tokens_seen": 24219536,
      "step": 26105
    },
    {
      "epoch": 12.310231023102311,
      "grad_norm": 0.000694789516273886,
      "learning_rate": 0.08075976976155795,
      "loss": 0.3568,
      "num_input_tokens_seen": 24224944,
      "step": 26110
    },
    {
      "epoch": 12.312588401697312,
      "grad_norm": 0.0006647280533798039,
      "learning_rate": 0.08070752134172461,
      "loss": 0.3517,
      "num_input_tokens_seen": 24229392,
      "step": 26115
    },
    {
      "epoch": 12.314945780292314,
      "grad_norm": 0.00024211527488660067,
      "learning_rate": 0.08065528360766229,
      "loss": 0.3874,
      "num_input_tokens_seen": 24234304,
      "step": 26120
    },
    {
      "epoch": 12.317303158887317,
      "grad_norm": 0.0007399257738143206,
      "learning_rate": 0.08060305656742664,
      "loss": 0.331,
      "num_input_tokens_seen": 24239440,
      "step": 26125
    },
    {
      "epoch": 12.319660537482319,
      "grad_norm": 0.0008656154968775809,
      "learning_rate": 0.08055084022907182,
      "loss": 0.3428,
      "num_input_tokens_seen": 24243872,
      "step": 26130
    },
    {
      "epoch": 12.322017916077321,
      "grad_norm": 0.0007554074400104582,
      "learning_rate": 0.08049863460065014,
      "loss": 0.3185,
      "num_input_tokens_seen": 24248656,
      "step": 26135
    },
    {
      "epoch": 12.324375294672324,
      "grad_norm": 0.0002604078617878258,
      "learning_rate": 0.0804464396902124,
      "loss": 0.3376,
      "num_input_tokens_seen": 24253472,
      "step": 26140
    },
    {
      "epoch": 12.326732673267326,
      "grad_norm": 0.0004259934357833117,
      "learning_rate": 0.08039425550580777,
      "loss": 0.3362,
      "num_input_tokens_seen": 24259008,
      "step": 26145
    },
    {
      "epoch": 12.329090051862329,
      "grad_norm": 0.00022147715208120644,
      "learning_rate": 0.08034208205548363,
      "loss": 0.3264,
      "num_input_tokens_seen": 24263440,
      "step": 26150
    },
    {
      "epoch": 12.331447430457331,
      "grad_norm": 0.00047297769924625754,
      "learning_rate": 0.08028991934728581,
      "loss": 0.3207,
      "num_input_tokens_seen": 24267888,
      "step": 26155
    },
    {
      "epoch": 12.333804809052333,
      "grad_norm": 0.0006112104747444391,
      "learning_rate": 0.0802377673892585,
      "loss": 0.319,
      "num_input_tokens_seen": 24272016,
      "step": 26160
    },
    {
      "epoch": 12.336162187647336,
      "grad_norm": 0.000392630958231166,
      "learning_rate": 0.0801856261894441,
      "loss": 0.3554,
      "num_input_tokens_seen": 24276384,
      "step": 26165
    },
    {
      "epoch": 12.338519566242338,
      "grad_norm": 0.0003255378396715969,
      "learning_rate": 0.08013349575588354,
      "loss": 0.3517,
      "num_input_tokens_seen": 24280304,
      "step": 26170
    },
    {
      "epoch": 12.34087694483734,
      "grad_norm": 0.00038106064312160015,
      "learning_rate": 0.08008137609661586,
      "loss": 0.3353,
      "num_input_tokens_seen": 24284752,
      "step": 26175
    },
    {
      "epoch": 12.343234323432343,
      "grad_norm": 0.0003653404419310391,
      "learning_rate": 0.08002926721967872,
      "loss": 0.3472,
      "num_input_tokens_seen": 24289600,
      "step": 26180
    },
    {
      "epoch": 12.345591702027345,
      "grad_norm": 0.0005320749478414655,
      "learning_rate": 0.07997716913310782,
      "loss": 0.3165,
      "num_input_tokens_seen": 24294128,
      "step": 26185
    },
    {
      "epoch": 12.347949080622348,
      "grad_norm": 0.00080522132338956,
      "learning_rate": 0.07992508184493745,
      "loss": 0.3229,
      "num_input_tokens_seen": 24299120,
      "step": 26190
    },
    {
      "epoch": 12.35030645921735,
      "grad_norm": 0.000635262462310493,
      "learning_rate": 0.07987300536320001,
      "loss": 0.277,
      "num_input_tokens_seen": 24304016,
      "step": 26195
    },
    {
      "epoch": 12.352663837812353,
      "grad_norm": 0.00034282708656974137,
      "learning_rate": 0.07982093969592649,
      "loss": 0.3198,
      "num_input_tokens_seen": 24308976,
      "step": 26200
    },
    {
      "epoch": 12.352663837812353,
      "eval_loss": 0.3269749581813812,
      "eval_runtime": 33.6208,
      "eval_samples_per_second": 28.048,
      "eval_steps_per_second": 14.039,
      "num_input_tokens_seen": 24308976,
      "step": 26200
    },
    {
      "epoch": 12.355021216407355,
      "grad_norm": 0.00046701388782821596,
      "learning_rate": 0.07976888485114592,
      "loss": 0.3501,
      "num_input_tokens_seen": 24314176,
      "step": 26205
    },
    {
      "epoch": 12.357378595002357,
      "grad_norm": 0.00025069978437386453,
      "learning_rate": 0.07971684083688595,
      "loss": 0.3279,
      "num_input_tokens_seen": 24318528,
      "step": 26210
    },
    {
      "epoch": 12.35973597359736,
      "grad_norm": 0.0005520280683413148,
      "learning_rate": 0.0796648076611723,
      "loss": 0.29,
      "num_input_tokens_seen": 24322448,
      "step": 26215
    },
    {
      "epoch": 12.362093352192362,
      "grad_norm": 0.0005321026546880603,
      "learning_rate": 0.07961278533202922,
      "loss": 0.2711,
      "num_input_tokens_seen": 24327344,
      "step": 26220
    },
    {
      "epoch": 12.364450730787365,
      "grad_norm": 0.00043805516907013953,
      "learning_rate": 0.07956077385747919,
      "loss": 0.2887,
      "num_input_tokens_seen": 24331872,
      "step": 26225
    },
    {
      "epoch": 12.366808109382367,
      "grad_norm": 0.0005629405495710671,
      "learning_rate": 0.079508773245543,
      "loss": 0.2037,
      "num_input_tokens_seen": 24336400,
      "step": 26230
    },
    {
      "epoch": 12.36916548797737,
      "grad_norm": 0.00040520919719710946,
      "learning_rate": 0.07945678350423982,
      "loss": 0.3718,
      "num_input_tokens_seen": 24340480,
      "step": 26235
    },
    {
      "epoch": 12.371522866572372,
      "grad_norm": 0.0005973342340439558,
      "learning_rate": 0.07940480464158717,
      "loss": 0.3701,
      "num_input_tokens_seen": 24345936,
      "step": 26240
    },
    {
      "epoch": 12.373880245167374,
      "grad_norm": 0.0007579748635180295,
      "learning_rate": 0.07935283666560076,
      "loss": 0.3562,
      "num_input_tokens_seen": 24350480,
      "step": 26245
    },
    {
      "epoch": 12.376237623762377,
      "grad_norm": 0.0010833791457116604,
      "learning_rate": 0.07930087958429478,
      "loss": 0.3669,
      "num_input_tokens_seen": 24355024,
      "step": 26250
    },
    {
      "epoch": 12.378595002357379,
      "grad_norm": 0.00021892077347729355,
      "learning_rate": 0.07924893340568159,
      "loss": 0.3723,
      "num_input_tokens_seen": 24360176,
      "step": 26255
    },
    {
      "epoch": 12.380952380952381,
      "grad_norm": 0.00039769840077497065,
      "learning_rate": 0.07919699813777205,
      "loss": 0.324,
      "num_input_tokens_seen": 24364800,
      "step": 26260
    },
    {
      "epoch": 12.383309759547384,
      "grad_norm": 0.0003161898348480463,
      "learning_rate": 0.07914507378857515,
      "loss": 0.3445,
      "num_input_tokens_seen": 24369520,
      "step": 26265
    },
    {
      "epoch": 12.385667138142386,
      "grad_norm": 0.0003443551540840417,
      "learning_rate": 0.07909316036609822,
      "loss": 0.3586,
      "num_input_tokens_seen": 24374240,
      "step": 26270
    },
    {
      "epoch": 12.388024516737389,
      "grad_norm": 0.0008708164095878601,
      "learning_rate": 0.07904125787834704,
      "loss": 0.3265,
      "num_input_tokens_seen": 24378224,
      "step": 26275
    },
    {
      "epoch": 12.390381895332391,
      "grad_norm": 0.0004116116324439645,
      "learning_rate": 0.07898936633332569,
      "loss": 0.3412,
      "num_input_tokens_seen": 24381808,
      "step": 26280
    },
    {
      "epoch": 12.392739273927393,
      "grad_norm": 0.0003087134682573378,
      "learning_rate": 0.07893748573903635,
      "loss": 0.327,
      "num_input_tokens_seen": 24387232,
      "step": 26285
    },
    {
      "epoch": 12.395096652522396,
      "grad_norm": 0.00024945815675891936,
      "learning_rate": 0.0788856161034798,
      "loss": 0.3136,
      "num_input_tokens_seen": 24391680,
      "step": 26290
    },
    {
      "epoch": 12.397454031117398,
      "grad_norm": 0.00034497794695198536,
      "learning_rate": 0.07883375743465487,
      "loss": 0.317,
      "num_input_tokens_seen": 24396256,
      "step": 26295
    },
    {
      "epoch": 12.3998114097124,
      "grad_norm": 0.00033968716161325574,
      "learning_rate": 0.07878190974055888,
      "loss": 0.351,
      "num_input_tokens_seen": 24400880,
      "step": 26300
    },
    {
      "epoch": 12.402168788307403,
      "grad_norm": 0.0004104113613720983,
      "learning_rate": 0.07873007302918746,
      "loss": 0.3078,
      "num_input_tokens_seen": 24405872,
      "step": 26305
    },
    {
      "epoch": 12.404526166902404,
      "grad_norm": 0.0005916377995163202,
      "learning_rate": 0.07867824730853433,
      "loss": 0.3023,
      "num_input_tokens_seen": 24410640,
      "step": 26310
    },
    {
      "epoch": 12.406883545497408,
      "grad_norm": 0.0005659941234625876,
      "learning_rate": 0.07862643258659176,
      "loss": 0.3127,
      "num_input_tokens_seen": 24414976,
      "step": 26315
    },
    {
      "epoch": 12.409240924092408,
      "grad_norm": 0.0003596001479309052,
      "learning_rate": 0.07857462887135026,
      "loss": 0.3539,
      "num_input_tokens_seen": 24419904,
      "step": 26320
    },
    {
      "epoch": 12.41159830268741,
      "grad_norm": 0.00035101943649351597,
      "learning_rate": 0.0785228361707986,
      "loss": 0.2922,
      "num_input_tokens_seen": 24424752,
      "step": 26325
    },
    {
      "epoch": 12.413955681282413,
      "grad_norm": 0.0003016162372659892,
      "learning_rate": 0.07847105449292378,
      "loss": 0.3539,
      "num_input_tokens_seen": 24429056,
      "step": 26330
    },
    {
      "epoch": 12.416313059877416,
      "grad_norm": 0.0003524154599290341,
      "learning_rate": 0.0784192838457113,
      "loss": 0.2798,
      "num_input_tokens_seen": 24434352,
      "step": 26335
    },
    {
      "epoch": 12.418670438472418,
      "grad_norm": 0.00030895243980921805,
      "learning_rate": 0.07836752423714473,
      "loss": 0.2729,
      "num_input_tokens_seen": 24438880,
      "step": 26340
    },
    {
      "epoch": 12.42102781706742,
      "grad_norm": 0.0002987442130688578,
      "learning_rate": 0.07831577567520616,
      "loss": 0.3352,
      "num_input_tokens_seen": 24443408,
      "step": 26345
    },
    {
      "epoch": 12.423385195662423,
      "grad_norm": 0.0004986271378584206,
      "learning_rate": 0.07826403816787579,
      "loss": 0.3565,
      "num_input_tokens_seen": 24447536,
      "step": 26350
    },
    {
      "epoch": 12.425742574257425,
      "grad_norm": 0.0006741348188370466,
      "learning_rate": 0.0782123117231322,
      "loss": 0.3974,
      "num_input_tokens_seen": 24452848,
      "step": 26355
    },
    {
      "epoch": 12.428099952852428,
      "grad_norm": 0.0002326307148905471,
      "learning_rate": 0.07816059634895237,
      "loss": 0.3625,
      "num_input_tokens_seen": 24456608,
      "step": 26360
    },
    {
      "epoch": 12.43045733144743,
      "grad_norm": 0.0005121016874909401,
      "learning_rate": 0.0781088920533113,
      "loss": 0.3226,
      "num_input_tokens_seen": 24461344,
      "step": 26365
    },
    {
      "epoch": 12.432814710042432,
      "grad_norm": 0.0007400190806947649,
      "learning_rate": 0.07805719884418257,
      "loss": 0.3707,
      "num_input_tokens_seen": 24466336,
      "step": 26370
    },
    {
      "epoch": 12.435172088637435,
      "grad_norm": 0.0005833855830132961,
      "learning_rate": 0.07800551672953779,
      "loss": 0.352,
      "num_input_tokens_seen": 24470672,
      "step": 26375
    },
    {
      "epoch": 12.437529467232437,
      "grad_norm": 0.0004684206214733422,
      "learning_rate": 0.07795384571734709,
      "loss": 0.3342,
      "num_input_tokens_seen": 24475376,
      "step": 26380
    },
    {
      "epoch": 12.43988684582744,
      "grad_norm": 0.0005333401495590806,
      "learning_rate": 0.07790218581557883,
      "loss": 0.3311,
      "num_input_tokens_seen": 24480080,
      "step": 26385
    },
    {
      "epoch": 12.442244224422442,
      "grad_norm": 0.0004557813226711005,
      "learning_rate": 0.07785053703219949,
      "loss": 0.3236,
      "num_input_tokens_seen": 24484832,
      "step": 26390
    },
    {
      "epoch": 12.444601603017444,
      "grad_norm": 0.000279234373010695,
      "learning_rate": 0.07779889937517409,
      "loss": 0.3328,
      "num_input_tokens_seen": 24489344,
      "step": 26395
    },
    {
      "epoch": 12.446958981612447,
      "grad_norm": 0.00023936836805660278,
      "learning_rate": 0.0777472728524657,
      "loss": 0.2884,
      "num_input_tokens_seen": 24493584,
      "step": 26400
    },
    {
      "epoch": 12.446958981612447,
      "eval_loss": 0.3279377520084381,
      "eval_runtime": 33.5839,
      "eval_samples_per_second": 28.079,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 24493584,
      "step": 26400
    },
    {
      "epoch": 12.44931636020745,
      "grad_norm": 0.0005680156173184514,
      "learning_rate": 0.07769565747203584,
      "loss": 0.2929,
      "num_input_tokens_seen": 24498608,
      "step": 26405
    },
    {
      "epoch": 12.451673738802452,
      "grad_norm": 0.0010016892338171601,
      "learning_rate": 0.07764405324184427,
      "loss": 0.3047,
      "num_input_tokens_seen": 24503056,
      "step": 26410
    },
    {
      "epoch": 12.454031117397454,
      "grad_norm": 0.0006605098606087267,
      "learning_rate": 0.07759246016984889,
      "loss": 0.3637,
      "num_input_tokens_seen": 24507072,
      "step": 26415
    },
    {
      "epoch": 12.456388495992456,
      "grad_norm": 0.0002743294171523303,
      "learning_rate": 0.07754087826400609,
      "loss": 0.2973,
      "num_input_tokens_seen": 24511824,
      "step": 26420
    },
    {
      "epoch": 12.458745874587459,
      "grad_norm": 0.0004059549537487328,
      "learning_rate": 0.0774893075322705,
      "loss": 0.2988,
      "num_input_tokens_seen": 24516400,
      "step": 26425
    },
    {
      "epoch": 12.461103253182461,
      "grad_norm": 0.000635775038972497,
      "learning_rate": 0.07743774798259484,
      "loss": 0.3641,
      "num_input_tokens_seen": 24521424,
      "step": 26430
    },
    {
      "epoch": 12.463460631777464,
      "grad_norm": 0.00031167789711616933,
      "learning_rate": 0.07738619962293032,
      "loss": 0.2791,
      "num_input_tokens_seen": 24526336,
      "step": 26435
    },
    {
      "epoch": 12.465818010372466,
      "grad_norm": 0.0002220717433374375,
      "learning_rate": 0.0773346624612264,
      "loss": 0.3138,
      "num_input_tokens_seen": 24531616,
      "step": 26440
    },
    {
      "epoch": 12.468175388967468,
      "grad_norm": 0.0004064712848048657,
      "learning_rate": 0.07728313650543066,
      "loss": 0.3268,
      "num_input_tokens_seen": 24536448,
      "step": 26445
    },
    {
      "epoch": 12.47053276756247,
      "grad_norm": 0.0003917393332812935,
      "learning_rate": 0.07723162176348913,
      "loss": 0.2917,
      "num_input_tokens_seen": 24542160,
      "step": 26450
    },
    {
      "epoch": 12.472890146157473,
      "grad_norm": 0.0004856720333918929,
      "learning_rate": 0.07718011824334593,
      "loss": 0.313,
      "num_input_tokens_seen": 24546560,
      "step": 26455
    },
    {
      "epoch": 12.475247524752476,
      "grad_norm": 0.00031735526863485575,
      "learning_rate": 0.07712862595294363,
      "loss": 0.3919,
      "num_input_tokens_seen": 24551264,
      "step": 26460
    },
    {
      "epoch": 12.477604903347478,
      "grad_norm": 0.0003263109247200191,
      "learning_rate": 0.07707714490022301,
      "loss": 0.3634,
      "num_input_tokens_seen": 24555728,
      "step": 26465
    },
    {
      "epoch": 12.47996228194248,
      "grad_norm": 0.000489203492179513,
      "learning_rate": 0.07702567509312298,
      "loss": 0.3077,
      "num_input_tokens_seen": 24560944,
      "step": 26470
    },
    {
      "epoch": 12.482319660537483,
      "grad_norm": 0.0004558384825941175,
      "learning_rate": 0.07697421653958098,
      "loss": 0.2863,
      "num_input_tokens_seen": 24565616,
      "step": 26475
    },
    {
      "epoch": 12.484677039132485,
      "grad_norm": 0.00029728966183029115,
      "learning_rate": 0.07692276924753247,
      "loss": 0.4098,
      "num_input_tokens_seen": 24569712,
      "step": 26480
    },
    {
      "epoch": 12.487034417727488,
      "grad_norm": 0.00026775235892273486,
      "learning_rate": 0.07687133322491124,
      "loss": 0.2996,
      "num_input_tokens_seen": 24573952,
      "step": 26485
    },
    {
      "epoch": 12.48939179632249,
      "grad_norm": 0.00029064848786219954,
      "learning_rate": 0.07681990847964948,
      "loss": 0.325,
      "num_input_tokens_seen": 24578736,
      "step": 26490
    },
    {
      "epoch": 12.491749174917492,
      "grad_norm": 0.00040845529292710125,
      "learning_rate": 0.0767684950196774,
      "loss": 0.3167,
      "num_input_tokens_seen": 24584496,
      "step": 26495
    },
    {
      "epoch": 12.494106553512495,
      "grad_norm": 0.0002677409793250263,
      "learning_rate": 0.0767170928529237,
      "loss": 0.3645,
      "num_input_tokens_seen": 24589248,
      "step": 26500
    },
    {
      "epoch": 12.496463932107497,
      "grad_norm": 0.0003064811753574759,
      "learning_rate": 0.07666570198731526,
      "loss": 0.3135,
      "num_input_tokens_seen": 24594176,
      "step": 26505
    },
    {
      "epoch": 12.4988213107025,
      "grad_norm": 0.0006586685194633901,
      "learning_rate": 0.07661432243077708,
      "loss": 0.3016,
      "num_input_tokens_seen": 24598128,
      "step": 26510
    },
    {
      "epoch": 12.5011786892975,
      "grad_norm": 0.00021978832955937833,
      "learning_rate": 0.0765629541912326,
      "loss": 0.3407,
      "num_input_tokens_seen": 24602912,
      "step": 26515
    },
    {
      "epoch": 12.503536067892503,
      "grad_norm": 0.00025099239428527653,
      "learning_rate": 0.07651159727660352,
      "loss": 0.2999,
      "num_input_tokens_seen": 24607104,
      "step": 26520
    },
    {
      "epoch": 12.505893446487505,
      "grad_norm": 0.0003598589973989874,
      "learning_rate": 0.07646025169480959,
      "loss": 0.354,
      "num_input_tokens_seen": 24611968,
      "step": 26525
    },
    {
      "epoch": 12.508250825082508,
      "grad_norm": 0.00017345834930893034,
      "learning_rate": 0.07640891745376908,
      "loss": 0.3055,
      "num_input_tokens_seen": 24616576,
      "step": 26530
    },
    {
      "epoch": 12.51060820367751,
      "grad_norm": 0.000257834792137146,
      "learning_rate": 0.07635759456139822,
      "loss": 0.3493,
      "num_input_tokens_seen": 24620768,
      "step": 26535
    },
    {
      "epoch": 12.512965582272512,
      "grad_norm": 0.00022787672060076147,
      "learning_rate": 0.0763062830256118,
      "loss": 0.3187,
      "num_input_tokens_seen": 24625216,
      "step": 26540
    },
    {
      "epoch": 12.515322960867515,
      "grad_norm": 0.00018711945449467748,
      "learning_rate": 0.07625498285432258,
      "loss": 0.2867,
      "num_input_tokens_seen": 24629552,
      "step": 26545
    },
    {
      "epoch": 12.517680339462517,
      "grad_norm": 0.0005749955307692289,
      "learning_rate": 0.07620369405544176,
      "loss": 0.3439,
      "num_input_tokens_seen": 24634416,
      "step": 26550
    },
    {
      "epoch": 12.52003771805752,
      "grad_norm": 0.00016561264055781066,
      "learning_rate": 0.07615241663687868,
      "loss": 0.3813,
      "num_input_tokens_seen": 24638848,
      "step": 26555
    },
    {
      "epoch": 12.522395096652522,
      "grad_norm": 0.0002644163032528013,
      "learning_rate": 0.07610115060654106,
      "loss": 0.3637,
      "num_input_tokens_seen": 24643392,
      "step": 26560
    },
    {
      "epoch": 12.524752475247524,
      "grad_norm": 0.00037797997356392443,
      "learning_rate": 0.07604989597233458,
      "loss": 0.3323,
      "num_input_tokens_seen": 24647808,
      "step": 26565
    },
    {
      "epoch": 12.527109853842527,
      "grad_norm": 0.0002940521517302841,
      "learning_rate": 0.07599865274216352,
      "loss": 0.3387,
      "num_input_tokens_seen": 24652848,
      "step": 26570
    },
    {
      "epoch": 12.52946723243753,
      "grad_norm": 0.00047804348287172616,
      "learning_rate": 0.07594742092393013,
      "loss": 0.3107,
      "num_input_tokens_seen": 24657072,
      "step": 26575
    },
    {
      "epoch": 12.531824611032532,
      "grad_norm": 0.000390736386179924,
      "learning_rate": 0.07589620052553503,
      "loss": 0.2782,
      "num_input_tokens_seen": 24661264,
      "step": 26580
    },
    {
      "epoch": 12.534181989627534,
      "grad_norm": 0.0002462574339006096,
      "learning_rate": 0.0758449915548771,
      "loss": 0.3274,
      "num_input_tokens_seen": 24666176,
      "step": 26585
    },
    {
      "epoch": 12.536539368222536,
      "grad_norm": 0.0005274628638289869,
      "learning_rate": 0.07579379401985332,
      "loss": 0.2568,
      "num_input_tokens_seen": 24670544,
      "step": 26590
    },
    {
      "epoch": 12.538896746817539,
      "grad_norm": 0.0002556423714850098,
      "learning_rate": 0.07574260792835905,
      "loss": 0.3422,
      "num_input_tokens_seen": 24674400,
      "step": 26595
    },
    {
      "epoch": 12.541254125412541,
      "grad_norm": 0.0005648741498589516,
      "learning_rate": 0.07569143328828784,
      "loss": 0.3503,
      "num_input_tokens_seen": 24679264,
      "step": 26600
    },
    {
      "epoch": 12.541254125412541,
      "eval_loss": 0.32726234197616577,
      "eval_runtime": 33.5737,
      "eval_samples_per_second": 28.087,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 24679264,
      "step": 26600
    },
    {
      "epoch": 12.543611504007544,
      "grad_norm": 0.00023188597697298974,
      "learning_rate": 0.0756402701075314,
      "loss": 0.3017,
      "num_input_tokens_seen": 24683952,
      "step": 26605
    },
    {
      "epoch": 12.545968882602546,
      "grad_norm": 0.00035319747985340655,
      "learning_rate": 0.07558911839397982,
      "loss": 0.3578,
      "num_input_tokens_seen": 24689232,
      "step": 26610
    },
    {
      "epoch": 12.548326261197548,
      "grad_norm": 0.0003979901666752994,
      "learning_rate": 0.07553797815552123,
      "loss": 0.292,
      "num_input_tokens_seen": 24693888,
      "step": 26615
    },
    {
      "epoch": 12.55068363979255,
      "grad_norm": 0.00047964032273739576,
      "learning_rate": 0.07548684940004222,
      "loss": 0.2704,
      "num_input_tokens_seen": 24698624,
      "step": 26620
    },
    {
      "epoch": 12.553041018387553,
      "grad_norm": 0.0003886040358338505,
      "learning_rate": 0.07543573213542744,
      "loss": 0.3321,
      "num_input_tokens_seen": 24703808,
      "step": 26625
    },
    {
      "epoch": 12.555398396982556,
      "grad_norm": 0.000382021302357316,
      "learning_rate": 0.0753846263695597,
      "loss": 0.3409,
      "num_input_tokens_seen": 24707968,
      "step": 26630
    },
    {
      "epoch": 12.557755775577558,
      "grad_norm": 0.0006540619651786983,
      "learning_rate": 0.07533353211032029,
      "loss": 0.3545,
      "num_input_tokens_seen": 24712368,
      "step": 26635
    },
    {
      "epoch": 12.56011315417256,
      "grad_norm": 0.00024183654750231653,
      "learning_rate": 0.07528244936558857,
      "loss": 0.3536,
      "num_input_tokens_seen": 24716224,
      "step": 26640
    },
    {
      "epoch": 12.562470532767563,
      "grad_norm": 0.00036652572453022003,
      "learning_rate": 0.07523137814324206,
      "loss": 0.2762,
      "num_input_tokens_seen": 24720432,
      "step": 26645
    },
    {
      "epoch": 12.564827911362565,
      "grad_norm": 0.0002418982476228848,
      "learning_rate": 0.07518031845115672,
      "loss": 0.3193,
      "num_input_tokens_seen": 24725184,
      "step": 26650
    },
    {
      "epoch": 12.567185289957568,
      "grad_norm": 0.0005087152239866555,
      "learning_rate": 0.07512927029720647,
      "loss": 0.2983,
      "num_input_tokens_seen": 24729504,
      "step": 26655
    },
    {
      "epoch": 12.56954266855257,
      "grad_norm": 0.00030519822030328214,
      "learning_rate": 0.0750782336892636,
      "loss": 0.3784,
      "num_input_tokens_seen": 24734224,
      "step": 26660
    },
    {
      "epoch": 12.571900047147572,
      "grad_norm": 0.0005920676048845053,
      "learning_rate": 0.0750272086351987,
      "loss": 0.3633,
      "num_input_tokens_seen": 24738736,
      "step": 26665
    },
    {
      "epoch": 12.574257425742575,
      "grad_norm": 0.00031438106088899076,
      "learning_rate": 0.07497619514288031,
      "loss": 0.2952,
      "num_input_tokens_seen": 24742832,
      "step": 26670
    },
    {
      "epoch": 12.576614804337577,
      "grad_norm": 0.0005861737299710512,
      "learning_rate": 0.07492519322017545,
      "loss": 0.3982,
      "num_input_tokens_seen": 24747584,
      "step": 26675
    },
    {
      "epoch": 12.57897218293258,
      "grad_norm": 0.0005813444149680436,
      "learning_rate": 0.0748742028749493,
      "loss": 0.3328,
      "num_input_tokens_seen": 24751888,
      "step": 26680
    },
    {
      "epoch": 12.581329561527582,
      "grad_norm": 0.00024330161977559328,
      "learning_rate": 0.0748232241150651,
      "loss": 0.3139,
      "num_input_tokens_seen": 24756720,
      "step": 26685
    },
    {
      "epoch": 12.583686940122584,
      "grad_norm": 0.0002626337227411568,
      "learning_rate": 0.07477225694838453,
      "loss": 0.3193,
      "num_input_tokens_seen": 24761632,
      "step": 26690
    },
    {
      "epoch": 12.586044318717587,
      "grad_norm": 0.0006239296635612845,
      "learning_rate": 0.07472130138276731,
      "loss": 0.3325,
      "num_input_tokens_seen": 24766160,
      "step": 26695
    },
    {
      "epoch": 12.58840169731259,
      "grad_norm": 0.0004638723039533943,
      "learning_rate": 0.07467035742607138,
      "loss": 0.3538,
      "num_input_tokens_seen": 24771216,
      "step": 26700
    },
    {
      "epoch": 12.590759075907592,
      "grad_norm": 0.0002533218648750335,
      "learning_rate": 0.07461942508615303,
      "loss": 0.3121,
      "num_input_tokens_seen": 24777232,
      "step": 26705
    },
    {
      "epoch": 12.593116454502592,
      "grad_norm": 0.0006632041186094284,
      "learning_rate": 0.07456850437086657,
      "loss": 0.3007,
      "num_input_tokens_seen": 24781472,
      "step": 26710
    },
    {
      "epoch": 12.595473833097596,
      "grad_norm": 0.00043834347161464393,
      "learning_rate": 0.07451759528806468,
      "loss": 0.3131,
      "num_input_tokens_seen": 24785360,
      "step": 26715
    },
    {
      "epoch": 12.597831211692597,
      "grad_norm": 0.0002777304907795042,
      "learning_rate": 0.0744666978455982,
      "loss": 0.3117,
      "num_input_tokens_seen": 24790736,
      "step": 26720
    },
    {
      "epoch": 12.6001885902876,
      "grad_norm": 0.00026601774152368307,
      "learning_rate": 0.07441581205131609,
      "loss": 0.3235,
      "num_input_tokens_seen": 24795568,
      "step": 26725
    },
    {
      "epoch": 12.602545968882602,
      "grad_norm": 0.0002686941879801452,
      "learning_rate": 0.07436493791306566,
      "loss": 0.34,
      "num_input_tokens_seen": 24800144,
      "step": 26730
    },
    {
      "epoch": 12.604903347477604,
      "grad_norm": 0.0007323529571294785,
      "learning_rate": 0.07431407543869223,
      "loss": 0.3056,
      "num_input_tokens_seen": 24804832,
      "step": 26735
    },
    {
      "epoch": 12.607260726072607,
      "grad_norm": 0.00023870998120401055,
      "learning_rate": 0.0742632246360395,
      "loss": 0.3529,
      "num_input_tokens_seen": 24809760,
      "step": 26740
    },
    {
      "epoch": 12.609618104667609,
      "grad_norm": 0.0004834186111111194,
      "learning_rate": 0.07421238551294934,
      "loss": 0.3181,
      "num_input_tokens_seen": 24814112,
      "step": 26745
    },
    {
      "epoch": 12.611975483262611,
      "grad_norm": 0.00019464171782601625,
      "learning_rate": 0.07416155807726171,
      "loss": 0.2836,
      "num_input_tokens_seen": 24818384,
      "step": 26750
    },
    {
      "epoch": 12.614332861857614,
      "grad_norm": 0.0004343364271335304,
      "learning_rate": 0.07411074233681492,
      "loss": 0.3414,
      "num_input_tokens_seen": 24823296,
      "step": 26755
    },
    {
      "epoch": 12.616690240452616,
      "grad_norm": 0.0006405315361917019,
      "learning_rate": 0.07405993829944528,
      "loss": 0.3475,
      "num_input_tokens_seen": 24828272,
      "step": 26760
    },
    {
      "epoch": 12.619047619047619,
      "grad_norm": 0.00025979033671319485,
      "learning_rate": 0.07400914597298755,
      "loss": 0.3292,
      "num_input_tokens_seen": 24833072,
      "step": 26765
    },
    {
      "epoch": 12.621404997642621,
      "grad_norm": 0.0005254031275399029,
      "learning_rate": 0.07395836536527445,
      "loss": 0.3715,
      "num_input_tokens_seen": 24837440,
      "step": 26770
    },
    {
      "epoch": 12.623762376237623,
      "grad_norm": 0.0004771664971485734,
      "learning_rate": 0.07390759648413696,
      "loss": 0.3298,
      "num_input_tokens_seen": 24840896,
      "step": 26775
    },
    {
      "epoch": 12.626119754832626,
      "grad_norm": 0.0005842481041327119,
      "learning_rate": 0.07385683933740435,
      "loss": 0.2983,
      "num_input_tokens_seen": 24845552,
      "step": 26780
    },
    {
      "epoch": 12.628477133427628,
      "grad_norm": 0.0010313084349036217,
      "learning_rate": 0.07380609393290402,
      "loss": 0.3425,
      "num_input_tokens_seen": 24849392,
      "step": 26785
    },
    {
      "epoch": 12.63083451202263,
      "grad_norm": 0.0004781229072250426,
      "learning_rate": 0.07375536027846147,
      "loss": 0.3106,
      "num_input_tokens_seen": 24853584,
      "step": 26790
    },
    {
      "epoch": 12.633191890617633,
      "grad_norm": 0.00030710676219314337,
      "learning_rate": 0.07370463838190057,
      "loss": 0.3275,
      "num_input_tokens_seen": 24857168,
      "step": 26795
    },
    {
      "epoch": 12.635549269212635,
      "grad_norm": 0.0003587166138458997,
      "learning_rate": 0.07365392825104317,
      "loss": 0.3456,
      "num_input_tokens_seen": 24861136,
      "step": 26800
    },
    {
      "epoch": 12.635549269212635,
      "eval_loss": 0.32801857590675354,
      "eval_runtime": 33.5951,
      "eval_samples_per_second": 28.07,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 24861136,
      "step": 26800
    },
    {
      "epoch": 12.637906647807638,
      "grad_norm": 0.00043134239967912436,
      "learning_rate": 0.07360322989370945,
      "loss": 0.2959,
      "num_input_tokens_seen": 24865968,
      "step": 26805
    },
    {
      "epoch": 12.64026402640264,
      "grad_norm": 0.0007054942543618381,
      "learning_rate": 0.07355254331771781,
      "loss": 0.367,
      "num_input_tokens_seen": 24871520,
      "step": 26810
    },
    {
      "epoch": 12.642621404997643,
      "grad_norm": 0.0002556830004323274,
      "learning_rate": 0.07350186853088461,
      "loss": 0.3693,
      "num_input_tokens_seen": 24875664,
      "step": 26815
    },
    {
      "epoch": 12.644978783592645,
      "grad_norm": 0.000548600684851408,
      "learning_rate": 0.07345120554102462,
      "loss": 0.3696,
      "num_input_tokens_seen": 24879760,
      "step": 26820
    },
    {
      "epoch": 12.647336162187647,
      "grad_norm": 0.0004917539190500975,
      "learning_rate": 0.07340055435595079,
      "loss": 0.317,
      "num_input_tokens_seen": 24885040,
      "step": 26825
    },
    {
      "epoch": 12.64969354078265,
      "grad_norm": 0.00022219191305339336,
      "learning_rate": 0.07334991498347401,
      "loss": 0.316,
      "num_input_tokens_seen": 24890416,
      "step": 26830
    },
    {
      "epoch": 12.652050919377652,
      "grad_norm": 0.0005849364679306746,
      "learning_rate": 0.07329928743140365,
      "loss": 0.2876,
      "num_input_tokens_seen": 24895680,
      "step": 26835
    },
    {
      "epoch": 12.654408297972655,
      "grad_norm": 0.000592266907915473,
      "learning_rate": 0.07324867170754705,
      "loss": 0.3202,
      "num_input_tokens_seen": 24900864,
      "step": 26840
    },
    {
      "epoch": 12.656765676567657,
      "grad_norm": 0.00033568358048796654,
      "learning_rate": 0.07319806781970974,
      "loss": 0.3554,
      "num_input_tokens_seen": 24905840,
      "step": 26845
    },
    {
      "epoch": 12.65912305516266,
      "grad_norm": 0.0004033869772683829,
      "learning_rate": 0.07314747577569555,
      "loss": 0.3332,
      "num_input_tokens_seen": 24910384,
      "step": 26850
    },
    {
      "epoch": 12.661480433757662,
      "grad_norm": 0.0003297364164609462,
      "learning_rate": 0.07309689558330636,
      "loss": 0.3399,
      "num_input_tokens_seen": 24915136,
      "step": 26855
    },
    {
      "epoch": 12.663837812352664,
      "grad_norm": 0.00037756265373900533,
      "learning_rate": 0.0730463272503423,
      "loss": 0.3543,
      "num_input_tokens_seen": 24920880,
      "step": 26860
    },
    {
      "epoch": 12.666195190947667,
      "grad_norm": 0.0007563230465166271,
      "learning_rate": 0.07299577078460168,
      "loss": 0.3268,
      "num_input_tokens_seen": 24925296,
      "step": 26865
    },
    {
      "epoch": 12.668552569542669,
      "grad_norm": 0.0008027868461795151,
      "learning_rate": 0.07294522619388083,
      "loss": 0.3642,
      "num_input_tokens_seen": 24930192,
      "step": 26870
    },
    {
      "epoch": 12.670909948137671,
      "grad_norm": 0.0007552916067652404,
      "learning_rate": 0.07289469348597452,
      "loss": 0.3546,
      "num_input_tokens_seen": 24935152,
      "step": 26875
    },
    {
      "epoch": 12.673267326732674,
      "grad_norm": 0.0003636504407040775,
      "learning_rate": 0.07284417266867535,
      "loss": 0.3416,
      "num_input_tokens_seen": 24940256,
      "step": 26880
    },
    {
      "epoch": 12.675624705327676,
      "grad_norm": 0.0004301958833821118,
      "learning_rate": 0.07279366374977439,
      "loss": 0.3058,
      "num_input_tokens_seen": 24944880,
      "step": 26885
    },
    {
      "epoch": 12.677982083922679,
      "grad_norm": 0.000608034199103713,
      "learning_rate": 0.07274316673706074,
      "loss": 0.3634,
      "num_input_tokens_seen": 24949920,
      "step": 26890
    },
    {
      "epoch": 12.680339462517681,
      "grad_norm": 0.0005747932009398937,
      "learning_rate": 0.07269268163832161,
      "loss": 0.3115,
      "num_input_tokens_seen": 24954736,
      "step": 26895
    },
    {
      "epoch": 12.682696841112683,
      "grad_norm": 0.0003997823514509946,
      "learning_rate": 0.07264220846134248,
      "loss": 0.3212,
      "num_input_tokens_seen": 24958736,
      "step": 26900
    },
    {
      "epoch": 12.685054219707686,
      "grad_norm": 0.0003652576415333897,
      "learning_rate": 0.07259174721390699,
      "loss": 0.3054,
      "num_input_tokens_seen": 24962704,
      "step": 26905
    },
    {
      "epoch": 12.687411598302688,
      "grad_norm": 0.00028827041387557983,
      "learning_rate": 0.07254129790379686,
      "loss": 0.3223,
      "num_input_tokens_seen": 24966944,
      "step": 26910
    },
    {
      "epoch": 12.689768976897689,
      "grad_norm": 0.0002386830747127533,
      "learning_rate": 0.072490860538792,
      "loss": 0.3349,
      "num_input_tokens_seen": 24971536,
      "step": 26915
    },
    {
      "epoch": 12.692126355492691,
      "grad_norm": 0.0004869506519753486,
      "learning_rate": 0.07244043512667042,
      "loss": 0.352,
      "num_input_tokens_seen": 24975808,
      "step": 26920
    },
    {
      "epoch": 12.694483734087694,
      "grad_norm": 0.00045344268437474966,
      "learning_rate": 0.07239002167520843,
      "loss": 0.3582,
      "num_input_tokens_seen": 24980912,
      "step": 26925
    },
    {
      "epoch": 12.696841112682696,
      "grad_norm": 0.00024435980594716966,
      "learning_rate": 0.07233962019218045,
      "loss": 0.341,
      "num_input_tokens_seen": 24985760,
      "step": 26930
    },
    {
      "epoch": 12.699198491277699,
      "grad_norm": 0.0002587329945527017,
      "learning_rate": 0.07228923068535892,
      "loss": 0.3168,
      "num_input_tokens_seen": 24990016,
      "step": 26935
    },
    {
      "epoch": 12.701555869872701,
      "grad_norm": 0.0005368049023672938,
      "learning_rate": 0.0722388531625146,
      "loss": 0.2767,
      "num_input_tokens_seen": 24995376,
      "step": 26940
    },
    {
      "epoch": 12.703913248467703,
      "grad_norm": 0.000330597220454365,
      "learning_rate": 0.07218848763141639,
      "loss": 0.321,
      "num_input_tokens_seen": 24999296,
      "step": 26945
    },
    {
      "epoch": 12.706270627062706,
      "grad_norm": 0.0005125239840708673,
      "learning_rate": 0.07213813409983118,
      "loss": 0.3202,
      "num_input_tokens_seen": 25003216,
      "step": 26950
    },
    {
      "epoch": 12.708628005657708,
      "grad_norm": 0.0004765289486385882,
      "learning_rate": 0.0720877925755242,
      "loss": 0.3456,
      "num_input_tokens_seen": 25007424,
      "step": 26955
    },
    {
      "epoch": 12.71098538425271,
      "grad_norm": 0.0004034567973576486,
      "learning_rate": 0.07203746306625866,
      "loss": 0.3078,
      "num_input_tokens_seen": 25011808,
      "step": 26960
    },
    {
      "epoch": 12.713342762847713,
      "grad_norm": 0.0006515842978842556,
      "learning_rate": 0.07198714557979606,
      "loss": 0.3499,
      "num_input_tokens_seen": 25016128,
      "step": 26965
    },
    {
      "epoch": 12.715700141442715,
      "grad_norm": 0.00036736196489073336,
      "learning_rate": 0.07193684012389602,
      "loss": 0.2961,
      "num_input_tokens_seen": 25020096,
      "step": 26970
    },
    {
      "epoch": 12.718057520037718,
      "grad_norm": 0.00023537878587376326,
      "learning_rate": 0.07188654670631621,
      "loss": 0.3089,
      "num_input_tokens_seen": 25024448,
      "step": 26975
    },
    {
      "epoch": 12.72041489863272,
      "grad_norm": 0.0002503102004993707,
      "learning_rate": 0.07183626533481258,
      "loss": 0.3799,
      "num_input_tokens_seen": 25028832,
      "step": 26980
    },
    {
      "epoch": 12.722772277227723,
      "grad_norm": 0.00025061811902560294,
      "learning_rate": 0.07178599601713909,
      "loss": 0.2959,
      "num_input_tokens_seen": 25033168,
      "step": 26985
    },
    {
      "epoch": 12.725129655822725,
      "grad_norm": 0.0002649019006639719,
      "learning_rate": 0.07173573876104786,
      "loss": 0.3318,
      "num_input_tokens_seen": 25037488,
      "step": 26990
    },
    {
      "epoch": 12.727487034417727,
      "grad_norm": 0.0003554726717993617,
      "learning_rate": 0.0716854935742893,
      "loss": 0.3073,
      "num_input_tokens_seen": 25041920,
      "step": 26995
    },
    {
      "epoch": 12.72984441301273,
      "grad_norm": 0.0002623863983899355,
      "learning_rate": 0.07163526046461174,
      "loss": 0.3058,
      "num_input_tokens_seen": 25046496,
      "step": 27000
    },
    {
      "epoch": 12.72984441301273,
      "eval_loss": 0.32669514417648315,
      "eval_runtime": 33.6418,
      "eval_samples_per_second": 28.031,
      "eval_steps_per_second": 14.03,
      "num_input_tokens_seen": 25046496,
      "step": 27000
    },
    {
      "epoch": 12.732201791607732,
      "grad_norm": 0.0004857828898821026,
      "learning_rate": 0.07158503943976181,
      "loss": 0.3116,
      "num_input_tokens_seen": 25050576,
      "step": 27005
    },
    {
      "epoch": 12.734559170202735,
      "grad_norm": 0.00028291670605540276,
      "learning_rate": 0.07153483050748427,
      "loss": 0.3548,
      "num_input_tokens_seen": 25054784,
      "step": 27010
    },
    {
      "epoch": 12.736916548797737,
      "grad_norm": 0.0006884754984639585,
      "learning_rate": 0.07148463367552188,
      "loss": 0.3735,
      "num_input_tokens_seen": 25059104,
      "step": 27015
    },
    {
      "epoch": 12.73927392739274,
      "grad_norm": 0.00021554857084993273,
      "learning_rate": 0.07143444895161565,
      "loss": 0.3112,
      "num_input_tokens_seen": 25063536,
      "step": 27020
    },
    {
      "epoch": 12.741631305987742,
      "grad_norm": 0.0003103074268437922,
      "learning_rate": 0.07138427634350476,
      "loss": 0.2945,
      "num_input_tokens_seen": 25068384,
      "step": 27025
    },
    {
      "epoch": 12.743988684582744,
      "grad_norm": 0.0004066299006808549,
      "learning_rate": 0.07133411585892636,
      "loss": 0.3797,
      "num_input_tokens_seen": 25073504,
      "step": 27030
    },
    {
      "epoch": 12.746346063177747,
      "grad_norm": 0.0003625115496106446,
      "learning_rate": 0.07128396750561593,
      "loss": 0.3267,
      "num_input_tokens_seen": 25078048,
      "step": 27035
    },
    {
      "epoch": 12.748703441772749,
      "grad_norm": 0.00028708003810606897,
      "learning_rate": 0.07123383129130685,
      "loss": 0.2813,
      "num_input_tokens_seen": 25082512,
      "step": 27040
    },
    {
      "epoch": 12.751060820367751,
      "grad_norm": 0.0002653943665791303,
      "learning_rate": 0.07118370722373084,
      "loss": 0.3251,
      "num_input_tokens_seen": 25087360,
      "step": 27045
    },
    {
      "epoch": 12.753418198962754,
      "grad_norm": 0.00023262895410880446,
      "learning_rate": 0.07113359531061769,
      "loss": 0.3423,
      "num_input_tokens_seen": 25091600,
      "step": 27050
    },
    {
      "epoch": 12.755775577557756,
      "grad_norm": 0.00026980621623806655,
      "learning_rate": 0.07108349555969525,
      "loss": 0.3444,
      "num_input_tokens_seen": 25096256,
      "step": 27055
    },
    {
      "epoch": 12.758132956152759,
      "grad_norm": 0.0006293314509093761,
      "learning_rate": 0.07103340797868944,
      "loss": 0.3332,
      "num_input_tokens_seen": 25100976,
      "step": 27060
    },
    {
      "epoch": 12.760490334747761,
      "grad_norm": 0.00029432770679704845,
      "learning_rate": 0.07098333257532453,
      "loss": 0.3192,
      "num_input_tokens_seen": 25105840,
      "step": 27065
    },
    {
      "epoch": 12.762847713342763,
      "grad_norm": 0.0005764111992903054,
      "learning_rate": 0.07093326935732269,
      "loss": 0.3278,
      "num_input_tokens_seen": 25110528,
      "step": 27070
    },
    {
      "epoch": 12.765205091937766,
      "grad_norm": 0.0003115557483397424,
      "learning_rate": 0.0708832183324044,
      "loss": 0.3298,
      "num_input_tokens_seen": 25115328,
      "step": 27075
    },
    {
      "epoch": 12.767562470532768,
      "grad_norm": 0.0001727156195556745,
      "learning_rate": 0.07083317950828799,
      "loss": 0.335,
      "num_input_tokens_seen": 25119856,
      "step": 27080
    },
    {
      "epoch": 12.76991984912777,
      "grad_norm": 0.00040233059553429484,
      "learning_rate": 0.0707831528926902,
      "loss": 0.3369,
      "num_input_tokens_seen": 25125520,
      "step": 27085
    },
    {
      "epoch": 12.772277227722773,
      "grad_norm": 0.00033248026738874614,
      "learning_rate": 0.07073313849332578,
      "loss": 0.325,
      "num_input_tokens_seen": 25131136,
      "step": 27090
    },
    {
      "epoch": 12.774634606317775,
      "grad_norm": 0.0003102481714449823,
      "learning_rate": 0.07068313631790749,
      "loss": 0.4145,
      "num_input_tokens_seen": 25136128,
      "step": 27095
    },
    {
      "epoch": 12.776991984912778,
      "grad_norm": 0.0003164673107676208,
      "learning_rate": 0.07063314637414632,
      "loss": 0.3042,
      "num_input_tokens_seen": 25141568,
      "step": 27100
    },
    {
      "epoch": 12.77934936350778,
      "grad_norm": 0.0005157013074494898,
      "learning_rate": 0.07058316866975144,
      "loss": 0.3559,
      "num_input_tokens_seen": 25145984,
      "step": 27105
    },
    {
      "epoch": 12.78170674210278,
      "grad_norm": 0.0002280039043398574,
      "learning_rate": 0.0705332032124299,
      "loss": 0.3602,
      "num_input_tokens_seen": 25150752,
      "step": 27110
    },
    {
      "epoch": 12.784064120697785,
      "grad_norm": 0.0003328457532916218,
      "learning_rate": 0.0704832500098871,
      "loss": 0.367,
      "num_input_tokens_seen": 25156112,
      "step": 27115
    },
    {
      "epoch": 12.786421499292786,
      "grad_norm": 0.00032560405088588595,
      "learning_rate": 0.07043330906982641,
      "loss": 0.2986,
      "num_input_tokens_seen": 25159904,
      "step": 27120
    },
    {
      "epoch": 12.788778877887788,
      "grad_norm": 0.0003714230260811746,
      "learning_rate": 0.07038338039994936,
      "loss": 0.329,
      "num_input_tokens_seen": 25163856,
      "step": 27125
    },
    {
      "epoch": 12.79113625648279,
      "grad_norm": 0.0002926867746282369,
      "learning_rate": 0.07033346400795562,
      "loss": 0.3142,
      "num_input_tokens_seen": 25168752,
      "step": 27130
    },
    {
      "epoch": 12.793493635077793,
      "grad_norm": 0.00026821441133506596,
      "learning_rate": 0.07028355990154282,
      "loss": 0.3608,
      "num_input_tokens_seen": 25172304,
      "step": 27135
    },
    {
      "epoch": 12.795851013672795,
      "grad_norm": 0.0002280186745338142,
      "learning_rate": 0.07023366808840685,
      "loss": 0.3448,
      "num_input_tokens_seen": 25176944,
      "step": 27140
    },
    {
      "epoch": 12.798208392267798,
      "grad_norm": 0.00048313854495063424,
      "learning_rate": 0.07018378857624172,
      "loss": 0.368,
      "num_input_tokens_seen": 25181632,
      "step": 27145
    },
    {
      "epoch": 12.8005657708628,
      "grad_norm": 0.0003370647318661213,
      "learning_rate": 0.0701339213727394,
      "loss": 0.3338,
      "num_input_tokens_seen": 25186416,
      "step": 27150
    },
    {
      "epoch": 12.802923149457802,
      "grad_norm": 0.0003359166148584336,
      "learning_rate": 0.07008406648559008,
      "loss": 0.3299,
      "num_input_tokens_seen": 25190800,
      "step": 27155
    },
    {
      "epoch": 12.805280528052805,
      "grad_norm": 0.0006547574885189533,
      "learning_rate": 0.07003422392248196,
      "loss": 0.3413,
      "num_input_tokens_seen": 25195760,
      "step": 27160
    },
    {
      "epoch": 12.807637906647807,
      "grad_norm": 0.0007851719856262207,
      "learning_rate": 0.06998439369110142,
      "loss": 0.3269,
      "num_input_tokens_seen": 25200048,
      "step": 27165
    },
    {
      "epoch": 12.80999528524281,
      "grad_norm": 0.0006617247709073126,
      "learning_rate": 0.06993457579913295,
      "loss": 0.3317,
      "num_input_tokens_seen": 25204976,
      "step": 27170
    },
    {
      "epoch": 12.812352663837812,
      "grad_norm": 0.0002822264505084604,
      "learning_rate": 0.06988477025425903,
      "loss": 0.3071,
      "num_input_tokens_seen": 25209264,
      "step": 27175
    },
    {
      "epoch": 12.814710042432814,
      "grad_norm": 0.0006614230806007981,
      "learning_rate": 0.06983497706416032,
      "loss": 0.3361,
      "num_input_tokens_seen": 25213952,
      "step": 27180
    },
    {
      "epoch": 12.817067421027817,
      "grad_norm": 0.00023036528727971017,
      "learning_rate": 0.0697851962365156,
      "loss": 0.3297,
      "num_input_tokens_seen": 25218512,
      "step": 27185
    },
    {
      "epoch": 12.81942479962282,
      "grad_norm": 0.000331592105794698,
      "learning_rate": 0.06973542777900163,
      "loss": 0.3343,
      "num_input_tokens_seen": 25222656,
      "step": 27190
    },
    {
      "epoch": 12.821782178217822,
      "grad_norm": 0.0002314594603376463,
      "learning_rate": 0.06968567169929342,
      "loss": 0.3469,
      "num_input_tokens_seen": 25226560,
      "step": 27195
    },
    {
      "epoch": 12.824139556812824,
      "grad_norm": 0.00027875747764483094,
      "learning_rate": 0.06963592800506392,
      "loss": 0.3181,
      "num_input_tokens_seen": 25230592,
      "step": 27200
    },
    {
      "epoch": 12.824139556812824,
      "eval_loss": 0.3271976411342621,
      "eval_runtime": 33.5583,
      "eval_samples_per_second": 28.1,
      "eval_steps_per_second": 14.065,
      "num_input_tokens_seen": 25230592,
      "step": 27200
    },
    {
      "epoch": 12.826496935407826,
      "grad_norm": 0.000566201051697135,
      "learning_rate": 0.06958619670398417,
      "loss": 0.2863,
      "num_input_tokens_seen": 25234560,
      "step": 27205
    },
    {
      "epoch": 12.828854314002829,
      "grad_norm": 0.0003397780819796026,
      "learning_rate": 0.0695364778037235,
      "loss": 0.3313,
      "num_input_tokens_seen": 25239600,
      "step": 27210
    },
    {
      "epoch": 12.831211692597831,
      "grad_norm": 0.0005335613968782127,
      "learning_rate": 0.06948677131194907,
      "loss": 0.3311,
      "num_input_tokens_seen": 25244464,
      "step": 27215
    },
    {
      "epoch": 12.833569071192834,
      "grad_norm": 0.00033589365193620324,
      "learning_rate": 0.06943707723632629,
      "loss": 0.3924,
      "num_input_tokens_seen": 25249312,
      "step": 27220
    },
    {
      "epoch": 12.835926449787836,
      "grad_norm": 0.0005592897068709135,
      "learning_rate": 0.06938739558451867,
      "loss": 0.3261,
      "num_input_tokens_seen": 25253584,
      "step": 27225
    },
    {
      "epoch": 12.838283828382838,
      "grad_norm": 0.000263041554717347,
      "learning_rate": 0.06933772636418763,
      "loss": 0.3212,
      "num_input_tokens_seen": 25257920,
      "step": 27230
    },
    {
      "epoch": 12.84064120697784,
      "grad_norm": 0.0003790983173530549,
      "learning_rate": 0.06928806958299293,
      "loss": 0.3209,
      "num_input_tokens_seen": 25262448,
      "step": 27235
    },
    {
      "epoch": 12.842998585572843,
      "grad_norm": 0.0005743906367570162,
      "learning_rate": 0.06923842524859211,
      "loss": 0.2691,
      "num_input_tokens_seen": 25266848,
      "step": 27240
    },
    {
      "epoch": 12.845355964167846,
      "grad_norm": 0.00040964054642245173,
      "learning_rate": 0.06918879336864105,
      "loss": 0.3454,
      "num_input_tokens_seen": 25271472,
      "step": 27245
    },
    {
      "epoch": 12.847713342762848,
      "grad_norm": 0.0004955698968842626,
      "learning_rate": 0.06913917395079362,
      "loss": 0.2933,
      "num_input_tokens_seen": 25275648,
      "step": 27250
    },
    {
      "epoch": 12.85007072135785,
      "grad_norm": 0.0005589632201008499,
      "learning_rate": 0.0690895670027017,
      "loss": 0.3546,
      "num_input_tokens_seen": 25279536,
      "step": 27255
    },
    {
      "epoch": 12.852428099952853,
      "grad_norm": 0.0003247251152060926,
      "learning_rate": 0.06903997253201531,
      "loss": 0.372,
      "num_input_tokens_seen": 25284128,
      "step": 27260
    },
    {
      "epoch": 12.854785478547855,
      "grad_norm": 0.00022496386372949928,
      "learning_rate": 0.06899039054638263,
      "loss": 0.3137,
      "num_input_tokens_seen": 25288096,
      "step": 27265
    },
    {
      "epoch": 12.857142857142858,
      "grad_norm": 0.0005135115352459252,
      "learning_rate": 0.06894082105344976,
      "loss": 0.3355,
      "num_input_tokens_seen": 25293392,
      "step": 27270
    },
    {
      "epoch": 12.85950023573786,
      "grad_norm": 0.000283689092611894,
      "learning_rate": 0.06889126406086087,
      "loss": 0.3159,
      "num_input_tokens_seen": 25298336,
      "step": 27275
    },
    {
      "epoch": 12.861857614332862,
      "grad_norm": 0.0005763627705164254,
      "learning_rate": 0.0688417195762584,
      "loss": 0.3409,
      "num_input_tokens_seen": 25303152,
      "step": 27280
    },
    {
      "epoch": 12.864214992927865,
      "grad_norm": 0.0005365728284232318,
      "learning_rate": 0.06879218760728262,
      "loss": 0.3261,
      "num_input_tokens_seen": 25307792,
      "step": 27285
    },
    {
      "epoch": 12.866572371522867,
      "grad_norm": 0.000491075508762151,
      "learning_rate": 0.06874266816157207,
      "loss": 0.3365,
      "num_input_tokens_seen": 25311680,
      "step": 27290
    },
    {
      "epoch": 12.86892975011787,
      "grad_norm": 0.00026377884205430746,
      "learning_rate": 0.06869316124676321,
      "loss": 0.3362,
      "num_input_tokens_seen": 25316208,
      "step": 27295
    },
    {
      "epoch": 12.871287128712872,
      "grad_norm": 0.0004807862569577992,
      "learning_rate": 0.06864366687049062,
      "loss": 0.335,
      "num_input_tokens_seen": 25320368,
      "step": 27300
    },
    {
      "epoch": 12.873644507307874,
      "grad_norm": 0.0002968689368572086,
      "learning_rate": 0.06859418504038704,
      "loss": 0.3107,
      "num_input_tokens_seen": 25324512,
      "step": 27305
    },
    {
      "epoch": 12.876001885902877,
      "grad_norm": 0.000359479570761323,
      "learning_rate": 0.06854471576408311,
      "loss": 0.3476,
      "num_input_tokens_seen": 25329200,
      "step": 27310
    },
    {
      "epoch": 12.878359264497877,
      "grad_norm": 0.0007593145710416138,
      "learning_rate": 0.06849525904920767,
      "loss": 0.313,
      "num_input_tokens_seen": 25333632,
      "step": 27315
    },
    {
      "epoch": 12.88071664309288,
      "grad_norm": 0.00032497014035470784,
      "learning_rate": 0.06844581490338748,
      "loss": 0.3666,
      "num_input_tokens_seen": 25338096,
      "step": 27320
    },
    {
      "epoch": 12.883074021687882,
      "grad_norm": 0.00017424122779630125,
      "learning_rate": 0.06839638333424752,
      "loss": 0.3177,
      "num_input_tokens_seen": 25342704,
      "step": 27325
    },
    {
      "epoch": 12.885431400282885,
      "grad_norm": 0.0005682221380993724,
      "learning_rate": 0.06834696434941082,
      "loss": 0.3845,
      "num_input_tokens_seen": 25347280,
      "step": 27330
    },
    {
      "epoch": 12.887788778877887,
      "grad_norm": 0.0005337915499694645,
      "learning_rate": 0.06829755795649824,
      "loss": 0.3049,
      "num_input_tokens_seen": 25351552,
      "step": 27335
    },
    {
      "epoch": 12.89014615747289,
      "grad_norm": 0.0002690485562197864,
      "learning_rate": 0.06824816416312904,
      "loss": 0.3566,
      "num_input_tokens_seen": 25356480,
      "step": 27340
    },
    {
      "epoch": 12.892503536067892,
      "grad_norm": 0.0003754821082111448,
      "learning_rate": 0.06819878297692027,
      "loss": 0.3171,
      "num_input_tokens_seen": 25360736,
      "step": 27345
    },
    {
      "epoch": 12.894860914662894,
      "grad_norm": 0.0008634236874058843,
      "learning_rate": 0.0681494144054871,
      "loss": 0.3668,
      "num_input_tokens_seen": 25366160,
      "step": 27350
    },
    {
      "epoch": 12.897218293257897,
      "grad_norm": 0.00029359760810621083,
      "learning_rate": 0.06810005845644286,
      "loss": 0.3322,
      "num_input_tokens_seen": 25370160,
      "step": 27355
    },
    {
      "epoch": 12.899575671852899,
      "grad_norm": 0.0005895893555134535,
      "learning_rate": 0.06805071513739878,
      "loss": 0.3196,
      "num_input_tokens_seen": 25374160,
      "step": 27360
    },
    {
      "epoch": 12.901933050447902,
      "grad_norm": 0.00030859169783070683,
      "learning_rate": 0.06800138445596428,
      "loss": 0.2891,
      "num_input_tokens_seen": 25378640,
      "step": 27365
    },
    {
      "epoch": 12.904290429042904,
      "grad_norm": 0.0002534536470193416,
      "learning_rate": 0.06795206641974678,
      "loss": 0.3327,
      "num_input_tokens_seen": 25383360,
      "step": 27370
    },
    {
      "epoch": 12.906647807637906,
      "grad_norm": 0.00044506852282211185,
      "learning_rate": 0.06790276103635169,
      "loss": 0.3526,
      "num_input_tokens_seen": 25388592,
      "step": 27375
    },
    {
      "epoch": 12.909005186232909,
      "grad_norm": 0.0005504694418050349,
      "learning_rate": 0.0678534683133826,
      "loss": 0.2992,
      "num_input_tokens_seen": 25393472,
      "step": 27380
    },
    {
      "epoch": 12.911362564827911,
      "grad_norm": 0.0002692325506359339,
      "learning_rate": 0.06780418825844095,
      "loss": 0.3473,
      "num_input_tokens_seen": 25397600,
      "step": 27385
    },
    {
      "epoch": 12.913719943422914,
      "grad_norm": 0.000255411519901827,
      "learning_rate": 0.0677549208791264,
      "loss": 0.3305,
      "num_input_tokens_seen": 25402256,
      "step": 27390
    },
    {
      "epoch": 12.916077322017916,
      "grad_norm": 0.0003308618033770472,
      "learning_rate": 0.06770566618303668,
      "loss": 0.3026,
      "num_input_tokens_seen": 25407200,
      "step": 27395
    },
    {
      "epoch": 12.918434700612918,
      "grad_norm": 0.00031146471155807376,
      "learning_rate": 0.06765642417776736,
      "loss": 0.3211,
      "num_input_tokens_seen": 25411904,
      "step": 27400
    },
    {
      "epoch": 12.918434700612918,
      "eval_loss": 0.32676875591278076,
      "eval_runtime": 33.5818,
      "eval_samples_per_second": 28.081,
      "eval_steps_per_second": 14.055,
      "num_input_tokens_seen": 25411904,
      "step": 27400
    },
    {
      "epoch": 12.92079207920792,
      "grad_norm": 0.0004979753284715116,
      "learning_rate": 0.0676071948709122,
      "loss": 0.2783,
      "num_input_tokens_seen": 25417056,
      "step": 27405
    },
    {
      "epoch": 12.923149457802923,
      "grad_norm": 0.0004026956739835441,
      "learning_rate": 0.06755797827006307,
      "loss": 0.33,
      "num_input_tokens_seen": 25423184,
      "step": 27410
    },
    {
      "epoch": 12.925506836397926,
      "grad_norm": 0.0004747721541207284,
      "learning_rate": 0.06750877438280974,
      "loss": 0.3167,
      "num_input_tokens_seen": 25427936,
      "step": 27415
    },
    {
      "epoch": 12.927864214992928,
      "grad_norm": 0.00023039287771098316,
      "learning_rate": 0.06745958321673998,
      "loss": 0.3435,
      "num_input_tokens_seen": 25432560,
      "step": 27420
    },
    {
      "epoch": 12.93022159358793,
      "grad_norm": 0.00036271082353778183,
      "learning_rate": 0.0674104047794398,
      "loss": 0.26,
      "num_input_tokens_seen": 25437584,
      "step": 27425
    },
    {
      "epoch": 12.932578972182933,
      "grad_norm": 0.0003294309717603028,
      "learning_rate": 0.06736123907849303,
      "loss": 0.3082,
      "num_input_tokens_seen": 25442464,
      "step": 27430
    },
    {
      "epoch": 12.934936350777935,
      "grad_norm": 0.0005444050766527653,
      "learning_rate": 0.06731208612148178,
      "loss": 0.3757,
      "num_input_tokens_seen": 25447152,
      "step": 27435
    },
    {
      "epoch": 12.937293729372938,
      "grad_norm": 0.0001534190378151834,
      "learning_rate": 0.0672629459159859,
      "loss": 0.289,
      "num_input_tokens_seen": 25451408,
      "step": 27440
    },
    {
      "epoch": 12.93965110796794,
      "grad_norm": 0.0003130909171886742,
      "learning_rate": 0.0672138184695835,
      "loss": 0.3625,
      "num_input_tokens_seen": 25455904,
      "step": 27445
    },
    {
      "epoch": 12.942008486562942,
      "grad_norm": 0.0004271100624464452,
      "learning_rate": 0.0671647037898507,
      "loss": 0.2953,
      "num_input_tokens_seen": 25460672,
      "step": 27450
    },
    {
      "epoch": 12.944365865157945,
      "grad_norm": 0.0006329576135613024,
      "learning_rate": 0.0671156018843615,
      "loss": 0.3096,
      "num_input_tokens_seen": 25465344,
      "step": 27455
    },
    {
      "epoch": 12.946723243752947,
      "grad_norm": 0.000236534106079489,
      "learning_rate": 0.06706651276068812,
      "loss": 0.3291,
      "num_input_tokens_seen": 25468816,
      "step": 27460
    },
    {
      "epoch": 12.94908062234795,
      "grad_norm": 0.0006472649401985109,
      "learning_rate": 0.06701743642640064,
      "loss": 0.3682,
      "num_input_tokens_seen": 25473616,
      "step": 27465
    },
    {
      "epoch": 12.951438000942952,
      "grad_norm": 0.00041528360452502966,
      "learning_rate": 0.06696837288906729,
      "loss": 0.35,
      "num_input_tokens_seen": 25477952,
      "step": 27470
    },
    {
      "epoch": 12.953795379537954,
      "grad_norm": 0.0005068432656116784,
      "learning_rate": 0.06691932215625432,
      "loss": 0.3916,
      "num_input_tokens_seen": 25482672,
      "step": 27475
    },
    {
      "epoch": 12.956152758132957,
      "grad_norm": 0.0008502874406985939,
      "learning_rate": 0.06687028423552589,
      "loss": 0.3438,
      "num_input_tokens_seen": 25487264,
      "step": 27480
    },
    {
      "epoch": 12.95851013672796,
      "grad_norm": 0.0002666498185135424,
      "learning_rate": 0.06682125913444435,
      "loss": 0.3573,
      "num_input_tokens_seen": 25492240,
      "step": 27485
    },
    {
      "epoch": 12.960867515322962,
      "grad_norm": 0.000984391663223505,
      "learning_rate": 0.0667722468605699,
      "loss": 0.3708,
      "num_input_tokens_seen": 25496384,
      "step": 27490
    },
    {
      "epoch": 12.963224893917964,
      "grad_norm": 0.00034882890759035945,
      "learning_rate": 0.06672324742146094,
      "loss": 0.3389,
      "num_input_tokens_seen": 25500720,
      "step": 27495
    },
    {
      "epoch": 12.965582272512966,
      "grad_norm": 0.0002618970174808055,
      "learning_rate": 0.06667426082467373,
      "loss": 0.3134,
      "num_input_tokens_seen": 25505376,
      "step": 27500
    },
    {
      "epoch": 12.967939651107969,
      "grad_norm": 0.000573266705032438,
      "learning_rate": 0.0666252870777626,
      "loss": 0.3607,
      "num_input_tokens_seen": 25509344,
      "step": 27505
    },
    {
      "epoch": 12.97029702970297,
      "grad_norm": 0.0005037797964178026,
      "learning_rate": 0.06657632618827995,
      "loss": 0.3487,
      "num_input_tokens_seen": 25513456,
      "step": 27510
    },
    {
      "epoch": 12.972654408297974,
      "grad_norm": 0.000512219441588968,
      "learning_rate": 0.06652737816377623,
      "loss": 0.3564,
      "num_input_tokens_seen": 25518544,
      "step": 27515
    },
    {
      "epoch": 12.975011786892974,
      "grad_norm": 0.0003157324390485883,
      "learning_rate": 0.06647844301179971,
      "loss": 0.3348,
      "num_input_tokens_seen": 25523536,
      "step": 27520
    },
    {
      "epoch": 12.977369165487977,
      "grad_norm": 0.00038810563273727894,
      "learning_rate": 0.06642952073989689,
      "loss": 0.325,
      "num_input_tokens_seen": 25528512,
      "step": 27525
    },
    {
      "epoch": 12.979726544082979,
      "grad_norm": 0.0006776456139050424,
      "learning_rate": 0.06638061135561223,
      "loss": 0.3678,
      "num_input_tokens_seen": 25533184,
      "step": 27530
    },
    {
      "epoch": 12.982083922677981,
      "grad_norm": 0.0002784397511277348,
      "learning_rate": 0.06633171486648808,
      "loss": 0.3432,
      "num_input_tokens_seen": 25537232,
      "step": 27535
    },
    {
      "epoch": 12.984441301272984,
      "grad_norm": 0.00037146752583794296,
      "learning_rate": 0.06628283128006499,
      "loss": 0.342,
      "num_input_tokens_seen": 25541600,
      "step": 27540
    },
    {
      "epoch": 12.986798679867986,
      "grad_norm": 0.000967194966506213,
      "learning_rate": 0.0662339606038813,
      "loss": 0.3357,
      "num_input_tokens_seen": 25546160,
      "step": 27545
    },
    {
      "epoch": 12.989156058462989,
      "grad_norm": 0.0003322869015391916,
      "learning_rate": 0.06618510284547358,
      "loss": 0.343,
      "num_input_tokens_seen": 25550656,
      "step": 27550
    },
    {
      "epoch": 12.991513437057991,
      "grad_norm": 0.00037060046452097595,
      "learning_rate": 0.06613625801237633,
      "loss": 0.3081,
      "num_input_tokens_seen": 25554688,
      "step": 27555
    },
    {
      "epoch": 12.993870815652993,
      "grad_norm": 0.0005898483796045184,
      "learning_rate": 0.066087426112122,
      "loss": 0.2972,
      "num_input_tokens_seen": 25559968,
      "step": 27560
    },
    {
      "epoch": 12.996228194247996,
      "grad_norm": 0.00023785715166013688,
      "learning_rate": 0.06603860715224101,
      "loss": 0.3192,
      "num_input_tokens_seen": 25564384,
      "step": 27565
    },
    {
      "epoch": 12.998585572842998,
      "grad_norm": 0.00032360749901272357,
      "learning_rate": 0.06598980114026198,
      "loss": 0.2977,
      "num_input_tokens_seen": 25568432,
      "step": 27570
    },
    {
      "epoch": 13.000942951438,
      "grad_norm": 0.0002612338284961879,
      "learning_rate": 0.06594100808371128,
      "loss": 0.3219,
      "num_input_tokens_seen": 25573504,
      "step": 27575
    },
    {
      "epoch": 13.003300330033003,
      "grad_norm": 0.00028298026882112026,
      "learning_rate": 0.06589222799011357,
      "loss": 0.3364,
      "num_input_tokens_seen": 25578608,
      "step": 27580
    },
    {
      "epoch": 13.005657708628005,
      "grad_norm": 0.00025760941207408905,
      "learning_rate": 0.0658434608669912,
      "loss": 0.3966,
      "num_input_tokens_seen": 25582800,
      "step": 27585
    },
    {
      "epoch": 13.008015087223008,
      "grad_norm": 0.00022580700169783086,
      "learning_rate": 0.06579470672186473,
      "loss": 0.3143,
      "num_input_tokens_seen": 25586944,
      "step": 27590
    },
    {
      "epoch": 13.01037246581801,
      "grad_norm": 0.00028743009897880256,
      "learning_rate": 0.06574596556225275,
      "loss": 0.3513,
      "num_input_tokens_seen": 25591344,
      "step": 27595
    },
    {
      "epoch": 13.012729844413013,
      "grad_norm": 0.0003260729426983744,
      "learning_rate": 0.06569723739567161,
      "loss": 0.3335,
      "num_input_tokens_seen": 25595280,
      "step": 27600
    },
    {
      "epoch": 13.012729844413013,
      "eval_loss": 0.32835593819618225,
      "eval_runtime": 33.6181,
      "eval_samples_per_second": 28.05,
      "eval_steps_per_second": 14.04,
      "num_input_tokens_seen": 25595280,
      "step": 27600
    },
    {
      "epoch": 13.015087223008015,
      "grad_norm": 0.0006973771378397942,
      "learning_rate": 0.06564852222963588,
      "loss": 0.3215,
      "num_input_tokens_seen": 25600304,
      "step": 27605
    },
    {
      "epoch": 13.017444601603017,
      "grad_norm": 0.0003033370594494045,
      "learning_rate": 0.06559982007165813,
      "loss": 0.2819,
      "num_input_tokens_seen": 25604544,
      "step": 27610
    },
    {
      "epoch": 13.01980198019802,
      "grad_norm": 0.0002299950720043853,
      "learning_rate": 0.06555113092924868,
      "loss": 0.2858,
      "num_input_tokens_seen": 25609072,
      "step": 27615
    },
    {
      "epoch": 13.022159358793022,
      "grad_norm": 0.00026226721820421517,
      "learning_rate": 0.06550245480991615,
      "loss": 0.3706,
      "num_input_tokens_seen": 25612688,
      "step": 27620
    },
    {
      "epoch": 13.024516737388025,
      "grad_norm": 0.0003032540262211114,
      "learning_rate": 0.0654537917211669,
      "loss": 0.3515,
      "num_input_tokens_seen": 25616368,
      "step": 27625
    },
    {
      "epoch": 13.026874115983027,
      "grad_norm": 0.0008036828367039561,
      "learning_rate": 0.0654051416705055,
      "loss": 0.3558,
      "num_input_tokens_seen": 25620352,
      "step": 27630
    },
    {
      "epoch": 13.02923149457803,
      "grad_norm": 0.00025894015561789274,
      "learning_rate": 0.06535650466543427,
      "loss": 0.3334,
      "num_input_tokens_seen": 25625360,
      "step": 27635
    },
    {
      "epoch": 13.031588873173032,
      "grad_norm": 0.0003473614633549005,
      "learning_rate": 0.0653078807134538,
      "loss": 0.2975,
      "num_input_tokens_seen": 25630432,
      "step": 27640
    },
    {
      "epoch": 13.033946251768034,
      "grad_norm": 0.0005020677926950157,
      "learning_rate": 0.06525926982206236,
      "loss": 0.3387,
      "num_input_tokens_seen": 25635632,
      "step": 27645
    },
    {
      "epoch": 13.036303630363037,
      "grad_norm": 0.0005098796682432294,
      "learning_rate": 0.06521067199875648,
      "loss": 0.329,
      "num_input_tokens_seen": 25640176,
      "step": 27650
    },
    {
      "epoch": 13.038661008958039,
      "grad_norm": 0.0002888882299885154,
      "learning_rate": 0.06516208725103047,
      "loss": 0.3257,
      "num_input_tokens_seen": 25645184,
      "step": 27655
    },
    {
      "epoch": 13.041018387553041,
      "grad_norm": 0.00026226622867397964,
      "learning_rate": 0.06511351558637678,
      "loss": 0.3554,
      "num_input_tokens_seen": 25648992,
      "step": 27660
    },
    {
      "epoch": 13.043375766148044,
      "grad_norm": 0.0002525768068153411,
      "learning_rate": 0.06506495701228569,
      "loss": 0.3678,
      "num_input_tokens_seen": 25653936,
      "step": 27665
    },
    {
      "epoch": 13.045733144743046,
      "grad_norm": 0.0002514136431273073,
      "learning_rate": 0.06501641153624559,
      "loss": 0.327,
      "num_input_tokens_seen": 25658832,
      "step": 27670
    },
    {
      "epoch": 13.048090523338049,
      "grad_norm": 0.0005622057942673564,
      "learning_rate": 0.06496787916574286,
      "loss": 0.3652,
      "num_input_tokens_seen": 25663232,
      "step": 27675
    },
    {
      "epoch": 13.050447901933051,
      "grad_norm": 0.0002376166667090729,
      "learning_rate": 0.06491935990826168,
      "loss": 0.3247,
      "num_input_tokens_seen": 25668448,
      "step": 27680
    },
    {
      "epoch": 13.052805280528053,
      "grad_norm": 0.0005882810801267624,
      "learning_rate": 0.0648708537712844,
      "loss": 0.3435,
      "num_input_tokens_seen": 25672816,
      "step": 27685
    },
    {
      "epoch": 13.055162659123056,
      "grad_norm": 0.0005573833477683365,
      "learning_rate": 0.06482236076229132,
      "loss": 0.3016,
      "num_input_tokens_seen": 25677008,
      "step": 27690
    },
    {
      "epoch": 13.057520037718058,
      "grad_norm": 0.0002462215779814869,
      "learning_rate": 0.06477388088876056,
      "loss": 0.3122,
      "num_input_tokens_seen": 25681568,
      "step": 27695
    },
    {
      "epoch": 13.05987741631306,
      "grad_norm": 0.0002900865802075714,
      "learning_rate": 0.06472541415816846,
      "loss": 0.3272,
      "num_input_tokens_seen": 25686896,
      "step": 27700
    },
    {
      "epoch": 13.062234794908063,
      "grad_norm": 0.0002468894817866385,
      "learning_rate": 0.06467696057798909,
      "loss": 0.3239,
      "num_input_tokens_seen": 25692128,
      "step": 27705
    },
    {
      "epoch": 13.064592173503065,
      "grad_norm": 0.0003179370251018554,
      "learning_rate": 0.0646285201556946,
      "loss": 0.3346,
      "num_input_tokens_seen": 25696048,
      "step": 27710
    },
    {
      "epoch": 13.066949552098066,
      "grad_norm": 0.0005746214301325381,
      "learning_rate": 0.06458009289875521,
      "loss": 0.3472,
      "num_input_tokens_seen": 25700752,
      "step": 27715
    },
    {
      "epoch": 13.069306930693068,
      "grad_norm": 0.0005337755428627133,
      "learning_rate": 0.0645316788146389,
      "loss": 0.3043,
      "num_input_tokens_seen": 25705456,
      "step": 27720
    },
    {
      "epoch": 13.07166430928807,
      "grad_norm": 0.000592266209423542,
      "learning_rate": 0.06448327791081175,
      "loss": 0.3809,
      "num_input_tokens_seen": 25709296,
      "step": 27725
    },
    {
      "epoch": 13.074021687883073,
      "grad_norm": 0.00042086991015821695,
      "learning_rate": 0.0644348901947379,
      "loss": 0.3448,
      "num_input_tokens_seen": 25714464,
      "step": 27730
    },
    {
      "epoch": 13.076379066478076,
      "grad_norm": 0.0005454609636217356,
      "learning_rate": 0.06438651567387917,
      "loss": 0.2598,
      "num_input_tokens_seen": 25719040,
      "step": 27735
    },
    {
      "epoch": 13.078736445073078,
      "grad_norm": 0.0002528793993405998,
      "learning_rate": 0.0643381543556957,
      "loss": 0.2882,
      "num_input_tokens_seen": 25724080,
      "step": 27740
    },
    {
      "epoch": 13.08109382366808,
      "grad_norm": 0.0002594070101622492,
      "learning_rate": 0.06428980624764526,
      "loss": 0.3292,
      "num_input_tokens_seen": 25728736,
      "step": 27745
    },
    {
      "epoch": 13.083451202263083,
      "grad_norm": 0.00024125678464770317,
      "learning_rate": 0.06424147135718378,
      "loss": 0.3575,
      "num_input_tokens_seen": 25733504,
      "step": 27750
    },
    {
      "epoch": 13.085808580858085,
      "grad_norm": 0.00032209570053964853,
      "learning_rate": 0.06419314969176519,
      "loss": 0.3736,
      "num_input_tokens_seen": 25737520,
      "step": 27755
    },
    {
      "epoch": 13.088165959453088,
      "grad_norm": 0.00033620104659348726,
      "learning_rate": 0.06414484125884118,
      "loss": 0.3549,
      "num_input_tokens_seen": 25742000,
      "step": 27760
    },
    {
      "epoch": 13.09052333804809,
      "grad_norm": 0.00033925267052836716,
      "learning_rate": 0.06409654606586157,
      "loss": 0.3543,
      "num_input_tokens_seen": 25746336,
      "step": 27765
    },
    {
      "epoch": 13.092880716643092,
      "grad_norm": 0.0003715106286108494,
      "learning_rate": 0.06404826412027415,
      "loss": 0.3327,
      "num_input_tokens_seen": 25750560,
      "step": 27770
    },
    {
      "epoch": 13.095238095238095,
      "grad_norm": 0.0003935527056455612,
      "learning_rate": 0.06399999542952453,
      "loss": 0.3361,
      "num_input_tokens_seen": 25754768,
      "step": 27775
    },
    {
      "epoch": 13.097595473833097,
      "grad_norm": 0.00032495296909473836,
      "learning_rate": 0.0639517400010563,
      "loss": 0.3396,
      "num_input_tokens_seen": 25759280,
      "step": 27780
    },
    {
      "epoch": 13.0999528524281,
      "grad_norm": 0.0005008607404306531,
      "learning_rate": 0.06390349784231118,
      "loss": 0.3249,
      "num_input_tokens_seen": 25763840,
      "step": 27785
    },
    {
      "epoch": 13.102310231023102,
      "grad_norm": 0.0005171417724341154,
      "learning_rate": 0.06385526896072859,
      "loss": 0.3337,
      "num_input_tokens_seen": 25768480,
      "step": 27790
    },
    {
      "epoch": 13.104667609618105,
      "grad_norm": 0.00037335188244469464,
      "learning_rate": 0.06380705336374613,
      "loss": 0.3526,
      "num_input_tokens_seen": 25773184,
      "step": 27795
    },
    {
      "epoch": 13.107024988213107,
      "grad_norm": 0.00031295904773287475,
      "learning_rate": 0.06375885105879918,
      "loss": 0.3438,
      "num_input_tokens_seen": 25777696,
      "step": 27800
    },
    {
      "epoch": 13.107024988213107,
      "eval_loss": 0.33598676323890686,
      "eval_runtime": 33.6078,
      "eval_samples_per_second": 28.059,
      "eval_steps_per_second": 14.044,
      "num_input_tokens_seen": 25777696,
      "step": 27800
    },
    {
      "epoch": 13.10938236680811,
      "grad_norm": 0.0009527787333354354,
      "learning_rate": 0.06371066205332115,
      "loss": 0.3431,
      "num_input_tokens_seen": 25782768,
      "step": 27805
    },
    {
      "epoch": 13.111739745403112,
      "grad_norm": 0.0007888923864811659,
      "learning_rate": 0.06366248635474347,
      "loss": 0.334,
      "num_input_tokens_seen": 25788048,
      "step": 27810
    },
    {
      "epoch": 13.114097123998114,
      "grad_norm": 0.00041846244130283594,
      "learning_rate": 0.06361432397049532,
      "loss": 0.331,
      "num_input_tokens_seen": 25792416,
      "step": 27815
    },
    {
      "epoch": 13.116454502593117,
      "grad_norm": 0.0004387090157251805,
      "learning_rate": 0.06356617490800408,
      "loss": 0.3475,
      "num_input_tokens_seen": 25796192,
      "step": 27820
    },
    {
      "epoch": 13.118811881188119,
      "grad_norm": 0.0004388539236970246,
      "learning_rate": 0.06351803917469478,
      "loss": 0.3355,
      "num_input_tokens_seen": 25801296,
      "step": 27825
    },
    {
      "epoch": 13.121169259783121,
      "grad_norm": 0.0003328290185891092,
      "learning_rate": 0.06346991677799067,
      "loss": 0.3418,
      "num_input_tokens_seen": 25806160,
      "step": 27830
    },
    {
      "epoch": 13.123526638378124,
      "grad_norm": 0.000874265213496983,
      "learning_rate": 0.06342180772531283,
      "loss": 0.36,
      "num_input_tokens_seen": 25810240,
      "step": 27835
    },
    {
      "epoch": 13.125884016973126,
      "grad_norm": 0.00029698104481212795,
      "learning_rate": 0.06337371202408021,
      "loss": 0.3034,
      "num_input_tokens_seen": 25814656,
      "step": 27840
    },
    {
      "epoch": 13.128241395568129,
      "grad_norm": 0.000305549445329234,
      "learning_rate": 0.06332562968170984,
      "loss": 0.3495,
      "num_input_tokens_seen": 25818944,
      "step": 27845
    },
    {
      "epoch": 13.130598774163131,
      "grad_norm": 0.00044318768777884543,
      "learning_rate": 0.06327756070561656,
      "loss": 0.3371,
      "num_input_tokens_seen": 25824160,
      "step": 27850
    },
    {
      "epoch": 13.132956152758133,
      "grad_norm": 0.0002888177696149796,
      "learning_rate": 0.06322950510321329,
      "loss": 0.3154,
      "num_input_tokens_seen": 25828288,
      "step": 27855
    },
    {
      "epoch": 13.135313531353136,
      "grad_norm": 0.0003679272485896945,
      "learning_rate": 0.06318146288191076,
      "loss": 0.3495,
      "num_input_tokens_seen": 25833120,
      "step": 27860
    },
    {
      "epoch": 13.137670909948138,
      "grad_norm": 0.0006676626508124173,
      "learning_rate": 0.06313343404911763,
      "loss": 0.3219,
      "num_input_tokens_seen": 25837920,
      "step": 27865
    },
    {
      "epoch": 13.14002828854314,
      "grad_norm": 0.0003413396771065891,
      "learning_rate": 0.0630854186122406,
      "loss": 0.2931,
      "num_input_tokens_seen": 25842000,
      "step": 27870
    },
    {
      "epoch": 13.142385667138143,
      "grad_norm": 0.0003553866990841925,
      "learning_rate": 0.06303741657868431,
      "loss": 0.3059,
      "num_input_tokens_seen": 25846704,
      "step": 27875
    },
    {
      "epoch": 13.144743045733145,
      "grad_norm": 0.0007136222557164729,
      "learning_rate": 0.06298942795585115,
      "loss": 0.3346,
      "num_input_tokens_seen": 25851888,
      "step": 27880
    },
    {
      "epoch": 13.147100424328148,
      "grad_norm": 0.00035130608011968434,
      "learning_rate": 0.06294145275114167,
      "loss": 0.3902,
      "num_input_tokens_seen": 25857040,
      "step": 27885
    },
    {
      "epoch": 13.14945780292315,
      "grad_norm": 0.0004348247603047639,
      "learning_rate": 0.06289349097195428,
      "loss": 0.3663,
      "num_input_tokens_seen": 25861600,
      "step": 27890
    },
    {
      "epoch": 13.151815181518153,
      "grad_norm": 0.0007796165882609785,
      "learning_rate": 0.06284554262568516,
      "loss": 0.3419,
      "num_input_tokens_seen": 25866560,
      "step": 27895
    },
    {
      "epoch": 13.154172560113155,
      "grad_norm": 0.0002838159562088549,
      "learning_rate": 0.06279760771972868,
      "loss": 0.332,
      "num_input_tokens_seen": 25871360,
      "step": 27900
    },
    {
      "epoch": 13.156529938708157,
      "grad_norm": 0.0006291297031566501,
      "learning_rate": 0.06274968626147688,
      "loss": 0.3588,
      "num_input_tokens_seen": 25876784,
      "step": 27905
    },
    {
      "epoch": 13.15888731730316,
      "grad_norm": 0.0008026004652492702,
      "learning_rate": 0.06270177825831993,
      "loss": 0.3235,
      "num_input_tokens_seen": 25881008,
      "step": 27910
    },
    {
      "epoch": 13.16124469589816,
      "grad_norm": 0.0002538402914069593,
      "learning_rate": 0.06265388371764587,
      "loss": 0.341,
      "num_input_tokens_seen": 25885904,
      "step": 27915
    },
    {
      "epoch": 13.163602074493163,
      "grad_norm": 0.0003322128613945097,
      "learning_rate": 0.0626060026468406,
      "loss": 0.336,
      "num_input_tokens_seen": 25889856,
      "step": 27920
    },
    {
      "epoch": 13.165959453088165,
      "grad_norm": 0.0006209154962562025,
      "learning_rate": 0.06255813505328794,
      "loss": 0.3176,
      "num_input_tokens_seen": 25894944,
      "step": 27925
    },
    {
      "epoch": 13.168316831683168,
      "grad_norm": 0.0002852579054888338,
      "learning_rate": 0.06251028094436978,
      "loss": 0.3576,
      "num_input_tokens_seen": 25899008,
      "step": 27930
    },
    {
      "epoch": 13.17067421027817,
      "grad_norm": 0.00026658858405426145,
      "learning_rate": 0.06246244032746568,
      "loss": 0.3698,
      "num_input_tokens_seen": 25903040,
      "step": 27935
    },
    {
      "epoch": 13.173031588873172,
      "grad_norm": 0.0002605145564302802,
      "learning_rate": 0.06241461320995342,
      "loss": 0.3028,
      "num_input_tokens_seen": 25907664,
      "step": 27940
    },
    {
      "epoch": 13.175388967468175,
      "grad_norm": 0.00023758976021781564,
      "learning_rate": 0.062366799599208426,
      "loss": 0.3187,
      "num_input_tokens_seen": 25911552,
      "step": 27945
    },
    {
      "epoch": 13.177746346063177,
      "grad_norm": 0.0003130885597784072,
      "learning_rate": 0.06231899950260418,
      "loss": 0.3254,
      "num_input_tokens_seen": 25915952,
      "step": 27950
    },
    {
      "epoch": 13.18010372465818,
      "grad_norm": 0.0006087481160648167,
      "learning_rate": 0.06227121292751214,
      "loss": 0.3431,
      "num_input_tokens_seen": 25920800,
      "step": 27955
    },
    {
      "epoch": 13.182461103253182,
      "grad_norm": 0.0008171621011570096,
      "learning_rate": 0.062223439881301496,
      "loss": 0.3155,
      "num_input_tokens_seen": 25926352,
      "step": 27960
    },
    {
      "epoch": 13.184818481848184,
      "grad_norm": 0.00034847023198381066,
      "learning_rate": 0.06217568037133948,
      "loss": 0.3246,
      "num_input_tokens_seen": 25931744,
      "step": 27965
    },
    {
      "epoch": 13.187175860443187,
      "grad_norm": 0.0004364143533166498,
      "learning_rate": 0.06212793440499126,
      "loss": 0.3622,
      "num_input_tokens_seen": 25936080,
      "step": 27970
    },
    {
      "epoch": 13.18953323903819,
      "grad_norm": 0.0005332419532351196,
      "learning_rate": 0.062080201989619783,
      "loss": 0.3223,
      "num_input_tokens_seen": 25940624,
      "step": 27975
    },
    {
      "epoch": 13.191890617633192,
      "grad_norm": 0.000987352104857564,
      "learning_rate": 0.062032483132586094,
      "loss": 0.3258,
      "num_input_tokens_seen": 25945072,
      "step": 27980
    },
    {
      "epoch": 13.194247996228194,
      "grad_norm": 0.0004895488964393735,
      "learning_rate": 0.0619847778412489,
      "loss": 0.3427,
      "num_input_tokens_seen": 25949344,
      "step": 27985
    },
    {
      "epoch": 13.196605374823196,
      "grad_norm": 0.0004208892351016402,
      "learning_rate": 0.06193708612296509,
      "loss": 0.29,
      "num_input_tokens_seen": 25954496,
      "step": 27990
    },
    {
      "epoch": 13.198962753418199,
      "grad_norm": 0.0003106491349171847,
      "learning_rate": 0.06188940798508923,
      "loss": 0.3167,
      "num_input_tokens_seen": 25958416,
      "step": 27995
    },
    {
      "epoch": 13.201320132013201,
      "grad_norm": 0.000252180005190894,
      "learning_rate": 0.06184174343497397,
      "loss": 0.3493,
      "num_input_tokens_seen": 25963552,
      "step": 28000
    },
    {
      "epoch": 13.201320132013201,
      "eval_loss": 0.32762473821640015,
      "eval_runtime": 33.5663,
      "eval_samples_per_second": 28.094,
      "eval_steps_per_second": 14.062,
      "num_input_tokens_seen": 25963552,
      "step": 28000
    },
    {
      "epoch": 13.203677510608204,
      "grad_norm": 0.0009079612791538239,
      "learning_rate": 0.061794092479969726,
      "loss": 0.3087,
      "num_input_tokens_seen": 25968048,
      "step": 28005
    },
    {
      "epoch": 13.206034889203206,
      "grad_norm": 0.0003818109107669443,
      "learning_rate": 0.06174645512742485,
      "loss": 0.3397,
      "num_input_tokens_seen": 25972704,
      "step": 28010
    },
    {
      "epoch": 13.208392267798208,
      "grad_norm": 0.0006056410493329167,
      "learning_rate": 0.06169883138468565,
      "loss": 0.3207,
      "num_input_tokens_seen": 25977328,
      "step": 28015
    },
    {
      "epoch": 13.21074964639321,
      "grad_norm": 0.0004911654978059232,
      "learning_rate": 0.06165122125909637,
      "loss": 0.321,
      "num_input_tokens_seen": 25981488,
      "step": 28020
    },
    {
      "epoch": 13.213107024988213,
      "grad_norm": 0.000556729210074991,
      "learning_rate": 0.061603624757998965,
      "loss": 0.3518,
      "num_input_tokens_seen": 25985408,
      "step": 28025
    },
    {
      "epoch": 13.215464403583216,
      "grad_norm": 0.0002027755690505728,
      "learning_rate": 0.0615560418887335,
      "loss": 0.3214,
      "num_input_tokens_seen": 25989216,
      "step": 28030
    },
    {
      "epoch": 13.217821782178218,
      "grad_norm": 0.0009011666406877339,
      "learning_rate": 0.06150847265863787,
      "loss": 0.406,
      "num_input_tokens_seen": 25993392,
      "step": 28035
    },
    {
      "epoch": 13.22017916077322,
      "grad_norm": 0.00023787602549418807,
      "learning_rate": 0.061460917075047757,
      "loss": 0.2789,
      "num_input_tokens_seen": 25998752,
      "step": 28040
    },
    {
      "epoch": 13.222536539368223,
      "grad_norm": 0.0004013634752482176,
      "learning_rate": 0.06141337514529694,
      "loss": 0.3773,
      "num_input_tokens_seen": 26005392,
      "step": 28045
    },
    {
      "epoch": 13.224893917963225,
      "grad_norm": 0.00062099180649966,
      "learning_rate": 0.06136584687671687,
      "loss": 0.3443,
      "num_input_tokens_seen": 26010272,
      "step": 28050
    },
    {
      "epoch": 13.227251296558228,
      "grad_norm": 0.0005423527909442782,
      "learning_rate": 0.061318332276637064,
      "loss": 0.3655,
      "num_input_tokens_seen": 26015424,
      "step": 28055
    },
    {
      "epoch": 13.22960867515323,
      "grad_norm": 0.00025982933584600687,
      "learning_rate": 0.06127083135238491,
      "loss": 0.3053,
      "num_input_tokens_seen": 26019376,
      "step": 28060
    },
    {
      "epoch": 13.231966053748232,
      "grad_norm": 0.0003917587164323777,
      "learning_rate": 0.06122334411128555,
      "loss": 0.3176,
      "num_input_tokens_seen": 26023584,
      "step": 28065
    },
    {
      "epoch": 13.234323432343235,
      "grad_norm": 0.0003112419508397579,
      "learning_rate": 0.06117587056066223,
      "loss": 0.337,
      "num_input_tokens_seen": 26027552,
      "step": 28070
    },
    {
      "epoch": 13.236680810938237,
      "grad_norm": 0.0002868252922780812,
      "learning_rate": 0.06112841070783589,
      "loss": 0.3166,
      "num_input_tokens_seen": 26033200,
      "step": 28075
    },
    {
      "epoch": 13.23903818953324,
      "grad_norm": 0.0007889370317570865,
      "learning_rate": 0.061080964560125406,
      "loss": 0.3141,
      "num_input_tokens_seen": 26037536,
      "step": 28080
    },
    {
      "epoch": 13.241395568128242,
      "grad_norm": 0.0002946430176962167,
      "learning_rate": 0.06103353212484766,
      "loss": 0.346,
      "num_input_tokens_seen": 26041888,
      "step": 28085
    },
    {
      "epoch": 13.243752946723244,
      "grad_norm": 0.0007510498398914933,
      "learning_rate": 0.06098611340931722,
      "loss": 0.3265,
      "num_input_tokens_seen": 26046704,
      "step": 28090
    },
    {
      "epoch": 13.246110325318247,
      "grad_norm": 0.0003782323910854757,
      "learning_rate": 0.06093870842084672,
      "loss": 0.3068,
      "num_input_tokens_seen": 26052096,
      "step": 28095
    },
    {
      "epoch": 13.24846770391325,
      "grad_norm": 0.00032875320175662637,
      "learning_rate": 0.06089131716674666,
      "loss": 0.293,
      "num_input_tokens_seen": 26056352,
      "step": 28100
    },
    {
      "epoch": 13.250825082508252,
      "grad_norm": 0.0005683272029273212,
      "learning_rate": 0.060843939654325226,
      "loss": 0.2506,
      "num_input_tokens_seen": 26061184,
      "step": 28105
    },
    {
      "epoch": 13.253182461103254,
      "grad_norm": 0.0005240541067905724,
      "learning_rate": 0.06079657589088873,
      "loss": 0.2986,
      "num_input_tokens_seen": 26065280,
      "step": 28110
    },
    {
      "epoch": 13.255539839698255,
      "grad_norm": 0.0003665066324174404,
      "learning_rate": 0.06074922588374126,
      "loss": 0.3229,
      "num_input_tokens_seen": 26070048,
      "step": 28115
    },
    {
      "epoch": 13.257897218293257,
      "grad_norm": 0.00033695719321258366,
      "learning_rate": 0.06070188964018472,
      "loss": 0.323,
      "num_input_tokens_seen": 26075888,
      "step": 28120
    },
    {
      "epoch": 13.26025459688826,
      "grad_norm": 0.00043578300392255187,
      "learning_rate": 0.06065456716751902,
      "loss": 0.3345,
      "num_input_tokens_seen": 26080736,
      "step": 28125
    },
    {
      "epoch": 13.262611975483262,
      "grad_norm": 0.0006182793877087533,
      "learning_rate": 0.06060725847304182,
      "loss": 0.37,
      "num_input_tokens_seen": 26085648,
      "step": 28130
    },
    {
      "epoch": 13.264969354078264,
      "grad_norm": 0.0005169032956473529,
      "learning_rate": 0.06055996356404877,
      "loss": 0.3623,
      "num_input_tokens_seen": 26090368,
      "step": 28135
    },
    {
      "epoch": 13.267326732673267,
      "grad_norm": 0.00031024686177261174,
      "learning_rate": 0.06051268244783327,
      "loss": 0.3717,
      "num_input_tokens_seen": 26094704,
      "step": 28140
    },
    {
      "epoch": 13.269684111268269,
      "grad_norm": 0.0003026834747288376,
      "learning_rate": 0.06046541513168676,
      "loss": 0.3091,
      "num_input_tokens_seen": 26099008,
      "step": 28145
    },
    {
      "epoch": 13.272041489863271,
      "grad_norm": 0.0003323187702335417,
      "learning_rate": 0.060418161622898356,
      "loss": 0.3586,
      "num_input_tokens_seen": 26103696,
      "step": 28150
    },
    {
      "epoch": 13.274398868458274,
      "grad_norm": 0.0003596744791138917,
      "learning_rate": 0.06037092192875521,
      "loss": 0.368,
      "num_input_tokens_seen": 26108752,
      "step": 28155
    },
    {
      "epoch": 13.276756247053276,
      "grad_norm": 0.00043575826566666365,
      "learning_rate": 0.060323696056542225,
      "loss": 0.3045,
      "num_input_tokens_seen": 26113248,
      "step": 28160
    },
    {
      "epoch": 13.279113625648279,
      "grad_norm": 0.00033126375637948513,
      "learning_rate": 0.06027648401354229,
      "loss": 0.3321,
      "num_input_tokens_seen": 26117520,
      "step": 28165
    },
    {
      "epoch": 13.281471004243281,
      "grad_norm": 0.0003204083477612585,
      "learning_rate": 0.06022928580703601,
      "loss": 0.3251,
      "num_input_tokens_seen": 26121840,
      "step": 28170
    },
    {
      "epoch": 13.283828382838283,
      "grad_norm": 0.000634452560916543,
      "learning_rate": 0.060182101444301986,
      "loss": 0.3114,
      "num_input_tokens_seen": 26126432,
      "step": 28175
    },
    {
      "epoch": 13.286185761433286,
      "grad_norm": 0.00037003480247221887,
      "learning_rate": 0.06013493093261669,
      "loss": 0.2722,
      "num_input_tokens_seen": 26131056,
      "step": 28180
    },
    {
      "epoch": 13.288543140028288,
      "grad_norm": 0.0008175345719791949,
      "learning_rate": 0.06008777427925432,
      "loss": 0.3204,
      "num_input_tokens_seen": 26136816,
      "step": 28185
    },
    {
      "epoch": 13.29090051862329,
      "grad_norm": 0.00021046950132586062,
      "learning_rate": 0.06004063149148705,
      "loss": 0.2905,
      "num_input_tokens_seen": 26141632,
      "step": 28190
    },
    {
      "epoch": 13.293257897218293,
      "grad_norm": 0.0003187076363246888,
      "learning_rate": 0.05999350257658497,
      "loss": 0.3395,
      "num_input_tokens_seen": 26146480,
      "step": 28195
    },
    {
      "epoch": 13.295615275813295,
      "grad_norm": 0.00022680895926896483,
      "learning_rate": 0.05994638754181582,
      "loss": 0.3277,
      "num_input_tokens_seen": 26150464,
      "step": 28200
    },
    {
      "epoch": 13.295615275813295,
      "eval_loss": 0.3268398344516754,
      "eval_runtime": 33.5896,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 26150464,
      "step": 28200
    },
    {
      "epoch": 13.297972654408298,
      "grad_norm": 0.00048166848137043417,
      "learning_rate": 0.059899286394445445,
      "loss": 0.3309,
      "num_input_tokens_seen": 26154800,
      "step": 28205
    },
    {
      "epoch": 13.3003300330033,
      "grad_norm": 0.000573116063605994,
      "learning_rate": 0.059852199141737346,
      "loss": 0.3337,
      "num_input_tokens_seen": 26159456,
      "step": 28210
    },
    {
      "epoch": 13.302687411598303,
      "grad_norm": 0.0006192410946823657,
      "learning_rate": 0.05980512579095304,
      "loss": 0.3765,
      "num_input_tokens_seen": 26163952,
      "step": 28215
    },
    {
      "epoch": 13.305044790193305,
      "grad_norm": 0.00034066123771481216,
      "learning_rate": 0.05975806634935181,
      "loss": 0.3092,
      "num_input_tokens_seen": 26167664,
      "step": 28220
    },
    {
      "epoch": 13.307402168788308,
      "grad_norm": 0.0002767126134131104,
      "learning_rate": 0.05971102082419076,
      "loss": 0.3583,
      "num_input_tokens_seen": 26172592,
      "step": 28225
    },
    {
      "epoch": 13.30975954738331,
      "grad_norm": 0.0007001842022873461,
      "learning_rate": 0.05966398922272492,
      "loss": 0.3064,
      "num_input_tokens_seen": 26177136,
      "step": 28230
    },
    {
      "epoch": 13.312116925978312,
      "grad_norm": 0.000572962686419487,
      "learning_rate": 0.059616971552207236,
      "loss": 0.3349,
      "num_input_tokens_seen": 26180688,
      "step": 28235
    },
    {
      "epoch": 13.314474304573315,
      "grad_norm": 0.0003505521744955331,
      "learning_rate": 0.059569967819888305,
      "loss": 0.3744,
      "num_input_tokens_seen": 26185328,
      "step": 28240
    },
    {
      "epoch": 13.316831683168317,
      "grad_norm": 0.0002968232147395611,
      "learning_rate": 0.05952297803301681,
      "loss": 0.2871,
      "num_input_tokens_seen": 26190288,
      "step": 28245
    },
    {
      "epoch": 13.31918906176332,
      "grad_norm": 0.0002807599666994065,
      "learning_rate": 0.059476002198839056,
      "loss": 0.3216,
      "num_input_tokens_seen": 26194256,
      "step": 28250
    },
    {
      "epoch": 13.321546440358322,
      "grad_norm": 0.0002914691576734185,
      "learning_rate": 0.05942904032459935,
      "loss": 0.3022,
      "num_input_tokens_seen": 26198896,
      "step": 28255
    },
    {
      "epoch": 13.323903818953324,
      "grad_norm": 0.0002665547945071012,
      "learning_rate": 0.05938209241753987,
      "loss": 0.3559,
      "num_input_tokens_seen": 26203808,
      "step": 28260
    },
    {
      "epoch": 13.326261197548327,
      "grad_norm": 0.0006186177488416433,
      "learning_rate": 0.05933515848490046,
      "loss": 0.3761,
      "num_input_tokens_seen": 26207728,
      "step": 28265
    },
    {
      "epoch": 13.32861857614333,
      "grad_norm": 0.0003209326241631061,
      "learning_rate": 0.059288238533918985,
      "loss": 0.2962,
      "num_input_tokens_seen": 26212768,
      "step": 28270
    },
    {
      "epoch": 13.330975954738332,
      "grad_norm": 0.0008574778330512345,
      "learning_rate": 0.05924133257183113,
      "loss": 0.3926,
      "num_input_tokens_seen": 26217440,
      "step": 28275
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.00020916271023452282,
      "learning_rate": 0.059194440605870285,
      "loss": 0.3562,
      "num_input_tokens_seen": 26222208,
      "step": 28280
    },
    {
      "epoch": 13.335690711928336,
      "grad_norm": 0.0003214669704902917,
      "learning_rate": 0.059147562643267884,
      "loss": 0.3324,
      "num_input_tokens_seen": 26227200,
      "step": 28285
    },
    {
      "epoch": 13.338048090523339,
      "grad_norm": 0.00021072663366794586,
      "learning_rate": 0.059100698691253055,
      "loss": 0.315,
      "num_input_tokens_seen": 26232272,
      "step": 28290
    },
    {
      "epoch": 13.340405469118341,
      "grad_norm": 0.00018299382645636797,
      "learning_rate": 0.05905384875705273,
      "loss": 0.3436,
      "num_input_tokens_seen": 26236656,
      "step": 28295
    },
    {
      "epoch": 13.342762847713344,
      "grad_norm": 0.0003340823168400675,
      "learning_rate": 0.05900701284789189,
      "loss": 0.344,
      "num_input_tokens_seen": 26241520,
      "step": 28300
    },
    {
      "epoch": 13.345120226308346,
      "grad_norm": 0.0005256806034594774,
      "learning_rate": 0.058960190970993115,
      "loss": 0.3213,
      "num_input_tokens_seen": 26247664,
      "step": 28305
    },
    {
      "epoch": 13.347477604903348,
      "grad_norm": 0.0002682338235899806,
      "learning_rate": 0.058913383133576955,
      "loss": 0.3636,
      "num_input_tokens_seen": 26252080,
      "step": 28310
    },
    {
      "epoch": 13.34983498349835,
      "grad_norm": 0.00029237274429760873,
      "learning_rate": 0.05886658934286185,
      "loss": 0.3275,
      "num_input_tokens_seen": 26256640,
      "step": 28315
    },
    {
      "epoch": 13.352192362093351,
      "grad_norm": 0.00040289683965966105,
      "learning_rate": 0.058819809606063846,
      "loss": 0.3045,
      "num_input_tokens_seen": 26260448,
      "step": 28320
    },
    {
      "epoch": 13.354549740688354,
      "grad_norm": 0.0005790083669126034,
      "learning_rate": 0.05877304393039711,
      "loss": 0.3269,
      "num_input_tokens_seen": 26264368,
      "step": 28325
    },
    {
      "epoch": 13.356907119283356,
      "grad_norm": 0.0005823321407660842,
      "learning_rate": 0.05872629232307338,
      "loss": 0.3445,
      "num_input_tokens_seen": 26269056,
      "step": 28330
    },
    {
      "epoch": 13.359264497878359,
      "grad_norm": 0.00030258146580308676,
      "learning_rate": 0.05867955479130239,
      "loss": 0.3393,
      "num_input_tokens_seen": 26273200,
      "step": 28335
    },
    {
      "epoch": 13.361621876473361,
      "grad_norm": 0.00029334123246371746,
      "learning_rate": 0.058632831342291705,
      "loss": 0.29,
      "num_input_tokens_seen": 26278976,
      "step": 28340
    },
    {
      "epoch": 13.363979255068363,
      "grad_norm": 0.00029466519481502473,
      "learning_rate": 0.05858612198324655,
      "loss": 0.353,
      "num_input_tokens_seen": 26283504,
      "step": 28345
    },
    {
      "epoch": 13.366336633663366,
      "grad_norm": 0.000573755067307502,
      "learning_rate": 0.05853942672137025,
      "loss": 0.3128,
      "num_input_tokens_seen": 26289280,
      "step": 28350
    },
    {
      "epoch": 13.368694012258368,
      "grad_norm": 0.00025140176876448095,
      "learning_rate": 0.05849274556386363,
      "loss": 0.3421,
      "num_input_tokens_seen": 26293728,
      "step": 28355
    },
    {
      "epoch": 13.37105139085337,
      "grad_norm": 0.0003715541970450431,
      "learning_rate": 0.05844607851792567,
      "loss": 0.2593,
      "num_input_tokens_seen": 26298464,
      "step": 28360
    },
    {
      "epoch": 13.373408769448373,
      "grad_norm": 0.0003226439584977925,
      "learning_rate": 0.058399425590752924,
      "loss": 0.3019,
      "num_input_tokens_seen": 26303440,
      "step": 28365
    },
    {
      "epoch": 13.375766148043375,
      "grad_norm": 0.0003261274832766503,
      "learning_rate": 0.05835278678953985,
      "loss": 0.304,
      "num_input_tokens_seen": 26308192,
      "step": 28370
    },
    {
      "epoch": 13.378123526638378,
      "grad_norm": 0.00054753856966272,
      "learning_rate": 0.05830616212147874,
      "loss": 0.293,
      "num_input_tokens_seen": 26312864,
      "step": 28375
    },
    {
      "epoch": 13.38048090523338,
      "grad_norm": 0.00026933333720080554,
      "learning_rate": 0.058259551593759784,
      "loss": 0.3679,
      "num_input_tokens_seen": 26316768,
      "step": 28380
    },
    {
      "epoch": 13.382838283828383,
      "grad_norm": 0.00041805318323895335,
      "learning_rate": 0.058212955213570804,
      "loss": 0.2692,
      "num_input_tokens_seen": 26321856,
      "step": 28385
    },
    {
      "epoch": 13.385195662423385,
      "grad_norm": 0.0007715683314017951,
      "learning_rate": 0.0581663729880976,
      "loss": 0.3624,
      "num_input_tokens_seen": 26326528,
      "step": 28390
    },
    {
      "epoch": 13.387553041018387,
      "grad_norm": 0.0006174272275529802,
      "learning_rate": 0.05811980492452379,
      "loss": 0.3152,
      "num_input_tokens_seen": 26330768,
      "step": 28395
    },
    {
      "epoch": 13.38991041961339,
      "grad_norm": 0.0003399629786144942,
      "learning_rate": 0.058073251030030644,
      "loss": 0.3618,
      "num_input_tokens_seen": 26335552,
      "step": 28400
    },
    {
      "epoch": 13.38991041961339,
      "eval_loss": 0.3276827931404114,
      "eval_runtime": 33.611,
      "eval_samples_per_second": 28.056,
      "eval_steps_per_second": 14.043,
      "num_input_tokens_seen": 26335552,
      "step": 28400
    },
    {
      "epoch": 13.392267798208392,
      "grad_norm": 0.0006015504477545619,
      "learning_rate": 0.05802671131179747,
      "loss": 0.3183,
      "num_input_tokens_seen": 26340368,
      "step": 28405
    },
    {
      "epoch": 13.394625176803395,
      "grad_norm": 0.0005251822294667363,
      "learning_rate": 0.057980185777001154,
      "loss": 0.3216,
      "num_input_tokens_seen": 26345232,
      "step": 28410
    },
    {
      "epoch": 13.396982555398397,
      "grad_norm": 0.0002412048343103379,
      "learning_rate": 0.057933674432816606,
      "loss": 0.3476,
      "num_input_tokens_seen": 26350480,
      "step": 28415
    },
    {
      "epoch": 13.3993399339934,
      "grad_norm": 0.0005927341408096254,
      "learning_rate": 0.05788717728641648,
      "loss": 0.377,
      "num_input_tokens_seen": 26354416,
      "step": 28420
    },
    {
      "epoch": 13.401697312588402,
      "grad_norm": 0.0009300658712163568,
      "learning_rate": 0.057840694344971126,
      "loss": 0.3709,
      "num_input_tokens_seen": 26358896,
      "step": 28425
    },
    {
      "epoch": 13.404054691183404,
      "grad_norm": 0.0002716153394430876,
      "learning_rate": 0.0577942256156489,
      "loss": 0.3353,
      "num_input_tokens_seen": 26363248,
      "step": 28430
    },
    {
      "epoch": 13.406412069778407,
      "grad_norm": 0.00024357721849810332,
      "learning_rate": 0.057747771105615804,
      "loss": 0.3284,
      "num_input_tokens_seen": 26368864,
      "step": 28435
    },
    {
      "epoch": 13.408769448373409,
      "grad_norm": 0.0006721504614688456,
      "learning_rate": 0.05770133082203568,
      "loss": 0.3411,
      "num_input_tokens_seen": 26373552,
      "step": 28440
    },
    {
      "epoch": 13.411126826968411,
      "grad_norm": 0.0005479850224219263,
      "learning_rate": 0.0576549047720703,
      "loss": 0.316,
      "num_input_tokens_seen": 26378880,
      "step": 28445
    },
    {
      "epoch": 13.413484205563414,
      "grad_norm": 0.00031644117552787066,
      "learning_rate": 0.05760849296287902,
      "loss": 0.3506,
      "num_input_tokens_seen": 26382784,
      "step": 28450
    },
    {
      "epoch": 13.415841584158416,
      "grad_norm": 0.00039972251397557557,
      "learning_rate": 0.05756209540161919,
      "loss": 0.3204,
      "num_input_tokens_seen": 26387872,
      "step": 28455
    },
    {
      "epoch": 13.418198962753419,
      "grad_norm": 0.00035433389712125063,
      "learning_rate": 0.05751571209544595,
      "loss": 0.3143,
      "num_input_tokens_seen": 26391824,
      "step": 28460
    },
    {
      "epoch": 13.420556341348421,
      "grad_norm": 0.0002926276356447488,
      "learning_rate": 0.057469343051512085,
      "loss": 0.3261,
      "num_input_tokens_seen": 26396048,
      "step": 28465
    },
    {
      "epoch": 13.422913719943423,
      "grad_norm": 0.0002144043246516958,
      "learning_rate": 0.057422988276968324,
      "loss": 0.2832,
      "num_input_tokens_seen": 26400128,
      "step": 28470
    },
    {
      "epoch": 13.425271098538426,
      "grad_norm": 0.0003912285901606083,
      "learning_rate": 0.05737664777896323,
      "loss": 0.3071,
      "num_input_tokens_seen": 26404928,
      "step": 28475
    },
    {
      "epoch": 13.427628477133428,
      "grad_norm": 0.0002386994456173852,
      "learning_rate": 0.057330321564642975,
      "loss": 0.3445,
      "num_input_tokens_seen": 26409760,
      "step": 28480
    },
    {
      "epoch": 13.42998585572843,
      "grad_norm": 0.0003511323011480272,
      "learning_rate": 0.05728400964115174,
      "loss": 0.2941,
      "num_input_tokens_seen": 26414832,
      "step": 28485
    },
    {
      "epoch": 13.432343234323433,
      "grad_norm": 0.0003568628744687885,
      "learning_rate": 0.057237712015631305,
      "loss": 0.326,
      "num_input_tokens_seen": 26419504,
      "step": 28490
    },
    {
      "epoch": 13.434700612918435,
      "grad_norm": 0.0004986542626284063,
      "learning_rate": 0.057191428695221425,
      "loss": 0.308,
      "num_input_tokens_seen": 26424016,
      "step": 28495
    },
    {
      "epoch": 13.437057991513438,
      "grad_norm": 0.00043764314614236355,
      "learning_rate": 0.05714515968705958,
      "loss": 0.333,
      "num_input_tokens_seen": 26428608,
      "step": 28500
    },
    {
      "epoch": 13.43941537010844,
      "grad_norm": 0.00030214397702366114,
      "learning_rate": 0.05709890499828099,
      "loss": 0.3449,
      "num_input_tokens_seen": 26434112,
      "step": 28505
    },
    {
      "epoch": 13.441772748703443,
      "grad_norm": 0.0003645165415946394,
      "learning_rate": 0.05705266463601868,
      "loss": 0.3057,
      "num_input_tokens_seen": 26438848,
      "step": 28510
    },
    {
      "epoch": 13.444130127298443,
      "grad_norm": 0.0006226521800272167,
      "learning_rate": 0.057006438607403565,
      "loss": 0.258,
      "num_input_tokens_seen": 26443280,
      "step": 28515
    },
    {
      "epoch": 13.446487505893446,
      "grad_norm": 0.00028609426226466894,
      "learning_rate": 0.056960226919564205,
      "loss": 0.3329,
      "num_input_tokens_seen": 26447376,
      "step": 28520
    },
    {
      "epoch": 13.448844884488448,
      "grad_norm": 0.0005606103222817183,
      "learning_rate": 0.05691402957962713,
      "loss": 0.3119,
      "num_input_tokens_seen": 26452400,
      "step": 28525
    },
    {
      "epoch": 13.45120226308345,
      "grad_norm": 0.0005460849497467279,
      "learning_rate": 0.05686784659471642,
      "loss": 0.3754,
      "num_input_tokens_seen": 26456384,
      "step": 28530
    },
    {
      "epoch": 13.453559641678453,
      "grad_norm": 0.0003904096083715558,
      "learning_rate": 0.056821677971954136,
      "loss": 0.3071,
      "num_input_tokens_seen": 26461200,
      "step": 28535
    },
    {
      "epoch": 13.455917020273455,
      "grad_norm": 0.0004890165873803198,
      "learning_rate": 0.05677552371846012,
      "loss": 0.34,
      "num_input_tokens_seen": 26465728,
      "step": 28540
    },
    {
      "epoch": 13.458274398868458,
      "grad_norm": 0.00038498645881190896,
      "learning_rate": 0.05672938384135182,
      "loss": 0.3561,
      "num_input_tokens_seen": 26470000,
      "step": 28545
    },
    {
      "epoch": 13.46063177746346,
      "grad_norm": 0.0006844758172519505,
      "learning_rate": 0.05668325834774465,
      "loss": 0.3154,
      "num_input_tokens_seen": 26474432,
      "step": 28550
    },
    {
      "epoch": 13.462989156058462,
      "grad_norm": 0.0005241307662799954,
      "learning_rate": 0.05663714724475177,
      "loss": 0.2551,
      "num_input_tokens_seen": 26478240,
      "step": 28555
    },
    {
      "epoch": 13.465346534653465,
      "grad_norm": 0.00031106252572499216,
      "learning_rate": 0.05659105053948403,
      "loss": 0.3828,
      "num_input_tokens_seen": 26484448,
      "step": 28560
    },
    {
      "epoch": 13.467703913248467,
      "grad_norm": 0.0003827233158517629,
      "learning_rate": 0.056544968239050176,
      "loss": 0.3596,
      "num_input_tokens_seen": 26490496,
      "step": 28565
    },
    {
      "epoch": 13.47006129184347,
      "grad_norm": 0.0003353056381456554,
      "learning_rate": 0.056498900350556616,
      "loss": 0.3278,
      "num_input_tokens_seen": 26495232,
      "step": 28570
    },
    {
      "epoch": 13.472418670438472,
      "grad_norm": 0.00033818394877016544,
      "learning_rate": 0.05645284688110766,
      "loss": 0.2789,
      "num_input_tokens_seen": 26500672,
      "step": 28575
    },
    {
      "epoch": 13.474776049033474,
      "grad_norm": 0.00028401095187291503,
      "learning_rate": 0.05640680783780532,
      "loss": 0.305,
      "num_input_tokens_seen": 26504848,
      "step": 28580
    },
    {
      "epoch": 13.477133427628477,
      "grad_norm": 0.000383329635951668,
      "learning_rate": 0.056360783227749324,
      "loss": 0.2957,
      "num_input_tokens_seen": 26509760,
      "step": 28585
    },
    {
      "epoch": 13.47949080622348,
      "grad_norm": 0.0003686407580971718,
      "learning_rate": 0.05631477305803728,
      "loss": 0.3012,
      "num_input_tokens_seen": 26514288,
      "step": 28590
    },
    {
      "epoch": 13.481848184818482,
      "grad_norm": 0.0004467918770387769,
      "learning_rate": 0.05626877733576462,
      "loss": 0.2584,
      "num_input_tokens_seen": 26518832,
      "step": 28595
    },
    {
      "epoch": 13.484205563413484,
      "grad_norm": 0.00032800654298625886,
      "learning_rate": 0.05622279606802435,
      "loss": 0.3095,
      "num_input_tokens_seen": 26524096,
      "step": 28600
    },
    {
      "epoch": 13.484205563413484,
      "eval_loss": 0.3289537727832794,
      "eval_runtime": 33.6229,
      "eval_samples_per_second": 28.046,
      "eval_steps_per_second": 14.038,
      "num_input_tokens_seen": 26524096,
      "step": 28600
    },
    {
      "epoch": 13.486562942008486,
      "grad_norm": 0.00040266307769343257,
      "learning_rate": 0.05617682926190744,
      "loss": 0.3696,
      "num_input_tokens_seen": 26529104,
      "step": 28605
    },
    {
      "epoch": 13.488920320603489,
      "grad_norm": 0.0003119848552159965,
      "learning_rate": 0.05613087692450248,
      "loss": 0.3665,
      "num_input_tokens_seen": 26534096,
      "step": 28610
    },
    {
      "epoch": 13.491277699198491,
      "grad_norm": 0.0003930232487618923,
      "learning_rate": 0.05608493906289592,
      "loss": 0.3105,
      "num_input_tokens_seen": 26538208,
      "step": 28615
    },
    {
      "epoch": 13.493635077793494,
      "grad_norm": 0.0005596402334049344,
      "learning_rate": 0.05603901568417201,
      "loss": 0.3172,
      "num_input_tokens_seen": 26542848,
      "step": 28620
    },
    {
      "epoch": 13.495992456388496,
      "grad_norm": 0.0005064510041847825,
      "learning_rate": 0.055993106795412625,
      "loss": 0.3678,
      "num_input_tokens_seen": 26546912,
      "step": 28625
    },
    {
      "epoch": 13.498349834983498,
      "grad_norm": 0.0004157153598498553,
      "learning_rate": 0.05594721240369759,
      "loss": 0.2806,
      "num_input_tokens_seen": 26551488,
      "step": 28630
    },
    {
      "epoch": 13.500707213578501,
      "grad_norm": 0.0004722370649687946,
      "learning_rate": 0.055901332516104296,
      "loss": 0.3472,
      "num_input_tokens_seen": 26556432,
      "step": 28635
    },
    {
      "epoch": 13.503064592173503,
      "grad_norm": 0.0002940115227829665,
      "learning_rate": 0.05585546713970804,
      "loss": 0.3176,
      "num_input_tokens_seen": 26560464,
      "step": 28640
    },
    {
      "epoch": 13.505421970768506,
      "grad_norm": 0.0005565288593061268,
      "learning_rate": 0.05580961628158189,
      "loss": 0.4163,
      "num_input_tokens_seen": 26565824,
      "step": 28645
    },
    {
      "epoch": 13.507779349363508,
      "grad_norm": 0.00032232783269137144,
      "learning_rate": 0.05576377994879659,
      "loss": 0.3476,
      "num_input_tokens_seen": 26570144,
      "step": 28650
    },
    {
      "epoch": 13.51013672795851,
      "grad_norm": 0.00030310044530779123,
      "learning_rate": 0.05571795814842063,
      "loss": 0.3114,
      "num_input_tokens_seen": 26574816,
      "step": 28655
    },
    {
      "epoch": 13.512494106553513,
      "grad_norm": 0.0003400715359020978,
      "learning_rate": 0.05567215088752037,
      "loss": 0.3083,
      "num_input_tokens_seen": 26579536,
      "step": 28660
    },
    {
      "epoch": 13.514851485148515,
      "grad_norm": 0.00031751455389894545,
      "learning_rate": 0.05562635817315981,
      "loss": 0.2877,
      "num_input_tokens_seen": 26583344,
      "step": 28665
    },
    {
      "epoch": 13.517208863743518,
      "grad_norm": 0.0004516844928730279,
      "learning_rate": 0.05558058001240083,
      "loss": 0.3208,
      "num_input_tokens_seen": 26587984,
      "step": 28670
    },
    {
      "epoch": 13.51956624233852,
      "grad_norm": 0.0005219571758061647,
      "learning_rate": 0.055534816412302915,
      "loss": 0.257,
      "num_input_tokens_seen": 26593360,
      "step": 28675
    },
    {
      "epoch": 13.521923620933523,
      "grad_norm": 0.0005617354181595147,
      "learning_rate": 0.055489067379923436,
      "loss": 0.3277,
      "num_input_tokens_seen": 26597984,
      "step": 28680
    },
    {
      "epoch": 13.524280999528525,
      "grad_norm": 0.000330096110701561,
      "learning_rate": 0.055443332922317505,
      "loss": 0.2773,
      "num_input_tokens_seen": 26602048,
      "step": 28685
    },
    {
      "epoch": 13.526638378123527,
      "grad_norm": 0.00030977005371823907,
      "learning_rate": 0.055397613046537876,
      "loss": 0.3219,
      "num_input_tokens_seen": 26606128,
      "step": 28690
    },
    {
      "epoch": 13.52899575671853,
      "grad_norm": 0.0007934857858344913,
      "learning_rate": 0.055351907759635145,
      "loss": 0.4271,
      "num_input_tokens_seen": 26610816,
      "step": 28695
    },
    {
      "epoch": 13.531353135313532,
      "grad_norm": 0.00055346405133605,
      "learning_rate": 0.05530621706865772,
      "loss": 0.3262,
      "num_input_tokens_seen": 26615728,
      "step": 28700
    },
    {
      "epoch": 13.533710513908535,
      "grad_norm": 0.0007791415555402637,
      "learning_rate": 0.055260540980651564,
      "loss": 0.3251,
      "num_input_tokens_seen": 26621024,
      "step": 28705
    },
    {
      "epoch": 13.536067892503535,
      "grad_norm": 0.000721305375918746,
      "learning_rate": 0.05521487950266062,
      "loss": 0.2609,
      "num_input_tokens_seen": 26625824,
      "step": 28710
    },
    {
      "epoch": 13.53842527109854,
      "grad_norm": 0.0003978646418545395,
      "learning_rate": 0.055169232641726344,
      "loss": 0.3608,
      "num_input_tokens_seen": 26630624,
      "step": 28715
    },
    {
      "epoch": 13.54078264969354,
      "grad_norm": 0.0004899290506727993,
      "learning_rate": 0.055123600404888166,
      "loss": 0.2666,
      "num_input_tokens_seen": 26635184,
      "step": 28720
    },
    {
      "epoch": 13.543140028288542,
      "grad_norm": 0.0008325690287165344,
      "learning_rate": 0.05507798279918309,
      "loss": 0.3528,
      "num_input_tokens_seen": 26640192,
      "step": 28725
    },
    {
      "epoch": 13.545497406883545,
      "grad_norm": 0.0006738277152180672,
      "learning_rate": 0.0550323798316459,
      "loss": 0.2942,
      "num_input_tokens_seen": 26644752,
      "step": 28730
    },
    {
      "epoch": 13.547854785478547,
      "grad_norm": 0.0004938055644743145,
      "learning_rate": 0.05498679150930916,
      "loss": 0.3497,
      "num_input_tokens_seen": 26649248,
      "step": 28735
    },
    {
      "epoch": 13.55021216407355,
      "grad_norm": 0.00048167892964556813,
      "learning_rate": 0.05494121783920323,
      "loss": 0.3597,
      "num_input_tokens_seen": 26654000,
      "step": 28740
    },
    {
      "epoch": 13.552569542668552,
      "grad_norm": 0.0005465698195621371,
      "learning_rate": 0.05489565882835605,
      "loss": 0.3287,
      "num_input_tokens_seen": 26659392,
      "step": 28745
    },
    {
      "epoch": 13.554926921263554,
      "grad_norm": 0.00045397254871204495,
      "learning_rate": 0.05485011448379348,
      "loss": 0.3641,
      "num_input_tokens_seen": 26664832,
      "step": 28750
    },
    {
      "epoch": 13.557284299858557,
      "grad_norm": 0.00033070245990529656,
      "learning_rate": 0.05480458481253893,
      "loss": 0.2993,
      "num_input_tokens_seen": 26669344,
      "step": 28755
    },
    {
      "epoch": 13.55964167845356,
      "grad_norm": 0.0003356664383318275,
      "learning_rate": 0.054759069821613715,
      "loss": 0.2504,
      "num_input_tokens_seen": 26674048,
      "step": 28760
    },
    {
      "epoch": 13.561999057048562,
      "grad_norm": 0.0003371279744897038,
      "learning_rate": 0.05471356951803683,
      "loss": 0.3244,
      "num_input_tokens_seen": 26678608,
      "step": 28765
    },
    {
      "epoch": 13.564356435643564,
      "grad_norm": 0.00043491777614690363,
      "learning_rate": 0.054668083908824945,
      "loss": 0.338,
      "num_input_tokens_seen": 26684224,
      "step": 28770
    },
    {
      "epoch": 13.566713814238566,
      "grad_norm": 0.0004301131993997842,
      "learning_rate": 0.054622613000992526,
      "loss": 0.3722,
      "num_input_tokens_seen": 26688672,
      "step": 28775
    },
    {
      "epoch": 13.569071192833569,
      "grad_norm": 0.0003420177672524005,
      "learning_rate": 0.05457715680155182,
      "loss": 0.3516,
      "num_input_tokens_seen": 26693360,
      "step": 28780
    },
    {
      "epoch": 13.571428571428571,
      "grad_norm": 0.0009730973979458213,
      "learning_rate": 0.05453171531751265,
      "loss": 0.3572,
      "num_input_tokens_seen": 26698160,
      "step": 28785
    },
    {
      "epoch": 13.573785950023574,
      "grad_norm": 0.0006349079194478691,
      "learning_rate": 0.05448628855588276,
      "loss": 0.3271,
      "num_input_tokens_seen": 26702800,
      "step": 28790
    },
    {
      "epoch": 13.576143328618576,
      "grad_norm": 0.00029715808341279626,
      "learning_rate": 0.05444087652366746,
      "loss": 0.3609,
      "num_input_tokens_seen": 26708432,
      "step": 28795
    },
    {
      "epoch": 13.578500707213578,
      "grad_norm": 0.000552503508515656,
      "learning_rate": 0.05439547922786984,
      "loss": 0.3783,
      "num_input_tokens_seen": 26713392,
      "step": 28800
    },
    {
      "epoch": 13.578500707213578,
      "eval_loss": 0.3298238217830658,
      "eval_runtime": 33.5365,
      "eval_samples_per_second": 28.119,
      "eval_steps_per_second": 14.074,
      "num_input_tokens_seen": 26713392,
      "step": 28800
    },
    {
      "epoch": 13.58085808580858,
      "grad_norm": 0.0004039329942315817,
      "learning_rate": 0.0543500966754908,
      "loss": 0.3352,
      "num_input_tokens_seen": 26718240,
      "step": 28805
    },
    {
      "epoch": 13.583215464403583,
      "grad_norm": 0.0003479929582681507,
      "learning_rate": 0.05430472887352882,
      "loss": 0.3454,
      "num_input_tokens_seen": 26722320,
      "step": 28810
    },
    {
      "epoch": 13.585572842998586,
      "grad_norm": 0.0004852610582020134,
      "learning_rate": 0.05425937582898023,
      "loss": 0.3168,
      "num_input_tokens_seen": 26727056,
      "step": 28815
    },
    {
      "epoch": 13.587930221593588,
      "grad_norm": 0.0002863580593839288,
      "learning_rate": 0.054214037548839085,
      "loss": 0.3026,
      "num_input_tokens_seen": 26732224,
      "step": 28820
    },
    {
      "epoch": 13.59028760018859,
      "grad_norm": 0.0004619710089173168,
      "learning_rate": 0.05416871404009703,
      "loss": 0.3542,
      "num_input_tokens_seen": 26737104,
      "step": 28825
    },
    {
      "epoch": 13.592644978783593,
      "grad_norm": 0.00039351783925667405,
      "learning_rate": 0.054123405309743605,
      "loss": 0.3113,
      "num_input_tokens_seen": 26741888,
      "step": 28830
    },
    {
      "epoch": 13.595002357378595,
      "grad_norm": 0.000339304911904037,
      "learning_rate": 0.0540781113647659,
      "loss": 0.3363,
      "num_input_tokens_seen": 26746544,
      "step": 28835
    },
    {
      "epoch": 13.597359735973598,
      "grad_norm": 0.0009087256039492786,
      "learning_rate": 0.054032832212148836,
      "loss": 0.3586,
      "num_input_tokens_seen": 26751616,
      "step": 28840
    },
    {
      "epoch": 13.5997171145686,
      "grad_norm": 0.00036282718065194786,
      "learning_rate": 0.0539875678588751,
      "loss": 0.3343,
      "num_input_tokens_seen": 26756704,
      "step": 28845
    },
    {
      "epoch": 13.602074493163602,
      "grad_norm": 0.0003901688614860177,
      "learning_rate": 0.05394231831192492,
      "loss": 0.3743,
      "num_input_tokens_seen": 26761488,
      "step": 28850
    },
    {
      "epoch": 13.604431871758605,
      "grad_norm": 0.0004340651794336736,
      "learning_rate": 0.05389708357827639,
      "loss": 0.2923,
      "num_input_tokens_seen": 26765616,
      "step": 28855
    },
    {
      "epoch": 13.606789250353607,
      "grad_norm": 0.000526249990798533,
      "learning_rate": 0.05385186366490533,
      "loss": 0.3307,
      "num_input_tokens_seen": 26770096,
      "step": 28860
    },
    {
      "epoch": 13.60914662894861,
      "grad_norm": 0.0007294922252185643,
      "learning_rate": 0.053806658578785166,
      "loss": 0.3691,
      "num_input_tokens_seen": 26774896,
      "step": 28865
    },
    {
      "epoch": 13.611504007543612,
      "grad_norm": 0.00068529142299667,
      "learning_rate": 0.05376146832688705,
      "loss": 0.2899,
      "num_input_tokens_seen": 26779968,
      "step": 28870
    },
    {
      "epoch": 13.613861386138614,
      "grad_norm": 0.0004394998250063509,
      "learning_rate": 0.053716292916179964,
      "loss": 0.3355,
      "num_input_tokens_seen": 26784848,
      "step": 28875
    },
    {
      "epoch": 13.616218764733617,
      "grad_norm": 0.00040498492307960987,
      "learning_rate": 0.05367113235363045,
      "loss": 0.3331,
      "num_input_tokens_seen": 26789808,
      "step": 28880
    },
    {
      "epoch": 13.61857614332862,
      "grad_norm": 0.0005108287441544235,
      "learning_rate": 0.05362598664620289,
      "loss": 0.3323,
      "num_input_tokens_seen": 26794112,
      "step": 28885
    },
    {
      "epoch": 13.620933521923622,
      "grad_norm": 0.00032587131136097014,
      "learning_rate": 0.053580855800859285,
      "loss": 0.3319,
      "num_input_tokens_seen": 26798288,
      "step": 28890
    },
    {
      "epoch": 13.623290900518624,
      "grad_norm": 0.0005014297785237432,
      "learning_rate": 0.05353573982455938,
      "loss": 0.3232,
      "num_input_tokens_seen": 26803424,
      "step": 28895
    },
    {
      "epoch": 13.625648279113626,
      "grad_norm": 0.0006523652700707316,
      "learning_rate": 0.053490638724260686,
      "loss": 0.3318,
      "num_input_tokens_seen": 26808624,
      "step": 28900
    },
    {
      "epoch": 13.628005657708629,
      "grad_norm": 0.0007216432131826878,
      "learning_rate": 0.05344555250691827,
      "loss": 0.3613,
      "num_input_tokens_seen": 26813376,
      "step": 28905
    },
    {
      "epoch": 13.630363036303631,
      "grad_norm": 0.00040742495912127197,
      "learning_rate": 0.053400481179485086,
      "loss": 0.3353,
      "num_input_tokens_seen": 26818592,
      "step": 28910
    },
    {
      "epoch": 13.632720414898632,
      "grad_norm": 0.0011435047490522265,
      "learning_rate": 0.05335542474891159,
      "loss": 0.338,
      "num_input_tokens_seen": 26823504,
      "step": 28915
    },
    {
      "epoch": 13.635077793493634,
      "grad_norm": 0.00035652986844070256,
      "learning_rate": 0.053310383222146124,
      "loss": 0.3203,
      "num_input_tokens_seen": 26828304,
      "step": 28920
    },
    {
      "epoch": 13.637435172088637,
      "grad_norm": 0.0003807231259997934,
      "learning_rate": 0.053265356606134684,
      "loss": 0.3653,
      "num_input_tokens_seen": 26832704,
      "step": 28925
    },
    {
      "epoch": 13.639792550683639,
      "grad_norm": 0.000886652444023639,
      "learning_rate": 0.053220344907820856,
      "loss": 0.3328,
      "num_input_tokens_seen": 26837344,
      "step": 28930
    },
    {
      "epoch": 13.642149929278641,
      "grad_norm": 0.000365628395229578,
      "learning_rate": 0.05317534813414608,
      "loss": 0.3342,
      "num_input_tokens_seen": 26841984,
      "step": 28935
    },
    {
      "epoch": 13.644507307873644,
      "grad_norm": 0.00043617701157927513,
      "learning_rate": 0.05313036629204942,
      "loss": 0.3065,
      "num_input_tokens_seen": 26845920,
      "step": 28940
    },
    {
      "epoch": 13.646864686468646,
      "grad_norm": 0.0006246353150345385,
      "learning_rate": 0.05308539938846756,
      "loss": 0.3157,
      "num_input_tokens_seen": 26850816,
      "step": 28945
    },
    {
      "epoch": 13.649222065063649,
      "grad_norm": 0.0006135523435659707,
      "learning_rate": 0.05304044743033507,
      "loss": 0.3594,
      "num_input_tokens_seen": 26855264,
      "step": 28950
    },
    {
      "epoch": 13.651579443658651,
      "grad_norm": 0.0006775347283110023,
      "learning_rate": 0.05299551042458401,
      "loss": 0.3106,
      "num_input_tokens_seen": 26859616,
      "step": 28955
    },
    {
      "epoch": 13.653936822253653,
      "grad_norm": 0.0008317778701893985,
      "learning_rate": 0.052950588378144266,
      "loss": 0.3153,
      "num_input_tokens_seen": 26864960,
      "step": 28960
    },
    {
      "epoch": 13.656294200848656,
      "grad_norm": 0.000612807460129261,
      "learning_rate": 0.052905681297943465,
      "loss": 0.2893,
      "num_input_tokens_seen": 26869776,
      "step": 28965
    },
    {
      "epoch": 13.658651579443658,
      "grad_norm": 0.00038330579991452396,
      "learning_rate": 0.0528607891909067,
      "loss": 0.4294,
      "num_input_tokens_seen": 26874816,
      "step": 28970
    },
    {
      "epoch": 13.66100895803866,
      "grad_norm": 0.0006076465942896903,
      "learning_rate": 0.05281591206395697,
      "loss": 0.3512,
      "num_input_tokens_seen": 26879648,
      "step": 28975
    },
    {
      "epoch": 13.663366336633663,
      "grad_norm": 0.0006194995366968215,
      "learning_rate": 0.05277104992401496,
      "loss": 0.2812,
      "num_input_tokens_seen": 26884064,
      "step": 28980
    },
    {
      "epoch": 13.665723715228665,
      "grad_norm": 0.0006247279234230518,
      "learning_rate": 0.05272620277799884,
      "loss": 0.3806,
      "num_input_tokens_seen": 26888304,
      "step": 28985
    },
    {
      "epoch": 13.668081093823668,
      "grad_norm": 0.0005593733512796462,
      "learning_rate": 0.05268137063282473,
      "loss": 0.3032,
      "num_input_tokens_seen": 26892608,
      "step": 28990
    },
    {
      "epoch": 13.67043847241867,
      "grad_norm": 0.000814382336102426,
      "learning_rate": 0.0526365534954062,
      "loss": 0.369,
      "num_input_tokens_seen": 26896848,
      "step": 28995
    },
    {
      "epoch": 13.672795851013673,
      "grad_norm": 0.00025985026150010526,
      "learning_rate": 0.052591751372654656,
      "loss": 0.3054,
      "num_input_tokens_seen": 26900464,
      "step": 29000
    },
    {
      "epoch": 13.672795851013673,
      "eval_loss": 0.32921406626701355,
      "eval_runtime": 35.3025,
      "eval_samples_per_second": 26.712,
      "eval_steps_per_second": 13.37,
      "num_input_tokens_seen": 26900464,
      "step": 29000
    },
    {
      "epoch": 13.675153229608675,
      "grad_norm": 0.0010092470329254866,
      "learning_rate": 0.05254696427147921,
      "loss": 0.3523,
      "num_input_tokens_seen": 26905408,
      "step": 29005
    },
    {
      "epoch": 13.677510608203677,
      "grad_norm": 0.00027816175133921206,
      "learning_rate": 0.052502192198786546,
      "loss": 0.3416,
      "num_input_tokens_seen": 26910000,
      "step": 29010
    },
    {
      "epoch": 13.67986798679868,
      "grad_norm": 0.00027168463566340506,
      "learning_rate": 0.05245743516148103,
      "loss": 0.328,
      "num_input_tokens_seen": 26914528,
      "step": 29015
    },
    {
      "epoch": 13.682225365393682,
      "grad_norm": 0.0003340878465678543,
      "learning_rate": 0.05241269316646486,
      "loss": 0.3008,
      "num_input_tokens_seen": 26918464,
      "step": 29020
    },
    {
      "epoch": 13.684582743988685,
      "grad_norm": 0.0004536265041679144,
      "learning_rate": 0.052367966220637725,
      "loss": 0.3362,
      "num_input_tokens_seen": 26922704,
      "step": 29025
    },
    {
      "epoch": 13.686940122583687,
      "grad_norm": 0.0002784777607303113,
      "learning_rate": 0.05232325433089716,
      "loss": 0.3012,
      "num_input_tokens_seen": 26927520,
      "step": 29030
    },
    {
      "epoch": 13.68929750117869,
      "grad_norm": 0.0005126326577737927,
      "learning_rate": 0.052278557504138214,
      "loss": 0.3007,
      "num_input_tokens_seen": 26932656,
      "step": 29035
    },
    {
      "epoch": 13.691654879773692,
      "grad_norm": 0.0006677006022073328,
      "learning_rate": 0.05223387574725372,
      "loss": 0.302,
      "num_input_tokens_seen": 26936800,
      "step": 29040
    },
    {
      "epoch": 13.694012258368694,
      "grad_norm": 0.000289001502096653,
      "learning_rate": 0.05218920906713428,
      "loss": 0.338,
      "num_input_tokens_seen": 26941120,
      "step": 29045
    },
    {
      "epoch": 13.696369636963697,
      "grad_norm": 0.0007853900897316635,
      "learning_rate": 0.05214455747066789,
      "loss": 0.3761,
      "num_input_tokens_seen": 26947072,
      "step": 29050
    },
    {
      "epoch": 13.698727015558699,
      "grad_norm": 0.0002733333967626095,
      "learning_rate": 0.05209992096474048,
      "loss": 0.3256,
      "num_input_tokens_seen": 26952064,
      "step": 29055
    },
    {
      "epoch": 13.701084394153701,
      "grad_norm": 0.0004191263287793845,
      "learning_rate": 0.05205529955623559,
      "loss": 0.2893,
      "num_input_tokens_seen": 26956160,
      "step": 29060
    },
    {
      "epoch": 13.703441772748704,
      "grad_norm": 0.0005959924892522395,
      "learning_rate": 0.052010693252034314,
      "loss": 0.3257,
      "num_input_tokens_seen": 26960208,
      "step": 29065
    },
    {
      "epoch": 13.705799151343706,
      "grad_norm": 0.0003791628987528384,
      "learning_rate": 0.0519661020590156,
      "loss": 0.3097,
      "num_input_tokens_seen": 26964160,
      "step": 29070
    },
    {
      "epoch": 13.708156529938709,
      "grad_norm": 0.0004336593847256154,
      "learning_rate": 0.05192152598405586,
      "loss": 0.3378,
      "num_input_tokens_seen": 26968432,
      "step": 29075
    },
    {
      "epoch": 13.710513908533711,
      "grad_norm": 0.0002451209875289351,
      "learning_rate": 0.05187696503402941,
      "loss": 0.2915,
      "num_input_tokens_seen": 26973200,
      "step": 29080
    },
    {
      "epoch": 13.712871287128714,
      "grad_norm": 0.000274771882686764,
      "learning_rate": 0.05183241921580798,
      "loss": 0.3395,
      "num_input_tokens_seen": 26977440,
      "step": 29085
    },
    {
      "epoch": 13.715228665723716,
      "grad_norm": 0.00048548151971772313,
      "learning_rate": 0.051787888536261206,
      "loss": 0.3451,
      "num_input_tokens_seen": 26982272,
      "step": 29090
    },
    {
      "epoch": 13.717586044318718,
      "grad_norm": 0.0005938538233749568,
      "learning_rate": 0.051743373002256184,
      "loss": 0.3692,
      "num_input_tokens_seen": 26987136,
      "step": 29095
    },
    {
      "epoch": 13.71994342291372,
      "grad_norm": 0.0005472342018038034,
      "learning_rate": 0.05169887262065787,
      "loss": 0.2754,
      "num_input_tokens_seen": 26991936,
      "step": 29100
    },
    {
      "epoch": 13.722300801508723,
      "grad_norm": 0.0005904232384636998,
      "learning_rate": 0.051654387398328665,
      "loss": 0.3246,
      "num_input_tokens_seen": 26997264,
      "step": 29105
    },
    {
      "epoch": 13.724658180103724,
      "grad_norm": 0.0005522369174286723,
      "learning_rate": 0.05160991734212888,
      "loss": 0.2654,
      "num_input_tokens_seen": 27002352,
      "step": 29110
    },
    {
      "epoch": 13.727015558698728,
      "grad_norm": 0.00019769853679463267,
      "learning_rate": 0.051565462458916224,
      "loss": 0.2812,
      "num_input_tokens_seen": 27006976,
      "step": 29115
    },
    {
      "epoch": 13.729372937293729,
      "grad_norm": 0.0002786226978059858,
      "learning_rate": 0.05152102275554627,
      "loss": 0.332,
      "num_input_tokens_seen": 27011840,
      "step": 29120
    },
    {
      "epoch": 13.731730315888731,
      "grad_norm": 0.0007443213253282011,
      "learning_rate": 0.05147659823887222,
      "loss": 0.3887,
      "num_input_tokens_seen": 27016512,
      "step": 29125
    },
    {
      "epoch": 13.734087694483733,
      "grad_norm": 0.0002888799353968352,
      "learning_rate": 0.05143218891574479,
      "loss": 0.3299,
      "num_input_tokens_seen": 27020800,
      "step": 29130
    },
    {
      "epoch": 13.736445073078736,
      "grad_norm": 0.0005281316116452217,
      "learning_rate": 0.0513877947930125,
      "loss": 0.3203,
      "num_input_tokens_seen": 27025584,
      "step": 29135
    },
    {
      "epoch": 13.738802451673738,
      "grad_norm": 0.00027079760911874473,
      "learning_rate": 0.051343415877521566,
      "loss": 0.3349,
      "num_input_tokens_seen": 27030752,
      "step": 29140
    },
    {
      "epoch": 13.74115983026874,
      "grad_norm": 0.00031926363590173423,
      "learning_rate": 0.051299052176115634,
      "loss": 0.3174,
      "num_input_tokens_seen": 27034960,
      "step": 29145
    },
    {
      "epoch": 13.743517208863743,
      "grad_norm": 0.0003465110785327852,
      "learning_rate": 0.051254703695636256,
      "loss": 0.3699,
      "num_input_tokens_seen": 27039712,
      "step": 29150
    },
    {
      "epoch": 13.745874587458745,
      "grad_norm": 0.000817792781163007,
      "learning_rate": 0.05121037044292249,
      "loss": 0.3722,
      "num_input_tokens_seen": 27044096,
      "step": 29155
    },
    {
      "epoch": 13.748231966053748,
      "grad_norm": 0.00043070485116913915,
      "learning_rate": 0.05116605242481101,
      "loss": 0.3597,
      "num_input_tokens_seen": 27049392,
      "step": 29160
    },
    {
      "epoch": 13.75058934464875,
      "grad_norm": 0.0003858849813695997,
      "learning_rate": 0.05112174964813634,
      "loss": 0.3115,
      "num_input_tokens_seen": 27054480,
      "step": 29165
    },
    {
      "epoch": 13.752946723243753,
      "grad_norm": 0.0005927130696363747,
      "learning_rate": 0.05107746211973038,
      "loss": 0.3941,
      "num_input_tokens_seen": 27058592,
      "step": 29170
    },
    {
      "epoch": 13.755304101838755,
      "grad_norm": 0.0005050277104601264,
      "learning_rate": 0.05103318984642291,
      "loss": 0.3404,
      "num_input_tokens_seen": 27062512,
      "step": 29175
    },
    {
      "epoch": 13.757661480433757,
      "grad_norm": 0.0008677481091581285,
      "learning_rate": 0.05098893283504131,
      "loss": 0.3518,
      "num_input_tokens_seen": 27066960,
      "step": 29180
    },
    {
      "epoch": 13.76001885902876,
      "grad_norm": 0.00033160229213535786,
      "learning_rate": 0.050944691092410475,
      "loss": 0.332,
      "num_input_tokens_seen": 27071872,
      "step": 29185
    },
    {
      "epoch": 13.762376237623762,
      "grad_norm": 0.00032717667636461556,
      "learning_rate": 0.05090046462535313,
      "loss": 0.3165,
      "num_input_tokens_seen": 27076832,
      "step": 29190
    },
    {
      "epoch": 13.764733616218765,
      "grad_norm": 0.0005599488504230976,
      "learning_rate": 0.050856253440689454,
      "loss": 0.2952,
      "num_input_tokens_seen": 27081680,
      "step": 29195
    },
    {
      "epoch": 13.767090994813767,
      "grad_norm": 0.0009090056410059333,
      "learning_rate": 0.050812057545237405,
      "loss": 0.3617,
      "num_input_tokens_seen": 27087040,
      "step": 29200
    },
    {
      "epoch": 13.767090994813767,
      "eval_loss": 0.33077818155288696,
      "eval_runtime": 33.5894,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 27087040,
      "step": 29200
    },
    {
      "epoch": 13.76944837340877,
      "grad_norm": 0.0002436030626995489,
      "learning_rate": 0.0507678769458126,
      "loss": 0.3384,
      "num_input_tokens_seen": 27090800,
      "step": 29205
    },
    {
      "epoch": 13.771805752003772,
      "grad_norm": 0.0004077032208442688,
      "learning_rate": 0.050723711649228155,
      "loss": 0.3044,
      "num_input_tokens_seen": 27095360,
      "step": 29210
    },
    {
      "epoch": 13.774163130598774,
      "grad_norm": 0.0006103739142417908,
      "learning_rate": 0.05067956166229496,
      "loss": 0.3469,
      "num_input_tokens_seen": 27100288,
      "step": 29215
    },
    {
      "epoch": 13.776520509193777,
      "grad_norm": 0.0005358441267162561,
      "learning_rate": 0.05063542699182155,
      "loss": 0.3264,
      "num_input_tokens_seen": 27105792,
      "step": 29220
    },
    {
      "epoch": 13.778877887788779,
      "grad_norm": 0.0004505492397584021,
      "learning_rate": 0.050591307644613996,
      "loss": 0.3125,
      "num_input_tokens_seen": 27110144,
      "step": 29225
    },
    {
      "epoch": 13.781235266383781,
      "grad_norm": 0.00031282383133657277,
      "learning_rate": 0.05054720362747599,
      "loss": 0.3708,
      "num_input_tokens_seen": 27114752,
      "step": 29230
    },
    {
      "epoch": 13.783592644978784,
      "grad_norm": 0.00038581283297389746,
      "learning_rate": 0.050503114947209035,
      "loss": 0.3151,
      "num_input_tokens_seen": 27119296,
      "step": 29235
    },
    {
      "epoch": 13.785950023573786,
      "grad_norm": 0.0004106120904907584,
      "learning_rate": 0.05045904161061207,
      "loss": 0.3056,
      "num_input_tokens_seen": 27124208,
      "step": 29240
    },
    {
      "epoch": 13.788307402168789,
      "grad_norm": 0.0005528785986825824,
      "learning_rate": 0.05041498362448185,
      "loss": 0.3726,
      "num_input_tokens_seen": 27128288,
      "step": 29245
    },
    {
      "epoch": 13.790664780763791,
      "grad_norm": 0.0005001981044188142,
      "learning_rate": 0.05037094099561256,
      "loss": 0.3214,
      "num_input_tokens_seen": 27133472,
      "step": 29250
    },
    {
      "epoch": 13.793022159358793,
      "grad_norm": 0.0002714249421842396,
      "learning_rate": 0.05032691373079624,
      "loss": 0.3782,
      "num_input_tokens_seen": 27138080,
      "step": 29255
    },
    {
      "epoch": 13.795379537953796,
      "grad_norm": 0.0006137939053587615,
      "learning_rate": 0.05028290183682234,
      "loss": 0.3163,
      "num_input_tokens_seen": 27142960,
      "step": 29260
    },
    {
      "epoch": 13.797736916548798,
      "grad_norm": 0.00047289623762480915,
      "learning_rate": 0.050238905320478096,
      "loss": 0.341,
      "num_input_tokens_seen": 27147568,
      "step": 29265
    },
    {
      "epoch": 13.8000942951438,
      "grad_norm": 0.0005515027442015707,
      "learning_rate": 0.05019492418854838,
      "loss": 0.3059,
      "num_input_tokens_seen": 27152512,
      "step": 29270
    },
    {
      "epoch": 13.802451673738803,
      "grad_norm": 0.0006971190450713038,
      "learning_rate": 0.05015095844781554,
      "loss": 0.4053,
      "num_input_tokens_seen": 27156480,
      "step": 29275
    },
    {
      "epoch": 13.804809052333805,
      "grad_norm": 0.0005984879680909216,
      "learning_rate": 0.05010700810505968,
      "loss": 0.3358,
      "num_input_tokens_seen": 27161248,
      "step": 29280
    },
    {
      "epoch": 13.807166430928808,
      "grad_norm": 0.0009557769517414272,
      "learning_rate": 0.05006307316705856,
      "loss": 0.3619,
      "num_input_tokens_seen": 27165264,
      "step": 29285
    },
    {
      "epoch": 13.80952380952381,
      "grad_norm": 0.00030056689865887165,
      "learning_rate": 0.0500191536405874,
      "loss": 0.3307,
      "num_input_tokens_seen": 27169904,
      "step": 29290
    },
    {
      "epoch": 13.811881188118813,
      "grad_norm": 0.00048523262375965714,
      "learning_rate": 0.04997524953241922,
      "loss": 0.32,
      "num_input_tokens_seen": 27173616,
      "step": 29295
    },
    {
      "epoch": 13.814238566713815,
      "grad_norm": 0.00031947545357979834,
      "learning_rate": 0.049931360849324556,
      "loss": 0.3074,
      "num_input_tokens_seen": 27178208,
      "step": 29300
    },
    {
      "epoch": 13.816595945308817,
      "grad_norm": 0.00023441424127668142,
      "learning_rate": 0.04988748759807155,
      "loss": 0.2936,
      "num_input_tokens_seen": 27183408,
      "step": 29305
    },
    {
      "epoch": 13.81895332390382,
      "grad_norm": 0.0003758497186936438,
      "learning_rate": 0.0498436297854261,
      "loss": 0.2876,
      "num_input_tokens_seen": 27189216,
      "step": 29310
    },
    {
      "epoch": 13.82131070249882,
      "grad_norm": 0.0006313148769550025,
      "learning_rate": 0.04979978741815152,
      "loss": 0.3493,
      "num_input_tokens_seen": 27193024,
      "step": 29315
    },
    {
      "epoch": 13.823668081093825,
      "grad_norm": 0.0005333208828233182,
      "learning_rate": 0.04975596050300891,
      "loss": 0.3412,
      "num_input_tokens_seen": 27196672,
      "step": 29320
    },
    {
      "epoch": 13.826025459688825,
      "grad_norm": 0.0003810340422205627,
      "learning_rate": 0.049712149046757005,
      "loss": 0.3421,
      "num_input_tokens_seen": 27201776,
      "step": 29325
    },
    {
      "epoch": 13.828382838283828,
      "grad_norm": 0.0003327495069243014,
      "learning_rate": 0.04966835305615194,
      "loss": 0.3255,
      "num_input_tokens_seen": 27206128,
      "step": 29330
    },
    {
      "epoch": 13.83074021687883,
      "grad_norm": 0.0006084690103307366,
      "learning_rate": 0.049624572537947755,
      "loss": 0.3888,
      "num_input_tokens_seen": 27210928,
      "step": 29335
    },
    {
      "epoch": 13.833097595473832,
      "grad_norm": 0.00030528969364240766,
      "learning_rate": 0.04958080749889582,
      "loss": 0.3037,
      "num_input_tokens_seen": 27215376,
      "step": 29340
    },
    {
      "epoch": 13.835454974068835,
      "grad_norm": 0.0003470144874881953,
      "learning_rate": 0.049537057945745304,
      "loss": 0.3563,
      "num_input_tokens_seen": 27219488,
      "step": 29345
    },
    {
      "epoch": 13.837812352663837,
      "grad_norm": 0.0005863115075044334,
      "learning_rate": 0.049493323885243,
      "loss": 0.349,
      "num_input_tokens_seen": 27224944,
      "step": 29350
    },
    {
      "epoch": 13.84016973125884,
      "grad_norm": 0.0003302916302345693,
      "learning_rate": 0.04944960532413318,
      "loss": 0.2741,
      "num_input_tokens_seen": 27229376,
      "step": 29355
    },
    {
      "epoch": 13.842527109853842,
      "grad_norm": 0.00024169046082533896,
      "learning_rate": 0.049405902269157774,
      "loss": 0.3667,
      "num_input_tokens_seen": 27233952,
      "step": 29360
    },
    {
      "epoch": 13.844884488448844,
      "grad_norm": 0.00032563056447543204,
      "learning_rate": 0.04936221472705646,
      "loss": 0.3976,
      "num_input_tokens_seen": 27239424,
      "step": 29365
    },
    {
      "epoch": 13.847241867043847,
      "grad_norm": 0.00025224342243745923,
      "learning_rate": 0.04931854270456632,
      "loss": 0.2733,
      "num_input_tokens_seen": 27243824,
      "step": 29370
    },
    {
      "epoch": 13.84959924563885,
      "grad_norm": 0.00034888097434304655,
      "learning_rate": 0.049274886208422075,
      "loss": 0.3701,
      "num_input_tokens_seen": 27248448,
      "step": 29375
    },
    {
      "epoch": 13.851956624233852,
      "grad_norm": 0.00035470782313495874,
      "learning_rate": 0.049231245245356235,
      "loss": 0.362,
      "num_input_tokens_seen": 27253040,
      "step": 29380
    },
    {
      "epoch": 13.854314002828854,
      "grad_norm": 0.0005466229631565511,
      "learning_rate": 0.049187619822098655,
      "loss": 0.3372,
      "num_input_tokens_seen": 27258144,
      "step": 29385
    },
    {
      "epoch": 13.856671381423856,
      "grad_norm": 0.0005957992980256677,
      "learning_rate": 0.04914400994537705,
      "loss": 0.3291,
      "num_input_tokens_seen": 27262160,
      "step": 29390
    },
    {
      "epoch": 13.859028760018859,
      "grad_norm": 0.0006725758430548012,
      "learning_rate": 0.049100415621916485,
      "loss": 0.327,
      "num_input_tokens_seen": 27266352,
      "step": 29395
    },
    {
      "epoch": 13.861386138613861,
      "grad_norm": 0.00039818076766096056,
      "learning_rate": 0.04905683685843981,
      "loss": 0.3589,
      "num_input_tokens_seen": 27270960,
      "step": 29400
    },
    {
      "epoch": 13.861386138613861,
      "eval_loss": 0.32905715703964233,
      "eval_runtime": 33.6224,
      "eval_samples_per_second": 28.047,
      "eval_steps_per_second": 14.038,
      "num_input_tokens_seen": 27270960,
      "step": 29400
    },
    {
      "epoch": 13.863743517208864,
      "grad_norm": 0.0002872126060537994,
      "learning_rate": 0.049013273661667495,
      "loss": 0.3618,
      "num_input_tokens_seen": 27275776,
      "step": 29405
    },
    {
      "epoch": 13.866100895803866,
      "grad_norm": 0.0005526572349481285,
      "learning_rate": 0.048969726038317396,
      "loss": 0.3232,
      "num_input_tokens_seen": 27280496,
      "step": 29410
    },
    {
      "epoch": 13.868458274398868,
      "grad_norm": 0.0003903426986653358,
      "learning_rate": 0.048926193995105206,
      "loss": 0.3096,
      "num_input_tokens_seen": 27284608,
      "step": 29415
    },
    {
      "epoch": 13.87081565299387,
      "grad_norm": 0.0002823714166879654,
      "learning_rate": 0.048882677538744035,
      "loss": 0.3211,
      "num_input_tokens_seen": 27288320,
      "step": 29420
    },
    {
      "epoch": 13.873173031588873,
      "grad_norm": 0.0002798018977046013,
      "learning_rate": 0.048839176675944715,
      "loss": 0.3295,
      "num_input_tokens_seen": 27292208,
      "step": 29425
    },
    {
      "epoch": 13.875530410183876,
      "grad_norm": 0.0002618451835587621,
      "learning_rate": 0.04879569141341566,
      "loss": 0.3334,
      "num_input_tokens_seen": 27298160,
      "step": 29430
    },
    {
      "epoch": 13.877887788778878,
      "grad_norm": 0.0005425254348665476,
      "learning_rate": 0.04875222175786274,
      "loss": 0.2903,
      "num_input_tokens_seen": 27303648,
      "step": 29435
    },
    {
      "epoch": 13.88024516737388,
      "grad_norm": 0.0005364757380448282,
      "learning_rate": 0.04870876771598966,
      "loss": 0.3306,
      "num_input_tokens_seen": 27307696,
      "step": 29440
    },
    {
      "epoch": 13.882602545968883,
      "grad_norm": 0.0003515800344757736,
      "learning_rate": 0.04866532929449744,
      "loss": 0.3461,
      "num_input_tokens_seen": 27312512,
      "step": 29445
    },
    {
      "epoch": 13.884959924563885,
      "grad_norm": 0.0002426451537758112,
      "learning_rate": 0.048621906500084945,
      "loss": 0.3028,
      "num_input_tokens_seen": 27317744,
      "step": 29450
    },
    {
      "epoch": 13.887317303158888,
      "grad_norm": 0.0004705035826191306,
      "learning_rate": 0.04857849933944845,
      "loss": 0.3222,
      "num_input_tokens_seen": 27322832,
      "step": 29455
    },
    {
      "epoch": 13.88967468175389,
      "grad_norm": 0.00032935134368017316,
      "learning_rate": 0.048535107819281866,
      "loss": 0.3597,
      "num_input_tokens_seen": 27327392,
      "step": 29460
    },
    {
      "epoch": 13.892032060348892,
      "grad_norm": 0.0003911993990186602,
      "learning_rate": 0.04849173194627675,
      "loss": 0.3664,
      "num_input_tokens_seen": 27331920,
      "step": 29465
    },
    {
      "epoch": 13.894389438943895,
      "grad_norm": 0.00028940438642166555,
      "learning_rate": 0.04844837172712223,
      "loss": 0.2938,
      "num_input_tokens_seen": 27336352,
      "step": 29470
    },
    {
      "epoch": 13.896746817538897,
      "grad_norm": 0.00031445364584214985,
      "learning_rate": 0.04840502716850494,
      "loss": 0.3573,
      "num_input_tokens_seen": 27341376,
      "step": 29475
    },
    {
      "epoch": 13.8991041961339,
      "grad_norm": 0.0005173799581825733,
      "learning_rate": 0.04836169827710916,
      "loss": 0.2925,
      "num_input_tokens_seen": 27347456,
      "step": 29480
    },
    {
      "epoch": 13.901461574728902,
      "grad_norm": 0.0006437363917939365,
      "learning_rate": 0.04831838505961684,
      "loss": 0.3694,
      "num_input_tokens_seen": 27351760,
      "step": 29485
    },
    {
      "epoch": 13.903818953323904,
      "grad_norm": 0.0002565818722359836,
      "learning_rate": 0.048275087522707295,
      "loss": 0.3173,
      "num_input_tokens_seen": 27356256,
      "step": 29490
    },
    {
      "epoch": 13.906176331918907,
      "grad_norm": 0.00041622543358244,
      "learning_rate": 0.04823180567305766,
      "loss": 0.3519,
      "num_input_tokens_seen": 27360800,
      "step": 29495
    },
    {
      "epoch": 13.90853371051391,
      "grad_norm": 0.000327132671372965,
      "learning_rate": 0.04818853951734244,
      "loss": 0.3213,
      "num_input_tokens_seen": 27364880,
      "step": 29500
    },
    {
      "epoch": 13.910891089108912,
      "grad_norm": 0.00023970210168045014,
      "learning_rate": 0.04814528906223387,
      "loss": 0.3598,
      "num_input_tokens_seen": 27369648,
      "step": 29505
    },
    {
      "epoch": 13.913248467703912,
      "grad_norm": 0.00034229987068101764,
      "learning_rate": 0.04810205431440177,
      "loss": 0.3386,
      "num_input_tokens_seen": 27373536,
      "step": 29510
    },
    {
      "epoch": 13.915605846298917,
      "grad_norm": 0.00047489505959674716,
      "learning_rate": 0.04805883528051341,
      "loss": 0.3048,
      "num_input_tokens_seen": 27378944,
      "step": 29515
    },
    {
      "epoch": 13.917963224893917,
      "grad_norm": 0.00054751435527578,
      "learning_rate": 0.048015631967233685,
      "loss": 0.2809,
      "num_input_tokens_seen": 27382704,
      "step": 29520
    },
    {
      "epoch": 13.92032060348892,
      "grad_norm": 0.0003252057358622551,
      "learning_rate": 0.04797244438122517,
      "loss": 0.3412,
      "num_input_tokens_seen": 27388224,
      "step": 29525
    },
    {
      "epoch": 13.922677982083922,
      "grad_norm": 0.0003635413304436952,
      "learning_rate": 0.04792927252914784,
      "loss": 0.3294,
      "num_input_tokens_seen": 27392784,
      "step": 29530
    },
    {
      "epoch": 13.925035360678924,
      "grad_norm": 0.0005843109684064984,
      "learning_rate": 0.04788611641765944,
      "loss": 0.3262,
      "num_input_tokens_seen": 27397232,
      "step": 29535
    },
    {
      "epoch": 13.927392739273927,
      "grad_norm": 0.00024528519134037197,
      "learning_rate": 0.04784297605341508,
      "loss": 0.3249,
      "num_input_tokens_seen": 27402720,
      "step": 29540
    },
    {
      "epoch": 13.92975011786893,
      "grad_norm": 0.0006372675998136401,
      "learning_rate": 0.04779985144306761,
      "loss": 0.3551,
      "num_input_tokens_seen": 27407104,
      "step": 29545
    },
    {
      "epoch": 13.932107496463932,
      "grad_norm": 0.0005249126115813851,
      "learning_rate": 0.047756742593267405,
      "loss": 0.3005,
      "num_input_tokens_seen": 27411536,
      "step": 29550
    },
    {
      "epoch": 13.934464875058934,
      "grad_norm": 0.00027271686121821404,
      "learning_rate": 0.047713649510662315,
      "loss": 0.3209,
      "num_input_tokens_seen": 27415872,
      "step": 29555
    },
    {
      "epoch": 13.936822253653936,
      "grad_norm": 0.0006400510901585221,
      "learning_rate": 0.04767057220189789,
      "loss": 0.3446,
      "num_input_tokens_seen": 27420416,
      "step": 29560
    },
    {
      "epoch": 13.939179632248939,
      "grad_norm": 0.0004392596601974219,
      "learning_rate": 0.04762751067361722,
      "loss": 0.3214,
      "num_input_tokens_seen": 27424720,
      "step": 29565
    },
    {
      "epoch": 13.941537010843941,
      "grad_norm": 0.00020486186258494854,
      "learning_rate": 0.04758446493246086,
      "loss": 0.2479,
      "num_input_tokens_seen": 27428624,
      "step": 29570
    },
    {
      "epoch": 13.943894389438944,
      "grad_norm": 0.0005298868054524064,
      "learning_rate": 0.047541434985067084,
      "loss": 0.2529,
      "num_input_tokens_seen": 27434096,
      "step": 29575
    },
    {
      "epoch": 13.946251768033946,
      "grad_norm": 0.00033529396750964224,
      "learning_rate": 0.047498420838071556,
      "loss": 0.3264,
      "num_input_tokens_seen": 27438752,
      "step": 29580
    },
    {
      "epoch": 13.948609146628948,
      "grad_norm": 0.0004740756412502378,
      "learning_rate": 0.04745542249810772,
      "loss": 0.3244,
      "num_input_tokens_seen": 27443520,
      "step": 29585
    },
    {
      "epoch": 13.95096652522395,
      "grad_norm": 0.00017800406203605235,
      "learning_rate": 0.047412439971806324,
      "loss": 0.2651,
      "num_input_tokens_seen": 27447728,
      "step": 29590
    },
    {
      "epoch": 13.953323903818953,
      "grad_norm": 0.0003016071277670562,
      "learning_rate": 0.04736947326579592,
      "loss": 0.3404,
      "num_input_tokens_seen": 27453200,
      "step": 29595
    },
    {
      "epoch": 13.955681282413956,
      "grad_norm": 0.00041314351256005466,
      "learning_rate": 0.04732652238670245,
      "loss": 0.3306,
      "num_input_tokens_seen": 27457936,
      "step": 29600
    },
    {
      "epoch": 13.955681282413956,
      "eval_loss": 0.3291581869125366,
      "eval_runtime": 33.55,
      "eval_samples_per_second": 28.107,
      "eval_steps_per_second": 14.069,
      "num_input_tokens_seen": 27457936,
      "step": 29600
    },
    {
      "epoch": 13.958038661008958,
      "grad_norm": 0.0004084433021489531,
      "learning_rate": 0.04728358734114952,
      "loss": 0.3236,
      "num_input_tokens_seen": 27461616,
      "step": 29605
    },
    {
      "epoch": 13.96039603960396,
      "grad_norm": 0.0006504376651719213,
      "learning_rate": 0.04724066813575821,
      "loss": 0.3442,
      "num_input_tokens_seen": 27466064,
      "step": 29610
    },
    {
      "epoch": 13.962753418198963,
      "grad_norm": 0.00046223809476941824,
      "learning_rate": 0.04719776477714729,
      "loss": 0.3141,
      "num_input_tokens_seen": 27470736,
      "step": 29615
    },
    {
      "epoch": 13.965110796793965,
      "grad_norm": 0.0003108628443442285,
      "learning_rate": 0.047154877271932856,
      "loss": 0.3208,
      "num_input_tokens_seen": 27475936,
      "step": 29620
    },
    {
      "epoch": 13.967468175388968,
      "grad_norm": 0.0004920760984532535,
      "learning_rate": 0.0471120056267288,
      "loss": 0.3431,
      "num_input_tokens_seen": 27479856,
      "step": 29625
    },
    {
      "epoch": 13.96982555398397,
      "grad_norm": 0.0006767071317881346,
      "learning_rate": 0.047069149848146495,
      "loss": 0.3429,
      "num_input_tokens_seen": 27485040,
      "step": 29630
    },
    {
      "epoch": 13.972182932578972,
      "grad_norm": 0.00041919047362171113,
      "learning_rate": 0.04702630994279473,
      "loss": 0.3348,
      "num_input_tokens_seen": 27489472,
      "step": 29635
    },
    {
      "epoch": 13.974540311173975,
      "grad_norm": 0.00023892210447229445,
      "learning_rate": 0.046983485917280035,
      "loss": 0.3205,
      "num_input_tokens_seen": 27493840,
      "step": 29640
    },
    {
      "epoch": 13.976897689768977,
      "grad_norm": 0.0002468824968673289,
      "learning_rate": 0.04694067777820644,
      "loss": 0.2629,
      "num_input_tokens_seen": 27498144,
      "step": 29645
    },
    {
      "epoch": 13.97925506836398,
      "grad_norm": 0.0005145941977389157,
      "learning_rate": 0.046897885532175415,
      "loss": 0.315,
      "num_input_tokens_seen": 27502528,
      "step": 29650
    },
    {
      "epoch": 13.981612446958982,
      "grad_norm": 0.00034895131830126047,
      "learning_rate": 0.04685510918578613,
      "loss": 0.3317,
      "num_input_tokens_seen": 27507920,
      "step": 29655
    },
    {
      "epoch": 13.983969825553984,
      "grad_norm": 0.00019115822215098888,
      "learning_rate": 0.04681234874563519,
      "loss": 0.3325,
      "num_input_tokens_seen": 27512192,
      "step": 29660
    },
    {
      "epoch": 13.986327204148987,
      "grad_norm": 0.00043431963422335684,
      "learning_rate": 0.046769604218316836,
      "loss": 0.2812,
      "num_input_tokens_seen": 27516448,
      "step": 29665
    },
    {
      "epoch": 13.98868458274399,
      "grad_norm": 0.00018817515228874981,
      "learning_rate": 0.04672687561042279,
      "loss": 0.3027,
      "num_input_tokens_seen": 27520720,
      "step": 29670
    },
    {
      "epoch": 13.991041961338992,
      "grad_norm": 0.0004822101618628949,
      "learning_rate": 0.046684162928542286,
      "loss": 0.3287,
      "num_input_tokens_seen": 27525056,
      "step": 29675
    },
    {
      "epoch": 13.993399339933994,
      "grad_norm": 0.0002985051251016557,
      "learning_rate": 0.04664146617926222,
      "loss": 0.3584,
      "num_input_tokens_seen": 27529664,
      "step": 29680
    },
    {
      "epoch": 13.995756718528996,
      "grad_norm": 0.0002698125608731061,
      "learning_rate": 0.046598785369167,
      "loss": 0.3206,
      "num_input_tokens_seen": 27535104,
      "step": 29685
    },
    {
      "epoch": 13.998114097123999,
      "grad_norm": 0.00043838476995006204,
      "learning_rate": 0.046556120504838434,
      "loss": 0.3132,
      "num_input_tokens_seen": 27539696,
      "step": 29690
    },
    {
      "epoch": 14.000471475719001,
      "grad_norm": 0.0003118664608336985,
      "learning_rate": 0.04651347159285609,
      "loss": 0.3499,
      "num_input_tokens_seen": 27543808,
      "step": 29695
    },
    {
      "epoch": 14.002828854314004,
      "grad_norm": 0.0003907522768713534,
      "learning_rate": 0.04647083863979688,
      "loss": 0.4181,
      "num_input_tokens_seen": 27548000,
      "step": 29700
    },
    {
      "epoch": 14.005186232909006,
      "grad_norm": 0.0006318867672234774,
      "learning_rate": 0.04642822165223538,
      "loss": 0.2896,
      "num_input_tokens_seen": 27552208,
      "step": 29705
    },
    {
      "epoch": 14.007543611504008,
      "grad_norm": 0.0003762226551771164,
      "learning_rate": 0.046385620636743716,
      "loss": 0.3797,
      "num_input_tokens_seen": 27556720,
      "step": 29710
    },
    {
      "epoch": 14.009900990099009,
      "grad_norm": 0.0005249331588856876,
      "learning_rate": 0.04634303559989141,
      "loss": 0.3677,
      "num_input_tokens_seen": 27562320,
      "step": 29715
    },
    {
      "epoch": 14.012258368694011,
      "grad_norm": 0.00029990565963089466,
      "learning_rate": 0.046300466548245635,
      "loss": 0.3304,
      "num_input_tokens_seen": 27567392,
      "step": 29720
    },
    {
      "epoch": 14.014615747289014,
      "grad_norm": 0.0002595797704998404,
      "learning_rate": 0.04625791348837114,
      "loss": 0.3035,
      "num_input_tokens_seen": 27571616,
      "step": 29725
    },
    {
      "epoch": 14.016973125884016,
      "grad_norm": 0.00025319631095044315,
      "learning_rate": 0.046215376426830095,
      "loss": 0.3615,
      "num_input_tokens_seen": 27575392,
      "step": 29730
    },
    {
      "epoch": 14.019330504479019,
      "grad_norm": 0.0006828262121416628,
      "learning_rate": 0.04617285537018219,
      "loss": 0.3955,
      "num_input_tokens_seen": 27579504,
      "step": 29735
    },
    {
      "epoch": 14.021687883074021,
      "grad_norm": 0.00029853449086658657,
      "learning_rate": 0.046130350324984803,
      "loss": 0.3584,
      "num_input_tokens_seen": 27584544,
      "step": 29740
    },
    {
      "epoch": 14.024045261669023,
      "grad_norm": 0.0003518964222166687,
      "learning_rate": 0.046087861297792666,
      "loss": 0.359,
      "num_input_tokens_seen": 27589840,
      "step": 29745
    },
    {
      "epoch": 14.026402640264026,
      "grad_norm": 0.00039418740198016167,
      "learning_rate": 0.0460453882951582,
      "loss": 0.3339,
      "num_input_tokens_seen": 27594160,
      "step": 29750
    },
    {
      "epoch": 14.028760018859028,
      "grad_norm": 0.0005212550750002265,
      "learning_rate": 0.04600293132363119,
      "loss": 0.315,
      "num_input_tokens_seen": 27598576,
      "step": 29755
    },
    {
      "epoch": 14.03111739745403,
      "grad_norm": 0.00026293779956176877,
      "learning_rate": 0.045960490389759086,
      "loss": 0.3715,
      "num_input_tokens_seen": 27603632,
      "step": 29760
    },
    {
      "epoch": 14.033474776049033,
      "grad_norm": 0.0003491198003757745,
      "learning_rate": 0.04591806550008685,
      "loss": 0.3826,
      "num_input_tokens_seen": 27607744,
      "step": 29765
    },
    {
      "epoch": 14.035832154644035,
      "grad_norm": 0.0006369113689288497,
      "learning_rate": 0.045875656661156825,
      "loss": 0.3517,
      "num_input_tokens_seen": 27612208,
      "step": 29770
    },
    {
      "epoch": 14.038189533239038,
      "grad_norm": 0.0003479032311588526,
      "learning_rate": 0.04583326387950911,
      "loss": 0.3213,
      "num_input_tokens_seen": 27617408,
      "step": 29775
    },
    {
      "epoch": 14.04054691183404,
      "grad_norm": 0.0002868313167709857,
      "learning_rate": 0.0457908871616811,
      "loss": 0.333,
      "num_input_tokens_seen": 27621920,
      "step": 29780
    },
    {
      "epoch": 14.042904290429043,
      "grad_norm": 0.0006010888027958572,
      "learning_rate": 0.04574852651420786,
      "loss": 0.3808,
      "num_input_tokens_seen": 27625440,
      "step": 29785
    },
    {
      "epoch": 14.045261669024045,
      "grad_norm": 0.0007539343205280602,
      "learning_rate": 0.045706181943621985,
      "loss": 0.3357,
      "num_input_tokens_seen": 27629792,
      "step": 29790
    },
    {
      "epoch": 14.047619047619047,
      "grad_norm": 0.0004384057247079909,
      "learning_rate": 0.04566385345645344,
      "loss": 0.3127,
      "num_input_tokens_seen": 27634640,
      "step": 29795
    },
    {
      "epoch": 14.04997642621405,
      "grad_norm": 0.0003461191081441939,
      "learning_rate": 0.04562154105922993,
      "loss": 0.3116,
      "num_input_tokens_seen": 27639216,
      "step": 29800
    },
    {
      "epoch": 14.04997642621405,
      "eval_loss": 0.3331291079521179,
      "eval_runtime": 33.6127,
      "eval_samples_per_second": 28.055,
      "eval_steps_per_second": 14.042,
      "num_input_tokens_seen": 27639216,
      "step": 29800
    },
    {
      "epoch": 14.052333804809052,
      "grad_norm": 0.0006053831893950701,
      "learning_rate": 0.04557924475847642,
      "loss": 0.3039,
      "num_input_tokens_seen": 27644016,
      "step": 29805
    },
    {
      "epoch": 14.054691183404055,
      "grad_norm": 0.0002375054027652368,
      "learning_rate": 0.04553696456071567,
      "loss": 0.3216,
      "num_input_tokens_seen": 27648848,
      "step": 29810
    },
    {
      "epoch": 14.057048561999057,
      "grad_norm": 0.0003381546412128955,
      "learning_rate": 0.045494700472467724,
      "loss": 0.3187,
      "num_input_tokens_seen": 27653072,
      "step": 29815
    },
    {
      "epoch": 14.05940594059406,
      "grad_norm": 0.0004980339435860515,
      "learning_rate": 0.04545245250025024,
      "loss": 0.3454,
      "num_input_tokens_seen": 27657408,
      "step": 29820
    },
    {
      "epoch": 14.061763319189062,
      "grad_norm": 0.0002712719433475286,
      "learning_rate": 0.045410220650578384,
      "loss": 0.3441,
      "num_input_tokens_seen": 27662064,
      "step": 29825
    },
    {
      "epoch": 14.064120697784064,
      "grad_norm": 0.0005599742871709168,
      "learning_rate": 0.04536800492996492,
      "loss": 0.2862,
      "num_input_tokens_seen": 27666720,
      "step": 29830
    },
    {
      "epoch": 14.066478076379067,
      "grad_norm": 0.00048987747868523,
      "learning_rate": 0.04532580534491994,
      "loss": 0.3321,
      "num_input_tokens_seen": 27671568,
      "step": 29835
    },
    {
      "epoch": 14.068835454974069,
      "grad_norm": 0.00028948206454515457,
      "learning_rate": 0.045283621901951183,
      "loss": 0.3162,
      "num_input_tokens_seen": 27676224,
      "step": 29840
    },
    {
      "epoch": 14.071192833569071,
      "grad_norm": 0.00021552004909608513,
      "learning_rate": 0.04524145460756393,
      "loss": 0.3042,
      "num_input_tokens_seen": 27680928,
      "step": 29845
    },
    {
      "epoch": 14.073550212164074,
      "grad_norm": 0.0003486266068648547,
      "learning_rate": 0.045199303468260794,
      "loss": 0.3384,
      "num_input_tokens_seen": 27685808,
      "step": 29850
    },
    {
      "epoch": 14.075907590759076,
      "grad_norm": 0.0003427647170610726,
      "learning_rate": 0.04515716849054214,
      "loss": 0.3109,
      "num_input_tokens_seen": 27690448,
      "step": 29855
    },
    {
      "epoch": 14.078264969354079,
      "grad_norm": 0.00035225640749558806,
      "learning_rate": 0.04511504968090558,
      "loss": 0.3356,
      "num_input_tokens_seen": 27694608,
      "step": 29860
    },
    {
      "epoch": 14.080622347949081,
      "grad_norm": 0.00045649634557776153,
      "learning_rate": 0.04507294704584644,
      "loss": 0.3763,
      "num_input_tokens_seen": 27698720,
      "step": 29865
    },
    {
      "epoch": 14.082979726544083,
      "grad_norm": 0.00039876968367025256,
      "learning_rate": 0.04503086059185749,
      "loss": 0.3447,
      "num_input_tokens_seen": 27703024,
      "step": 29870
    },
    {
      "epoch": 14.085337105139086,
      "grad_norm": 0.00020768569083884358,
      "learning_rate": 0.04498879032542893,
      "loss": 0.3454,
      "num_input_tokens_seen": 27708176,
      "step": 29875
    },
    {
      "epoch": 14.087694483734088,
      "grad_norm": 0.0006313592894002795,
      "learning_rate": 0.0449467362530486,
      "loss": 0.3033,
      "num_input_tokens_seen": 27712320,
      "step": 29880
    },
    {
      "epoch": 14.09005186232909,
      "grad_norm": 0.0003124279319308698,
      "learning_rate": 0.04490469838120171,
      "loss": 0.3329,
      "num_input_tokens_seen": 27716944,
      "step": 29885
    },
    {
      "epoch": 14.092409240924093,
      "grad_norm": 0.0005170591757632792,
      "learning_rate": 0.04486267671637101,
      "loss": 0.3001,
      "num_input_tokens_seen": 27721936,
      "step": 29890
    },
    {
      "epoch": 14.094766619519095,
      "grad_norm": 0.0002964600862469524,
      "learning_rate": 0.04482067126503683,
      "loss": 0.329,
      "num_input_tokens_seen": 27727136,
      "step": 29895
    },
    {
      "epoch": 14.097123998114098,
      "grad_norm": 0.0006035732221789658,
      "learning_rate": 0.04477868203367687,
      "loss": 0.3062,
      "num_input_tokens_seen": 27731536,
      "step": 29900
    },
    {
      "epoch": 14.0994813767091,
      "grad_norm": 0.00027699797647073865,
      "learning_rate": 0.044736709028766426,
      "loss": 0.3435,
      "num_input_tokens_seen": 27735952,
      "step": 29905
    },
    {
      "epoch": 14.101838755304103,
      "grad_norm": 0.0006328971358016133,
      "learning_rate": 0.04469475225677832,
      "loss": 0.2972,
      "num_input_tokens_seen": 27740032,
      "step": 29910
    },
    {
      "epoch": 14.104196133899103,
      "grad_norm": 0.0005282361526042223,
      "learning_rate": 0.04465281172418273,
      "loss": 0.3248,
      "num_input_tokens_seen": 27744320,
      "step": 29915
    },
    {
      "epoch": 14.106553512494106,
      "grad_norm": 0.00021923091844655573,
      "learning_rate": 0.044610887437447476,
      "loss": 0.3513,
      "num_input_tokens_seen": 27749616,
      "step": 29920
    },
    {
      "epoch": 14.108910891089108,
      "grad_norm": 0.0005365320830605924,
      "learning_rate": 0.044568979403037744,
      "loss": 0.2946,
      "num_input_tokens_seen": 27754560,
      "step": 29925
    },
    {
      "epoch": 14.11126826968411,
      "grad_norm": 0.00019319225975777954,
      "learning_rate": 0.04452708762741631,
      "loss": 0.3458,
      "num_input_tokens_seen": 27760496,
      "step": 29930
    },
    {
      "epoch": 14.113625648279113,
      "grad_norm": 0.00037376745603978634,
      "learning_rate": 0.044485212117043475,
      "loss": 0.3774,
      "num_input_tokens_seen": 27764976,
      "step": 29935
    },
    {
      "epoch": 14.115983026874115,
      "grad_norm": 0.0006667839479632676,
      "learning_rate": 0.04444335287837687,
      "loss": 0.3023,
      "num_input_tokens_seen": 27770144,
      "step": 29940
    },
    {
      "epoch": 14.118340405469118,
      "grad_norm": 0.0006207118858583272,
      "learning_rate": 0.04440150991787179,
      "loss": 0.3006,
      "num_input_tokens_seen": 27775168,
      "step": 29945
    },
    {
      "epoch": 14.12069778406412,
      "grad_norm": 0.0003162286593578756,
      "learning_rate": 0.04435968324198088,
      "loss": 0.3063,
      "num_input_tokens_seen": 27780304,
      "step": 29950
    },
    {
      "epoch": 14.123055162659123,
      "grad_norm": 0.0006495603010989726,
      "learning_rate": 0.04431787285715442,
      "loss": 0.338,
      "num_input_tokens_seen": 27785760,
      "step": 29955
    },
    {
      "epoch": 14.125412541254125,
      "grad_norm": 0.0003646801633294672,
      "learning_rate": 0.04427607876984004,
      "loss": 0.3847,
      "num_input_tokens_seen": 27790816,
      "step": 29960
    },
    {
      "epoch": 14.127769919849127,
      "grad_norm": 0.0006553350249305367,
      "learning_rate": 0.044234300986482886,
      "loss": 0.3362,
      "num_input_tokens_seen": 27795904,
      "step": 29965
    },
    {
      "epoch": 14.13012729844413,
      "grad_norm": 0.00042073713848367333,
      "learning_rate": 0.04419253951352566,
      "loss": 0.2671,
      "num_input_tokens_seen": 27800960,
      "step": 29970
    },
    {
      "epoch": 14.132484677039132,
      "grad_norm": 0.0006140428595244884,
      "learning_rate": 0.044150794357408533,
      "loss": 0.2454,
      "num_input_tokens_seen": 27805248,
      "step": 29975
    },
    {
      "epoch": 14.134842055634135,
      "grad_norm": 0.0005335743189789355,
      "learning_rate": 0.044109065524569065,
      "loss": 0.286,
      "num_input_tokens_seen": 27810992,
      "step": 29980
    },
    {
      "epoch": 14.137199434229137,
      "grad_norm": 0.0004523552197497338,
      "learning_rate": 0.0440673530214424,
      "loss": 0.3211,
      "num_input_tokens_seen": 27815504,
      "step": 29985
    },
    {
      "epoch": 14.13955681282414,
      "grad_norm": 0.0004592853947542608,
      "learning_rate": 0.04402565685446117,
      "loss": 0.3593,
      "num_input_tokens_seen": 27819664,
      "step": 29990
    },
    {
      "epoch": 14.141914191419142,
      "grad_norm": 0.0003867496852762997,
      "learning_rate": 0.04398397703005536,
      "loss": 0.2922,
      "num_input_tokens_seen": 27823728,
      "step": 29995
    },
    {
      "epoch": 14.144271570014144,
      "grad_norm": 0.00035792839480564,
      "learning_rate": 0.043942313554652626,
      "loss": 0.3343,
      "num_input_tokens_seen": 27829056,
      "step": 30000
    },
    {
      "epoch": 14.144271570014144,
      "eval_loss": 0.3288826048374176,
      "eval_runtime": 33.6197,
      "eval_samples_per_second": 28.049,
      "eval_steps_per_second": 14.039,
      "num_input_tokens_seen": 27829056,
      "step": 30000
    },
    {
      "epoch": 14.146628948609147,
      "grad_norm": 0.0003593188594095409,
      "learning_rate": 0.0439006664346779,
      "loss": 0.3575,
      "num_input_tokens_seen": 27833536,
      "step": 30005
    },
    {
      "epoch": 14.148986327204149,
      "grad_norm": 0.0002567680785432458,
      "learning_rate": 0.043859035676553755,
      "loss": 0.3562,
      "num_input_tokens_seen": 27838272,
      "step": 30010
    },
    {
      "epoch": 14.151343705799151,
      "grad_norm": 0.0005706407246179879,
      "learning_rate": 0.043817421286700194,
      "loss": 0.2654,
      "num_input_tokens_seen": 27843168,
      "step": 30015
    },
    {
      "epoch": 14.153701084394154,
      "grad_norm": 0.00029121426632627845,
      "learning_rate": 0.043775823271534585,
      "loss": 0.3409,
      "num_input_tokens_seen": 27847568,
      "step": 30020
    },
    {
      "epoch": 14.156058462989156,
      "grad_norm": 0.00042397089418955147,
      "learning_rate": 0.04373424163747197,
      "loss": 0.3079,
      "num_input_tokens_seen": 27852608,
      "step": 30025
    },
    {
      "epoch": 14.158415841584159,
      "grad_norm": 0.0004151594184804708,
      "learning_rate": 0.04369267639092473,
      "loss": 0.2981,
      "num_input_tokens_seen": 27857376,
      "step": 30030
    },
    {
      "epoch": 14.160773220179161,
      "grad_norm": 0.0005061523406766355,
      "learning_rate": 0.04365112753830268,
      "loss": 0.2795,
      "num_input_tokens_seen": 27861456,
      "step": 30035
    },
    {
      "epoch": 14.163130598774163,
      "grad_norm": 0.0003839302225969732,
      "learning_rate": 0.04360959508601327,
      "loss": 0.3066,
      "num_input_tokens_seen": 27865808,
      "step": 30040
    },
    {
      "epoch": 14.165487977369166,
      "grad_norm": 0.000419962772866711,
      "learning_rate": 0.04356807904046123,
      "loss": 0.3736,
      "num_input_tokens_seen": 27869824,
      "step": 30045
    },
    {
      "epoch": 14.167845355964168,
      "grad_norm": 0.00037744196015410125,
      "learning_rate": 0.04352657940804892,
      "loss": 0.3571,
      "num_input_tokens_seen": 27875088,
      "step": 30050
    },
    {
      "epoch": 14.17020273455917,
      "grad_norm": 0.0005140785360708833,
      "learning_rate": 0.04348509619517613,
      "loss": 0.3066,
      "num_input_tokens_seen": 27879840,
      "step": 30055
    },
    {
      "epoch": 14.172560113154173,
      "grad_norm": 0.0004622192354872823,
      "learning_rate": 0.04344362940824002,
      "loss": 0.3861,
      "num_input_tokens_seen": 27885520,
      "step": 30060
    },
    {
      "epoch": 14.174917491749175,
      "grad_norm": 0.0003516161232255399,
      "learning_rate": 0.04340217905363533,
      "loss": 0.3225,
      "num_input_tokens_seen": 27889856,
      "step": 30065
    },
    {
      "epoch": 14.177274870344178,
      "grad_norm": 0.0005871279863640666,
      "learning_rate": 0.04336074513775425,
      "loss": 0.263,
      "num_input_tokens_seen": 27893504,
      "step": 30070
    },
    {
      "epoch": 14.17963224893918,
      "grad_norm": 0.00032544342684559524,
      "learning_rate": 0.04331932766698636,
      "loss": 0.3588,
      "num_input_tokens_seen": 27898224,
      "step": 30075
    },
    {
      "epoch": 14.181989627534183,
      "grad_norm": 0.0003700801753439009,
      "learning_rate": 0.0432779266477188,
      "loss": 0.2971,
      "num_input_tokens_seen": 27902432,
      "step": 30080
    },
    {
      "epoch": 14.184347006129185,
      "grad_norm": 0.00032273263786919415,
      "learning_rate": 0.04323654208633607,
      "loss": 0.2924,
      "num_input_tokens_seen": 27907264,
      "step": 30085
    },
    {
      "epoch": 14.186704384724187,
      "grad_norm": 0.00028767052572220564,
      "learning_rate": 0.04319517398922024,
      "loss": 0.2627,
      "num_input_tokens_seen": 27912816,
      "step": 30090
    },
    {
      "epoch": 14.18906176331919,
      "grad_norm": 0.00031091569690033793,
      "learning_rate": 0.04315382236275079,
      "loss": 0.3064,
      "num_input_tokens_seen": 27918016,
      "step": 30095
    },
    {
      "epoch": 14.191419141914192,
      "grad_norm": 0.0004425786028150469,
      "learning_rate": 0.043112487213304664,
      "loss": 0.3887,
      "num_input_tokens_seen": 27923872,
      "step": 30100
    },
    {
      "epoch": 14.193776520509195,
      "grad_norm": 0.00038656845572404563,
      "learning_rate": 0.04307116854725618,
      "loss": 0.3017,
      "num_input_tokens_seen": 27927984,
      "step": 30105
    },
    {
      "epoch": 14.196133899104197,
      "grad_norm": 0.00036362174432724714,
      "learning_rate": 0.043029866370977325,
      "loss": 0.3465,
      "num_input_tokens_seen": 27932928,
      "step": 30110
    },
    {
      "epoch": 14.198491277699198,
      "grad_norm": 0.0007003656355664134,
      "learning_rate": 0.04298858069083728,
      "loss": 0.3235,
      "num_input_tokens_seen": 27937904,
      "step": 30115
    },
    {
      "epoch": 14.2008486562942,
      "grad_norm": 0.0005518615944311023,
      "learning_rate": 0.04294731151320295,
      "loss": 0.372,
      "num_input_tokens_seen": 27942880,
      "step": 30120
    },
    {
      "epoch": 14.203206034889202,
      "grad_norm": 0.00029615737730637193,
      "learning_rate": 0.04290605884443841,
      "loss": 0.3573,
      "num_input_tokens_seen": 27947328,
      "step": 30125
    },
    {
      "epoch": 14.205563413484205,
      "grad_norm": 0.00044766414794139564,
      "learning_rate": 0.04286482269090545,
      "loss": 0.3488,
      "num_input_tokens_seen": 27952192,
      "step": 30130
    },
    {
      "epoch": 14.207920792079207,
      "grad_norm": 0.0006394815281964839,
      "learning_rate": 0.04282360305896323,
      "loss": 0.3047,
      "num_input_tokens_seen": 27957504,
      "step": 30135
    },
    {
      "epoch": 14.21027817067421,
      "grad_norm": 0.00025741898571141064,
      "learning_rate": 0.04278239995496822,
      "loss": 0.3007,
      "num_input_tokens_seen": 27962576,
      "step": 30140
    },
    {
      "epoch": 14.212635549269212,
      "grad_norm": 0.00022035169240552932,
      "learning_rate": 0.042741213385274514,
      "loss": 0.3285,
      "num_input_tokens_seen": 27966928,
      "step": 30145
    },
    {
      "epoch": 14.214992927864214,
      "grad_norm": 0.0005071996129117906,
      "learning_rate": 0.04270004335623366,
      "loss": 0.2796,
      "num_input_tokens_seen": 27971648,
      "step": 30150
    },
    {
      "epoch": 14.217350306459217,
      "grad_norm": 0.0004008652176707983,
      "learning_rate": 0.04265888987419448,
      "loss": 0.3195,
      "num_input_tokens_seen": 27976352,
      "step": 30155
    },
    {
      "epoch": 14.21970768505422,
      "grad_norm": 0.000517789158038795,
      "learning_rate": 0.04261775294550346,
      "loss": 0.3006,
      "num_input_tokens_seen": 27980912,
      "step": 30160
    },
    {
      "epoch": 14.222065063649222,
      "grad_norm": 0.0005731845158152282,
      "learning_rate": 0.042576632576504354,
      "loss": 0.2919,
      "num_input_tokens_seen": 27985872,
      "step": 30165
    },
    {
      "epoch": 14.224422442244224,
      "grad_norm": 0.00029715715209022164,
      "learning_rate": 0.0425355287735385,
      "loss": 0.3436,
      "num_input_tokens_seen": 27990288,
      "step": 30170
    },
    {
      "epoch": 14.226779820839226,
      "grad_norm": 0.00032320659374818206,
      "learning_rate": 0.0424944415429446,
      "loss": 0.3751,
      "num_input_tokens_seen": 27994896,
      "step": 30175
    },
    {
      "epoch": 14.229137199434229,
      "grad_norm": 0.00022856808209326118,
      "learning_rate": 0.04245337089105877,
      "loss": 0.3682,
      "num_input_tokens_seen": 27998896,
      "step": 30180
    },
    {
      "epoch": 14.231494578029231,
      "grad_norm": 0.000389720342354849,
      "learning_rate": 0.04241231682421467,
      "loss": 0.3144,
      "num_input_tokens_seen": 28003424,
      "step": 30185
    },
    {
      "epoch": 14.233851956624234,
      "grad_norm": 0.00030410970794036984,
      "learning_rate": 0.04237127934874337,
      "loss": 0.3653,
      "num_input_tokens_seen": 28008736,
      "step": 30190
    },
    {
      "epoch": 14.236209335219236,
      "grad_norm": 0.00034147946280427277,
      "learning_rate": 0.042330258470973305,
      "loss": 0.3055,
      "num_input_tokens_seen": 28013584,
      "step": 30195
    },
    {
      "epoch": 14.238566713814238,
      "grad_norm": 0.0003168814000673592,
      "learning_rate": 0.042289254197230515,
      "loss": 0.363,
      "num_input_tokens_seen": 28019840,
      "step": 30200
    },
    {
      "epoch": 14.238566713814238,
      "eval_loss": 0.3273707330226898,
      "eval_runtime": 33.6334,
      "eval_samples_per_second": 28.038,
      "eval_steps_per_second": 14.034,
      "num_input_tokens_seen": 28019840,
      "step": 30200
    },
    {
      "epoch": 14.24092409240924,
      "grad_norm": 0.0006269419682212174,
      "learning_rate": 0.04224826653383823,
      "loss": 0.2929,
      "num_input_tokens_seen": 28024720,
      "step": 30205
    },
    {
      "epoch": 14.243281471004243,
      "grad_norm": 0.0002720264019444585,
      "learning_rate": 0.04220729548711735,
      "loss": 0.3313,
      "num_input_tokens_seen": 28029248,
      "step": 30210
    },
    {
      "epoch": 14.245638849599246,
      "grad_norm": 0.0006227605626918375,
      "learning_rate": 0.04216634106338616,
      "loss": 0.298,
      "num_input_tokens_seen": 28033504,
      "step": 30215
    },
    {
      "epoch": 14.247996228194248,
      "grad_norm": 0.00030282759689725935,
      "learning_rate": 0.04212540326896025,
      "loss": 0.3622,
      "num_input_tokens_seen": 28038432,
      "step": 30220
    },
    {
      "epoch": 14.25035360678925,
      "grad_norm": 0.00034064362989738584,
      "learning_rate": 0.0420844821101528,
      "loss": 0.3768,
      "num_input_tokens_seen": 28043632,
      "step": 30225
    },
    {
      "epoch": 14.252710985384253,
      "grad_norm": 0.0005898342351429164,
      "learning_rate": 0.04204357759327441,
      "loss": 0.3459,
      "num_input_tokens_seen": 28047600,
      "step": 30230
    },
    {
      "epoch": 14.255068363979255,
      "grad_norm": 0.0003433020901866257,
      "learning_rate": 0.042002689724632954,
      "loss": 0.3365,
      "num_input_tokens_seen": 28051920,
      "step": 30235
    },
    {
      "epoch": 14.257425742574258,
      "grad_norm": 0.0005265246727503836,
      "learning_rate": 0.04196181851053398,
      "loss": 0.3255,
      "num_input_tokens_seen": 28056752,
      "step": 30240
    },
    {
      "epoch": 14.25978312116926,
      "grad_norm": 0.0005200657760724425,
      "learning_rate": 0.041920963957280295,
      "loss": 0.3401,
      "num_input_tokens_seen": 28063328,
      "step": 30245
    },
    {
      "epoch": 14.262140499764262,
      "grad_norm": 0.0003382648865226656,
      "learning_rate": 0.04188012607117212,
      "loss": 0.3171,
      "num_input_tokens_seen": 28067152,
      "step": 30250
    },
    {
      "epoch": 14.264497878359265,
      "grad_norm": 0.000782033777795732,
      "learning_rate": 0.04183930485850725,
      "loss": 0.3162,
      "num_input_tokens_seen": 28072352,
      "step": 30255
    },
    {
      "epoch": 14.266855256954267,
      "grad_norm": 0.00042284803930670023,
      "learning_rate": 0.04179850032558078,
      "loss": 0.3413,
      "num_input_tokens_seen": 28076576,
      "step": 30260
    },
    {
      "epoch": 14.26921263554927,
      "grad_norm": 0.00026525024441070855,
      "learning_rate": 0.041757712478685295,
      "loss": 0.3797,
      "num_input_tokens_seen": 28081648,
      "step": 30265
    },
    {
      "epoch": 14.271570014144272,
      "grad_norm": 0.0007398866582661867,
      "learning_rate": 0.04171694132411085,
      "loss": 0.3384,
      "num_input_tokens_seen": 28086320,
      "step": 30270
    },
    {
      "epoch": 14.273927392739274,
      "grad_norm": 0.0004184246645309031,
      "learning_rate": 0.04167618686814479,
      "loss": 0.3139,
      "num_input_tokens_seen": 28091360,
      "step": 30275
    },
    {
      "epoch": 14.276284771334277,
      "grad_norm": 0.00030990582308731973,
      "learning_rate": 0.041635449117072024,
      "loss": 0.3236,
      "num_input_tokens_seen": 28096272,
      "step": 30280
    },
    {
      "epoch": 14.27864214992928,
      "grad_norm": 0.00036068432382307947,
      "learning_rate": 0.04159472807717477,
      "loss": 0.3165,
      "num_input_tokens_seen": 28101152,
      "step": 30285
    },
    {
      "epoch": 14.280999528524282,
      "grad_norm": 0.00033329566940665245,
      "learning_rate": 0.041554023754732744,
      "loss": 0.3238,
      "num_input_tokens_seen": 28106784,
      "step": 30290
    },
    {
      "epoch": 14.283356907119284,
      "grad_norm": 0.0004243726434651762,
      "learning_rate": 0.04151333615602311,
      "loss": 0.3022,
      "num_input_tokens_seen": 28110896,
      "step": 30295
    },
    {
      "epoch": 14.285714285714286,
      "grad_norm": 0.0003712231991812587,
      "learning_rate": 0.04147266528732034,
      "loss": 0.3588,
      "num_input_tokens_seen": 28115600,
      "step": 30300
    },
    {
      "epoch": 14.288071664309289,
      "grad_norm": 0.00026864465326070786,
      "learning_rate": 0.0414320111548964,
      "loss": 0.3126,
      "num_input_tokens_seen": 28120592,
      "step": 30305
    },
    {
      "epoch": 14.290429042904291,
      "grad_norm": 0.0006453337264247239,
      "learning_rate": 0.04139137376502076,
      "loss": 0.3434,
      "num_input_tokens_seen": 28125264,
      "step": 30310
    },
    {
      "epoch": 14.292786421499294,
      "grad_norm": 0.00029963592533022165,
      "learning_rate": 0.04135075312396014,
      "loss": 0.38,
      "num_input_tokens_seen": 28129616,
      "step": 30315
    },
    {
      "epoch": 14.295143800094294,
      "grad_norm": 0.00042474025394767523,
      "learning_rate": 0.04131014923797875,
      "loss": 0.3433,
      "num_input_tokens_seen": 28133840,
      "step": 30320
    },
    {
      "epoch": 14.297501178689297,
      "grad_norm": 0.0002848575240932405,
      "learning_rate": 0.04126956211333819,
      "loss": 0.3542,
      "num_input_tokens_seen": 28138224,
      "step": 30325
    },
    {
      "epoch": 14.299858557284299,
      "grad_norm": 0.0003327089361846447,
      "learning_rate": 0.041228991756297545,
      "loss": 0.3304,
      "num_input_tokens_seen": 28143104,
      "step": 30330
    },
    {
      "epoch": 14.302215935879302,
      "grad_norm": 0.0005613466491922736,
      "learning_rate": 0.04118843817311332,
      "loss": 0.3301,
      "num_input_tokens_seen": 28147888,
      "step": 30335
    },
    {
      "epoch": 14.304573314474304,
      "grad_norm": 0.00029565230943262577,
      "learning_rate": 0.0411479013700393,
      "loss": 0.3045,
      "num_input_tokens_seen": 28152608,
      "step": 30340
    },
    {
      "epoch": 14.306930693069306,
      "grad_norm": 0.0006047094939276576,
      "learning_rate": 0.0411073813533268,
      "loss": 0.3063,
      "num_input_tokens_seen": 28157376,
      "step": 30345
    },
    {
      "epoch": 14.309288071664309,
      "grad_norm": 0.0005010645254515111,
      "learning_rate": 0.04106687812922456,
      "loss": 0.2588,
      "num_input_tokens_seen": 28161744,
      "step": 30350
    },
    {
      "epoch": 14.311645450259311,
      "grad_norm": 0.0006772020133212209,
      "learning_rate": 0.041026391703978635,
      "loss": 0.3176,
      "num_input_tokens_seen": 28166464,
      "step": 30355
    },
    {
      "epoch": 14.314002828854314,
      "grad_norm": 0.0006273854523897171,
      "learning_rate": 0.04098592208383259,
      "loss": 0.344,
      "num_input_tokens_seen": 28171248,
      "step": 30360
    },
    {
      "epoch": 14.316360207449316,
      "grad_norm": 0.0003342225681990385,
      "learning_rate": 0.040945469275027256,
      "loss": 0.305,
      "num_input_tokens_seen": 28175920,
      "step": 30365
    },
    {
      "epoch": 14.318717586044318,
      "grad_norm": 0.000389705877751112,
      "learning_rate": 0.04090503328380104,
      "loss": 0.3542,
      "num_input_tokens_seen": 28180384,
      "step": 30370
    },
    {
      "epoch": 14.32107496463932,
      "grad_norm": 0.001193988835439086,
      "learning_rate": 0.04086461411638971,
      "loss": 0.3488,
      "num_input_tokens_seen": 28184368,
      "step": 30375
    },
    {
      "epoch": 14.323432343234323,
      "grad_norm": 0.0005134408129379153,
      "learning_rate": 0.04082421177902631,
      "loss": 0.3301,
      "num_input_tokens_seen": 28188880,
      "step": 30380
    },
    {
      "epoch": 14.325789721829326,
      "grad_norm": 0.0004329641815274954,
      "learning_rate": 0.04078382627794149,
      "loss": 0.2926,
      "num_input_tokens_seen": 28193520,
      "step": 30385
    },
    {
      "epoch": 14.328147100424328,
      "grad_norm": 0.0002301677013747394,
      "learning_rate": 0.04074345761936316,
      "loss": 0.3118,
      "num_input_tokens_seen": 28197664,
      "step": 30390
    },
    {
      "epoch": 14.33050447901933,
      "grad_norm": 0.0006504479679279029,
      "learning_rate": 0.04070310580951663,
      "loss": 0.3445,
      "num_input_tokens_seen": 28201168,
      "step": 30395
    },
    {
      "epoch": 14.332861857614333,
      "grad_norm": 0.00032426221878267825,
      "learning_rate": 0.040662770854624726,
      "loss": 0.3075,
      "num_input_tokens_seen": 28205616,
      "step": 30400
    },
    {
      "epoch": 14.332861857614333,
      "eval_loss": 0.32643675804138184,
      "eval_runtime": 33.5876,
      "eval_samples_per_second": 28.076,
      "eval_steps_per_second": 14.053,
      "num_input_tokens_seen": 28205616,
      "step": 30400
    },
    {
      "epoch": 14.335219236209335,
      "grad_norm": 0.0003529741952661425,
      "learning_rate": 0.040622452760907535,
      "loss": 0.3219,
      "num_input_tokens_seen": 28209984,
      "step": 30405
    },
    {
      "epoch": 14.337576614804338,
      "grad_norm": 0.0006212076405063272,
      "learning_rate": 0.04058215153458265,
      "loss": 0.2995,
      "num_input_tokens_seen": 28216160,
      "step": 30410
    },
    {
      "epoch": 14.33993399339934,
      "grad_norm": 0.0005929396720603108,
      "learning_rate": 0.04054186718186507,
      "loss": 0.3056,
      "num_input_tokens_seen": 28220144,
      "step": 30415
    },
    {
      "epoch": 14.342291371994342,
      "grad_norm": 0.0003323762502986938,
      "learning_rate": 0.04050159970896708,
      "loss": 0.3456,
      "num_input_tokens_seen": 28224432,
      "step": 30420
    },
    {
      "epoch": 14.344648750589345,
      "grad_norm": 0.00032158507383428514,
      "learning_rate": 0.04046134912209843,
      "loss": 0.3367,
      "num_input_tokens_seen": 28228928,
      "step": 30425
    },
    {
      "epoch": 14.347006129184347,
      "grad_norm": 0.00032962646218948066,
      "learning_rate": 0.040421115427466354,
      "loss": 0.3421,
      "num_input_tokens_seen": 28233424,
      "step": 30430
    },
    {
      "epoch": 14.34936350777935,
      "grad_norm": 0.0003807446046266705,
      "learning_rate": 0.04038089863127529,
      "loss": 0.3126,
      "num_input_tokens_seen": 28238512,
      "step": 30435
    },
    {
      "epoch": 14.351720886374352,
      "grad_norm": 0.0006086711655370891,
      "learning_rate": 0.04034069873972727,
      "loss": 0.339,
      "num_input_tokens_seen": 28243920,
      "step": 30440
    },
    {
      "epoch": 14.354078264969354,
      "grad_norm": 0.0002984091406688094,
      "learning_rate": 0.040300515759021514,
      "loss": 0.34,
      "num_input_tokens_seen": 28248288,
      "step": 30445
    },
    {
      "epoch": 14.356435643564357,
      "grad_norm": 0.00039859930984675884,
      "learning_rate": 0.04026034969535478,
      "loss": 0.3319,
      "num_input_tokens_seen": 28252976,
      "step": 30450
    },
    {
      "epoch": 14.35879302215936,
      "grad_norm": 0.00042250091792084277,
      "learning_rate": 0.040220200554921266,
      "loss": 0.3317,
      "num_input_tokens_seen": 28257280,
      "step": 30455
    },
    {
      "epoch": 14.361150400754362,
      "grad_norm": 0.00033490097848698497,
      "learning_rate": 0.0401800683439124,
      "loss": 0.3167,
      "num_input_tokens_seen": 28262224,
      "step": 30460
    },
    {
      "epoch": 14.363507779349364,
      "grad_norm": 0.00033972502569667995,
      "learning_rate": 0.04013995306851704,
      "loss": 0.3604,
      "num_input_tokens_seen": 28266688,
      "step": 30465
    },
    {
      "epoch": 14.365865157944366,
      "grad_norm": 0.00033604991040192544,
      "learning_rate": 0.040099854734921545,
      "loss": 0.3301,
      "num_input_tokens_seen": 28270448,
      "step": 30470
    },
    {
      "epoch": 14.368222536539369,
      "grad_norm": 0.00024316812050528824,
      "learning_rate": 0.0400597733493095,
      "loss": 0.3016,
      "num_input_tokens_seen": 28274944,
      "step": 30475
    },
    {
      "epoch": 14.370579915134371,
      "grad_norm": 0.0004851211269851774,
      "learning_rate": 0.04001970891786203,
      "loss": 0.3356,
      "num_input_tokens_seen": 28279424,
      "step": 30480
    },
    {
      "epoch": 14.372937293729374,
      "grad_norm": 0.0003675433399621397,
      "learning_rate": 0.03997966144675752,
      "loss": 0.3514,
      "num_input_tokens_seen": 28284992,
      "step": 30485
    },
    {
      "epoch": 14.375294672324376,
      "grad_norm": 0.0004101992235518992,
      "learning_rate": 0.039939630942171796,
      "loss": 0.3691,
      "num_input_tokens_seen": 28289328,
      "step": 30490
    },
    {
      "epoch": 14.377652050919378,
      "grad_norm": 0.000399368058424443,
      "learning_rate": 0.03989961741027815,
      "loss": 0.3149,
      "num_input_tokens_seen": 28294192,
      "step": 30495
    },
    {
      "epoch": 14.38000942951438,
      "grad_norm": 0.00042859482346102595,
      "learning_rate": 0.03985962085724704,
      "loss": 0.3205,
      "num_input_tokens_seen": 28298304,
      "step": 30500
    },
    {
      "epoch": 14.382366808109383,
      "grad_norm": 0.0005795407923869789,
      "learning_rate": 0.03981964128924656,
      "loss": 0.319,
      "num_input_tokens_seen": 28302048,
      "step": 30505
    },
    {
      "epoch": 14.384724186704386,
      "grad_norm": 0.00029574063955806196,
      "learning_rate": 0.03977967871244197,
      "loss": 0.3285,
      "num_input_tokens_seen": 28306224,
      "step": 30510
    },
    {
      "epoch": 14.387081565299386,
      "grad_norm": 0.00030680064810439944,
      "learning_rate": 0.03973973313299602,
      "loss": 0.3169,
      "num_input_tokens_seen": 28310512,
      "step": 30515
    },
    {
      "epoch": 14.389438943894389,
      "grad_norm": 0.0005876428913325071,
      "learning_rate": 0.0396998045570689,
      "loss": 0.3542,
      "num_input_tokens_seen": 28314976,
      "step": 30520
    },
    {
      "epoch": 14.391796322489391,
      "grad_norm": 0.00035802298225462437,
      "learning_rate": 0.03965989299081798,
      "loss": 0.3186,
      "num_input_tokens_seen": 28320032,
      "step": 30525
    },
    {
      "epoch": 14.394153701084393,
      "grad_norm": 0.0004733179812319577,
      "learning_rate": 0.039619998440398235,
      "loss": 0.3482,
      "num_input_tokens_seen": 28324576,
      "step": 30530
    },
    {
      "epoch": 14.396511079679396,
      "grad_norm": 0.000886639638338238,
      "learning_rate": 0.03958012091196184,
      "loss": 0.3929,
      "num_input_tokens_seen": 28329936,
      "step": 30535
    },
    {
      "epoch": 14.398868458274398,
      "grad_norm": 0.0002876149956136942,
      "learning_rate": 0.039540260411658396,
      "loss": 0.2933,
      "num_input_tokens_seen": 28334848,
      "step": 30540
    },
    {
      "epoch": 14.4012258368694,
      "grad_norm": 0.0011572011280804873,
      "learning_rate": 0.03950041694563496,
      "loss": 0.3163,
      "num_input_tokens_seen": 28339312,
      "step": 30545
    },
    {
      "epoch": 14.403583215464403,
      "grad_norm": 0.00036702092620544136,
      "learning_rate": 0.0394605905200358,
      "loss": 0.3376,
      "num_input_tokens_seen": 28344016,
      "step": 30550
    },
    {
      "epoch": 14.405940594059405,
      "grad_norm": 0.00047169384197331965,
      "learning_rate": 0.03942078114100272,
      "loss": 0.3245,
      "num_input_tokens_seen": 28349056,
      "step": 30555
    },
    {
      "epoch": 14.408297972654408,
      "grad_norm": 0.0007029055850580335,
      "learning_rate": 0.03938098881467485,
      "loss": 0.3053,
      "num_input_tokens_seen": 28353216,
      "step": 30560
    },
    {
      "epoch": 14.41065535124941,
      "grad_norm": 0.00040539525798521936,
      "learning_rate": 0.039341213547188586,
      "loss": 0.3118,
      "num_input_tokens_seen": 28357216,
      "step": 30565
    },
    {
      "epoch": 14.413012729844413,
      "grad_norm": 0.0003696945495903492,
      "learning_rate": 0.03930145534467782,
      "loss": 0.3471,
      "num_input_tokens_seen": 28362208,
      "step": 30570
    },
    {
      "epoch": 14.415370108439415,
      "grad_norm": 0.0005611004307866096,
      "learning_rate": 0.0392617142132738,
      "loss": 0.3155,
      "num_input_tokens_seen": 28367744,
      "step": 30575
    },
    {
      "epoch": 14.417727487034417,
      "grad_norm": 0.0003910982341039926,
      "learning_rate": 0.03922199015910504,
      "loss": 0.3006,
      "num_input_tokens_seen": 28372528,
      "step": 30580
    },
    {
      "epoch": 14.42008486562942,
      "grad_norm": 0.0002864287525881082,
      "learning_rate": 0.039182283188297556,
      "loss": 0.3721,
      "num_input_tokens_seen": 28376960,
      "step": 30585
    },
    {
      "epoch": 14.422442244224422,
      "grad_norm": 0.00053724943427369,
      "learning_rate": 0.039142593306974595,
      "loss": 0.3239,
      "num_input_tokens_seen": 28381808,
      "step": 30590
    },
    {
      "epoch": 14.424799622819425,
      "grad_norm": 0.0006379265105351806,
      "learning_rate": 0.039102920521256856,
      "loss": 0.2918,
      "num_input_tokens_seen": 28385776,
      "step": 30595
    },
    {
      "epoch": 14.427157001414427,
      "grad_norm": 0.00043573451694101095,
      "learning_rate": 0.03906326483726243,
      "loss": 0.3307,
      "num_input_tokens_seen": 28390464,
      "step": 30600
    },
    {
      "epoch": 14.427157001414427,
      "eval_loss": 0.3274352550506592,
      "eval_runtime": 33.5889,
      "eval_samples_per_second": 28.075,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 28390464,
      "step": 30600
    },
    {
      "epoch": 14.42951438000943,
      "grad_norm": 0.00039280697819776833,
      "learning_rate": 0.039023626261106704,
      "loss": 0.3342,
      "num_input_tokens_seen": 28395232,
      "step": 30605
    },
    {
      "epoch": 14.431871758604432,
      "grad_norm": 0.0002836171770468354,
      "learning_rate": 0.03898400479890237,
      "loss": 0.364,
      "num_input_tokens_seen": 28399232,
      "step": 30610
    },
    {
      "epoch": 14.434229137199434,
      "grad_norm": 0.00035826535895466805,
      "learning_rate": 0.038944400456759655,
      "loss": 0.298,
      "num_input_tokens_seen": 28404192,
      "step": 30615
    },
    {
      "epoch": 14.436586515794437,
      "grad_norm": 0.00035881975782103837,
      "learning_rate": 0.038904813240785964,
      "loss": 0.3758,
      "num_input_tokens_seen": 28408416,
      "step": 30620
    },
    {
      "epoch": 14.438943894389439,
      "grad_norm": 0.00030263542430475354,
      "learning_rate": 0.03886524315708621,
      "loss": 0.3292,
      "num_input_tokens_seen": 28412880,
      "step": 30625
    },
    {
      "epoch": 14.441301272984441,
      "grad_norm": 0.0007358274888247252,
      "learning_rate": 0.03882569021176255,
      "loss": 0.3409,
      "num_input_tokens_seen": 28417088,
      "step": 30630
    },
    {
      "epoch": 14.443658651579444,
      "grad_norm": 0.0008486338774673641,
      "learning_rate": 0.038786154410914535,
      "loss": 0.2746,
      "num_input_tokens_seen": 28422352,
      "step": 30635
    },
    {
      "epoch": 14.446016030174446,
      "grad_norm": 0.00046241216477937996,
      "learning_rate": 0.03874663576063917,
      "loss": 0.3038,
      "num_input_tokens_seen": 28426400,
      "step": 30640
    },
    {
      "epoch": 14.448373408769449,
      "grad_norm": 0.0008158484706655145,
      "learning_rate": 0.038707134267030624,
      "loss": 0.358,
      "num_input_tokens_seen": 28430576,
      "step": 30645
    },
    {
      "epoch": 14.450730787364451,
      "grad_norm": 0.00036595953861251473,
      "learning_rate": 0.038667649936180555,
      "loss": 0.2996,
      "num_input_tokens_seen": 28435408,
      "step": 30650
    },
    {
      "epoch": 14.453088165959453,
      "grad_norm": 0.0005698665627278388,
      "learning_rate": 0.038628182774178,
      "loss": 0.3465,
      "num_input_tokens_seen": 28440240,
      "step": 30655
    },
    {
      "epoch": 14.455445544554456,
      "grad_norm": 0.0004225126758683473,
      "learning_rate": 0.038588732787109226,
      "loss": 0.3225,
      "num_input_tokens_seen": 28444336,
      "step": 30660
    },
    {
      "epoch": 14.457802923149458,
      "grad_norm": 0.00036338125937618315,
      "learning_rate": 0.03854929998105795,
      "loss": 0.3473,
      "num_input_tokens_seen": 28449056,
      "step": 30665
    },
    {
      "epoch": 14.46016030174446,
      "grad_norm": 0.0006243502721190453,
      "learning_rate": 0.03850988436210518,
      "loss": 0.3654,
      "num_input_tokens_seen": 28453312,
      "step": 30670
    },
    {
      "epoch": 14.462517680339463,
      "grad_norm": 0.000366756139555946,
      "learning_rate": 0.03847048593632933,
      "loss": 0.3122,
      "num_input_tokens_seen": 28458576,
      "step": 30675
    },
    {
      "epoch": 14.464875058934465,
      "grad_norm": 0.00043645064579322934,
      "learning_rate": 0.038431104709806096,
      "loss": 0.3476,
      "num_input_tokens_seen": 28463152,
      "step": 30680
    },
    {
      "epoch": 14.467232437529468,
      "grad_norm": 0.0007700566784478724,
      "learning_rate": 0.0383917406886086,
      "loss": 0.3489,
      "num_input_tokens_seen": 28467360,
      "step": 30685
    },
    {
      "epoch": 14.46958981612447,
      "grad_norm": 0.0005736410967074335,
      "learning_rate": 0.03835239387880722,
      "loss": 0.3905,
      "num_input_tokens_seen": 28472016,
      "step": 30690
    },
    {
      "epoch": 14.471947194719473,
      "grad_norm": 0.0006892340607009828,
      "learning_rate": 0.03831306428646979,
      "loss": 0.3302,
      "num_input_tokens_seen": 28476848,
      "step": 30695
    },
    {
      "epoch": 14.474304573314475,
      "grad_norm": 0.00030083744786679745,
      "learning_rate": 0.03827375191766135,
      "loss": 0.303,
      "num_input_tokens_seen": 28481216,
      "step": 30700
    },
    {
      "epoch": 14.476661951909477,
      "grad_norm": 0.000551941804587841,
      "learning_rate": 0.03823445677844446,
      "loss": 0.2979,
      "num_input_tokens_seen": 28486544,
      "step": 30705
    },
    {
      "epoch": 14.47901933050448,
      "grad_norm": 0.0006812994834035635,
      "learning_rate": 0.03819517887487881,
      "loss": 0.3229,
      "num_input_tokens_seen": 28490992,
      "step": 30710
    },
    {
      "epoch": 14.481376709099482,
      "grad_norm": 0.00042220059549435973,
      "learning_rate": 0.03815591821302161,
      "loss": 0.3324,
      "num_input_tokens_seen": 28495168,
      "step": 30715
    },
    {
      "epoch": 14.483734087694483,
      "grad_norm": 0.0010560030350461602,
      "learning_rate": 0.03811667479892739,
      "loss": 0.3287,
      "num_input_tokens_seen": 28499840,
      "step": 30720
    },
    {
      "epoch": 14.486091466289485,
      "grad_norm": 0.00041221463470719755,
      "learning_rate": 0.03807744863864788,
      "loss": 0.3168,
      "num_input_tokens_seen": 28503712,
      "step": 30725
    },
    {
      "epoch": 14.488448844884488,
      "grad_norm": 0.0003482387983240187,
      "learning_rate": 0.03803823973823229,
      "loss": 0.3773,
      "num_input_tokens_seen": 28508144,
      "step": 30730
    },
    {
      "epoch": 14.49080622347949,
      "grad_norm": 0.0009219355415552855,
      "learning_rate": 0.03799904810372719,
      "loss": 0.2951,
      "num_input_tokens_seen": 28512976,
      "step": 30735
    },
    {
      "epoch": 14.493163602074493,
      "grad_norm": 0.0008181177545338869,
      "learning_rate": 0.03795987374117632,
      "loss": 0.3112,
      "num_input_tokens_seen": 28517488,
      "step": 30740
    },
    {
      "epoch": 14.495520980669495,
      "grad_norm": 0.0006528579397127032,
      "learning_rate": 0.03792071665662093,
      "loss": 0.2944,
      "num_input_tokens_seen": 28521920,
      "step": 30745
    },
    {
      "epoch": 14.497878359264497,
      "grad_norm": 0.0006234098691493273,
      "learning_rate": 0.03788157685609952,
      "loss": 0.2778,
      "num_input_tokens_seen": 28526176,
      "step": 30750
    },
    {
      "epoch": 14.5002357378595,
      "grad_norm": 0.0003879159630741924,
      "learning_rate": 0.037842454345647876,
      "loss": 0.3287,
      "num_input_tokens_seen": 28531344,
      "step": 30755
    },
    {
      "epoch": 14.502593116454502,
      "grad_norm": 0.000355441210558638,
      "learning_rate": 0.03780334913129929,
      "loss": 0.3441,
      "num_input_tokens_seen": 28536080,
      "step": 30760
    },
    {
      "epoch": 14.504950495049505,
      "grad_norm": 0.0006543576600961387,
      "learning_rate": 0.037764261219084175,
      "loss": 0.3385,
      "num_input_tokens_seen": 28540160,
      "step": 30765
    },
    {
      "epoch": 14.507307873644507,
      "grad_norm": 0.0006987149827182293,
      "learning_rate": 0.037725190615030414,
      "loss": 0.3497,
      "num_input_tokens_seen": 28544368,
      "step": 30770
    },
    {
      "epoch": 14.50966525223951,
      "grad_norm": 0.0003635651373770088,
      "learning_rate": 0.037686137325163224,
      "loss": 0.3691,
      "num_input_tokens_seen": 28548384,
      "step": 30775
    },
    {
      "epoch": 14.512022630834512,
      "grad_norm": 0.0006368989124894142,
      "learning_rate": 0.037647101355505065,
      "loss": 0.356,
      "num_input_tokens_seen": 28552304,
      "step": 30780
    },
    {
      "epoch": 14.514380009429514,
      "grad_norm": 0.0003728933515958488,
      "learning_rate": 0.03760808271207581,
      "loss": 0.2841,
      "num_input_tokens_seen": 28557088,
      "step": 30785
    },
    {
      "epoch": 14.516737388024517,
      "grad_norm": 0.0007617680821567774,
      "learning_rate": 0.03756908140089258,
      "loss": 0.2871,
      "num_input_tokens_seen": 28562320,
      "step": 30790
    },
    {
      "epoch": 14.519094766619519,
      "grad_norm": 0.00039135292172431946,
      "learning_rate": 0.03753009742796989,
      "loss": 0.3418,
      "num_input_tokens_seen": 28566832,
      "step": 30795
    },
    {
      "epoch": 14.521452145214521,
      "grad_norm": 0.0004103196843061596,
      "learning_rate": 0.037491130799319615,
      "loss": 0.3363,
      "num_input_tokens_seen": 28571424,
      "step": 30800
    },
    {
      "epoch": 14.521452145214521,
      "eval_loss": 0.3278544545173645,
      "eval_runtime": 33.6092,
      "eval_samples_per_second": 28.058,
      "eval_steps_per_second": 14.044,
      "num_input_tokens_seen": 28571424,
      "step": 30800
    },
    {
      "epoch": 14.523809523809524,
      "grad_norm": 0.0006358613027259707,
      "learning_rate": 0.03745218152095079,
      "loss": 0.3079,
      "num_input_tokens_seen": 28576000,
      "step": 30805
    },
    {
      "epoch": 14.526166902404526,
      "grad_norm": 0.00047739598085172474,
      "learning_rate": 0.037413249598869935,
      "loss": 0.3123,
      "num_input_tokens_seen": 28580400,
      "step": 30810
    },
    {
      "epoch": 14.528524280999529,
      "grad_norm": 0.0003679770161397755,
      "learning_rate": 0.037374335039080886,
      "loss": 0.3712,
      "num_input_tokens_seen": 28585136,
      "step": 30815
    },
    {
      "epoch": 14.530881659594531,
      "grad_norm": 0.0003353601205162704,
      "learning_rate": 0.037335437847584724,
      "loss": 0.2854,
      "num_input_tokens_seen": 28589744,
      "step": 30820
    },
    {
      "epoch": 14.533239038189533,
      "grad_norm": 0.00041480601066723466,
      "learning_rate": 0.03729655803037983,
      "loss": 0.3182,
      "num_input_tokens_seen": 28594144,
      "step": 30825
    },
    {
      "epoch": 14.535596416784536,
      "grad_norm": 0.000390415545552969,
      "learning_rate": 0.03725769559346207,
      "loss": 0.309,
      "num_input_tokens_seen": 28599696,
      "step": 30830
    },
    {
      "epoch": 14.537953795379538,
      "grad_norm": 0.00035560407559387386,
      "learning_rate": 0.03721885054282439,
      "loss": 0.2859,
      "num_input_tokens_seen": 28603760,
      "step": 30835
    },
    {
      "epoch": 14.54031117397454,
      "grad_norm": 0.000577306083869189,
      "learning_rate": 0.03718002288445731,
      "loss": 0.3052,
      "num_input_tokens_seen": 28608816,
      "step": 30840
    },
    {
      "epoch": 14.542668552569543,
      "grad_norm": 0.0005698580644093454,
      "learning_rate": 0.03714121262434844,
      "loss": 0.3039,
      "num_input_tokens_seen": 28613568,
      "step": 30845
    },
    {
      "epoch": 14.545025931164545,
      "grad_norm": 0.0006124115898273885,
      "learning_rate": 0.037102419768482844,
      "loss": 0.3503,
      "num_input_tokens_seen": 28618544,
      "step": 30850
    },
    {
      "epoch": 14.547383309759548,
      "grad_norm": 0.0003192370932083577,
      "learning_rate": 0.03706364432284293,
      "loss": 0.3247,
      "num_input_tokens_seen": 28624032,
      "step": 30855
    },
    {
      "epoch": 14.54974068835455,
      "grad_norm": 0.0002486076846253127,
      "learning_rate": 0.03702488629340828,
      "loss": 0.3497,
      "num_input_tokens_seen": 28628672,
      "step": 30860
    },
    {
      "epoch": 14.552098066949553,
      "grad_norm": 0.0005295825540088117,
      "learning_rate": 0.036986145686155915,
      "loss": 0.2931,
      "num_input_tokens_seen": 28633456,
      "step": 30865
    },
    {
      "epoch": 14.554455445544555,
      "grad_norm": 0.00035499309888109565,
      "learning_rate": 0.036947422507060075,
      "loss": 0.3216,
      "num_input_tokens_seen": 28637216,
      "step": 30870
    },
    {
      "epoch": 14.556812824139557,
      "grad_norm": 0.0003502136969473213,
      "learning_rate": 0.0369087167620924,
      "loss": 0.2883,
      "num_input_tokens_seen": 28641344,
      "step": 30875
    },
    {
      "epoch": 14.55917020273456,
      "grad_norm": 0.00035130875767208636,
      "learning_rate": 0.03687002845722183,
      "loss": 0.3553,
      "num_input_tokens_seen": 28646080,
      "step": 30880
    },
    {
      "epoch": 14.561527581329562,
      "grad_norm": 0.0006667778943665326,
      "learning_rate": 0.03683135759841451,
      "loss": 0.3379,
      "num_input_tokens_seen": 28650176,
      "step": 30885
    },
    {
      "epoch": 14.563884959924565,
      "grad_norm": 0.00036687025567516685,
      "learning_rate": 0.03679270419163406,
      "loss": 0.3571,
      "num_input_tokens_seen": 28654304,
      "step": 30890
    },
    {
      "epoch": 14.566242338519567,
      "grad_norm": 0.0006720128585584462,
      "learning_rate": 0.03675406824284127,
      "loss": 0.3153,
      "num_input_tokens_seen": 28658464,
      "step": 30895
    },
    {
      "epoch": 14.56859971711457,
      "grad_norm": 0.0002636207500472665,
      "learning_rate": 0.03671544975799425,
      "loss": 0.3281,
      "num_input_tokens_seen": 28663072,
      "step": 30900
    },
    {
      "epoch": 14.570957095709572,
      "grad_norm": 0.0003805234155151993,
      "learning_rate": 0.03667684874304854,
      "loss": 0.3103,
      "num_input_tokens_seen": 28667680,
      "step": 30905
    },
    {
      "epoch": 14.573314474304574,
      "grad_norm": 0.0003151843266095966,
      "learning_rate": 0.03663826520395683,
      "loss": 0.3315,
      "num_input_tokens_seen": 28672096,
      "step": 30910
    },
    {
      "epoch": 14.575671852899575,
      "grad_norm": 0.000360381935024634,
      "learning_rate": 0.03659969914666922,
      "loss": 0.3096,
      "num_input_tokens_seen": 28676656,
      "step": 30915
    },
    {
      "epoch": 14.578029231494579,
      "grad_norm": 0.0005457830848172307,
      "learning_rate": 0.036561150577133106,
      "loss": 0.3146,
      "num_input_tokens_seen": 28681616,
      "step": 30920
    },
    {
      "epoch": 14.58038661008958,
      "grad_norm": 0.00028404814656823874,
      "learning_rate": 0.036522619501293103,
      "loss": 0.2881,
      "num_input_tokens_seen": 28686336,
      "step": 30925
    },
    {
      "epoch": 14.582743988684582,
      "grad_norm": 0.0006511032115668058,
      "learning_rate": 0.03648410592509122,
      "loss": 0.3462,
      "num_input_tokens_seen": 28690864,
      "step": 30930
    },
    {
      "epoch": 14.585101367279584,
      "grad_norm": 0.00032394201843999326,
      "learning_rate": 0.03644560985446676,
      "loss": 0.3443,
      "num_input_tokens_seen": 28694976,
      "step": 30935
    },
    {
      "epoch": 14.587458745874587,
      "grad_norm": 0.00048806783161126077,
      "learning_rate": 0.036407131295356256,
      "loss": 0.3443,
      "num_input_tokens_seen": 28699120,
      "step": 30940
    },
    {
      "epoch": 14.58981612446959,
      "grad_norm": 0.0004095215117558837,
      "learning_rate": 0.03636867025369362,
      "loss": 0.308,
      "num_input_tokens_seen": 28704752,
      "step": 30945
    },
    {
      "epoch": 14.592173503064592,
      "grad_norm": 0.0004586758150253445,
      "learning_rate": 0.03633022673540999,
      "loss": 0.306,
      "num_input_tokens_seen": 28710416,
      "step": 30950
    },
    {
      "epoch": 14.594530881659594,
      "grad_norm": 0.0002850836608558893,
      "learning_rate": 0.03629180074643385,
      "loss": 0.3578,
      "num_input_tokens_seen": 28715568,
      "step": 30955
    },
    {
      "epoch": 14.596888260254596,
      "grad_norm": 0.0004227794415783137,
      "learning_rate": 0.03625339229269102,
      "loss": 0.3143,
      "num_input_tokens_seen": 28720640,
      "step": 30960
    },
    {
      "epoch": 14.599245638849599,
      "grad_norm": 0.0005330160493031144,
      "learning_rate": 0.036215001380104535,
      "loss": 0.3552,
      "num_input_tokens_seen": 28725360,
      "step": 30965
    },
    {
      "epoch": 14.601603017444601,
      "grad_norm": 0.0006479942239820957,
      "learning_rate": 0.03617662801459471,
      "loss": 0.3287,
      "num_input_tokens_seen": 28730848,
      "step": 30970
    },
    {
      "epoch": 14.603960396039604,
      "grad_norm": 0.0002817995264194906,
      "learning_rate": 0.036138272202079276,
      "loss": 0.3761,
      "num_input_tokens_seen": 28735376,
      "step": 30975
    },
    {
      "epoch": 14.606317774634606,
      "grad_norm": 0.0004440380143932998,
      "learning_rate": 0.036099933948473106,
      "loss": 0.37,
      "num_input_tokens_seen": 28740768,
      "step": 30980
    },
    {
      "epoch": 14.608675153229608,
      "grad_norm": 0.00045171426609158516,
      "learning_rate": 0.03606161325968851,
      "loss": 0.3224,
      "num_input_tokens_seen": 28745184,
      "step": 30985
    },
    {
      "epoch": 14.61103253182461,
      "grad_norm": 0.0005498563405126333,
      "learning_rate": 0.03602331014163496,
      "loss": 0.301,
      "num_input_tokens_seen": 28749440,
      "step": 30990
    },
    {
      "epoch": 14.613389910419613,
      "grad_norm": 0.0008812066516838968,
      "learning_rate": 0.035985024600219295,
      "loss": 0.3634,
      "num_input_tokens_seen": 28754208,
      "step": 30995
    },
    {
      "epoch": 14.615747289014616,
      "grad_norm": 0.000604007625952363,
      "learning_rate": 0.03594675664134569,
      "loss": 0.3314,
      "num_input_tokens_seen": 28758128,
      "step": 31000
    },
    {
      "epoch": 14.615747289014616,
      "eval_loss": 0.3271823525428772,
      "eval_runtime": 33.6149,
      "eval_samples_per_second": 28.053,
      "eval_steps_per_second": 14.041,
      "num_input_tokens_seen": 28758128,
      "step": 31000
    },
    {
      "epoch": 14.618104667609618,
      "grad_norm": 0.00035920788650400937,
      "learning_rate": 0.03590850627091545,
      "loss": 0.3111,
      "num_input_tokens_seen": 28762400,
      "step": 31005
    },
    {
      "epoch": 14.62046204620462,
      "grad_norm": 0.0006109399255365133,
      "learning_rate": 0.03587027349482731,
      "loss": 0.3502,
      "num_input_tokens_seen": 28767312,
      "step": 31010
    },
    {
      "epoch": 14.622819424799623,
      "grad_norm": 0.0003753074270207435,
      "learning_rate": 0.035832058318977275,
      "loss": 0.2784,
      "num_input_tokens_seen": 28772672,
      "step": 31015
    },
    {
      "epoch": 14.625176803394625,
      "grad_norm": 0.0003912792890332639,
      "learning_rate": 0.03579386074925853,
      "loss": 0.3112,
      "num_input_tokens_seen": 28776512,
      "step": 31020
    },
    {
      "epoch": 14.627534181989628,
      "grad_norm": 0.00030657585011795163,
      "learning_rate": 0.035755680791561696,
      "loss": 0.3092,
      "num_input_tokens_seen": 28782416,
      "step": 31025
    },
    {
      "epoch": 14.62989156058463,
      "grad_norm": 0.00046144562656991184,
      "learning_rate": 0.03571751845177454,
      "loss": 0.3395,
      "num_input_tokens_seen": 28786016,
      "step": 31030
    },
    {
      "epoch": 14.632248939179632,
      "grad_norm": 0.00030812231125310063,
      "learning_rate": 0.03567937373578225,
      "loss": 0.3334,
      "num_input_tokens_seen": 28789840,
      "step": 31035
    },
    {
      "epoch": 14.634606317774635,
      "grad_norm": 0.00033941082074306905,
      "learning_rate": 0.03564124664946711,
      "loss": 0.2952,
      "num_input_tokens_seen": 28794304,
      "step": 31040
    },
    {
      "epoch": 14.636963696369637,
      "grad_norm": 0.000434832094470039,
      "learning_rate": 0.035603137198708924,
      "loss": 0.3577,
      "num_input_tokens_seen": 28798256,
      "step": 31045
    },
    {
      "epoch": 14.63932107496464,
      "grad_norm": 0.00029658342828042805,
      "learning_rate": 0.035565045389384514,
      "loss": 0.3478,
      "num_input_tokens_seen": 28803072,
      "step": 31050
    },
    {
      "epoch": 14.641678453559642,
      "grad_norm": 0.0005487252492457628,
      "learning_rate": 0.03552697122736823,
      "loss": 0.3021,
      "num_input_tokens_seen": 28807168,
      "step": 31055
    },
    {
      "epoch": 14.644035832154644,
      "grad_norm": 0.0006627665716223419,
      "learning_rate": 0.03548891471853153,
      "loss": 0.3824,
      "num_input_tokens_seen": 28812272,
      "step": 31060
    },
    {
      "epoch": 14.646393210749647,
      "grad_norm": 0.0004701643483713269,
      "learning_rate": 0.03545087586874322,
      "loss": 0.386,
      "num_input_tokens_seen": 28817952,
      "step": 31065
    },
    {
      "epoch": 14.64875058934465,
      "grad_norm": 0.0003353576466906816,
      "learning_rate": 0.03541285468386935,
      "loss": 0.3189,
      "num_input_tokens_seen": 28822192,
      "step": 31070
    },
    {
      "epoch": 14.651107967939652,
      "grad_norm": 0.0006892767269164324,
      "learning_rate": 0.03537485116977327,
      "loss": 0.3165,
      "num_input_tokens_seen": 28826384,
      "step": 31075
    },
    {
      "epoch": 14.653465346534654,
      "grad_norm": 0.00037172253360040486,
      "learning_rate": 0.03533686533231565,
      "loss": 0.3094,
      "num_input_tokens_seen": 28831408,
      "step": 31080
    },
    {
      "epoch": 14.655822725129656,
      "grad_norm": 0.0003161331987939775,
      "learning_rate": 0.0352988971773543,
      "loss": 0.3435,
      "num_input_tokens_seen": 28835792,
      "step": 31085
    },
    {
      "epoch": 14.658180103724659,
      "grad_norm": 0.0004171959590166807,
      "learning_rate": 0.03526094671074443,
      "loss": 0.3557,
      "num_input_tokens_seen": 28840400,
      "step": 31090
    },
    {
      "epoch": 14.660537482319661,
      "grad_norm": 0.0004726581391878426,
      "learning_rate": 0.03522301393833852,
      "loss": 0.3397,
      "num_input_tokens_seen": 28845472,
      "step": 31095
    },
    {
      "epoch": 14.662894860914664,
      "grad_norm": 0.0003060328890569508,
      "learning_rate": 0.035185098865986204,
      "loss": 0.3282,
      "num_input_tokens_seen": 28850288,
      "step": 31100
    },
    {
      "epoch": 14.665252239509666,
      "grad_norm": 0.000920928840059787,
      "learning_rate": 0.03514720149953453,
      "loss": 0.3208,
      "num_input_tokens_seen": 28855296,
      "step": 31105
    },
    {
      "epoch": 14.667609618104667,
      "grad_norm": 0.0003269517619628459,
      "learning_rate": 0.03510932184482773,
      "loss": 0.3455,
      "num_input_tokens_seen": 28860176,
      "step": 31110
    },
    {
      "epoch": 14.66996699669967,
      "grad_norm": 0.0004318112332839519,
      "learning_rate": 0.03507145990770724,
      "loss": 0.3299,
      "num_input_tokens_seen": 28865456,
      "step": 31115
    },
    {
      "epoch": 14.672324375294671,
      "grad_norm": 0.0006560329347848892,
      "learning_rate": 0.035033615694011984,
      "loss": 0.2894,
      "num_input_tokens_seen": 28869904,
      "step": 31120
    },
    {
      "epoch": 14.674681753889674,
      "grad_norm": 0.0006505104247480631,
      "learning_rate": 0.03499578920957788,
      "loss": 0.3168,
      "num_input_tokens_seen": 28874688,
      "step": 31125
    },
    {
      "epoch": 14.677039132484676,
      "grad_norm": 0.0003099643508903682,
      "learning_rate": 0.034957980460238375,
      "loss": 0.3014,
      "num_input_tokens_seen": 28879760,
      "step": 31130
    },
    {
      "epoch": 14.679396511079679,
      "grad_norm": 0.0009778194362297654,
      "learning_rate": 0.03492018945182393,
      "loss": 0.3878,
      "num_input_tokens_seen": 28884304,
      "step": 31135
    },
    {
      "epoch": 14.681753889674681,
      "grad_norm": 0.0003593201981857419,
      "learning_rate": 0.03488241619016247,
      "loss": 0.3049,
      "num_input_tokens_seen": 28888608,
      "step": 31140
    },
    {
      "epoch": 14.684111268269683,
      "grad_norm": 0.0006457061390392482,
      "learning_rate": 0.03484466068107913,
      "loss": 0.3632,
      "num_input_tokens_seen": 28893296,
      "step": 31145
    },
    {
      "epoch": 14.686468646864686,
      "grad_norm": 0.00046309464960359037,
      "learning_rate": 0.034806922930396195,
      "loss": 0.345,
      "num_input_tokens_seen": 28897520,
      "step": 31150
    },
    {
      "epoch": 14.688826025459688,
      "grad_norm": 0.0005817526252940297,
      "learning_rate": 0.03476920294393337,
      "loss": 0.3023,
      "num_input_tokens_seen": 28902544,
      "step": 31155
    },
    {
      "epoch": 14.69118340405469,
      "grad_norm": 0.0009399246191605926,
      "learning_rate": 0.03473150072750755,
      "loss": 0.4029,
      "num_input_tokens_seen": 28907008,
      "step": 31160
    },
    {
      "epoch": 14.693540782649693,
      "grad_norm": 0.0003145367663819343,
      "learning_rate": 0.03469381628693284,
      "loss": 0.3195,
      "num_input_tokens_seen": 28911360,
      "step": 31165
    },
    {
      "epoch": 14.695898161244696,
      "grad_norm": 0.0006596490857191384,
      "learning_rate": 0.03465614962802072,
      "loss": 0.3007,
      "num_input_tokens_seen": 28916704,
      "step": 31170
    },
    {
      "epoch": 14.698255539839698,
      "grad_norm": 0.0003399779961910099,
      "learning_rate": 0.0346185007565798,
      "loss": 0.309,
      "num_input_tokens_seen": 28921184,
      "step": 31175
    },
    {
      "epoch": 14.7006129184347,
      "grad_norm": 0.0006392496870830655,
      "learning_rate": 0.03458086967841609,
      "loss": 0.3576,
      "num_input_tokens_seen": 28925376,
      "step": 31180
    },
    {
      "epoch": 14.702970297029703,
      "grad_norm": 0.0006372813950292766,
      "learning_rate": 0.03454325639933266,
      "loss": 0.3135,
      "num_input_tokens_seen": 28929616,
      "step": 31185
    },
    {
      "epoch": 14.705327675624705,
      "grad_norm": 0.000672868569381535,
      "learning_rate": 0.03450566092513007,
      "loss": 0.3542,
      "num_input_tokens_seen": 28933872,
      "step": 31190
    },
    {
      "epoch": 14.707685054219708,
      "grad_norm": 0.00042124383617192507,
      "learning_rate": 0.034468083261605914,
      "loss": 0.3132,
      "num_input_tokens_seen": 28938096,
      "step": 31195
    },
    {
      "epoch": 14.71004243281471,
      "grad_norm": 0.0002684209030121565,
      "learning_rate": 0.03443052341455522,
      "loss": 0.3598,
      "num_input_tokens_seen": 28942096,
      "step": 31200
    },
    {
      "epoch": 14.71004243281471,
      "eval_loss": 0.329402893781662,
      "eval_runtime": 33.5838,
      "eval_samples_per_second": 28.079,
      "eval_steps_per_second": 14.054,
      "num_input_tokens_seen": 28942096,
      "step": 31200
    },
    {
      "epoch": 14.712399811409712,
      "grad_norm": 0.0005603626486845315,
      "learning_rate": 0.0343929813897701,
      "loss": 0.317,
      "num_input_tokens_seen": 28946048,
      "step": 31205
    },
    {
      "epoch": 14.714757190004715,
      "grad_norm": 0.00042471112101338804,
      "learning_rate": 0.034355457193040125,
      "loss": 0.326,
      "num_input_tokens_seen": 28951152,
      "step": 31210
    },
    {
      "epoch": 14.717114568599717,
      "grad_norm": 0.0003843243757728487,
      "learning_rate": 0.03431795083015186,
      "loss": 0.3409,
      "num_input_tokens_seen": 28955280,
      "step": 31215
    },
    {
      "epoch": 14.71947194719472,
      "grad_norm": 0.0004273228987585753,
      "learning_rate": 0.03428046230688936,
      "loss": 0.3219,
      "num_input_tokens_seen": 28959728,
      "step": 31220
    },
    {
      "epoch": 14.721829325789722,
      "grad_norm": 0.00032066108542494476,
      "learning_rate": 0.034242991629033805,
      "loss": 0.3453,
      "num_input_tokens_seen": 28964080,
      "step": 31225
    },
    {
      "epoch": 14.724186704384724,
      "grad_norm": 0.0005954905645921826,
      "learning_rate": 0.03420553880236362,
      "loss": 0.3097,
      "num_input_tokens_seen": 28968720,
      "step": 31230
    },
    {
      "epoch": 14.726544082979727,
      "grad_norm": 0.0006665041437372565,
      "learning_rate": 0.03416810383265449,
      "loss": 0.3287,
      "num_input_tokens_seen": 28974736,
      "step": 31235
    },
    {
      "epoch": 14.72890146157473,
      "grad_norm": 0.0006398346158675849,
      "learning_rate": 0.03413068672567944,
      "loss": 0.3151,
      "num_input_tokens_seen": 28979456,
      "step": 31240
    },
    {
      "epoch": 14.731258840169732,
      "grad_norm": 0.0006025523762218654,
      "learning_rate": 0.034093287487208565,
      "loss": 0.2879,
      "num_input_tokens_seen": 28983392,
      "step": 31245
    },
    {
      "epoch": 14.733616218764734,
      "grad_norm": 0.00048739209887571633,
      "learning_rate": 0.03405590612300937,
      "loss": 0.3116,
      "num_input_tokens_seen": 28987120,
      "step": 31250
    },
    {
      "epoch": 14.735973597359736,
      "grad_norm": 0.00036900685518048704,
      "learning_rate": 0.03401854263884646,
      "loss": 0.3151,
      "num_input_tokens_seen": 28992608,
      "step": 31255
    },
    {
      "epoch": 14.738330975954739,
      "grad_norm": 0.0008696626173332334,
      "learning_rate": 0.033981197040481824,
      "loss": 0.3466,
      "num_input_tokens_seen": 28996688,
      "step": 31260
    },
    {
      "epoch": 14.740688354549741,
      "grad_norm": 0.0006256934138946235,
      "learning_rate": 0.03394386933367459,
      "loss": 0.3065,
      "num_input_tokens_seen": 29002384,
      "step": 31265
    },
    {
      "epoch": 14.743045733144744,
      "grad_norm": 0.00039959404966793954,
      "learning_rate": 0.033906559524181104,
      "loss": 0.3002,
      "num_input_tokens_seen": 29006368,
      "step": 31270
    },
    {
      "epoch": 14.745403111739746,
      "grad_norm": 0.00036099707358516753,
      "learning_rate": 0.033869267617755085,
      "loss": 0.3451,
      "num_input_tokens_seen": 29011168,
      "step": 31275
    },
    {
      "epoch": 14.747760490334748,
      "grad_norm": 0.00046115907025523484,
      "learning_rate": 0.0338319936201474,
      "loss": 0.3283,
      "num_input_tokens_seen": 29015840,
      "step": 31280
    },
    {
      "epoch": 14.75011786892975,
      "grad_norm": 0.00027769990265369415,
      "learning_rate": 0.033794737537106136,
      "loss": 0.3088,
      "num_input_tokens_seen": 29020000,
      "step": 31285
    },
    {
      "epoch": 14.752475247524753,
      "grad_norm": 0.00030305914697237313,
      "learning_rate": 0.03375749937437671,
      "loss": 0.3396,
      "num_input_tokens_seen": 29024960,
      "step": 31290
    },
    {
      "epoch": 14.754832626119756,
      "grad_norm": 0.0007251842180266976,
      "learning_rate": 0.033720279137701634,
      "loss": 0.344,
      "num_input_tokens_seen": 29029728,
      "step": 31295
    },
    {
      "epoch": 14.757190004714758,
      "grad_norm": 0.0003309858439024538,
      "learning_rate": 0.03368307683282078,
      "loss": 0.3115,
      "num_input_tokens_seen": 29034192,
      "step": 31300
    },
    {
      "epoch": 14.75954738330976,
      "grad_norm": 0.0004574413469526917,
      "learning_rate": 0.033645892465471235,
      "loss": 0.3781,
      "num_input_tokens_seen": 29038240,
      "step": 31305
    },
    {
      "epoch": 14.761904761904763,
      "grad_norm": 0.000308765796944499,
      "learning_rate": 0.03360872604138724,
      "loss": 0.3254,
      "num_input_tokens_seen": 29042672,
      "step": 31310
    },
    {
      "epoch": 14.764262140499763,
      "grad_norm": 0.0008489395841024816,
      "learning_rate": 0.03357157756630034,
      "loss": 0.4151,
      "num_input_tokens_seen": 29047264,
      "step": 31315
    },
    {
      "epoch": 14.766619519094768,
      "grad_norm": 0.0004055746248923242,
      "learning_rate": 0.033534447045939365,
      "loss": 0.3428,
      "num_input_tokens_seen": 29052672,
      "step": 31320
    },
    {
      "epoch": 14.768976897689768,
      "grad_norm": 0.00036154178087599576,
      "learning_rate": 0.03349733448603026,
      "loss": 0.2942,
      "num_input_tokens_seen": 29058848,
      "step": 31325
    },
    {
      "epoch": 14.77133427628477,
      "grad_norm": 0.0005946062155999243,
      "learning_rate": 0.03346023989229619,
      "loss": 0.3686,
      "num_input_tokens_seen": 29063136,
      "step": 31330
    },
    {
      "epoch": 14.773691654879773,
      "grad_norm": 0.000556131883058697,
      "learning_rate": 0.03342316327045769,
      "loss": 0.2802,
      "num_input_tokens_seen": 29067632,
      "step": 31335
    },
    {
      "epoch": 14.776049033474775,
      "grad_norm": 0.0004118982469663024,
      "learning_rate": 0.033386104626232385,
      "loss": 0.3205,
      "num_input_tokens_seen": 29072976,
      "step": 31340
    },
    {
      "epoch": 14.778406412069778,
      "grad_norm": 0.0006816927343606949,
      "learning_rate": 0.03334906396533525,
      "loss": 0.3383,
      "num_input_tokens_seen": 29077904,
      "step": 31345
    },
    {
      "epoch": 14.78076379066478,
      "grad_norm": 0.0003296163340564817,
      "learning_rate": 0.033312041293478326,
      "loss": 0.3301,
      "num_input_tokens_seen": 29082768,
      "step": 31350
    },
    {
      "epoch": 14.783121169259783,
      "grad_norm": 0.0003661163500510156,
      "learning_rate": 0.03327503661637103,
      "loss": 0.333,
      "num_input_tokens_seen": 29088192,
      "step": 31355
    },
    {
      "epoch": 14.785478547854785,
      "grad_norm": 0.0004887774703092873,
      "learning_rate": 0.03323804993971998,
      "loss": 0.3362,
      "num_input_tokens_seen": 29091904,
      "step": 31360
    },
    {
      "epoch": 14.787835926449787,
      "grad_norm": 0.0003036620037164539,
      "learning_rate": 0.033201081269228924,
      "loss": 0.3574,
      "num_input_tokens_seen": 29096000,
      "step": 31365
    },
    {
      "epoch": 14.79019330504479,
      "grad_norm": 0.0005305118975229561,
      "learning_rate": 0.03316413061059895,
      "loss": 0.32,
      "num_input_tokens_seen": 29100336,
      "step": 31370
    },
    {
      "epoch": 14.792550683639792,
      "grad_norm": 0.001290766755118966,
      "learning_rate": 0.03312719796952827,
      "loss": 0.3513,
      "num_input_tokens_seen": 29104544,
      "step": 31375
    },
    {
      "epoch": 14.794908062234795,
      "grad_norm": 0.0005628954968415201,
      "learning_rate": 0.03309028335171236,
      "loss": 0.3182,
      "num_input_tokens_seen": 29108992,
      "step": 31380
    },
    {
      "epoch": 14.797265440829797,
      "grad_norm": 0.00027670833515003324,
      "learning_rate": 0.03305338676284398,
      "loss": 0.2906,
      "num_input_tokens_seen": 29113968,
      "step": 31385
    },
    {
      "epoch": 14.7996228194248,
      "grad_norm": 0.0002590977819636464,
      "learning_rate": 0.03301650820861296,
      "loss": 0.3296,
      "num_input_tokens_seen": 29118912,
      "step": 31390
    },
    {
      "epoch": 14.801980198019802,
      "grad_norm": 0.0006248497520573437,
      "learning_rate": 0.03297964769470652,
      "loss": 0.3486,
      "num_input_tokens_seen": 29123344,
      "step": 31395
    },
    {
      "epoch": 14.804337576614804,
      "grad_norm": 0.0004024539957754314,
      "learning_rate": 0.032942805226808945,
      "loss": 0.3207,
      "num_input_tokens_seen": 29127440,
      "step": 31400
    },
    {
      "epoch": 14.804337576614804,
      "eval_loss": 0.32903534173965454,
      "eval_runtime": 33.5974,
      "eval_samples_per_second": 28.068,
      "eval_steps_per_second": 14.049,
      "num_input_tokens_seen": 29127440,
      "step": 31400
    },
    {
      "epoch": 14.806694955209807,
      "grad_norm": 0.000360715901479125,
      "learning_rate": 0.03290598081060187,
      "loss": 0.3641,
      "num_input_tokens_seen": 29131872,
      "step": 31405
    },
    {
      "epoch": 14.809052333804809,
      "grad_norm": 0.0006123065832071006,
      "learning_rate": 0.03286917445176407,
      "loss": 0.3276,
      "num_input_tokens_seen": 29135808,
      "step": 31410
    },
    {
      "epoch": 14.811409712399811,
      "grad_norm": 0.0003166740061715245,
      "learning_rate": 0.032832386155971456,
      "loss": 0.3105,
      "num_input_tokens_seen": 29140640,
      "step": 31415
    },
    {
      "epoch": 14.813767090994814,
      "grad_norm": 0.0007093589520081878,
      "learning_rate": 0.032795615928897334,
      "loss": 0.3633,
      "num_input_tokens_seen": 29145248,
      "step": 31420
    },
    {
      "epoch": 14.816124469589816,
      "grad_norm": 0.0003378944529686123,
      "learning_rate": 0.03275886377621215,
      "loss": 0.2954,
      "num_input_tokens_seen": 29149504,
      "step": 31425
    },
    {
      "epoch": 14.818481848184819,
      "grad_norm": 0.0003868670901283622,
      "learning_rate": 0.03272212970358348,
      "loss": 0.3348,
      "num_input_tokens_seen": 29154288,
      "step": 31430
    },
    {
      "epoch": 14.820839226779821,
      "grad_norm": 0.0005660518654622138,
      "learning_rate": 0.032685413716676215,
      "loss": 0.3097,
      "num_input_tokens_seen": 29158960,
      "step": 31435
    },
    {
      "epoch": 14.823196605374823,
      "grad_norm": 0.0005765788955613971,
      "learning_rate": 0.032648715821152474,
      "loss": 0.3499,
      "num_input_tokens_seen": 29162944,
      "step": 31440
    },
    {
      "epoch": 14.825553983969826,
      "grad_norm": 0.0003374893276486546,
      "learning_rate": 0.03261203602267143,
      "loss": 0.3134,
      "num_input_tokens_seen": 29167120,
      "step": 31445
    },
    {
      "epoch": 14.827911362564828,
      "grad_norm": 0.00035123832640238106,
      "learning_rate": 0.03257537432688966,
      "loss": 0.3412,
      "num_input_tokens_seen": 29171408,
      "step": 31450
    },
    {
      "epoch": 14.83026874115983,
      "grad_norm": 0.0005748564144596457,
      "learning_rate": 0.03253873073946077,
      "loss": 0.3397,
      "num_input_tokens_seen": 29175568,
      "step": 31455
    },
    {
      "epoch": 14.832626119754833,
      "grad_norm": 0.0005067149177193642,
      "learning_rate": 0.03250210526603572,
      "loss": 0.3172,
      "num_input_tokens_seen": 29179888,
      "step": 31460
    },
    {
      "epoch": 14.834983498349835,
      "grad_norm": 0.0005663390620611608,
      "learning_rate": 0.03246549791226266,
      "loss": 0.3394,
      "num_input_tokens_seen": 29184432,
      "step": 31465
    },
    {
      "epoch": 14.837340876944838,
      "grad_norm": 0.00024995021522045135,
      "learning_rate": 0.03242890868378679,
      "loss": 0.366,
      "num_input_tokens_seen": 29189504,
      "step": 31470
    },
    {
      "epoch": 14.83969825553984,
      "grad_norm": 0.0004386026121210307,
      "learning_rate": 0.03239233758625074,
      "loss": 0.3257,
      "num_input_tokens_seen": 29194832,
      "step": 31475
    },
    {
      "epoch": 14.842055634134843,
      "grad_norm": 0.0003119092434644699,
      "learning_rate": 0.032355784625294204,
      "loss": 0.3307,
      "num_input_tokens_seen": 29198960,
      "step": 31480
    },
    {
      "epoch": 14.844413012729845,
      "grad_norm": 0.0003411240759305656,
      "learning_rate": 0.03231924980655402,
      "loss": 0.3074,
      "num_input_tokens_seen": 29203648,
      "step": 31485
    },
    {
      "epoch": 14.846770391324847,
      "grad_norm": 0.0006234780885279179,
      "learning_rate": 0.032282733135664446,
      "loss": 0.3252,
      "num_input_tokens_seen": 29208576,
      "step": 31490
    },
    {
      "epoch": 14.84912776991985,
      "grad_norm": 0.0005274071590974927,
      "learning_rate": 0.03224623461825669,
      "loss": 0.2865,
      "num_input_tokens_seen": 29212816,
      "step": 31495
    },
    {
      "epoch": 14.851485148514852,
      "grad_norm": 0.0003955724532715976,
      "learning_rate": 0.03220975425995937,
      "loss": 0.3091,
      "num_input_tokens_seen": 29216960,
      "step": 31500
    },
    {
      "epoch": 14.853842527109855,
      "grad_norm": 0.00026687030913308263,
      "learning_rate": 0.032173292066398206,
      "loss": 0.352,
      "num_input_tokens_seen": 29221216,
      "step": 31505
    },
    {
      "epoch": 14.856199905704855,
      "grad_norm": 0.0006674741161987185,
      "learning_rate": 0.03213684804319606,
      "loss": 0.2615,
      "num_input_tokens_seen": 29226784,
      "step": 31510
    },
    {
      "epoch": 14.85855728429986,
      "grad_norm": 0.00036489011836238205,
      "learning_rate": 0.03210042219597312,
      "loss": 0.2871,
      "num_input_tokens_seen": 29230960,
      "step": 31515
    },
    {
      "epoch": 14.86091466289486,
      "grad_norm": 0.00031571241561323404,
      "learning_rate": 0.03206401453034675,
      "loss": 0.3058,
      "num_input_tokens_seen": 29235984,
      "step": 31520
    },
    {
      "epoch": 14.863272041489862,
      "grad_norm": 0.00043536315206438303,
      "learning_rate": 0.03202762505193136,
      "loss": 0.3639,
      "num_input_tokens_seen": 29240640,
      "step": 31525
    },
    {
      "epoch": 14.865629420084865,
      "grad_norm": 0.0005555329262278974,
      "learning_rate": 0.031991253766338754,
      "loss": 0.2843,
      "num_input_tokens_seen": 29245248,
      "step": 31530
    },
    {
      "epoch": 14.867986798679867,
      "grad_norm": 0.00036598718725144863,
      "learning_rate": 0.03195490067917778,
      "loss": 0.3046,
      "num_input_tokens_seen": 29250560,
      "step": 31535
    },
    {
      "epoch": 14.87034417727487,
      "grad_norm": 0.00047592015471309423,
      "learning_rate": 0.03191856579605461,
      "loss": 0.3519,
      "num_input_tokens_seen": 29254656,
      "step": 31540
    },
    {
      "epoch": 14.872701555869872,
      "grad_norm": 0.0005286636878736317,
      "learning_rate": 0.031882249122572454,
      "loss": 0.3098,
      "num_input_tokens_seen": 29259664,
      "step": 31545
    },
    {
      "epoch": 14.875058934464874,
      "grad_norm": 0.0003683031245600432,
      "learning_rate": 0.03184595066433188,
      "loss": 0.283,
      "num_input_tokens_seen": 29264000,
      "step": 31550
    },
    {
      "epoch": 14.877416313059877,
      "grad_norm": 0.0007311611552722752,
      "learning_rate": 0.03180967042693049,
      "loss": 0.3915,
      "num_input_tokens_seen": 29268352,
      "step": 31555
    },
    {
      "epoch": 14.87977369165488,
      "grad_norm": 0.0006998065509833395,
      "learning_rate": 0.03177340841596323,
      "loss": 0.3898,
      "num_input_tokens_seen": 29273008,
      "step": 31560
    },
    {
      "epoch": 14.882131070249882,
      "grad_norm": 0.00037103769136592746,
      "learning_rate": 0.03173716463702209,
      "loss": 0.2913,
      "num_input_tokens_seen": 29277248,
      "step": 31565
    },
    {
      "epoch": 14.884488448844884,
      "grad_norm": 0.00036638512392528355,
      "learning_rate": 0.03170093909569638,
      "loss": 0.3313,
      "num_input_tokens_seen": 29281136,
      "step": 31570
    },
    {
      "epoch": 14.886845827439886,
      "grad_norm": 0.0006662992527708411,
      "learning_rate": 0.03166473179757246,
      "loss": 0.3369,
      "num_input_tokens_seen": 29285744,
      "step": 31575
    },
    {
      "epoch": 14.889203206034889,
      "grad_norm": 0.00038059582584537566,
      "learning_rate": 0.031628542748234005,
      "loss": 0.3264,
      "num_input_tokens_seen": 29290512,
      "step": 31580
    },
    {
      "epoch": 14.891560584629891,
      "grad_norm": 0.000621669227257371,
      "learning_rate": 0.03159237195326184,
      "loss": 0.3534,
      "num_input_tokens_seen": 29295024,
      "step": 31585
    },
    {
      "epoch": 14.893917963224894,
      "grad_norm": 0.0004477490729186684,
      "learning_rate": 0.031556219418233875,
      "loss": 0.3221,
      "num_input_tokens_seen": 29299888,
      "step": 31590
    },
    {
      "epoch": 14.896275341819896,
      "grad_norm": 0.0004981898819096386,
      "learning_rate": 0.03152008514872533,
      "loss": 0.3777,
      "num_input_tokens_seen": 29305456,
      "step": 31595
    },
    {
      "epoch": 14.898632720414899,
      "grad_norm": 0.0006994442665018141,
      "learning_rate": 0.03148396915030862,
      "loss": 0.3102,
      "num_input_tokens_seen": 29310016,
      "step": 31600
    },
    {
      "epoch": 14.898632720414899,
      "eval_loss": 0.3290310204029083,
      "eval_runtime": 33.5992,
      "eval_samples_per_second": 28.066,
      "eval_steps_per_second": 14.048,
      "num_input_tokens_seen": 29310016,
      "step": 31600
    },
    {
      "epoch": 14.900990099009901,
      "grad_norm": 0.0006230090511962771,
      "learning_rate": 0.03144787142855318,
      "loss": 0.3301,
      "num_input_tokens_seen": 29314064,
      "step": 31605
    },
    {
      "epoch": 14.903347477604903,
      "grad_norm": 0.00037296503433026373,
      "learning_rate": 0.031411791989025835,
      "loss": 0.308,
      "num_input_tokens_seen": 29318624,
      "step": 31610
    },
    {
      "epoch": 14.905704856199906,
      "grad_norm": 0.00030793569749221206,
      "learning_rate": 0.031375730837290394,
      "loss": 0.3218,
      "num_input_tokens_seen": 29322656,
      "step": 31615
    },
    {
      "epoch": 14.908062234794908,
      "grad_norm": 0.0003271812747698277,
      "learning_rate": 0.031339687978908015,
      "loss": 0.315,
      "num_input_tokens_seen": 29326864,
      "step": 31620
    },
    {
      "epoch": 14.91041961338991,
      "grad_norm": 0.0004249255871400237,
      "learning_rate": 0.03130366341943694,
      "loss": 0.4197,
      "num_input_tokens_seen": 29331568,
      "step": 31625
    },
    {
      "epoch": 14.912776991984913,
      "grad_norm": 0.0003221374936401844,
      "learning_rate": 0.031267657164432555,
      "loss": 0.351,
      "num_input_tokens_seen": 29336272,
      "step": 31630
    },
    {
      "epoch": 14.915134370579915,
      "grad_norm": 0.00023478538787458092,
      "learning_rate": 0.03123166921944752,
      "loss": 0.3213,
      "num_input_tokens_seen": 29340576,
      "step": 31635
    },
    {
      "epoch": 14.917491749174918,
      "grad_norm": 0.00023067972506396472,
      "learning_rate": 0.031195699590031666,
      "loss": 0.3175,
      "num_input_tokens_seen": 29345216,
      "step": 31640
    },
    {
      "epoch": 14.91984912776992,
      "grad_norm": 0.0002631301758810878,
      "learning_rate": 0.031159748281731885,
      "loss": 0.3554,
      "num_input_tokens_seen": 29350384,
      "step": 31645
    },
    {
      "epoch": 14.922206506364923,
      "grad_norm": 0.0003970413818024099,
      "learning_rate": 0.031123815300092394,
      "loss": 0.3243,
      "num_input_tokens_seen": 29355408,
      "step": 31650
    },
    {
      "epoch": 14.924563884959925,
      "grad_norm": 0.0003460469306446612,
      "learning_rate": 0.031087900650654424,
      "loss": 0.3374,
      "num_input_tokens_seen": 29359376,
      "step": 31655
    },
    {
      "epoch": 14.926921263554927,
      "grad_norm": 0.0004173323104623705,
      "learning_rate": 0.031052004338956534,
      "loss": 0.289,
      "num_input_tokens_seen": 29364112,
      "step": 31660
    },
    {
      "epoch": 14.92927864214993,
      "grad_norm": 0.000326344306813553,
      "learning_rate": 0.031016126370534407,
      "loss": 0.3491,
      "num_input_tokens_seen": 29368432,
      "step": 31665
    },
    {
      "epoch": 14.931636020744932,
      "grad_norm": 0.0005239819874987006,
      "learning_rate": 0.030980266750920804,
      "loss": 0.3138,
      "num_input_tokens_seen": 29373104,
      "step": 31670
    },
    {
      "epoch": 14.933993399339935,
      "grad_norm": 0.0006503481417894363,
      "learning_rate": 0.030944425485645747,
      "loss": 0.2981,
      "num_input_tokens_seen": 29377552,
      "step": 31675
    },
    {
      "epoch": 14.936350777934937,
      "grad_norm": 0.00048423506086692214,
      "learning_rate": 0.03090860258023647,
      "loss": 0.3025,
      "num_input_tokens_seen": 29382736,
      "step": 31680
    },
    {
      "epoch": 14.93870815652994,
      "grad_norm": 0.0007181818364188075,
      "learning_rate": 0.030872798040217236,
      "loss": 0.3332,
      "num_input_tokens_seen": 29387184,
      "step": 31685
    },
    {
      "epoch": 14.941065535124942,
      "grad_norm": 0.0006598476902581751,
      "learning_rate": 0.03083701187110964,
      "loss": 0.2928,
      "num_input_tokens_seen": 29392064,
      "step": 31690
    },
    {
      "epoch": 14.943422913719944,
      "grad_norm": 0.00031405649497173727,
      "learning_rate": 0.030801244078432294,
      "loss": 0.2772,
      "num_input_tokens_seen": 29397984,
      "step": 31695
    },
    {
      "epoch": 14.945780292314947,
      "grad_norm": 0.0004396387084852904,
      "learning_rate": 0.030765494667701024,
      "loss": 0.3362,
      "num_input_tokens_seen": 29402384,
      "step": 31700
    },
    {
      "epoch": 14.948137670909949,
      "grad_norm": 0.0007027082610875368,
      "learning_rate": 0.030729763644428913,
      "loss": 0.3435,
      "num_input_tokens_seen": 29407824,
      "step": 31705
    },
    {
      "epoch": 14.950495049504951,
      "grad_norm": 0.0006968224188312888,
      "learning_rate": 0.030694051014126048,
      "loss": 0.3711,
      "num_input_tokens_seen": 29412304,
      "step": 31710
    },
    {
      "epoch": 14.952852428099952,
      "grad_norm": 0.0004074149765074253,
      "learning_rate": 0.030658356782299792,
      "loss": 0.3524,
      "num_input_tokens_seen": 29416400,
      "step": 31715
    },
    {
      "epoch": 14.955209806694956,
      "grad_norm": 0.0005090649356134236,
      "learning_rate": 0.030622680954454726,
      "loss": 0.3007,
      "num_input_tokens_seen": 29420720,
      "step": 31720
    },
    {
      "epoch": 14.957567185289957,
      "grad_norm": 0.0005575798568315804,
      "learning_rate": 0.030587023536092398,
      "loss": 0.3506,
      "num_input_tokens_seen": 29426224,
      "step": 31725
    },
    {
      "epoch": 14.95992456388496,
      "grad_norm": 0.000608213827945292,
      "learning_rate": 0.03055138453271171,
      "loss": 0.3517,
      "num_input_tokens_seen": 29431024,
      "step": 31730
    },
    {
      "epoch": 14.962281942479962,
      "grad_norm": 0.0004841445479542017,
      "learning_rate": 0.03051576394980858,
      "loss": 0.3592,
      "num_input_tokens_seen": 29436192,
      "step": 31735
    },
    {
      "epoch": 14.964639321074964,
      "grad_norm": 0.00048839021474123,
      "learning_rate": 0.030480161792876187,
      "loss": 0.328,
      "num_input_tokens_seen": 29441136,
      "step": 31740
    },
    {
      "epoch": 14.966996699669966,
      "grad_norm": 0.00035622864379547536,
      "learning_rate": 0.030444578067404846,
      "loss": 0.3129,
      "num_input_tokens_seen": 29445936,
      "step": 31745
    },
    {
      "epoch": 14.969354078264969,
      "grad_norm": 0.000766134646255523,
      "learning_rate": 0.030409012778881975,
      "loss": 0.3202,
      "num_input_tokens_seen": 29450368,
      "step": 31750
    },
    {
      "epoch": 14.971711456859971,
      "grad_norm": 0.0004083008971065283,
      "learning_rate": 0.030373465932792235,
      "loss": 0.344,
      "num_input_tokens_seen": 29455008,
      "step": 31755
    },
    {
      "epoch": 14.974068835454974,
      "grad_norm": 0.000268032104941085,
      "learning_rate": 0.030337937534617342,
      "loss": 0.374,
      "num_input_tokens_seen": 29459952,
      "step": 31760
    },
    {
      "epoch": 14.976426214049976,
      "grad_norm": 0.0005280517507344484,
      "learning_rate": 0.030302427589836277,
      "loss": 0.3664,
      "num_input_tokens_seen": 29464128,
      "step": 31765
    },
    {
      "epoch": 14.978783592644978,
      "grad_norm": 0.0005800609942525625,
      "learning_rate": 0.030266936103925095,
      "loss": 0.29,
      "num_input_tokens_seen": 29468672,
      "step": 31770
    },
    {
      "epoch": 14.98114097123998,
      "grad_norm": 0.0004926708643324673,
      "learning_rate": 0.030231463082356982,
      "loss": 0.3355,
      "num_input_tokens_seen": 29473440,
      "step": 31775
    },
    {
      "epoch": 14.983498349834983,
      "grad_norm": 0.000665566127281636,
      "learning_rate": 0.030196008530602367,
      "loss": 0.2784,
      "num_input_tokens_seen": 29478496,
      "step": 31780
    },
    {
      "epoch": 14.985855728429986,
      "grad_norm": 0.00041379829053767025,
      "learning_rate": 0.030160572454128842,
      "loss": 0.3253,
      "num_input_tokens_seen": 29482880,
      "step": 31785
    },
    {
      "epoch": 14.988213107024988,
      "grad_norm": 0.0005215969285927713,
      "learning_rate": 0.03012515485840098,
      "loss": 0.3076,
      "num_input_tokens_seen": 29488064,
      "step": 31790
    },
    {
      "epoch": 14.99057048561999,
      "grad_norm": 0.0003090935933869332,
      "learning_rate": 0.030089755748880734,
      "loss": 0.324,
      "num_input_tokens_seen": 29492880,
      "step": 31795
    },
    {
      "epoch": 14.992927864214993,
      "grad_norm": 0.00043750699842348695,
      "learning_rate": 0.030054375131027003,
      "loss": 0.2936,
      "num_input_tokens_seen": 29497520,
      "step": 31800
    },
    {
      "epoch": 14.992927864214993,
      "eval_loss": 0.32855224609375,
      "eval_runtime": 33.6165,
      "eval_samples_per_second": 28.052,
      "eval_steps_per_second": 14.041,
      "num_input_tokens_seen": 29497520,
      "step": 31800
    },
    {
      "epoch": 14.995285242809995,
      "grad_norm": 0.000276098377071321,
      "learning_rate": 0.030019013010295942,
      "loss": 0.3616,
      "num_input_tokens_seen": 29502704,
      "step": 31805
    },
    {
      "epoch": 14.997642621404998,
      "grad_norm": 0.00038980800309218466,
      "learning_rate": 0.029983669392140897,
      "loss": 0.3168,
      "num_input_tokens_seen": 29507328,
      "step": 31810
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.0006745730061084032,
      "learning_rate": 0.029948344282012217,
      "loss": 0.3304,
      "num_input_tokens_seen": 29512128,
      "step": 31815
    },
    {
      "epoch": 15.002357378595002,
      "grad_norm": 0.00036194626591168344,
      "learning_rate": 0.029913037685357507,
      "loss": 0.2953,
      "num_input_tokens_seen": 29516704,
      "step": 31820
    },
    {
      "epoch": 15.004714757190005,
      "grad_norm": 0.0005639872397296131,
      "learning_rate": 0.029877749607621528,
      "loss": 0.3346,
      "num_input_tokens_seen": 29522336,
      "step": 31825
    },
    {
      "epoch": 15.007072135785007,
      "grad_norm": 0.00025904999347403646,
      "learning_rate": 0.029842480054246077,
      "loss": 0.2665,
      "num_input_tokens_seen": 29526336,
      "step": 31830
    },
    {
      "epoch": 15.00942951438001,
      "grad_norm": 0.000464476877823472,
      "learning_rate": 0.02980722903067022,
      "loss": 0.3332,
      "num_input_tokens_seen": 29530800,
      "step": 31835
    },
    {
      "epoch": 15.011786892975012,
      "grad_norm": 0.0002982686855830252,
      "learning_rate": 0.029771996542330113,
      "loss": 0.3259,
      "num_input_tokens_seen": 29535888,
      "step": 31840
    },
    {
      "epoch": 15.014144271570014,
      "grad_norm": 0.0004325377813074738,
      "learning_rate": 0.029736782594658954,
      "loss": 0.2805,
      "num_input_tokens_seen": 29540384,
      "step": 31845
    },
    {
      "epoch": 15.016501650165017,
      "grad_norm": 0.0004439206968527287,
      "learning_rate": 0.029701587193087284,
      "loss": 0.3565,
      "num_input_tokens_seen": 29544832,
      "step": 31850
    },
    {
      "epoch": 15.01885902876002,
      "grad_norm": 0.0005234775599092245,
      "learning_rate": 0.0296664103430426,
      "loss": 0.3695,
      "num_input_tokens_seen": 29549136,
      "step": 31855
    },
    {
      "epoch": 15.021216407355022,
      "grad_norm": 0.00036369997542351484,
      "learning_rate": 0.029631252049949652,
      "loss": 0.2881,
      "num_input_tokens_seen": 29554624,
      "step": 31860
    },
    {
      "epoch": 15.023573785950024,
      "grad_norm": 0.0003764682332985103,
      "learning_rate": 0.02959611231923031,
      "loss": 0.3255,
      "num_input_tokens_seen": 29558640,
      "step": 31865
    },
    {
      "epoch": 15.025931164545026,
      "grad_norm": 0.0003479609149508178,
      "learning_rate": 0.029560991156303507,
      "loss": 0.355,
      "num_input_tokens_seen": 29562912,
      "step": 31870
    },
    {
      "epoch": 15.028288543140029,
      "grad_norm": 0.0007561104721389711,
      "learning_rate": 0.02952588856658544,
      "loss": 0.3395,
      "num_input_tokens_seen": 29566928,
      "step": 31875
    },
    {
      "epoch": 15.030645921735031,
      "grad_norm": 0.0003328862658236176,
      "learning_rate": 0.029490804555489296,
      "loss": 0.3258,
      "num_input_tokens_seen": 29570976,
      "step": 31880
    },
    {
      "epoch": 15.033003300330034,
      "grad_norm": 0.0008063252316787839,
      "learning_rate": 0.029455739128425484,
      "loss": 0.3778,
      "num_input_tokens_seen": 29576640,
      "step": 31885
    },
    {
      "epoch": 15.035360678925036,
      "grad_norm": 0.0005688311066478491,
      "learning_rate": 0.029420692290801607,
      "loss": 0.322,
      "num_input_tokens_seen": 29581872,
      "step": 31890
    },
    {
      "epoch": 15.037718057520038,
      "grad_norm": 0.000637185643427074,
      "learning_rate": 0.02938566404802223,
      "loss": 0.3567,
      "num_input_tokens_seen": 29586688,
      "step": 31895
    },
    {
      "epoch": 15.04007543611504,
      "grad_norm": 0.0004175560316070914,
      "learning_rate": 0.029350654405489195,
      "loss": 0.3152,
      "num_input_tokens_seen": 29590528,
      "step": 31900
    },
    {
      "epoch": 15.042432814710043,
      "grad_norm": 0.0009320169338025153,
      "learning_rate": 0.02931566336860145,
      "loss": 0.3253,
      "num_input_tokens_seen": 29595024,
      "step": 31905
    },
    {
      "epoch": 15.044790193305046,
      "grad_norm": 0.00039130300865508616,
      "learning_rate": 0.02928069094275505,
      "loss": 0.3235,
      "num_input_tokens_seen": 29599104,
      "step": 31910
    },
    {
      "epoch": 15.047147571900048,
      "grad_norm": 0.0007685982272960246,
      "learning_rate": 0.02924573713334314,
      "loss": 0.2978,
      "num_input_tokens_seen": 29603408,
      "step": 31915
    },
    {
      "epoch": 15.049504950495049,
      "grad_norm": 0.0003315738867968321,
      "learning_rate": 0.02921080194575603,
      "loss": 0.3192,
      "num_input_tokens_seen": 29607344,
      "step": 31920
    },
    {
      "epoch": 15.051862329090051,
      "grad_norm": 0.000573780620470643,
      "learning_rate": 0.029175885385381177,
      "loss": 0.3298,
      "num_input_tokens_seen": 29612048,
      "step": 31925
    },
    {
      "epoch": 15.054219707685053,
      "grad_norm": 0.0005638638394884765,
      "learning_rate": 0.029140987457603223,
      "loss": 0.3628,
      "num_input_tokens_seen": 29616768,
      "step": 31930
    },
    {
      "epoch": 15.056577086280056,
      "grad_norm": 0.0005692057311534882,
      "learning_rate": 0.029106108167803763,
      "loss": 0.3151,
      "num_input_tokens_seen": 29621616,
      "step": 31935
    },
    {
      "epoch": 15.058934464875058,
      "grad_norm": 0.000693658774252981,
      "learning_rate": 0.029071247521361674,
      "loss": 0.3354,
      "num_input_tokens_seen": 29626032,
      "step": 31940
    },
    {
      "epoch": 15.06129184347006,
      "grad_norm": 0.0005788168055005372,
      "learning_rate": 0.029036405523652945,
      "loss": 0.2751,
      "num_input_tokens_seen": 29630528,
      "step": 31945
    },
    {
      "epoch": 15.063649222065063,
      "grad_norm": 0.0006146986270323396,
      "learning_rate": 0.029001582180050577,
      "loss": 0.3764,
      "num_input_tokens_seen": 29635024,
      "step": 31950
    },
    {
      "epoch": 15.066006600660065,
      "grad_norm": 0.0006194237503223121,
      "learning_rate": 0.02896677749592482,
      "loss": 0.4031,
      "num_input_tokens_seen": 29639136,
      "step": 31955
    },
    {
      "epoch": 15.068363979255068,
      "grad_norm": 0.0005199589650146663,
      "learning_rate": 0.028931991476642938,
      "loss": 0.2974,
      "num_input_tokens_seen": 29643216,
      "step": 31960
    },
    {
      "epoch": 15.07072135785007,
      "grad_norm": 0.00038806922384537756,
      "learning_rate": 0.028897224127569412,
      "loss": 0.3409,
      "num_input_tokens_seen": 29648000,
      "step": 31965
    },
    {
      "epoch": 15.073078736445073,
      "grad_norm": 0.000651916372589767,
      "learning_rate": 0.028862475454065832,
      "loss": 0.2958,
      "num_input_tokens_seen": 29652016,
      "step": 31970
    },
    {
      "epoch": 15.075436115040075,
      "grad_norm": 0.000680211465805769,
      "learning_rate": 0.028827745461490806,
      "loss": 0.3531,
      "num_input_tokens_seen": 29656592,
      "step": 31975
    },
    {
      "epoch": 15.077793493635077,
      "grad_norm": 0.0004120660887565464,
      "learning_rate": 0.028793034155200212,
      "loss": 0.3405,
      "num_input_tokens_seen": 29661184,
      "step": 31980
    },
    {
      "epoch": 15.08015087223008,
      "grad_norm": 0.00027265222161076963,
      "learning_rate": 0.028758341540546944,
      "loss": 0.3608,
      "num_input_tokens_seen": 29665376,
      "step": 31985
    },
    {
      "epoch": 15.082508250825082,
      "grad_norm": 0.00037708281888626516,
      "learning_rate": 0.02872366762288098,
      "loss": 0.3081,
      "num_input_tokens_seen": 29670400,
      "step": 31990
    },
    {
      "epoch": 15.084865629420085,
      "grad_norm": 0.0003896542766597122,
      "learning_rate": 0.028689012407549567,
      "loss": 0.339,
      "num_input_tokens_seen": 29675616,
      "step": 31995
    },
    {
      "epoch": 15.087223008015087,
      "grad_norm": 0.00044306801282800734,
      "learning_rate": 0.028654375899896892,
      "loss": 0.3225,
      "num_input_tokens_seen": 29680160,
      "step": 32000
    },
    {
      "epoch": 15.087223008015087,
      "eval_loss": 0.33012205362319946,
      "eval_runtime": 33.5806,
      "eval_samples_per_second": 28.082,
      "eval_steps_per_second": 14.056,
      "num_input_tokens_seen": 29680160,
      "step": 32000
    },
    {
      "epoch": 15.08958038661009,
      "grad_norm": 0.000608577043749392,
      "learning_rate": 0.02861975810526437,
      "loss": 0.3648,
      "num_input_tokens_seen": 29685520,
      "step": 32005
    },
    {
      "epoch": 15.091937765205092,
      "grad_norm": 0.0004433373105712235,
      "learning_rate": 0.02858515902899056,
      "loss": 0.3246,
      "num_input_tokens_seen": 29691232,
      "step": 32010
    },
    {
      "epoch": 15.094295143800094,
      "grad_norm": 0.0003642055089585483,
      "learning_rate": 0.028550578676410976,
      "loss": 0.3475,
      "num_input_tokens_seen": 29696160,
      "step": 32015
    },
    {
      "epoch": 15.096652522395097,
      "grad_norm": 0.0003261342935729772,
      "learning_rate": 0.02851601705285837,
      "loss": 0.3201,
      "num_input_tokens_seen": 29701088,
      "step": 32020
    },
    {
      "epoch": 15.099009900990099,
      "grad_norm": 0.0004916202160529792,
      "learning_rate": 0.028481474163662666,
      "loss": 0.3219,
      "num_input_tokens_seen": 29704784,
      "step": 32025
    },
    {
      "epoch": 15.101367279585101,
      "grad_norm": 0.00039583572652190924,
      "learning_rate": 0.028446950014150683,
      "loss": 0.3399,
      "num_input_tokens_seen": 29710960,
      "step": 32030
    },
    {
      "epoch": 15.103724658180104,
      "grad_norm": 0.0006193472072482109,
      "learning_rate": 0.028412444609646596,
      "loss": 0.3874,
      "num_input_tokens_seen": 29715472,
      "step": 32035
    },
    {
      "epoch": 15.106082036775106,
      "grad_norm": 0.0004083450185135007,
      "learning_rate": 0.028377957955471465,
      "loss": 0.3279,
      "num_input_tokens_seen": 29720976,
      "step": 32040
    },
    {
      "epoch": 15.108439415370109,
      "grad_norm": 0.00044393728603608906,
      "learning_rate": 0.0283434900569436,
      "loss": 0.3406,
      "num_input_tokens_seen": 29725136,
      "step": 32045
    },
    {
      "epoch": 15.110796793965111,
      "grad_norm": 0.000794618739746511,
      "learning_rate": 0.028309040919378456,
      "loss": 0.3595,
      "num_input_tokens_seen": 29730656,
      "step": 32050
    },
    {
      "epoch": 15.113154172560114,
      "grad_norm": 0.0006996752345003188,
      "learning_rate": 0.02827461054808848,
      "loss": 0.3738,
      "num_input_tokens_seen": 29735552,
      "step": 32055
    },
    {
      "epoch": 15.115511551155116,
      "grad_norm": 0.0005568764172494411,
      "learning_rate": 0.028240198948383186,
      "loss": 0.3221,
      "num_input_tokens_seen": 29740528,
      "step": 32060
    },
    {
      "epoch": 15.117868929750118,
      "grad_norm": 0.00037194311153143644,
      "learning_rate": 0.028205806125569402,
      "loss": 0.2986,
      "num_input_tokens_seen": 29745616,
      "step": 32065
    },
    {
      "epoch": 15.12022630834512,
      "grad_norm": 0.00040713598718866706,
      "learning_rate": 0.028171432084950834,
      "loss": 0.3335,
      "num_input_tokens_seen": 29750240,
      "step": 32070
    },
    {
      "epoch": 15.122583686940123,
      "grad_norm": 0.00031336178653873503,
      "learning_rate": 0.028137076831828478,
      "loss": 0.3379,
      "num_input_tokens_seen": 29754576,
      "step": 32075
    },
    {
      "epoch": 15.124941065535126,
      "grad_norm": 0.0003819295088760555,
      "learning_rate": 0.028102740371500238,
      "loss": 0.3357,
      "num_input_tokens_seen": 29759456,
      "step": 32080
    },
    {
      "epoch": 15.127298444130128,
      "grad_norm": 0.0006270320736803114,
      "learning_rate": 0.0280684227092613,
      "loss": 0.2828,
      "num_input_tokens_seen": 29764496,
      "step": 32085
    },
    {
      "epoch": 15.12965582272513,
      "grad_norm": 0.0011593832168728113,
      "learning_rate": 0.02803412385040392,
      "loss": 0.3556,
      "num_input_tokens_seen": 29770432,
      "step": 32090
    },
    {
      "epoch": 15.132013201320133,
      "grad_norm": 0.0009502649190835655,
      "learning_rate": 0.027999843800217306,
      "loss": 0.3423,
      "num_input_tokens_seen": 29775408,
      "step": 32095
    },
    {
      "epoch": 15.134370579915135,
      "grad_norm": 0.00033020228147506714,
      "learning_rate": 0.027965582563987932,
      "loss": 0.3149,
      "num_input_tokens_seen": 29780736,
      "step": 32100
    },
    {
      "epoch": 15.136727958510138,
      "grad_norm": 0.0005478519597090781,
      "learning_rate": 0.027931340146999346,
      "loss": 0.3569,
      "num_input_tokens_seen": 29785344,
      "step": 32105
    },
    {
      "epoch": 15.13908533710514,
      "grad_norm": 0.0007033685687929392,
      "learning_rate": 0.02789711655453208,
      "loss": 0.3447,
      "num_input_tokens_seen": 29789120,
      "step": 32110
    },
    {
      "epoch": 15.14144271570014,
      "grad_norm": 0.00033045242889784276,
      "learning_rate": 0.02786291179186392,
      "loss": 0.3374,
      "num_input_tokens_seen": 29793568,
      "step": 32115
    },
    {
      "epoch": 15.143800094295143,
      "grad_norm": 0.0004882120410911739,
      "learning_rate": 0.02782872586426961,
      "loss": 0.305,
      "num_input_tokens_seen": 29797520,
      "step": 32120
    },
    {
      "epoch": 15.146157472890145,
      "grad_norm": 0.000478580390335992,
      "learning_rate": 0.027794558777021083,
      "loss": 0.3375,
      "num_input_tokens_seen": 29801920,
      "step": 32125
    },
    {
      "epoch": 15.148514851485148,
      "grad_norm": 0.00032468364224769175,
      "learning_rate": 0.02776041053538734,
      "loss": 0.3439,
      "num_input_tokens_seen": 29806176,
      "step": 32130
    },
    {
      "epoch": 15.15087223008015,
      "grad_norm": 0.0006663711974397302,
      "learning_rate": 0.027726281144634407,
      "loss": 0.3681,
      "num_input_tokens_seen": 29811680,
      "step": 32135
    },
    {
      "epoch": 15.153229608675153,
      "grad_norm": 0.0003501281316857785,
      "learning_rate": 0.02769217061002552,
      "loss": 0.3029,
      "num_input_tokens_seen": 29816304,
      "step": 32140
    },
    {
      "epoch": 15.155586987270155,
      "grad_norm": 0.00037639905349351466,
      "learning_rate": 0.027658078936820967,
      "loss": 0.3157,
      "num_input_tokens_seen": 29821136,
      "step": 32145
    },
    {
      "epoch": 15.157944365865157,
      "grad_norm": 0.00037493626587092876,
      "learning_rate": 0.02762400613027805,
      "loss": 0.3263,
      "num_input_tokens_seen": 29825200,
      "step": 32150
    },
    {
      "epoch": 15.16030174446016,
      "grad_norm": 0.0005360812065191567,
      "learning_rate": 0.027589952195651295,
      "loss": 0.377,
      "num_input_tokens_seen": 29829664,
      "step": 32155
    },
    {
      "epoch": 15.162659123055162,
      "grad_norm": 0.0004816314030904323,
      "learning_rate": 0.027555917138192186,
      "loss": 0.3023,
      "num_input_tokens_seen": 29834048,
      "step": 32160
    },
    {
      "epoch": 15.165016501650165,
      "grad_norm": 0.00033518229611217976,
      "learning_rate": 0.027521900963149375,
      "loss": 0.3377,
      "num_input_tokens_seen": 29838256,
      "step": 32165
    },
    {
      "epoch": 15.167373880245167,
      "grad_norm": 0.00033154140692204237,
      "learning_rate": 0.027487903675768633,
      "loss": 0.3301,
      "num_input_tokens_seen": 29843264,
      "step": 32170
    },
    {
      "epoch": 15.16973125884017,
      "grad_norm": 0.0004136276547797024,
      "learning_rate": 0.027453925281292677,
      "loss": 0.319,
      "num_input_tokens_seen": 29848304,
      "step": 32175
    },
    {
      "epoch": 15.172088637435172,
      "grad_norm": 0.000658654433209449,
      "learning_rate": 0.027419965784961475,
      "loss": 0.3462,
      "num_input_tokens_seen": 29852720,
      "step": 32180
    },
    {
      "epoch": 15.174446016030174,
      "grad_norm": 0.0004514652246143669,
      "learning_rate": 0.027386025192012015,
      "loss": 0.3004,
      "num_input_tokens_seen": 29858336,
      "step": 32185
    },
    {
      "epoch": 15.176803394625177,
      "grad_norm": 0.0004929279675707221,
      "learning_rate": 0.027352103507678277,
      "loss": 0.3455,
      "num_input_tokens_seen": 29863296,
      "step": 32190
    },
    {
      "epoch": 15.179160773220179,
      "grad_norm": 0.00044595569488592446,
      "learning_rate": 0.027318200737191527,
      "loss": 0.3743,
      "num_input_tokens_seen": 29867440,
      "step": 32195
    },
    {
      "epoch": 15.181518151815181,
      "grad_norm": 0.0004549497680272907,
      "learning_rate": 0.027284316885779935,
      "loss": 0.3111,
      "num_input_tokens_seen": 29872080,
      "step": 32200
    },
    {
      "epoch": 15.181518151815181,
      "eval_loss": 0.3299616575241089,
      "eval_runtime": 33.6183,
      "eval_samples_per_second": 28.05,
      "eval_steps_per_second": 14.04,
      "num_input_tokens_seen": 29872080,
      "step": 32200
    },
    {
      "epoch": 15.183875530410184,
      "grad_norm": 0.0006703425897285342,
      "learning_rate": 0.027250451958668785,
      "loss": 0.3395,
      "num_input_tokens_seen": 29877984,
      "step": 32205
    },
    {
      "epoch": 15.186232909005186,
      "grad_norm": 0.0006327756564132869,
      "learning_rate": 0.027216605961080536,
      "loss": 0.3312,
      "num_input_tokens_seen": 29883088,
      "step": 32210
    },
    {
      "epoch": 15.188590287600189,
      "grad_norm": 0.0003326995938550681,
      "learning_rate": 0.02718277889823461,
      "loss": 0.3105,
      "num_input_tokens_seen": 29888208,
      "step": 32215
    },
    {
      "epoch": 15.190947666195191,
      "grad_norm": 0.00043884405749849975,
      "learning_rate": 0.027148970775347604,
      "loss": 0.3081,
      "num_input_tokens_seen": 29893280,
      "step": 32220
    },
    {
      "epoch": 15.193305044790193,
      "grad_norm": 0.0002851948083844036,
      "learning_rate": 0.027115181597633174,
      "loss": 0.3313,
      "num_input_tokens_seen": 29898608,
      "step": 32225
    },
    {
      "epoch": 15.195662423385196,
      "grad_norm": 0.00040538585744798183,
      "learning_rate": 0.027081411370301976,
      "loss": 0.3082,
      "num_input_tokens_seen": 29903280,
      "step": 32230
    },
    {
      "epoch": 15.198019801980198,
      "grad_norm": 0.00038395565934479237,
      "learning_rate": 0.027047660098561875,
      "loss": 0.2967,
      "num_input_tokens_seen": 29908784,
      "step": 32235
    },
    {
      "epoch": 15.2003771805752,
      "grad_norm": 0.00040848299977369606,
      "learning_rate": 0.02701392778761766,
      "loss": 0.3482,
      "num_input_tokens_seen": 29913680,
      "step": 32240
    },
    {
      "epoch": 15.202734559170203,
      "grad_norm": 0.0005686464137397707,
      "learning_rate": 0.02698021444267133,
      "loss": 0.3341,
      "num_input_tokens_seen": 29917952,
      "step": 32245
    },
    {
      "epoch": 15.205091937765205,
      "grad_norm": 0.0004352093383204192,
      "learning_rate": 0.026946520068921915,
      "loss": 0.3344,
      "num_input_tokens_seen": 29922000,
      "step": 32250
    },
    {
      "epoch": 15.207449316360208,
      "grad_norm": 0.0005872315960004926,
      "learning_rate": 0.02691284467156547,
      "loss": 0.2451,
      "num_input_tokens_seen": 29926096,
      "step": 32255
    },
    {
      "epoch": 15.20980669495521,
      "grad_norm": 0.0004905125824734569,
      "learning_rate": 0.026879188255795182,
      "loss": 0.329,
      "num_input_tokens_seen": 29931136,
      "step": 32260
    },
    {
      "epoch": 15.212164073550213,
      "grad_norm": 0.0006409738562069833,
      "learning_rate": 0.026845550826801328,
      "loss": 0.3315,
      "num_input_tokens_seen": 29936480,
      "step": 32265
    },
    {
      "epoch": 15.214521452145215,
      "grad_norm": 0.00043081067269667983,
      "learning_rate": 0.02681193238977121,
      "loss": 0.3206,
      "num_input_tokens_seen": 29941056,
      "step": 32270
    },
    {
      "epoch": 15.216878830740217,
      "grad_norm": 0.0005061422707512975,
      "learning_rate": 0.026778332949889145,
      "loss": 0.3711,
      "num_input_tokens_seen": 29945520,
      "step": 32275
    },
    {
      "epoch": 15.21923620933522,
      "grad_norm": 0.0005828682333230972,
      "learning_rate": 0.026744752512336673,
      "loss": 0.3233,
      "num_input_tokens_seen": 29949984,
      "step": 32280
    },
    {
      "epoch": 15.221593587930222,
      "grad_norm": 0.00043271941831335425,
      "learning_rate": 0.02671119108229225,
      "loss": 0.3094,
      "num_input_tokens_seen": 29954416,
      "step": 32285
    },
    {
      "epoch": 15.223950966525225,
      "grad_norm": 0.000376496376702562,
      "learning_rate": 0.026677648664931556,
      "loss": 0.3535,
      "num_input_tokens_seen": 29958144,
      "step": 32290
    },
    {
      "epoch": 15.226308345120227,
      "grad_norm": 0.0004918393678963184,
      "learning_rate": 0.026644125265427154,
      "loss": 0.3493,
      "num_input_tokens_seen": 29962816,
      "step": 32295
    },
    {
      "epoch": 15.22866572371523,
      "grad_norm": 0.0007315535331144929,
      "learning_rate": 0.026610620888948822,
      "loss": 0.3239,
      "num_input_tokens_seen": 29966976,
      "step": 32300
    },
    {
      "epoch": 15.231023102310232,
      "grad_norm": 0.0004638344107661396,
      "learning_rate": 0.026577135540663408,
      "loss": 0.338,
      "num_input_tokens_seen": 29971888,
      "step": 32305
    },
    {
      "epoch": 15.233380480905234,
      "grad_norm": 0.0004544735129456967,
      "learning_rate": 0.026543669225734673,
      "loss": 0.3264,
      "num_input_tokens_seen": 29976624,
      "step": 32310
    },
    {
      "epoch": 15.235737859500237,
      "grad_norm": 0.0004701244761236012,
      "learning_rate": 0.02651022194932363,
      "loss": 0.317,
      "num_input_tokens_seen": 29980960,
      "step": 32315
    },
    {
      "epoch": 15.238095238095237,
      "grad_norm": 0.0007520345388911664,
      "learning_rate": 0.026476793716588194,
      "loss": 0.3395,
      "num_input_tokens_seen": 29985232,
      "step": 32320
    },
    {
      "epoch": 15.24045261669024,
      "grad_norm": 0.00042334795580245554,
      "learning_rate": 0.026443384532683467,
      "loss": 0.3732,
      "num_input_tokens_seen": 29989584,
      "step": 32325
    },
    {
      "epoch": 15.242809995285242,
      "grad_norm": 0.0004955393960699439,
      "learning_rate": 0.026409994402761584,
      "loss": 0.3355,
      "num_input_tokens_seen": 29994000,
      "step": 32330
    },
    {
      "epoch": 15.245167373880244,
      "grad_norm": 0.00035050243604928255,
      "learning_rate": 0.026376623331971653,
      "loss": 0.3275,
      "num_input_tokens_seen": 29998816,
      "step": 32335
    },
    {
      "epoch": 15.247524752475247,
      "grad_norm": 0.0007484558154828846,
      "learning_rate": 0.026343271325459997,
      "loss": 0.3272,
      "num_input_tokens_seen": 30003024,
      "step": 32340
    },
    {
      "epoch": 15.24988213107025,
      "grad_norm": 0.0004886731621809304,
      "learning_rate": 0.02630993838836987,
      "loss": 0.2974,
      "num_input_tokens_seen": 30007936,
      "step": 32345
    },
    {
      "epoch": 15.252239509665252,
      "grad_norm": 0.0004479371418710798,
      "learning_rate": 0.026276624525841584,
      "loss": 0.3765,
      "num_input_tokens_seen": 30011472,
      "step": 32350
    },
    {
      "epoch": 15.254596888260254,
      "grad_norm": 0.0006623365334235132,
      "learning_rate": 0.026243329743012637,
      "loss": 0.3647,
      "num_input_tokens_seen": 30016512,
      "step": 32355
    },
    {
      "epoch": 15.256954266855256,
      "grad_norm": 0.00041509661241434515,
      "learning_rate": 0.026210054045017438,
      "loss": 0.3492,
      "num_input_tokens_seen": 30021600,
      "step": 32360
    },
    {
      "epoch": 15.259311645450259,
      "grad_norm": 0.00040568257099948823,
      "learning_rate": 0.02617679743698755,
      "loss": 0.3536,
      "num_input_tokens_seen": 30026304,
      "step": 32365
    },
    {
      "epoch": 15.261669024045261,
      "grad_norm": 0.0006880922010168433,
      "learning_rate": 0.02614355992405158,
      "loss": 0.2699,
      "num_input_tokens_seen": 30031184,
      "step": 32370
    },
    {
      "epoch": 15.264026402640264,
      "grad_norm": 0.0009151942795142531,
      "learning_rate": 0.026110341511335115,
      "loss": 0.3351,
      "num_input_tokens_seen": 30035984,
      "step": 32375
    },
    {
      "epoch": 15.266383781235266,
      "grad_norm": 0.0008589476929046214,
      "learning_rate": 0.02607714220396093,
      "loss": 0.2582,
      "num_input_tokens_seen": 30040272,
      "step": 32380
    },
    {
      "epoch": 15.268741159830268,
      "grad_norm": 0.0007980230147950351,
      "learning_rate": 0.02604396200704869,
      "loss": 0.3167,
      "num_input_tokens_seen": 30045328,
      "step": 32385
    },
    {
      "epoch": 15.27109853842527,
      "grad_norm": 0.00046785420272499323,
      "learning_rate": 0.02601080092571523,
      "loss": 0.3863,
      "num_input_tokens_seen": 30049344,
      "step": 32390
    },
    {
      "epoch": 15.273455917020273,
      "grad_norm": 0.0007754565449431539,
      "learning_rate": 0.025977658965074455,
      "loss": 0.3322,
      "num_input_tokens_seen": 30053696,
      "step": 32395
    },
    {
      "epoch": 15.275813295615276,
      "grad_norm": 0.0007582121761515737,
      "learning_rate": 0.02594453613023719,
      "loss": 0.2723,
      "num_input_tokens_seen": 30060048,
      "step": 32400
    },
    {
      "epoch": 15.275813295615276,
      "eval_loss": 0.3283199369907379,
      "eval_runtime": 33.6119,
      "eval_samples_per_second": 28.056,
      "eval_steps_per_second": 14.043,
      "num_input_tokens_seen": 30060048,
      "step": 32400
    },
    {
      "epoch": 15.278170674210278,
      "grad_norm": 0.0005832607275806367,
      "learning_rate": 0.025911432426311443,
      "loss": 0.3079,
      "num_input_tokens_seen": 30065040,
      "step": 32405
    },
    {
      "epoch": 15.28052805280528,
      "grad_norm": 0.0003811180067714304,
      "learning_rate": 0.025878347858402234,
      "loss": 0.3592,
      "num_input_tokens_seen": 30069456,
      "step": 32410
    },
    {
      "epoch": 15.282885431400283,
      "grad_norm": 0.0008735042647458613,
      "learning_rate": 0.025845282431611598,
      "loss": 0.4183,
      "num_input_tokens_seen": 30073792,
      "step": 32415
    },
    {
      "epoch": 15.285242809995285,
      "grad_norm": 0.0006828262121416628,
      "learning_rate": 0.025812236151038608,
      "loss": 0.299,
      "num_input_tokens_seen": 30078208,
      "step": 32420
    },
    {
      "epoch": 15.287600188590288,
      "grad_norm": 0.00038589464384131134,
      "learning_rate": 0.025779209021779468,
      "loss": 0.3328,
      "num_input_tokens_seen": 30082368,
      "step": 32425
    },
    {
      "epoch": 15.28995756718529,
      "grad_norm": 0.00036193247069604695,
      "learning_rate": 0.025746201048927324,
      "loss": 0.3617,
      "num_input_tokens_seen": 30087152,
      "step": 32430
    },
    {
      "epoch": 15.292314945780292,
      "grad_norm": 0.0005466933362185955,
      "learning_rate": 0.025713212237572485,
      "loss": 0.3394,
      "num_input_tokens_seen": 30091952,
      "step": 32435
    },
    {
      "epoch": 15.294672324375295,
      "grad_norm": 0.0007746720220893621,
      "learning_rate": 0.025680242592802164,
      "loss": 0.3381,
      "num_input_tokens_seen": 30095792,
      "step": 32440
    },
    {
      "epoch": 15.297029702970297,
      "grad_norm": 0.0007502194494009018,
      "learning_rate": 0.02564729211970073,
      "loss": 0.325,
      "num_input_tokens_seen": 30100608,
      "step": 32445
    },
    {
      "epoch": 15.2993870815653,
      "grad_norm": 0.0003177296312060207,
      "learning_rate": 0.025614360823349617,
      "loss": 0.3428,
      "num_input_tokens_seen": 30104272,
      "step": 32450
    },
    {
      "epoch": 15.301744460160302,
      "grad_norm": 0.00026757814339362085,
      "learning_rate": 0.025581448708827146,
      "loss": 0.3434,
      "num_input_tokens_seen": 30108672,
      "step": 32455
    },
    {
      "epoch": 15.304101838755304,
      "grad_norm": 0.0003423356974963099,
      "learning_rate": 0.025548555781208876,
      "loss": 0.3265,
      "num_input_tokens_seen": 30113120,
      "step": 32460
    },
    {
      "epoch": 15.306459217350307,
      "grad_norm": 0.0004423011851031333,
      "learning_rate": 0.02551568204556721,
      "loss": 0.3136,
      "num_input_tokens_seen": 30118960,
      "step": 32465
    },
    {
      "epoch": 15.30881659594531,
      "grad_norm": 0.0002955905220005661,
      "learning_rate": 0.02548282750697173,
      "loss": 0.3002,
      "num_input_tokens_seen": 30123040,
      "step": 32470
    },
    {
      "epoch": 15.311173974540312,
      "grad_norm": 0.0006027299095876515,
      "learning_rate": 0.02544999217048909,
      "loss": 0.3077,
      "num_input_tokens_seen": 30129712,
      "step": 32475
    },
    {
      "epoch": 15.313531353135314,
      "grad_norm": 0.0007287724874913692,
      "learning_rate": 0.025417176041182793,
      "loss": 0.3493,
      "num_input_tokens_seen": 30133936,
      "step": 32480
    },
    {
      "epoch": 15.315888731730317,
      "grad_norm": 0.00035620990092866123,
      "learning_rate": 0.025384379124113596,
      "loss": 0.3126,
      "num_input_tokens_seen": 30138224,
      "step": 32485
    },
    {
      "epoch": 15.318246110325319,
      "grad_norm": 0.0011742959031835198,
      "learning_rate": 0.025351601424339124,
      "loss": 0.3605,
      "num_input_tokens_seen": 30142784,
      "step": 32490
    },
    {
      "epoch": 15.320603488920321,
      "grad_norm": 0.0005449304007925093,
      "learning_rate": 0.025318842946914184,
      "loss": 0.3472,
      "num_input_tokens_seen": 30147392,
      "step": 32495
    },
    {
      "epoch": 15.322960867515324,
      "grad_norm": 0.00036136351991444826,
      "learning_rate": 0.025286103696890494,
      "loss": 0.3156,
      "num_input_tokens_seen": 30151856,
      "step": 32500
    },
    {
      "epoch": 15.325318246110326,
      "grad_norm": 0.00037883856566622853,
      "learning_rate": 0.025253383679316836,
      "loss": 0.3119,
      "num_input_tokens_seen": 30156032,
      "step": 32505
    },
    {
      "epoch": 15.327675624705329,
      "grad_norm": 0.00041069090366363525,
      "learning_rate": 0.025220682899239077,
      "loss": 0.3635,
      "num_input_tokens_seen": 30160144,
      "step": 32510
    },
    {
      "epoch": 15.33003300330033,
      "grad_norm": 0.0005373067688196898,
      "learning_rate": 0.02518800136170013,
      "loss": 0.3249,
      "num_input_tokens_seen": 30165296,
      "step": 32515
    },
    {
      "epoch": 15.332390381895332,
      "grad_norm": 0.00036579291918314993,
      "learning_rate": 0.02515533907173981,
      "loss": 0.3316,
      "num_input_tokens_seen": 30169712,
      "step": 32520
    },
    {
      "epoch": 15.334747760490334,
      "grad_norm": 0.0003637924965005368,
      "learning_rate": 0.025122696034395115,
      "loss": 0.343,
      "num_input_tokens_seen": 30174496,
      "step": 32525
    },
    {
      "epoch": 15.337105139085336,
      "grad_norm": 0.0006308589363470674,
      "learning_rate": 0.025090072254700023,
      "loss": 0.2957,
      "num_input_tokens_seen": 30178720,
      "step": 32530
    },
    {
      "epoch": 15.339462517680339,
      "grad_norm": 0.0005670670070685446,
      "learning_rate": 0.025057467737685468,
      "loss": 0.3719,
      "num_input_tokens_seen": 30182736,
      "step": 32535
    },
    {
      "epoch": 15.341819896275341,
      "grad_norm": 0.0003548745298758149,
      "learning_rate": 0.025024882488379557,
      "loss": 0.2967,
      "num_input_tokens_seen": 30188736,
      "step": 32540
    },
    {
      "epoch": 15.344177274870344,
      "grad_norm": 0.00032821414060890675,
      "learning_rate": 0.02499231651180727,
      "loss": 0.3567,
      "num_input_tokens_seen": 30193632,
      "step": 32545
    },
    {
      "epoch": 15.346534653465346,
      "grad_norm": 0.0007098473724909127,
      "learning_rate": 0.024959769812990713,
      "loss": 0.3778,
      "num_input_tokens_seen": 30198992,
      "step": 32550
    },
    {
      "epoch": 15.348892032060348,
      "grad_norm": 0.00039461077540181577,
      "learning_rate": 0.024927242396949045,
      "loss": 0.3002,
      "num_input_tokens_seen": 30202992,
      "step": 32555
    },
    {
      "epoch": 15.35124941065535,
      "grad_norm": 0.0003386996395420283,
      "learning_rate": 0.02489473426869836,
      "loss": 0.3296,
      "num_input_tokens_seen": 30207088,
      "step": 32560
    },
    {
      "epoch": 15.353606789250353,
      "grad_norm": 0.00035413794103078544,
      "learning_rate": 0.024862245433251776,
      "loss": 0.3511,
      "num_input_tokens_seen": 30212352,
      "step": 32565
    },
    {
      "epoch": 15.355964167845356,
      "grad_norm": 0.0006625414825975895,
      "learning_rate": 0.024829775895619577,
      "loss": 0.2859,
      "num_input_tokens_seen": 30216688,
      "step": 32570
    },
    {
      "epoch": 15.358321546440358,
      "grad_norm": 0.0006956946454010904,
      "learning_rate": 0.024797325660808882,
      "loss": 0.3311,
      "num_input_tokens_seen": 30220448,
      "step": 32575
    },
    {
      "epoch": 15.36067892503536,
      "grad_norm": 0.00033209947287105024,
      "learning_rate": 0.02476489473382401,
      "loss": 0.321,
      "num_input_tokens_seen": 30224736,
      "step": 32580
    },
    {
      "epoch": 15.363036303630363,
      "grad_norm": 0.0005382318049669266,
      "learning_rate": 0.024732483119666127,
      "loss": 0.3263,
      "num_input_tokens_seen": 30229248,
      "step": 32585
    },
    {
      "epoch": 15.365393682225365,
      "grad_norm": 0.0004470293933991343,
      "learning_rate": 0.024700090823333548,
      "loss": 0.3129,
      "num_input_tokens_seen": 30233440,
      "step": 32590
    },
    {
      "epoch": 15.367751060820368,
      "grad_norm": 0.00078035076148808,
      "learning_rate": 0.02466771784982163,
      "loss": 0.3145,
      "num_input_tokens_seen": 30238672,
      "step": 32595
    },
    {
      "epoch": 15.37010843941537,
      "grad_norm": 0.00030404061544686556,
      "learning_rate": 0.024635364204122594,
      "loss": 0.3502,
      "num_input_tokens_seen": 30243024,
      "step": 32600
    },
    {
      "epoch": 15.37010843941537,
      "eval_loss": 0.32837119698524475,
      "eval_runtime": 33.6287,
      "eval_samples_per_second": 28.042,
      "eval_steps_per_second": 14.036,
      "num_input_tokens_seen": 30243024,
      "step": 32600
    },
    {
      "epoch": 15.372465818010372,
      "grad_norm": 0.0003580627089831978,
      "learning_rate": 0.024603029891225852,
      "loss": 0.3715,
      "num_input_tokens_seen": 30247328,
      "step": 32605
    },
    {
      "epoch": 15.374823196605375,
      "grad_norm": 0.0007479478372260928,
      "learning_rate": 0.024570714916117748,
      "loss": 0.2701,
      "num_input_tokens_seen": 30252560,
      "step": 32610
    },
    {
      "epoch": 15.377180575200377,
      "grad_norm": 0.0004322715103626251,
      "learning_rate": 0.024538419283781625,
      "loss": 0.28,
      "num_input_tokens_seen": 30258256,
      "step": 32615
    },
    {
      "epoch": 15.37953795379538,
      "grad_norm": 0.00034770919592119753,
      "learning_rate": 0.024506142999197938,
      "loss": 0.3726,
      "num_input_tokens_seen": 30262432,
      "step": 32620
    },
    {
      "epoch": 15.381895332390382,
      "grad_norm": 0.000413735891925171,
      "learning_rate": 0.024473886067344002,
      "loss": 0.3091,
      "num_input_tokens_seen": 30267520,
      "step": 32625
    },
    {
      "epoch": 15.384252710985384,
      "grad_norm": 0.0004093371389899403,
      "learning_rate": 0.02444164849319434,
      "loss": 0.3637,
      "num_input_tokens_seen": 30271568,
      "step": 32630
    },
    {
      "epoch": 15.386610089580387,
      "grad_norm": 0.0007843797211535275,
      "learning_rate": 0.024409430281720306,
      "loss": 0.3884,
      "num_input_tokens_seen": 30276672,
      "step": 32635
    },
    {
      "epoch": 15.38896746817539,
      "grad_norm": 0.0006204337696544826,
      "learning_rate": 0.024377231437890428,
      "loss": 0.3208,
      "num_input_tokens_seen": 30282112,
      "step": 32640
    },
    {
      "epoch": 15.391324846770392,
      "grad_norm": 0.0006902210297994316,
      "learning_rate": 0.024345051966670115,
      "loss": 0.3522,
      "num_input_tokens_seen": 30286624,
      "step": 32645
    },
    {
      "epoch": 15.393682225365394,
      "grad_norm": 0.0006916335551068187,
      "learning_rate": 0.024312891873021884,
      "loss": 0.3575,
      "num_input_tokens_seen": 30291008,
      "step": 32650
    },
    {
      "epoch": 15.396039603960396,
      "grad_norm": 0.00042835294152610004,
      "learning_rate": 0.024280751161905183,
      "loss": 0.3481,
      "num_input_tokens_seen": 30295440,
      "step": 32655
    },
    {
      "epoch": 15.398396982555399,
      "grad_norm": 0.0002875236968975514,
      "learning_rate": 0.02424862983827658,
      "loss": 0.2953,
      "num_input_tokens_seen": 30299712,
      "step": 32660
    },
    {
      "epoch": 15.400754361150401,
      "grad_norm": 0.0004381640173960477,
      "learning_rate": 0.024216527907089495,
      "loss": 0.366,
      "num_input_tokens_seen": 30303920,
      "step": 32665
    },
    {
      "epoch": 15.403111739745404,
      "grad_norm": 0.0007078051567077637,
      "learning_rate": 0.024184445373294505,
      "loss": 0.3559,
      "num_input_tokens_seen": 30309296,
      "step": 32670
    },
    {
      "epoch": 15.405469118340406,
      "grad_norm": 0.0003816545649897307,
      "learning_rate": 0.02415238224183918,
      "loss": 0.3362,
      "num_input_tokens_seen": 30313648,
      "step": 32675
    },
    {
      "epoch": 15.407826496935408,
      "grad_norm": 0.0003974537248723209,
      "learning_rate": 0.024120338517667973,
      "loss": 0.3203,
      "num_input_tokens_seen": 30317952,
      "step": 32680
    },
    {
      "epoch": 15.41018387553041,
      "grad_norm": 0.0004362946201581508,
      "learning_rate": 0.02408831420572247,
      "loss": 0.3278,
      "num_input_tokens_seen": 30322768,
      "step": 32685
    },
    {
      "epoch": 15.412541254125413,
      "grad_norm": 0.000353471637936309,
      "learning_rate": 0.024056309310941264,
      "loss": 0.3055,
      "num_input_tokens_seen": 30327008,
      "step": 32690
    },
    {
      "epoch": 15.414898632720416,
      "grad_norm": 0.0003346625017002225,
      "learning_rate": 0.02402432383825982,
      "loss": 0.3087,
      "num_input_tokens_seen": 30331888,
      "step": 32695
    },
    {
      "epoch": 15.417256011315418,
      "grad_norm": 0.0006994606810621917,
      "learning_rate": 0.023992357792610792,
      "loss": 0.3518,
      "num_input_tokens_seen": 30336816,
      "step": 32700
    },
    {
      "epoch": 15.41961338991042,
      "grad_norm": 0.00032144278520718217,
      "learning_rate": 0.0239604111789237,
      "loss": 0.3136,
      "num_input_tokens_seen": 30341424,
      "step": 32705
    },
    {
      "epoch": 15.421970768505423,
      "grad_norm": 0.00036434034700505435,
      "learning_rate": 0.023928484002125095,
      "loss": 0.2897,
      "num_input_tokens_seen": 30346000,
      "step": 32710
    },
    {
      "epoch": 15.424328147100425,
      "grad_norm": 0.0003396531392354518,
      "learning_rate": 0.023896576267138595,
      "loss": 0.2927,
      "num_input_tokens_seen": 30350048,
      "step": 32715
    },
    {
      "epoch": 15.426685525695426,
      "grad_norm": 0.000731286418158561,
      "learning_rate": 0.02386468797888471,
      "loss": 0.3299,
      "num_input_tokens_seen": 30354496,
      "step": 32720
    },
    {
      "epoch": 15.429042904290428,
      "grad_norm": 0.00044177041854709387,
      "learning_rate": 0.023832819142281057,
      "loss": 0.3549,
      "num_input_tokens_seen": 30360048,
      "step": 32725
    },
    {
      "epoch": 15.43140028288543,
      "grad_norm": 0.0005265027866698802,
      "learning_rate": 0.02380096976224225,
      "loss": 0.3819,
      "num_input_tokens_seen": 30365248,
      "step": 32730
    },
    {
      "epoch": 15.433757661480433,
      "grad_norm": 0.00042060099076479673,
      "learning_rate": 0.023769139843679777,
      "loss": 0.3294,
      "num_input_tokens_seen": 30369008,
      "step": 32735
    },
    {
      "epoch": 15.436115040075435,
      "grad_norm": 0.0007229304756037891,
      "learning_rate": 0.023737329391502287,
      "loss": 0.3133,
      "num_input_tokens_seen": 30374240,
      "step": 32740
    },
    {
      "epoch": 15.438472418670438,
      "grad_norm": 0.00034125594538636506,
      "learning_rate": 0.023705538410615293,
      "loss": 0.3866,
      "num_input_tokens_seen": 30378656,
      "step": 32745
    },
    {
      "epoch": 15.44082979726544,
      "grad_norm": 0.0005468291346915066,
      "learning_rate": 0.023673766905921396,
      "loss": 0.2815,
      "num_input_tokens_seen": 30383680,
      "step": 32750
    },
    {
      "epoch": 15.443187175860443,
      "grad_norm": 0.0003754253266379237,
      "learning_rate": 0.0236420148823202,
      "loss": 0.2859,
      "num_input_tokens_seen": 30388256,
      "step": 32755
    },
    {
      "epoch": 15.445544554455445,
      "grad_norm": 0.0007155304774641991,
      "learning_rate": 0.02361028234470816,
      "loss": 0.2682,
      "num_input_tokens_seen": 30394192,
      "step": 32760
    },
    {
      "epoch": 15.447901933050447,
      "grad_norm": 0.00047167183947749436,
      "learning_rate": 0.023578569297978913,
      "loss": 0.317,
      "num_input_tokens_seen": 30400656,
      "step": 32765
    },
    {
      "epoch": 15.45025931164545,
      "grad_norm": 0.0007739136344753206,
      "learning_rate": 0.023546875747023025,
      "loss": 0.3214,
      "num_input_tokens_seen": 30404768,
      "step": 32770
    },
    {
      "epoch": 15.452616690240452,
      "grad_norm": 0.0004729519132524729,
      "learning_rate": 0.02351520169672801,
      "loss": 0.3061,
      "num_input_tokens_seen": 30409360,
      "step": 32775
    },
    {
      "epoch": 15.454974068835455,
      "grad_norm": 0.0005301343044266105,
      "learning_rate": 0.023483547151978357,
      "loss": 0.3554,
      "num_input_tokens_seen": 30414032,
      "step": 32780
    },
    {
      "epoch": 15.457331447430457,
      "grad_norm": 0.000746373028960079,
      "learning_rate": 0.023451912117655675,
      "loss": 0.3274,
      "num_input_tokens_seen": 30418576,
      "step": 32785
    },
    {
      "epoch": 15.45968882602546,
      "grad_norm": 0.0007077804184518754,
      "learning_rate": 0.023420296598638417,
      "loss": 0.2634,
      "num_input_tokens_seen": 30423824,
      "step": 32790
    },
    {
      "epoch": 15.462046204620462,
      "grad_norm": 0.00046844888129271567,
      "learning_rate": 0.023388700599802165,
      "loss": 0.3694,
      "num_input_tokens_seen": 30427984,
      "step": 32795
    },
    {
      "epoch": 15.464403583215464,
      "grad_norm": 0.0005037678056396544,
      "learning_rate": 0.023357124126019334,
      "loss": 0.3462,
      "num_input_tokens_seen": 30433968,
      "step": 32800
    },
    {
      "epoch": 15.464403583215464,
      "eval_loss": 0.3277427554130554,
      "eval_runtime": 33.562,
      "eval_samples_per_second": 28.097,
      "eval_steps_per_second": 14.064,
      "num_input_tokens_seen": 30433968,
      "step": 32800
    },
    {
      "epoch": 15.466760961810467,
      "grad_norm": 0.001004004618152976,
      "learning_rate": 0.02332556718215945,
      "loss": 0.2842,
      "num_input_tokens_seen": 30437888,
      "step": 32805
    },
    {
      "epoch": 15.469118340405469,
      "grad_norm": 0.0004855083243455738,
      "learning_rate": 0.023294029773089035,
      "loss": 0.314,
      "num_input_tokens_seen": 30442896,
      "step": 32810
    },
    {
      "epoch": 15.471475719000471,
      "grad_norm": 0.0007599001401104033,
      "learning_rate": 0.023262511903671484,
      "loss": 0.3911,
      "num_input_tokens_seen": 30446752,
      "step": 32815
    },
    {
      "epoch": 15.473833097595474,
      "grad_norm": 0.0004800615715794265,
      "learning_rate": 0.023231013578767324,
      "loss": 0.3266,
      "num_input_tokens_seen": 30451600,
      "step": 32820
    },
    {
      "epoch": 15.476190476190476,
      "grad_norm": 0.00038991079782135785,
      "learning_rate": 0.0231995348032339,
      "loss": 0.323,
      "num_input_tokens_seen": 30457264,
      "step": 32825
    },
    {
      "epoch": 15.478547854785479,
      "grad_norm": 0.0010001810733228922,
      "learning_rate": 0.023168075581925685,
      "loss": 0.3392,
      "num_input_tokens_seen": 30462288,
      "step": 32830
    },
    {
      "epoch": 15.480905233380481,
      "grad_norm": 0.0004250274214427918,
      "learning_rate": 0.023136635919694126,
      "loss": 0.3045,
      "num_input_tokens_seen": 30467472,
      "step": 32835
    },
    {
      "epoch": 15.483262611975483,
      "grad_norm": 0.0004916167818009853,
      "learning_rate": 0.02310521582138753,
      "loss": 0.28,
      "num_input_tokens_seen": 30472176,
      "step": 32840
    },
    {
      "epoch": 15.485619990570486,
      "grad_norm": 0.0007079420611262321,
      "learning_rate": 0.023073815291851357,
      "loss": 0.3054,
      "num_input_tokens_seen": 30476208,
      "step": 32845
    },
    {
      "epoch": 15.487977369165488,
      "grad_norm": 0.0006839123670943081,
      "learning_rate": 0.02304243433592788,
      "loss": 0.3042,
      "num_input_tokens_seen": 30480528,
      "step": 32850
    },
    {
      "epoch": 15.49033474776049,
      "grad_norm": 0.00036704313242807984,
      "learning_rate": 0.023011072958456513,
      "loss": 0.3514,
      "num_input_tokens_seen": 30485376,
      "step": 32855
    },
    {
      "epoch": 15.492692126355493,
      "grad_norm": 0.000430905056418851,
      "learning_rate": 0.022979731164273536,
      "loss": 0.3672,
      "num_input_tokens_seen": 30489392,
      "step": 32860
    },
    {
      "epoch": 15.495049504950495,
      "grad_norm": 0.0005352754960767925,
      "learning_rate": 0.022948408958212218,
      "loss": 0.352,
      "num_input_tokens_seen": 30495104,
      "step": 32865
    },
    {
      "epoch": 15.497406883545498,
      "grad_norm": 0.0007234168006107211,
      "learning_rate": 0.022917106345102876,
      "loss": 0.3358,
      "num_input_tokens_seen": 30499424,
      "step": 32870
    },
    {
      "epoch": 15.4997642621405,
      "grad_norm": 0.0008243360789492726,
      "learning_rate": 0.022885823329772785,
      "loss": 0.2977,
      "num_input_tokens_seen": 30504096,
      "step": 32875
    },
    {
      "epoch": 15.502121640735503,
      "grad_norm": 0.0007794261327944696,
      "learning_rate": 0.02285455991704612,
      "loss": 0.3825,
      "num_input_tokens_seen": 30509328,
      "step": 32880
    },
    {
      "epoch": 15.504479019330505,
      "grad_norm": 0.0003252956084907055,
      "learning_rate": 0.022823316111744117,
      "loss": 0.3241,
      "num_input_tokens_seen": 30514480,
      "step": 32885
    },
    {
      "epoch": 15.506836397925507,
      "grad_norm": 0.00039551430381834507,
      "learning_rate": 0.022792091918685014,
      "loss": 0.355,
      "num_input_tokens_seen": 30518976,
      "step": 32890
    },
    {
      "epoch": 15.50919377652051,
      "grad_norm": 0.0004719042917713523,
      "learning_rate": 0.022760887342683906,
      "loss": 0.3325,
      "num_input_tokens_seen": 30522384,
      "step": 32895
    },
    {
      "epoch": 15.511551155115512,
      "grad_norm": 0.00038553247577510774,
      "learning_rate": 0.022729702388552975,
      "loss": 0.359,
      "num_input_tokens_seen": 30526704,
      "step": 32900
    },
    {
      "epoch": 15.513908533710515,
      "grad_norm": 0.0003763273125514388,
      "learning_rate": 0.022698537061101292,
      "loss": 0.2839,
      "num_input_tokens_seen": 30531392,
      "step": 32905
    },
    {
      "epoch": 15.516265912305517,
      "grad_norm": 0.0005824134568683803,
      "learning_rate": 0.022667391365134962,
      "loss": 0.2733,
      "num_input_tokens_seen": 30535824,
      "step": 32910
    },
    {
      "epoch": 15.518623290900518,
      "grad_norm": 0.0006434484967030585,
      "learning_rate": 0.022636265305457065,
      "loss": 0.3165,
      "num_input_tokens_seen": 30540880,
      "step": 32915
    },
    {
      "epoch": 15.520980669495522,
      "grad_norm": 0.00043700155219994485,
      "learning_rate": 0.02260515888686764,
      "loss": 0.3518,
      "num_input_tokens_seen": 30544832,
      "step": 32920
    },
    {
      "epoch": 15.523338048090523,
      "grad_norm": 0.0004101592639926821,
      "learning_rate": 0.022574072114163596,
      "loss": 0.3345,
      "num_input_tokens_seen": 30549344,
      "step": 32925
    },
    {
      "epoch": 15.525695426685525,
      "grad_norm": 0.00034073583083227277,
      "learning_rate": 0.022543004992139005,
      "loss": 0.3314,
      "num_input_tokens_seen": 30553632,
      "step": 32930
    },
    {
      "epoch": 15.528052805280527,
      "grad_norm": 0.0004137613286729902,
      "learning_rate": 0.022511957525584745,
      "loss": 0.3168,
      "num_input_tokens_seen": 30557568,
      "step": 32935
    },
    {
      "epoch": 15.53041018387553,
      "grad_norm": 0.0006385990418493748,
      "learning_rate": 0.022480929719288778,
      "loss": 0.3191,
      "num_input_tokens_seen": 30562800,
      "step": 32940
    },
    {
      "epoch": 15.532767562470532,
      "grad_norm": 0.0003619134076870978,
      "learning_rate": 0.02244992157803592,
      "loss": 0.3269,
      "num_input_tokens_seen": 30567504,
      "step": 32945
    },
    {
      "epoch": 15.535124941065535,
      "grad_norm": 0.0005572701920755208,
      "learning_rate": 0.022418933106608047,
      "loss": 0.3251,
      "num_input_tokens_seen": 30572896,
      "step": 32950
    },
    {
      "epoch": 15.537482319660537,
      "grad_norm": 0.00029076190548948944,
      "learning_rate": 0.022387964309784018,
      "loss": 0.3103,
      "num_input_tokens_seen": 30576928,
      "step": 32955
    },
    {
      "epoch": 15.53983969825554,
      "grad_norm": 0.0006694859475828707,
      "learning_rate": 0.022357015192339517,
      "loss": 0.2877,
      "num_input_tokens_seen": 30581360,
      "step": 32960
    },
    {
      "epoch": 15.542197076850542,
      "grad_norm": 0.0006241063820198178,
      "learning_rate": 0.02232608575904734,
      "loss": 0.2985,
      "num_input_tokens_seen": 30585552,
      "step": 32965
    },
    {
      "epoch": 15.544554455445544,
      "grad_norm": 0.0007895382004790008,
      "learning_rate": 0.022295176014677225,
      "loss": 0.3739,
      "num_input_tokens_seen": 30590544,
      "step": 32970
    },
    {
      "epoch": 15.546911834040547,
      "grad_norm": 0.00032080718665383756,
      "learning_rate": 0.02226428596399577,
      "loss": 0.2972,
      "num_input_tokens_seen": 30595072,
      "step": 32975
    },
    {
      "epoch": 15.549269212635549,
      "grad_norm": 0.0009646593825891614,
      "learning_rate": 0.02223341561176669,
      "loss": 0.3406,
      "num_input_tokens_seen": 30599696,
      "step": 32980
    },
    {
      "epoch": 15.551626591230551,
      "grad_norm": 0.0006262758979573846,
      "learning_rate": 0.0222025649627505,
      "loss": 0.3155,
      "num_input_tokens_seen": 30603456,
      "step": 32985
    },
    {
      "epoch": 15.553983969825554,
      "grad_norm": 0.000631277565844357,
      "learning_rate": 0.022171734021704814,
      "loss": 0.3284,
      "num_input_tokens_seen": 30608208,
      "step": 32990
    },
    {
      "epoch": 15.556341348420556,
      "grad_norm": 0.00042335278703831136,
      "learning_rate": 0.022140922793384116,
      "loss": 0.3302,
      "num_input_tokens_seen": 30612576,
      "step": 32995
    },
    {
      "epoch": 15.558698727015559,
      "grad_norm": 0.0005872598267160356,
      "learning_rate": 0.022110131282539934,
      "loss": 0.3086,
      "num_input_tokens_seen": 30617936,
      "step": 33000
    },
    {
      "epoch": 15.558698727015559,
      "eval_loss": 0.327452689409256,
      "eval_runtime": 33.5959,
      "eval_samples_per_second": 28.069,
      "eval_steps_per_second": 14.049,
      "num_input_tokens_seen": 30617936,
      "step": 33000
    },
    {
      "epoch": 15.561056105610561,
      "grad_norm": 0.0004082014784216881,
      "learning_rate": 0.022079359493920675,
      "loss": 0.353,
      "num_input_tokens_seen": 30622432,
      "step": 33005
    },
    {
      "epoch": 15.563413484205563,
      "grad_norm": 0.00043353100772947073,
      "learning_rate": 0.02204860743227169,
      "loss": 0.3545,
      "num_input_tokens_seen": 30626720,
      "step": 33010
    },
    {
      "epoch": 15.565770862800566,
      "grad_norm": 0.00019980069191660732,
      "learning_rate": 0.022017875102335365,
      "loss": 0.3513,
      "num_input_tokens_seen": 30631072,
      "step": 33015
    },
    {
      "epoch": 15.568128241395568,
      "grad_norm": 0.0007099597132764757,
      "learning_rate": 0.02198716250885108,
      "loss": 0.3266,
      "num_input_tokens_seen": 30636144,
      "step": 33020
    },
    {
      "epoch": 15.57048561999057,
      "grad_norm": 0.0004038933548144996,
      "learning_rate": 0.021956469656555,
      "loss": 0.3091,
      "num_input_tokens_seen": 30640432,
      "step": 33025
    },
    {
      "epoch": 15.572842998585573,
      "grad_norm": 0.0007617791416123509,
      "learning_rate": 0.0219257965501804,
      "loss": 0.336,
      "num_input_tokens_seen": 30645472,
      "step": 33030
    },
    {
      "epoch": 15.575200377180575,
      "grad_norm": 0.00043422746239230037,
      "learning_rate": 0.021895143194457494,
      "loss": 0.3144,
      "num_input_tokens_seen": 30650016,
      "step": 33035
    },
    {
      "epoch": 15.577557755775578,
      "grad_norm": 0.0007009777473285794,
      "learning_rate": 0.021864509594113322,
      "loss": 0.2869,
      "num_input_tokens_seen": 30654848,
      "step": 33040
    },
    {
      "epoch": 15.57991513437058,
      "grad_norm": 0.0005915124784223735,
      "learning_rate": 0.02183389575387207,
      "loss": 0.2641,
      "num_input_tokens_seen": 30658624,
      "step": 33045
    },
    {
      "epoch": 15.582272512965583,
      "grad_norm": 0.00031912376289255917,
      "learning_rate": 0.021803301678454682,
      "loss": 0.3504,
      "num_input_tokens_seen": 30662864,
      "step": 33050
    },
    {
      "epoch": 15.584629891560585,
      "grad_norm": 0.00031858833972364664,
      "learning_rate": 0.021772727372579213,
      "loss": 0.3041,
      "num_input_tokens_seen": 30667232,
      "step": 33055
    },
    {
      "epoch": 15.586987270155587,
      "grad_norm": 0.000306461937725544,
      "learning_rate": 0.02174217284096061,
      "loss": 0.2757,
      "num_input_tokens_seen": 30672144,
      "step": 33060
    },
    {
      "epoch": 15.58934464875059,
      "grad_norm": 0.0003862383309751749,
      "learning_rate": 0.0217116380883107,
      "loss": 0.3278,
      "num_input_tokens_seen": 30676384,
      "step": 33065
    },
    {
      "epoch": 15.591702027345592,
      "grad_norm": 0.00031651253812015057,
      "learning_rate": 0.021681123119338425,
      "loss": 0.3379,
      "num_input_tokens_seen": 30681952,
      "step": 33070
    },
    {
      "epoch": 15.594059405940595,
      "grad_norm": 0.0003743584966287017,
      "learning_rate": 0.02165062793874951,
      "loss": 0.2765,
      "num_input_tokens_seen": 30686016,
      "step": 33075
    },
    {
      "epoch": 15.596416784535597,
      "grad_norm": 0.0006762359407730401,
      "learning_rate": 0.021620152551246666,
      "loss": 0.2705,
      "num_input_tokens_seen": 30691584,
      "step": 33080
    },
    {
      "epoch": 15.5987741631306,
      "grad_norm": 0.00043206900591030717,
      "learning_rate": 0.02158969696152967,
      "loss": 0.3138,
      "num_input_tokens_seen": 30696032,
      "step": 33085
    },
    {
      "epoch": 15.601131541725602,
      "grad_norm": 0.00036286236718297005,
      "learning_rate": 0.021559261174295057,
      "loss": 0.354,
      "num_input_tokens_seen": 30701200,
      "step": 33090
    },
    {
      "epoch": 15.603488920320604,
      "grad_norm": 0.0011997390538454056,
      "learning_rate": 0.02152884519423646,
      "loss": 0.3581,
      "num_input_tokens_seen": 30705952,
      "step": 33095
    },
    {
      "epoch": 15.605846298915607,
      "grad_norm": 0.0006804878357797861,
      "learning_rate": 0.021498449026044447,
      "loss": 0.3272,
      "num_input_tokens_seen": 30709824,
      "step": 33100
    },
    {
      "epoch": 15.608203677510609,
      "grad_norm": 0.0006385156884789467,
      "learning_rate": 0.021468072674406414,
      "loss": 0.2963,
      "num_input_tokens_seen": 30714640,
      "step": 33105
    },
    {
      "epoch": 15.61056105610561,
      "grad_norm": 0.0005166949704289436,
      "learning_rate": 0.021437716144006795,
      "loss": 0.3301,
      "num_input_tokens_seen": 30719136,
      "step": 33110
    },
    {
      "epoch": 15.612918434700614,
      "grad_norm": 0.00041828161920420825,
      "learning_rate": 0.021407379439527002,
      "loss": 0.2956,
      "num_input_tokens_seen": 30723808,
      "step": 33115
    },
    {
      "epoch": 15.615275813295614,
      "grad_norm": 0.0003904783516190946,
      "learning_rate": 0.021377062565645255,
      "loss": 0.3189,
      "num_input_tokens_seen": 30728576,
      "step": 33120
    },
    {
      "epoch": 15.617633191890617,
      "grad_norm": 0.00045083541772328317,
      "learning_rate": 0.02134676552703688,
      "loss": 0.3313,
      "num_input_tokens_seen": 30733360,
      "step": 33125
    },
    {
      "epoch": 15.61999057048562,
      "grad_norm": 0.0005271293339319527,
      "learning_rate": 0.02131648832837398,
      "loss": 0.2999,
      "num_input_tokens_seen": 30738192,
      "step": 33130
    },
    {
      "epoch": 15.622347949080622,
      "grad_norm": 0.0005283799255266786,
      "learning_rate": 0.02128623097432574,
      "loss": 0.3873,
      "num_input_tokens_seen": 30742896,
      "step": 33135
    },
    {
      "epoch": 15.624705327675624,
      "grad_norm": 0.0006744364509359002,
      "learning_rate": 0.021255993469558192,
      "loss": 0.3159,
      "num_input_tokens_seen": 30748288,
      "step": 33140
    },
    {
      "epoch": 15.627062706270626,
      "grad_norm": 0.0004437514871824533,
      "learning_rate": 0.021225775818734364,
      "loss": 0.3893,
      "num_input_tokens_seen": 30752336,
      "step": 33145
    },
    {
      "epoch": 15.629420084865629,
      "grad_norm": 0.0004310224612709135,
      "learning_rate": 0.021195578026514166,
      "loss": 0.333,
      "num_input_tokens_seen": 30757136,
      "step": 33150
    },
    {
      "epoch": 15.631777463460631,
      "grad_norm": 0.0007156385690905154,
      "learning_rate": 0.02116540009755452,
      "loss": 0.3704,
      "num_input_tokens_seen": 30762528,
      "step": 33155
    },
    {
      "epoch": 15.634134842055634,
      "grad_norm": 0.0007093058084137738,
      "learning_rate": 0.021135242036509173,
      "loss": 0.3399,
      "num_input_tokens_seen": 30766672,
      "step": 33160
    },
    {
      "epoch": 15.636492220650636,
      "grad_norm": 0.000576993334107101,
      "learning_rate": 0.021105103848028967,
      "loss": 0.2827,
      "num_input_tokens_seen": 30771280,
      "step": 33165
    },
    {
      "epoch": 15.638849599245638,
      "grad_norm": 0.00035421448410488665,
      "learning_rate": 0.021074985536761504,
      "loss": 0.3265,
      "num_input_tokens_seen": 30777136,
      "step": 33170
    },
    {
      "epoch": 15.64120697784064,
      "grad_norm": 0.0007070651045069098,
      "learning_rate": 0.021044887107351435,
      "loss": 0.3654,
      "num_input_tokens_seen": 30782176,
      "step": 33175
    },
    {
      "epoch": 15.643564356435643,
      "grad_norm": 0.0005919262184761465,
      "learning_rate": 0.021014808564440362,
      "loss": 0.3105,
      "num_input_tokens_seen": 30785952,
      "step": 33180
    },
    {
      "epoch": 15.645921735030646,
      "grad_norm": 0.0006826972239650786,
      "learning_rate": 0.02098474991266671,
      "loss": 0.2209,
      "num_input_tokens_seen": 30790144,
      "step": 33185
    },
    {
      "epoch": 15.648279113625648,
      "grad_norm": 0.0005910946056246758,
      "learning_rate": 0.02095471115666592,
      "loss": 0.32,
      "num_input_tokens_seen": 30794624,
      "step": 33190
    },
    {
      "epoch": 15.65063649222065,
      "grad_norm": 0.0007651221239939332,
      "learning_rate": 0.020924692301070406,
      "loss": 0.3545,
      "num_input_tokens_seen": 30799344,
      "step": 33195
    },
    {
      "epoch": 15.652993870815653,
      "grad_norm": 0.00046252450556494296,
      "learning_rate": 0.020894693350509346,
      "loss": 0.3572,
      "num_input_tokens_seen": 30802960,
      "step": 33200
    },
    {
      "epoch": 15.652993870815653,
      "eval_loss": 0.32780811190605164,
      "eval_runtime": 33.6006,
      "eval_samples_per_second": 28.065,
      "eval_steps_per_second": 14.047,
      "num_input_tokens_seen": 30802960,
      "step": 33200
    },
    {
      "epoch": 15.655351249410655,
      "grad_norm": 0.0004080692015122622,
      "learning_rate": 0.020864714309609057,
      "loss": 0.3425,
      "num_input_tokens_seen": 30807808,
      "step": 33205
    },
    {
      "epoch": 15.657708628005658,
      "grad_norm": 0.0003470881492830813,
      "learning_rate": 0.020834755182992604,
      "loss": 0.3284,
      "num_input_tokens_seen": 30812256,
      "step": 33210
    },
    {
      "epoch": 15.66006600660066,
      "grad_norm": 0.0006807553581893444,
      "learning_rate": 0.02080481597528011,
      "loss": 0.3294,
      "num_input_tokens_seen": 30816848,
      "step": 33215
    },
    {
      "epoch": 15.662423385195662,
      "grad_norm": 0.00043352702050469816,
      "learning_rate": 0.020774896691088583,
      "loss": 0.3805,
      "num_input_tokens_seen": 30820640,
      "step": 33220
    },
    {
      "epoch": 15.664780763790665,
      "grad_norm": 0.0007304451428353786,
      "learning_rate": 0.020744997335031882,
      "loss": 0.3387,
      "num_input_tokens_seen": 30824896,
      "step": 33225
    },
    {
      "epoch": 15.667138142385667,
      "grad_norm": 0.00039901482523418963,
      "learning_rate": 0.02071511791172092,
      "loss": 0.3236,
      "num_input_tokens_seen": 30829232,
      "step": 33230
    },
    {
      "epoch": 15.66949552098067,
      "grad_norm": 0.0004548398428596556,
      "learning_rate": 0.02068525842576351,
      "loss": 0.294,
      "num_input_tokens_seen": 30833376,
      "step": 33235
    },
    {
      "epoch": 15.671852899575672,
      "grad_norm": 0.0005491920164786279,
      "learning_rate": 0.020655418881764264,
      "loss": 0.3486,
      "num_input_tokens_seen": 30838144,
      "step": 33240
    },
    {
      "epoch": 15.674210278170674,
      "grad_norm": 0.00042444924474693835,
      "learning_rate": 0.020625599284324923,
      "loss": 0.2827,
      "num_input_tokens_seen": 30843168,
      "step": 33245
    },
    {
      "epoch": 15.676567656765677,
      "grad_norm": 0.0004387583758216351,
      "learning_rate": 0.02059579963804396,
      "loss": 0.2986,
      "num_input_tokens_seen": 30847920,
      "step": 33250
    },
    {
      "epoch": 15.67892503536068,
      "grad_norm": 0.0004698677221313119,
      "learning_rate": 0.02056601994751688,
      "loss": 0.3397,
      "num_input_tokens_seen": 30852288,
      "step": 33255
    },
    {
      "epoch": 15.681282413955682,
      "grad_norm": 0.0003687960561364889,
      "learning_rate": 0.02053626021733614,
      "loss": 0.3773,
      "num_input_tokens_seen": 30857200,
      "step": 33260
    },
    {
      "epoch": 15.683639792550684,
      "grad_norm": 0.0003020632721018046,
      "learning_rate": 0.02050652045209097,
      "loss": 0.3308,
      "num_input_tokens_seen": 30861968,
      "step": 33265
    },
    {
      "epoch": 15.685997171145686,
      "grad_norm": 0.0004701094003394246,
      "learning_rate": 0.020476800656367672,
      "loss": 0.3148,
      "num_input_tokens_seen": 30866704,
      "step": 33270
    },
    {
      "epoch": 15.688354549740689,
      "grad_norm": 0.0003991206467617303,
      "learning_rate": 0.020447100834749425,
      "loss": 0.3297,
      "num_input_tokens_seen": 30872544,
      "step": 33275
    },
    {
      "epoch": 15.690711928335691,
      "grad_norm": 0.0005603719037026167,
      "learning_rate": 0.02041742099181627,
      "loss": 0.3171,
      "num_input_tokens_seen": 30877456,
      "step": 33280
    },
    {
      "epoch": 15.693069306930694,
      "grad_norm": 0.0006825228338129818,
      "learning_rate": 0.02038776113214526,
      "loss": 0.3041,
      "num_input_tokens_seen": 30881776,
      "step": 33285
    },
    {
      "epoch": 15.695426685525696,
      "grad_norm": 0.0004576971987262368,
      "learning_rate": 0.0203581212603103,
      "loss": 0.3659,
      "num_input_tokens_seen": 30886240,
      "step": 33290
    },
    {
      "epoch": 15.697784064120698,
      "grad_norm": 0.0003284422855358571,
      "learning_rate": 0.02032850138088219,
      "loss": 0.3144,
      "num_input_tokens_seen": 30890864,
      "step": 33295
    },
    {
      "epoch": 15.700141442715701,
      "grad_norm": 0.00035029457649216056,
      "learning_rate": 0.020298901498428754,
      "loss": 0.2962,
      "num_input_tokens_seen": 30895280,
      "step": 33300
    },
    {
      "epoch": 15.702498821310703,
      "grad_norm": 0.0004443722718860954,
      "learning_rate": 0.020269321617514595,
      "loss": 0.3073,
      "num_input_tokens_seen": 30899760,
      "step": 33305
    },
    {
      "epoch": 15.704856199905706,
      "grad_norm": 0.0004667563771363348,
      "learning_rate": 0.020239761742701343,
      "loss": 0.3489,
      "num_input_tokens_seen": 30905776,
      "step": 33310
    },
    {
      "epoch": 15.707213578500706,
      "grad_norm": 0.00041259045246988535,
      "learning_rate": 0.02021022187854754,
      "loss": 0.3092,
      "num_input_tokens_seen": 30909856,
      "step": 33315
    },
    {
      "epoch": 15.70957095709571,
      "grad_norm": 0.0006295304046943784,
      "learning_rate": 0.020180702029608522,
      "loss": 0.3659,
      "num_input_tokens_seen": 30913776,
      "step": 33320
    },
    {
      "epoch": 15.711928335690711,
      "grad_norm": 0.00035589508479461074,
      "learning_rate": 0.020151202200436695,
      "loss": 0.3353,
      "num_input_tokens_seen": 30918512,
      "step": 33325
    },
    {
      "epoch": 15.714285714285714,
      "grad_norm": 0.00041931032319553196,
      "learning_rate": 0.020121722395581226,
      "loss": 0.2805,
      "num_input_tokens_seen": 30922704,
      "step": 33330
    },
    {
      "epoch": 15.716643092880716,
      "grad_norm": 0.0004842323251068592,
      "learning_rate": 0.020092262619588342,
      "loss": 0.3568,
      "num_input_tokens_seen": 30927712,
      "step": 33335
    },
    {
      "epoch": 15.719000471475718,
      "grad_norm": 0.0005153768579475582,
      "learning_rate": 0.02006282287700109,
      "loss": 0.38,
      "num_input_tokens_seen": 30932256,
      "step": 33340
    },
    {
      "epoch": 15.72135785007072,
      "grad_norm": 0.00039258759352378547,
      "learning_rate": 0.020033403172359427,
      "loss": 0.2807,
      "num_input_tokens_seen": 30936176,
      "step": 33345
    },
    {
      "epoch": 15.723715228665723,
      "grad_norm": 0.00045518597471527755,
      "learning_rate": 0.020004003510200284,
      "loss": 0.2991,
      "num_input_tokens_seen": 30940288,
      "step": 33350
    },
    {
      "epoch": 15.726072607260726,
      "grad_norm": 0.00032621173886582255,
      "learning_rate": 0.019974623895057407,
      "loss": 0.3129,
      "num_input_tokens_seen": 30944592,
      "step": 33355
    },
    {
      "epoch": 15.728429985855728,
      "grad_norm": 0.0006674633477814496,
      "learning_rate": 0.019945264331461553,
      "loss": 0.3353,
      "num_input_tokens_seen": 30949280,
      "step": 33360
    },
    {
      "epoch": 15.73078736445073,
      "grad_norm": 0.00043251554598100483,
      "learning_rate": 0.019915924823940317,
      "loss": 0.3469,
      "num_input_tokens_seen": 30954544,
      "step": 33365
    },
    {
      "epoch": 15.733144743045733,
      "grad_norm": 0.0003872145898640156,
      "learning_rate": 0.01988660537701816,
      "loss": 0.3921,
      "num_input_tokens_seen": 30958544,
      "step": 33370
    },
    {
      "epoch": 15.735502121640735,
      "grad_norm": 0.00040430008084513247,
      "learning_rate": 0.01985730599521659,
      "loss": 0.298,
      "num_input_tokens_seen": 30963328,
      "step": 33375
    },
    {
      "epoch": 15.737859500235738,
      "grad_norm": 0.0008203816832974553,
      "learning_rate": 0.019828026683053918,
      "loss": 0.2835,
      "num_input_tokens_seen": 30967568,
      "step": 33380
    },
    {
      "epoch": 15.74021687883074,
      "grad_norm": 0.0006435273680835962,
      "learning_rate": 0.01979876744504535,
      "loss": 0.3381,
      "num_input_tokens_seen": 30972032,
      "step": 33385
    },
    {
      "epoch": 15.742574257425742,
      "grad_norm": 0.0005522130522876978,
      "learning_rate": 0.019769528285703046,
      "loss": 0.3313,
      "num_input_tokens_seen": 30976512,
      "step": 33390
    },
    {
      "epoch": 15.744931636020745,
      "grad_norm": 0.00032331745023839176,
      "learning_rate": 0.019740309209536098,
      "loss": 0.3529,
      "num_input_tokens_seen": 30980992,
      "step": 33395
    },
    {
      "epoch": 15.747289014615747,
      "grad_norm": 0.0012305863201618195,
      "learning_rate": 0.019711110221050387,
      "loss": 0.3382,
      "num_input_tokens_seen": 30985296,
      "step": 33400
    },
    {
      "epoch": 15.747289014615747,
      "eval_loss": 0.32818132638931274,
      "eval_runtime": 33.6172,
      "eval_samples_per_second": 28.051,
      "eval_steps_per_second": 14.04,
      "num_input_tokens_seen": 30985296,
      "step": 33400
    },
    {
      "epoch": 15.74964639321075,
      "grad_norm": 0.0008710618712939322,
      "learning_rate": 0.019681931324748825,
      "loss": 0.3196,
      "num_input_tokens_seen": 30989616,
      "step": 33405
    },
    {
      "epoch": 15.752003771805752,
      "grad_norm": 0.00042508391197770834,
      "learning_rate": 0.019652772525131094,
      "loss": 0.3764,
      "num_input_tokens_seen": 30995088,
      "step": 33410
    },
    {
      "epoch": 15.754361150400754,
      "grad_norm": 0.00034478685120120645,
      "learning_rate": 0.019623633826693885,
      "loss": 0.3172,
      "num_input_tokens_seen": 30999344,
      "step": 33415
    },
    {
      "epoch": 15.756718528995757,
      "grad_norm": 0.0005291500128805637,
      "learning_rate": 0.019594515233930788,
      "loss": 0.3562,
      "num_input_tokens_seen": 31003760,
      "step": 33420
    },
    {
      "epoch": 15.75907590759076,
      "grad_norm": 0.0007460209890268743,
      "learning_rate": 0.019565416751332186,
      "loss": 0.3494,
      "num_input_tokens_seen": 31008480,
      "step": 33425
    },
    {
      "epoch": 15.761433286185762,
      "grad_norm": 0.00044230042840354145,
      "learning_rate": 0.019536338383385497,
      "loss": 0.341,
      "num_input_tokens_seen": 31012944,
      "step": 33430
    },
    {
      "epoch": 15.763790664780764,
      "grad_norm": 0.00044843819341622293,
      "learning_rate": 0.019507280134574933,
      "loss": 0.3563,
      "num_input_tokens_seen": 31017248,
      "step": 33435
    },
    {
      "epoch": 15.766148043375766,
      "grad_norm": 0.0008524394943378866,
      "learning_rate": 0.019478242009381624,
      "loss": 0.3122,
      "num_input_tokens_seen": 31022080,
      "step": 33440
    },
    {
      "epoch": 15.768505421970769,
      "grad_norm": 0.0004708028573077172,
      "learning_rate": 0.01944922401228367,
      "loss": 0.3845,
      "num_input_tokens_seen": 31026992,
      "step": 33445
    },
    {
      "epoch": 15.770862800565771,
      "grad_norm": 0.0005995078245177865,
      "learning_rate": 0.01942022614775593,
      "loss": 0.3453,
      "num_input_tokens_seen": 31031904,
      "step": 33450
    },
    {
      "epoch": 15.773220179160774,
      "grad_norm": 0.0007886210805736482,
      "learning_rate": 0.01939124842027029,
      "loss": 0.3502,
      "num_input_tokens_seen": 31036848,
      "step": 33455
    },
    {
      "epoch": 15.775577557755776,
      "grad_norm": 0.0005369536811485887,
      "learning_rate": 0.01936229083429551,
      "loss": 0.327,
      "num_input_tokens_seen": 31040832,
      "step": 33460
    },
    {
      "epoch": 15.777934936350778,
      "grad_norm": 0.0004263973969500512,
      "learning_rate": 0.019333353394297148,
      "loss": 0.3194,
      "num_input_tokens_seen": 31045008,
      "step": 33465
    },
    {
      "epoch": 15.78029231494578,
      "grad_norm": 0.00042008559103123844,
      "learning_rate": 0.019304436104737754,
      "loss": 0.3473,
      "num_input_tokens_seen": 31049712,
      "step": 33470
    },
    {
      "epoch": 15.782649693540783,
      "grad_norm": 0.0005900487885810435,
      "learning_rate": 0.019275538970076778,
      "loss": 0.3026,
      "num_input_tokens_seen": 31054304,
      "step": 33475
    },
    {
      "epoch": 15.785007072135786,
      "grad_norm": 0.00042925094021484256,
      "learning_rate": 0.019246661994770434,
      "loss": 0.3022,
      "num_input_tokens_seen": 31058448,
      "step": 33480
    },
    {
      "epoch": 15.787364450730788,
      "grad_norm": 0.0004434723814483732,
      "learning_rate": 0.019217805183271985,
      "loss": 0.3012,
      "num_input_tokens_seen": 31062592,
      "step": 33485
    },
    {
      "epoch": 15.78972182932579,
      "grad_norm": 0.0008998471894301474,
      "learning_rate": 0.019188968540031465,
      "loss": 0.3633,
      "num_input_tokens_seen": 31066784,
      "step": 33490
    },
    {
      "epoch": 15.792079207920793,
      "grad_norm": 0.0003267787687946111,
      "learning_rate": 0.019160152069495867,
      "loss": 0.3192,
      "num_input_tokens_seen": 31071680,
      "step": 33495
    },
    {
      "epoch": 15.794436586515795,
      "grad_norm": 0.0003283492987975478,
      "learning_rate": 0.019131355776109103,
      "loss": 0.3369,
      "num_input_tokens_seen": 31076736,
      "step": 33500
    },
    {
      "epoch": 15.796793965110798,
      "grad_norm": 0.00030042757862247527,
      "learning_rate": 0.019102579664311857,
      "loss": 0.3338,
      "num_input_tokens_seen": 31081584,
      "step": 33505
    },
    {
      "epoch": 15.799151343705798,
      "grad_norm": 0.00030736392363905907,
      "learning_rate": 0.019073823738541763,
      "loss": 0.3225,
      "num_input_tokens_seen": 31086656,
      "step": 33510
    },
    {
      "epoch": 15.801508722300802,
      "grad_norm": 0.00038639912963844836,
      "learning_rate": 0.0190450880032334,
      "loss": 0.31,
      "num_input_tokens_seen": 31090800,
      "step": 33515
    },
    {
      "epoch": 15.803866100895803,
      "grad_norm": 0.0003711711033247411,
      "learning_rate": 0.019016372462818114,
      "loss": 0.3087,
      "num_input_tokens_seen": 31095488,
      "step": 33520
    },
    {
      "epoch": 15.806223479490805,
      "grad_norm": 0.00035208938061259687,
      "learning_rate": 0.018987677121724278,
      "loss": 0.3572,
      "num_input_tokens_seen": 31100032,
      "step": 33525
    },
    {
      "epoch": 15.808580858085808,
      "grad_norm": 0.0004923030501231551,
      "learning_rate": 0.018959001984377,
      "loss": 0.3368,
      "num_input_tokens_seen": 31104672,
      "step": 33530
    },
    {
      "epoch": 15.81093823668081,
      "grad_norm": 0.0008158098789863288,
      "learning_rate": 0.018930347055198377,
      "loss": 0.3027,
      "num_input_tokens_seen": 31108640,
      "step": 33535
    },
    {
      "epoch": 15.813295615275813,
      "grad_norm": 0.00035235934774391353,
      "learning_rate": 0.01890171233860739,
      "loss": 0.3561,
      "num_input_tokens_seen": 31112928,
      "step": 33540
    },
    {
      "epoch": 15.815652993870815,
      "grad_norm": 0.0012184085790067911,
      "learning_rate": 0.018873097839019807,
      "loss": 0.418,
      "num_input_tokens_seen": 31117712,
      "step": 33545
    },
    {
      "epoch": 15.818010372465817,
      "grad_norm": 0.0006097351433709264,
      "learning_rate": 0.0188445035608484,
      "loss": 0.316,
      "num_input_tokens_seen": 31122384,
      "step": 33550
    },
    {
      "epoch": 15.82036775106082,
      "grad_norm": 0.0007776801940053701,
      "learning_rate": 0.018815929508502777,
      "loss": 0.2732,
      "num_input_tokens_seen": 31126480,
      "step": 33555
    },
    {
      "epoch": 15.822725129655822,
      "grad_norm": 0.0004996860516257584,
      "learning_rate": 0.01878737568638934,
      "loss": 0.3287,
      "num_input_tokens_seen": 31131472,
      "step": 33560
    },
    {
      "epoch": 15.825082508250825,
      "grad_norm": 0.0011353730224072933,
      "learning_rate": 0.01875884209891152,
      "loss": 0.3247,
      "num_input_tokens_seen": 31136304,
      "step": 33565
    },
    {
      "epoch": 15.827439886845827,
      "grad_norm": 0.0004919528146274388,
      "learning_rate": 0.018730328750469514,
      "loss": 0.2941,
      "num_input_tokens_seen": 31140304,
      "step": 33570
    },
    {
      "epoch": 15.82979726544083,
      "grad_norm": 0.0003959363093599677,
      "learning_rate": 0.018701835645460473,
      "loss": 0.3456,
      "num_input_tokens_seen": 31144592,
      "step": 33575
    },
    {
      "epoch": 15.832154644035832,
      "grad_norm": 0.00038672139635309577,
      "learning_rate": 0.01867336278827838,
      "loss": 0.3301,
      "num_input_tokens_seen": 31149328,
      "step": 33580
    },
    {
      "epoch": 15.834512022630834,
      "grad_norm": 0.00042210810352116823,
      "learning_rate": 0.018644910183314056,
      "loss": 0.3232,
      "num_input_tokens_seen": 31154464,
      "step": 33585
    },
    {
      "epoch": 15.836869401225837,
      "grad_norm": 0.0010688776383176446,
      "learning_rate": 0.01861647783495531,
      "loss": 0.3529,
      "num_input_tokens_seen": 31159440,
      "step": 33590
    },
    {
      "epoch": 15.839226779820839,
      "grad_norm": 0.0004339402075856924,
      "learning_rate": 0.01858806574758676,
      "loss": 0.2635,
      "num_input_tokens_seen": 31164016,
      "step": 33595
    },
    {
      "epoch": 15.841584158415841,
      "grad_norm": 0.0004437043680809438,
      "learning_rate": 0.01855967392558988,
      "loss": 0.3195,
      "num_input_tokens_seen": 31168496,
      "step": 33600
    },
    {
      "epoch": 15.841584158415841,
      "eval_loss": 0.3279247581958771,
      "eval_runtime": 33.5512,
      "eval_samples_per_second": 28.106,
      "eval_steps_per_second": 14.068,
      "num_input_tokens_seen": 31168496,
      "step": 33600
    },
    {
      "epoch": 15.843941537010844,
      "grad_norm": 0.0004097944765817374,
      "learning_rate": 0.018531302373343096,
      "loss": 0.3419,
      "num_input_tokens_seen": 31173008,
      "step": 33605
    },
    {
      "epoch": 15.846298915605846,
      "grad_norm": 0.0003869070496875793,
      "learning_rate": 0.018502951095221588,
      "loss": 0.3621,
      "num_input_tokens_seen": 31177840,
      "step": 33610
    },
    {
      "epoch": 15.848656294200849,
      "grad_norm": 0.0005906961159780622,
      "learning_rate": 0.01847462009559751,
      "loss": 0.3109,
      "num_input_tokens_seen": 31181632,
      "step": 33615
    },
    {
      "epoch": 15.851013672795851,
      "grad_norm": 0.0009677757625468075,
      "learning_rate": 0.01844630937883992,
      "loss": 0.3552,
      "num_input_tokens_seen": 31186112,
      "step": 33620
    },
    {
      "epoch": 15.853371051390853,
      "grad_norm": 0.0006610217387787998,
      "learning_rate": 0.018418018949314573,
      "loss": 0.2541,
      "num_input_tokens_seen": 31190640,
      "step": 33625
    },
    {
      "epoch": 15.855728429985856,
      "grad_norm": 0.0005060358089394867,
      "learning_rate": 0.018389748811384315,
      "loss": 0.3245,
      "num_input_tokens_seen": 31195440,
      "step": 33630
    },
    {
      "epoch": 15.858085808580858,
      "grad_norm": 0.0006182573270052671,
      "learning_rate": 0.018361498969408658,
      "loss": 0.3123,
      "num_input_tokens_seen": 31199392,
      "step": 33635
    },
    {
      "epoch": 15.86044318717586,
      "grad_norm": 0.0005927632446400821,
      "learning_rate": 0.01833326942774415,
      "loss": 0.2961,
      "num_input_tokens_seen": 31204192,
      "step": 33640
    },
    {
      "epoch": 15.862800565770863,
      "grad_norm": 0.0004617150407284498,
      "learning_rate": 0.018305060190744155,
      "loss": 0.3156,
      "num_input_tokens_seen": 31209296,
      "step": 33645
    },
    {
      "epoch": 15.865157944365865,
      "grad_norm": 0.00041606774902902544,
      "learning_rate": 0.018276871262758846,
      "loss": 0.3446,
      "num_input_tokens_seen": 31214128,
      "step": 33650
    },
    {
      "epoch": 15.867515322960868,
      "grad_norm": 0.00036608168738894165,
      "learning_rate": 0.0182487026481353,
      "loss": 0.333,
      "num_input_tokens_seen": 31218640,
      "step": 33655
    },
    {
      "epoch": 15.86987270155587,
      "grad_norm": 0.0004937222693115473,
      "learning_rate": 0.018220554351217538,
      "loss": 0.3156,
      "num_input_tokens_seen": 31223024,
      "step": 33660
    },
    {
      "epoch": 15.872230080150873,
      "grad_norm": 0.0002506572927813977,
      "learning_rate": 0.01819242637634629,
      "loss": 0.2547,
      "num_input_tokens_seen": 31227280,
      "step": 33665
    },
    {
      "epoch": 15.874587458745875,
      "grad_norm": 0.000512219441588968,
      "learning_rate": 0.01816431872785933,
      "loss": 0.3179,
      "num_input_tokens_seen": 31232432,
      "step": 33670
    },
    {
      "epoch": 15.876944837340877,
      "grad_norm": 0.00047336460556834936,
      "learning_rate": 0.018136231410091148,
      "loss": 0.318,
      "num_input_tokens_seen": 31237920,
      "step": 33675
    },
    {
      "epoch": 15.87930221593588,
      "grad_norm": 0.00045276631135493517,
      "learning_rate": 0.018108164427373175,
      "loss": 0.363,
      "num_input_tokens_seen": 31242128,
      "step": 33680
    },
    {
      "epoch": 15.881659594530882,
      "grad_norm": 0.00037755901576019824,
      "learning_rate": 0.01808011778403375,
      "loss": 0.3408,
      "num_input_tokens_seen": 31246608,
      "step": 33685
    },
    {
      "epoch": 15.884016973125885,
      "grad_norm": 0.00039940793067216873,
      "learning_rate": 0.01805209148439793,
      "loss": 0.3044,
      "num_input_tokens_seen": 31250576,
      "step": 33690
    },
    {
      "epoch": 15.886374351720887,
      "grad_norm": 0.00038992977351881564,
      "learning_rate": 0.018024085532787757,
      "loss": 0.3353,
      "num_input_tokens_seen": 31254720,
      "step": 33695
    },
    {
      "epoch": 15.88873173031589,
      "grad_norm": 0.0003164772060699761,
      "learning_rate": 0.017996099933522164,
      "loss": 0.3452,
      "num_input_tokens_seen": 31259440,
      "step": 33700
    },
    {
      "epoch": 15.891089108910892,
      "grad_norm": 0.0008105701999738812,
      "learning_rate": 0.017968134690916775,
      "loss": 0.3319,
      "num_input_tokens_seen": 31263760,
      "step": 33705
    },
    {
      "epoch": 15.893446487505894,
      "grad_norm": 0.0004062772204633802,
      "learning_rate": 0.017940189809284263,
      "loss": 0.3197,
      "num_input_tokens_seen": 31268336,
      "step": 33710
    },
    {
      "epoch": 15.895803866100895,
      "grad_norm": 0.0004074864846188575,
      "learning_rate": 0.017912265292934024,
      "loss": 0.3219,
      "num_input_tokens_seen": 31272080,
      "step": 33715
    },
    {
      "epoch": 15.898161244695899,
      "grad_norm": 0.0006872713565826416,
      "learning_rate": 0.017884361146172423,
      "loss": 0.3117,
      "num_input_tokens_seen": 31276176,
      "step": 33720
    },
    {
      "epoch": 15.9005186232909,
      "grad_norm": 0.000587820599321276,
      "learning_rate": 0.01785647737330261,
      "loss": 0.2649,
      "num_input_tokens_seen": 31281552,
      "step": 33725
    },
    {
      "epoch": 15.902876001885902,
      "grad_norm": 0.0008187867351807654,
      "learning_rate": 0.017828613978624563,
      "loss": 0.2823,
      "num_input_tokens_seen": 31286480,
      "step": 33730
    },
    {
      "epoch": 15.905233380480905,
      "grad_norm": 0.0008168452768586576,
      "learning_rate": 0.01780077096643523,
      "loss": 0.3412,
      "num_input_tokens_seen": 31291376,
      "step": 33735
    },
    {
      "epoch": 15.907590759075907,
      "grad_norm": 0.0008816595654934645,
      "learning_rate": 0.017772948341028345,
      "loss": 0.2828,
      "num_input_tokens_seen": 31295584,
      "step": 33740
    },
    {
      "epoch": 15.90994813767091,
      "grad_norm": 0.0005290674162097275,
      "learning_rate": 0.01774514610669447,
      "loss": 0.3367,
      "num_input_tokens_seen": 31301216,
      "step": 33745
    },
    {
      "epoch": 15.912305516265912,
      "grad_norm": 0.00037446949863806367,
      "learning_rate": 0.017717364267721112,
      "loss": 0.3146,
      "num_input_tokens_seen": 31305248,
      "step": 33750
    },
    {
      "epoch": 15.914662894860914,
      "grad_norm": 0.0007524921093136072,
      "learning_rate": 0.017689602828392513,
      "loss": 0.3634,
      "num_input_tokens_seen": 31310160,
      "step": 33755
    },
    {
      "epoch": 15.917020273455917,
      "grad_norm": 0.000562355387955904,
      "learning_rate": 0.017661861792989897,
      "loss": 0.3668,
      "num_input_tokens_seen": 31314720,
      "step": 33760
    },
    {
      "epoch": 15.919377652050919,
      "grad_norm": 0.0003761699190363288,
      "learning_rate": 0.017634141165791272,
      "loss": 0.3149,
      "num_input_tokens_seen": 31318544,
      "step": 33765
    },
    {
      "epoch": 15.921735030645921,
      "grad_norm": 0.0003742923145182431,
      "learning_rate": 0.017606440951071455,
      "loss": 0.4079,
      "num_input_tokens_seen": 31322192,
      "step": 33770
    },
    {
      "epoch": 15.924092409240924,
      "grad_norm": 0.000342585175530985,
      "learning_rate": 0.017578761153102213,
      "loss": 0.3149,
      "num_input_tokens_seen": 31326848,
      "step": 33775
    },
    {
      "epoch": 15.926449787835926,
      "grad_norm": 0.0008004582487046719,
      "learning_rate": 0.017551101776152146,
      "loss": 0.3175,
      "num_input_tokens_seen": 31333408,
      "step": 33780
    },
    {
      "epoch": 15.928807166430929,
      "grad_norm": 0.0006622243672609329,
      "learning_rate": 0.017523462824486608,
      "loss": 0.3196,
      "num_input_tokens_seen": 31337952,
      "step": 33785
    },
    {
      "epoch": 15.931164545025931,
      "grad_norm": 0.00040976604213938117,
      "learning_rate": 0.01749584430236794,
      "loss": 0.3541,
      "num_input_tokens_seen": 31341936,
      "step": 33790
    },
    {
      "epoch": 15.933521923620933,
      "grad_norm": 0.0008156113908626139,
      "learning_rate": 0.01746824621405524,
      "loss": 0.3503,
      "num_input_tokens_seen": 31346560,
      "step": 33795
    },
    {
      "epoch": 15.935879302215936,
      "grad_norm": 0.0004452950961422175,
      "learning_rate": 0.017440668563804412,
      "loss": 0.2936,
      "num_input_tokens_seen": 31350688,
      "step": 33800
    },
    {
      "epoch": 15.935879302215936,
      "eval_loss": 0.32945001125335693,
      "eval_runtime": 33.5882,
      "eval_samples_per_second": 28.075,
      "eval_steps_per_second": 14.053,
      "num_input_tokens_seen": 31350688,
      "step": 33800
    },
    {
      "epoch": 15.938236680810938,
      "grad_norm": 0.0009354575886391103,
      "learning_rate": 0.017413111355868392,
      "loss": 0.3252,
      "num_input_tokens_seen": 31356096,
      "step": 33805
    },
    {
      "epoch": 15.94059405940594,
      "grad_norm": 0.0006538925808854401,
      "learning_rate": 0.017385574594496748,
      "loss": 0.3086,
      "num_input_tokens_seen": 31360736,
      "step": 33810
    },
    {
      "epoch": 15.942951438000943,
      "grad_norm": 0.000847086135763675,
      "learning_rate": 0.01735805828393605,
      "loss": 0.3157,
      "num_input_tokens_seen": 31364912,
      "step": 33815
    },
    {
      "epoch": 15.945308816595945,
      "grad_norm": 0.00038711208617314696,
      "learning_rate": 0.017330562428429667,
      "loss": 0.3091,
      "num_input_tokens_seen": 31369984,
      "step": 33820
    },
    {
      "epoch": 15.947666195190948,
      "grad_norm": 0.000358381774276495,
      "learning_rate": 0.01730308703221776,
      "loss": 0.3423,
      "num_input_tokens_seen": 31374224,
      "step": 33825
    },
    {
      "epoch": 15.95002357378595,
      "grad_norm": 0.0006354165379889309,
      "learning_rate": 0.01727563209953744,
      "loss": 0.3044,
      "num_input_tokens_seen": 31378576,
      "step": 33830
    },
    {
      "epoch": 15.952380952380953,
      "grad_norm": 0.0004681196005549282,
      "learning_rate": 0.017248197634622535,
      "loss": 0.3212,
      "num_input_tokens_seen": 31383264,
      "step": 33835
    },
    {
      "epoch": 15.954738330975955,
      "grad_norm": 0.00039749793359078467,
      "learning_rate": 0.01722078364170383,
      "loss": 0.3473,
      "num_input_tokens_seen": 31387568,
      "step": 33840
    },
    {
      "epoch": 15.957095709570957,
      "grad_norm": 0.00035853171721100807,
      "learning_rate": 0.017193390125008905,
      "loss": 0.3498,
      "num_input_tokens_seen": 31392048,
      "step": 33845
    },
    {
      "epoch": 15.95945308816596,
      "grad_norm": 0.002504005329683423,
      "learning_rate": 0.017166017088762153,
      "loss": 0.2716,
      "num_input_tokens_seen": 31396416,
      "step": 33850
    },
    {
      "epoch": 15.961810466760962,
      "grad_norm": 0.0006947719375602901,
      "learning_rate": 0.017138664537184878,
      "loss": 0.314,
      "num_input_tokens_seen": 31400272,
      "step": 33855
    },
    {
      "epoch": 15.964167845355965,
      "grad_norm": 0.0003909727674908936,
      "learning_rate": 0.017111332474495172,
      "loss": 0.3126,
      "num_input_tokens_seen": 31404592,
      "step": 33860
    },
    {
      "epoch": 15.966525223950967,
      "grad_norm": 0.0005883662379346788,
      "learning_rate": 0.017084020904907998,
      "loss": 0.2967,
      "num_input_tokens_seen": 31408944,
      "step": 33865
    },
    {
      "epoch": 15.96888260254597,
      "grad_norm": 0.0004488220438361168,
      "learning_rate": 0.017056729832635103,
      "loss": 0.3738,
      "num_input_tokens_seen": 31413088,
      "step": 33870
    },
    {
      "epoch": 15.971239981140972,
      "grad_norm": 0.0004372922412585467,
      "learning_rate": 0.017029459261885153,
      "loss": 0.3227,
      "num_input_tokens_seen": 31417392,
      "step": 33875
    },
    {
      "epoch": 15.973597359735974,
      "grad_norm": 0.0008893727790564299,
      "learning_rate": 0.01700220919686359,
      "loss": 0.3544,
      "num_input_tokens_seen": 31421568,
      "step": 33880
    },
    {
      "epoch": 15.975954738330977,
      "grad_norm": 0.0007033371366560459,
      "learning_rate": 0.016974979641772723,
      "loss": 0.3038,
      "num_input_tokens_seen": 31426000,
      "step": 33885
    },
    {
      "epoch": 15.978312116925979,
      "grad_norm": 0.0008849400328472257,
      "learning_rate": 0.01694777060081169,
      "loss": 0.3713,
      "num_input_tokens_seen": 31429856,
      "step": 33890
    },
    {
      "epoch": 15.980669495520981,
      "grad_norm": 0.00030917220283299685,
      "learning_rate": 0.016920582078176444,
      "loss": 0.2616,
      "num_input_tokens_seen": 31434240,
      "step": 33895
    },
    {
      "epoch": 15.983026874115984,
      "grad_norm": 0.0002987864427268505,
      "learning_rate": 0.016893414078059863,
      "loss": 0.3227,
      "num_input_tokens_seen": 31439344,
      "step": 33900
    },
    {
      "epoch": 15.985384252710986,
      "grad_norm": 0.0008257075096480548,
      "learning_rate": 0.016866266604651535,
      "loss": 0.2992,
      "num_input_tokens_seen": 31443808,
      "step": 33905
    },
    {
      "epoch": 15.987741631305987,
      "grad_norm": 0.0008059485116973519,
      "learning_rate": 0.016839139662137976,
      "loss": 0.3826,
      "num_input_tokens_seen": 31447856,
      "step": 33910
    },
    {
      "epoch": 15.990099009900991,
      "grad_norm": 0.0003223853709641844,
      "learning_rate": 0.01681203325470245,
      "loss": 0.3357,
      "num_input_tokens_seen": 31452688,
      "step": 33915
    },
    {
      "epoch": 15.992456388495992,
      "grad_norm": 0.0005772243021056056,
      "learning_rate": 0.016784947386525157,
      "loss": 0.3155,
      "num_input_tokens_seen": 31458112,
      "step": 33920
    },
    {
      "epoch": 15.994813767090994,
      "grad_norm": 0.0005977475666441023,
      "learning_rate": 0.01675788206178308,
      "loss": 0.3355,
      "num_input_tokens_seen": 31462720,
      "step": 33925
    },
    {
      "epoch": 15.997171145685996,
      "grad_norm": 0.0011008511064574122,
      "learning_rate": 0.016730837284649986,
      "loss": 0.3675,
      "num_input_tokens_seen": 31468176,
      "step": 33930
    },
    {
      "epoch": 15.999528524280999,
      "grad_norm": 0.0005584790487773716,
      "learning_rate": 0.016703813059296583,
      "loss": 0.3208,
      "num_input_tokens_seen": 31471552,
      "step": 33935
    },
    {
      "epoch": 16.001885902876,
      "grad_norm": 0.0003393731312826276,
      "learning_rate": 0.016676809389890294,
      "loss": 0.309,
      "num_input_tokens_seen": 31476608,
      "step": 33940
    },
    {
      "epoch": 16.004243281471005,
      "grad_norm": 0.0004013076249975711,
      "learning_rate": 0.016649826280595435,
      "loss": 0.3469,
      "num_input_tokens_seen": 31480848,
      "step": 33945
    },
    {
      "epoch": 16.006600660066006,
      "grad_norm": 0.00038361200131475925,
      "learning_rate": 0.016622863735573163,
      "loss": 0.3128,
      "num_input_tokens_seen": 31484240,
      "step": 33950
    },
    {
      "epoch": 16.00895803866101,
      "grad_norm": 0.0014638210413977504,
      "learning_rate": 0.016595921758981395,
      "loss": 0.3052,
      "num_input_tokens_seen": 31488464,
      "step": 33955
    },
    {
      "epoch": 16.01131541725601,
      "grad_norm": 0.00032164627918973565,
      "learning_rate": 0.01656900035497495,
      "loss": 0.2788,
      "num_input_tokens_seen": 31493568,
      "step": 33960
    },
    {
      "epoch": 16.013672795851015,
      "grad_norm": 0.0007499471539631486,
      "learning_rate": 0.016542099527705485,
      "loss": 0.2677,
      "num_input_tokens_seen": 31497872,
      "step": 33965
    },
    {
      "epoch": 16.016030174446016,
      "grad_norm": 0.0005057429079897702,
      "learning_rate": 0.01651521928132138,
      "loss": 0.3328,
      "num_input_tokens_seen": 31503216,
      "step": 33970
    },
    {
      "epoch": 16.01838755304102,
      "grad_norm": 0.0010580953676253557,
      "learning_rate": 0.01648835961996794,
      "loss": 0.4089,
      "num_input_tokens_seen": 31507088,
      "step": 33975
    },
    {
      "epoch": 16.02074493163602,
      "grad_norm": 0.0004183452401775867,
      "learning_rate": 0.016461520547787285,
      "loss": 0.3008,
      "num_input_tokens_seen": 31512336,
      "step": 33980
    },
    {
      "epoch": 16.023102310231025,
      "grad_norm": 0.00035043456591665745,
      "learning_rate": 0.016434702068918266,
      "loss": 0.2848,
      "num_input_tokens_seen": 31517248,
      "step": 33985
    },
    {
      "epoch": 16.025459688826025,
      "grad_norm": 0.00039483801811002195,
      "learning_rate": 0.01640790418749673,
      "loss": 0.3302,
      "num_input_tokens_seen": 31521680,
      "step": 33990
    },
    {
      "epoch": 16.02781706742103,
      "grad_norm": 0.0009646805701777339,
      "learning_rate": 0.016381126907655134,
      "loss": 0.3493,
      "num_input_tokens_seen": 31526400,
      "step": 33995
    },
    {
      "epoch": 16.03017444601603,
      "grad_norm": 0.00048188059008680284,
      "learning_rate": 0.016354370233522948,
      "loss": 0.316,
      "num_input_tokens_seen": 31530704,
      "step": 34000
    },
    {
      "epoch": 16.03017444601603,
      "eval_loss": 0.32878145575523376,
      "eval_runtime": 33.6401,
      "eval_samples_per_second": 28.032,
      "eval_steps_per_second": 14.031,
      "num_input_tokens_seen": 31530704,
      "step": 34000
    },
    {
      "epoch": 16.032531824611034,
      "grad_norm": 0.00041105347918346524,
      "learning_rate": 0.016327634169226394,
      "loss": 0.274,
      "num_input_tokens_seen": 31535744,
      "step": 34005
    },
    {
      "epoch": 16.034889203206035,
      "grad_norm": 0.0007276590913534164,
      "learning_rate": 0.016300918718888485,
      "loss": 0.2881,
      "num_input_tokens_seen": 31540384,
      "step": 34010
    },
    {
      "epoch": 16.03724658180104,
      "grad_norm": 0.0004885486559942365,
      "learning_rate": 0.016274223886629052,
      "loss": 0.3652,
      "num_input_tokens_seen": 31545008,
      "step": 34015
    },
    {
      "epoch": 16.03960396039604,
      "grad_norm": 0.0004418363678269088,
      "learning_rate": 0.01624754967656482,
      "loss": 0.3144,
      "num_input_tokens_seen": 31549712,
      "step": 34020
    },
    {
      "epoch": 16.04196133899104,
      "grad_norm": 0.00038764788769185543,
      "learning_rate": 0.016220896092809235,
      "loss": 0.3697,
      "num_input_tokens_seen": 31555600,
      "step": 34025
    },
    {
      "epoch": 16.044318717586044,
      "grad_norm": 0.0007015657611191273,
      "learning_rate": 0.01619426313947267,
      "loss": 0.3301,
      "num_input_tokens_seen": 31559408,
      "step": 34030
    },
    {
      "epoch": 16.046676096181045,
      "grad_norm": 0.0007083748350851238,
      "learning_rate": 0.016167650820662228,
      "loss": 0.3271,
      "num_input_tokens_seen": 31563456,
      "step": 34035
    },
    {
      "epoch": 16.04903347477605,
      "grad_norm": 0.0004985578707419336,
      "learning_rate": 0.016141059140481855,
      "loss": 0.343,
      "num_input_tokens_seen": 31569360,
      "step": 34040
    },
    {
      "epoch": 16.05139085337105,
      "grad_norm": 0.00042165612103417516,
      "learning_rate": 0.016114488103032374,
      "loss": 0.3657,
      "num_input_tokens_seen": 31574112,
      "step": 34045
    },
    {
      "epoch": 16.053748231966054,
      "grad_norm": 0.00039614809793420136,
      "learning_rate": 0.016087937712411293,
      "loss": 0.2893,
      "num_input_tokens_seen": 31578448,
      "step": 34050
    },
    {
      "epoch": 16.056105610561055,
      "grad_norm": 0.0006706884014420211,
      "learning_rate": 0.01606140797271308,
      "loss": 0.3124,
      "num_input_tokens_seen": 31582944,
      "step": 34055
    },
    {
      "epoch": 16.05846298915606,
      "grad_norm": 0.00028065830701962113,
      "learning_rate": 0.01603489888802897,
      "loss": 0.369,
      "num_input_tokens_seen": 31587408,
      "step": 34060
    },
    {
      "epoch": 16.06082036775106,
      "grad_norm": 0.0004588975862134248,
      "learning_rate": 0.016008410462446918,
      "loss": 0.3576,
      "num_input_tokens_seen": 31592544,
      "step": 34065
    },
    {
      "epoch": 16.063177746346064,
      "grad_norm": 0.0005978790577501059,
      "learning_rate": 0.01598194270005185,
      "loss": 0.3568,
      "num_input_tokens_seen": 31597040,
      "step": 34070
    },
    {
      "epoch": 16.065535124941064,
      "grad_norm": 0.0006471085944212973,
      "learning_rate": 0.015955495604925356,
      "loss": 0.2666,
      "num_input_tokens_seen": 31601872,
      "step": 34075
    },
    {
      "epoch": 16.06789250353607,
      "grad_norm": 0.0006999156321398914,
      "learning_rate": 0.01592906918114598,
      "loss": 0.3169,
      "num_input_tokens_seen": 31606768,
      "step": 34080
    },
    {
      "epoch": 16.07024988213107,
      "grad_norm": 0.0002812937891576439,
      "learning_rate": 0.015902663432788965,
      "loss": 0.2932,
      "num_input_tokens_seen": 31612832,
      "step": 34085
    },
    {
      "epoch": 16.072607260726073,
      "grad_norm": 0.00043435030966065824,
      "learning_rate": 0.01587627836392643,
      "loss": 0.3202,
      "num_input_tokens_seen": 31617376,
      "step": 34090
    },
    {
      "epoch": 16.074964639321074,
      "grad_norm": 0.00038371316622942686,
      "learning_rate": 0.01584991397862726,
      "loss": 0.3087,
      "num_input_tokens_seen": 31621696,
      "step": 34095
    },
    {
      "epoch": 16.077322017916078,
      "grad_norm": 0.0007905584643594921,
      "learning_rate": 0.015823570280957214,
      "loss": 0.3877,
      "num_input_tokens_seen": 31626480,
      "step": 34100
    },
    {
      "epoch": 16.07967939651108,
      "grad_norm": 0.0006738044903613627,
      "learning_rate": 0.015797247274978766,
      "loss": 0.2844,
      "num_input_tokens_seen": 31631696,
      "step": 34105
    },
    {
      "epoch": 16.082036775106083,
      "grad_norm": 0.0003760589752346277,
      "learning_rate": 0.015770944964751326,
      "loss": 0.306,
      "num_input_tokens_seen": 31635728,
      "step": 34110
    },
    {
      "epoch": 16.084394153701083,
      "grad_norm": 0.001182520529255271,
      "learning_rate": 0.015744663354330956,
      "loss": 0.4478,
      "num_input_tokens_seen": 31640784,
      "step": 34115
    },
    {
      "epoch": 16.086751532296088,
      "grad_norm": 0.0007149814628064632,
      "learning_rate": 0.015718402447770664,
      "loss": 0.3601,
      "num_input_tokens_seen": 31645104,
      "step": 34120
    },
    {
      "epoch": 16.08910891089109,
      "grad_norm": 0.0003534462593961507,
      "learning_rate": 0.015692162249120224,
      "loss": 0.3011,
      "num_input_tokens_seen": 31649792,
      "step": 34125
    },
    {
      "epoch": 16.091466289486092,
      "grad_norm": 0.0003910461673513055,
      "learning_rate": 0.01566594276242615,
      "loss": 0.2947,
      "num_input_tokens_seen": 31654720,
      "step": 34130
    },
    {
      "epoch": 16.093823668081093,
      "grad_norm": 0.0004934448515996337,
      "learning_rate": 0.015639743991731857,
      "loss": 0.2873,
      "num_input_tokens_seen": 31659568,
      "step": 34135
    },
    {
      "epoch": 16.096181046676097,
      "grad_norm": 0.00033343344694003463,
      "learning_rate": 0.01561356594107755,
      "loss": 0.2914,
      "num_input_tokens_seen": 31664224,
      "step": 34140
    },
    {
      "epoch": 16.098538425271098,
      "grad_norm": 0.00040278935921378434,
      "learning_rate": 0.015587408614500147,
      "loss": 0.3719,
      "num_input_tokens_seen": 31668304,
      "step": 34145
    },
    {
      "epoch": 16.100895803866102,
      "grad_norm": 0.0011099465191364288,
      "learning_rate": 0.015561272016033505,
      "loss": 0.4201,
      "num_input_tokens_seen": 31674208,
      "step": 34150
    },
    {
      "epoch": 16.103253182461103,
      "grad_norm": 0.00036366822314448655,
      "learning_rate": 0.015535156149708167,
      "loss": 0.3451,
      "num_input_tokens_seen": 31678432,
      "step": 34155
    },
    {
      "epoch": 16.105610561056107,
      "grad_norm": 0.0002728329855017364,
      "learning_rate": 0.015509061019551528,
      "loss": 0.2746,
      "num_input_tokens_seen": 31683104,
      "step": 34160
    },
    {
      "epoch": 16.107967939651108,
      "grad_norm": 0.0004071516450494528,
      "learning_rate": 0.015482986629587818,
      "loss": 0.2868,
      "num_input_tokens_seen": 31687504,
      "step": 34165
    },
    {
      "epoch": 16.11032531824611,
      "grad_norm": 0.00038251897785812616,
      "learning_rate": 0.01545693298383799,
      "loss": 0.3354,
      "num_input_tokens_seen": 31692288,
      "step": 34170
    },
    {
      "epoch": 16.112682696841112,
      "grad_norm": 0.0004277781117707491,
      "learning_rate": 0.015430900086319858,
      "loss": 0.3648,
      "num_input_tokens_seen": 31696544,
      "step": 34175
    },
    {
      "epoch": 16.115040075436116,
      "grad_norm": 0.00035736674908548594,
      "learning_rate": 0.015404887941048084,
      "loss": 0.2868,
      "num_input_tokens_seen": 31701680,
      "step": 34180
    },
    {
      "epoch": 16.117397454031117,
      "grad_norm": 0.0003616262983996421,
      "learning_rate": 0.01537889655203397,
      "loss": 0.3312,
      "num_input_tokens_seen": 31706448,
      "step": 34185
    },
    {
      "epoch": 16.11975483262612,
      "grad_norm": 0.0006138815078884363,
      "learning_rate": 0.015352925923285798,
      "loss": 0.2759,
      "num_input_tokens_seen": 31710224,
      "step": 34190
    },
    {
      "epoch": 16.122112211221122,
      "grad_norm": 0.0009238662896677852,
      "learning_rate": 0.015326976058808511,
      "loss": 0.3409,
      "num_input_tokens_seen": 31714304,
      "step": 34195
    },
    {
      "epoch": 16.124469589816126,
      "grad_norm": 0.0006378216785378754,
      "learning_rate": 0.015301046962603908,
      "loss": 0.3678,
      "num_input_tokens_seen": 31718960,
      "step": 34200
    },
    {
      "epoch": 16.124469589816126,
      "eval_loss": 0.32892906665802,
      "eval_runtime": 33.6161,
      "eval_samples_per_second": 28.052,
      "eval_steps_per_second": 14.041,
      "num_input_tokens_seen": 31718960,
      "step": 34200
    },
    {
      "epoch": 16.126826968411127,
      "grad_norm": 0.0006927189533598721,
      "learning_rate": 0.015275138638670626,
      "loss": 0.3793,
      "num_input_tokens_seen": 31724400,
      "step": 34205
    },
    {
      "epoch": 16.12918434700613,
      "grad_norm": 0.0005220616585575044,
      "learning_rate": 0.015249251091004001,
      "loss": 0.329,
      "num_input_tokens_seen": 31728304,
      "step": 34210
    },
    {
      "epoch": 16.13154172560113,
      "grad_norm": 0.0003486397035885602,
      "learning_rate": 0.01522338432359624,
      "loss": 0.344,
      "num_input_tokens_seen": 31732368,
      "step": 34215
    },
    {
      "epoch": 16.133899104196132,
      "grad_norm": 0.0003959150053560734,
      "learning_rate": 0.01519753834043635,
      "loss": 0.326,
      "num_input_tokens_seen": 31736160,
      "step": 34220
    },
    {
      "epoch": 16.136256482791136,
      "grad_norm": 0.0006609058473259211,
      "learning_rate": 0.015171713145510095,
      "loss": 0.3396,
      "num_input_tokens_seen": 31742624,
      "step": 34225
    },
    {
      "epoch": 16.138613861386137,
      "grad_norm": 0.00033581434399820864,
      "learning_rate": 0.01514590874279999,
      "loss": 0.3176,
      "num_input_tokens_seen": 31747360,
      "step": 34230
    },
    {
      "epoch": 16.14097123998114,
      "grad_norm": 0.00036992024979554117,
      "learning_rate": 0.015120125136285467,
      "loss": 0.3221,
      "num_input_tokens_seen": 31751584,
      "step": 34235
    },
    {
      "epoch": 16.14332861857614,
      "grad_norm": 0.0004004411748610437,
      "learning_rate": 0.015094362329942629,
      "loss": 0.3453,
      "num_input_tokens_seen": 31756576,
      "step": 34240
    },
    {
      "epoch": 16.145685997171146,
      "grad_norm": 0.000713611429091543,
      "learning_rate": 0.01506862032774448,
      "loss": 0.3478,
      "num_input_tokens_seen": 31760704,
      "step": 34245
    },
    {
      "epoch": 16.148043375766147,
      "grad_norm": 0.0002761281793937087,
      "learning_rate": 0.015042899133660697,
      "loss": 0.3463,
      "num_input_tokens_seen": 31765184,
      "step": 34250
    },
    {
      "epoch": 16.15040075436115,
      "grad_norm": 0.00034516866435296834,
      "learning_rate": 0.01501719875165789,
      "loss": 0.3264,
      "num_input_tokens_seen": 31769424,
      "step": 34255
    },
    {
      "epoch": 16.15275813295615,
      "grad_norm": 0.0007426338270306587,
      "learning_rate": 0.014991519185699286,
      "loss": 0.363,
      "num_input_tokens_seen": 31773744,
      "step": 34260
    },
    {
      "epoch": 16.155115511551156,
      "grad_norm": 0.0007236999226734042,
      "learning_rate": 0.014965860439745054,
      "loss": 0.3633,
      "num_input_tokens_seen": 31778528,
      "step": 34265
    },
    {
      "epoch": 16.157472890146156,
      "grad_norm": 0.0003655020846053958,
      "learning_rate": 0.01494022251775211,
      "loss": 0.3246,
      "num_input_tokens_seen": 31782848,
      "step": 34270
    },
    {
      "epoch": 16.15983026874116,
      "grad_norm": 0.0004784670891240239,
      "learning_rate": 0.014914605423674109,
      "loss": 0.33,
      "num_input_tokens_seen": 31787008,
      "step": 34275
    },
    {
      "epoch": 16.16218764733616,
      "grad_norm": 0.0006926709902472794,
      "learning_rate": 0.014889009161461525,
      "loss": 0.3235,
      "num_input_tokens_seen": 31791600,
      "step": 34280
    },
    {
      "epoch": 16.164545025931165,
      "grad_norm": 0.0003657076449599117,
      "learning_rate": 0.014863433735061665,
      "loss": 0.3455,
      "num_input_tokens_seen": 31797056,
      "step": 34285
    },
    {
      "epoch": 16.166902404526166,
      "grad_norm": 0.0007109621074050665,
      "learning_rate": 0.014837879148418541,
      "loss": 0.3084,
      "num_input_tokens_seen": 31801504,
      "step": 34290
    },
    {
      "epoch": 16.16925978312117,
      "grad_norm": 0.0006192551227286458,
      "learning_rate": 0.01481234540547302,
      "loss": 0.2877,
      "num_input_tokens_seen": 31806176,
      "step": 34295
    },
    {
      "epoch": 16.17161716171617,
      "grad_norm": 0.000655363139230758,
      "learning_rate": 0.014786832510162717,
      "loss": 0.3562,
      "num_input_tokens_seen": 31810592,
      "step": 34300
    },
    {
      "epoch": 16.173974540311175,
      "grad_norm": 0.0008354824967682362,
      "learning_rate": 0.014761340466422017,
      "loss": 0.3085,
      "num_input_tokens_seen": 31814704,
      "step": 34305
    },
    {
      "epoch": 16.176331918906175,
      "grad_norm": 0.00045252498239278793,
      "learning_rate": 0.014735869278182144,
      "loss": 0.3436,
      "num_input_tokens_seen": 31818688,
      "step": 34310
    },
    {
      "epoch": 16.17868929750118,
      "grad_norm": 0.0007007624371908605,
      "learning_rate": 0.014710418949371057,
      "loss": 0.2609,
      "num_input_tokens_seen": 31823440,
      "step": 34315
    },
    {
      "epoch": 16.18104667609618,
      "grad_norm": 0.0005995263927616179,
      "learning_rate": 0.014684989483913495,
      "loss": 0.3119,
      "num_input_tokens_seen": 31828016,
      "step": 34320
    },
    {
      "epoch": 16.183404054691184,
      "grad_norm": 0.0008285421645268798,
      "learning_rate": 0.014659580885731077,
      "loss": 0.3221,
      "num_input_tokens_seen": 31833024,
      "step": 34325
    },
    {
      "epoch": 16.185761433286185,
      "grad_norm": 0.0004726887564174831,
      "learning_rate": 0.014634193158742047,
      "loss": 0.3426,
      "num_input_tokens_seen": 31837104,
      "step": 34330
    },
    {
      "epoch": 16.18811881188119,
      "grad_norm": 0.00033385652932338417,
      "learning_rate": 0.014608826306861576,
      "loss": 0.2969,
      "num_input_tokens_seen": 31841648,
      "step": 34335
    },
    {
      "epoch": 16.19047619047619,
      "grad_norm": 0.00039796342025510967,
      "learning_rate": 0.014583480334001486,
      "loss": 0.3523,
      "num_input_tokens_seen": 31845840,
      "step": 34340
    },
    {
      "epoch": 16.192833569071194,
      "grad_norm": 0.000734648376237601,
      "learning_rate": 0.014558155244070496,
      "loss": 0.3792,
      "num_input_tokens_seen": 31850416,
      "step": 34345
    },
    {
      "epoch": 16.195190947666195,
      "grad_norm": 0.00038301199674606323,
      "learning_rate": 0.014532851040974036,
      "loss": 0.3214,
      "num_input_tokens_seen": 31854080,
      "step": 34350
    },
    {
      "epoch": 16.1975483262612,
      "grad_norm": 0.0006807550671510398,
      "learning_rate": 0.014507567728614335,
      "loss": 0.3122,
      "num_input_tokens_seen": 31860064,
      "step": 34355
    },
    {
      "epoch": 16.1999057048562,
      "grad_norm": 0.0006149865221232176,
      "learning_rate": 0.01448230531089037,
      "loss": 0.3019,
      "num_input_tokens_seen": 31865024,
      "step": 34360
    },
    {
      "epoch": 16.202263083451204,
      "grad_norm": 0.0006360184634104371,
      "learning_rate": 0.014457063791697993,
      "loss": 0.2728,
      "num_input_tokens_seen": 31869360,
      "step": 34365
    },
    {
      "epoch": 16.204620462046204,
      "grad_norm": 0.0007385724456980824,
      "learning_rate": 0.01443184317492971,
      "loss": 0.304,
      "num_input_tokens_seen": 31873728,
      "step": 34370
    },
    {
      "epoch": 16.20697784064121,
      "grad_norm": 0.000996586517430842,
      "learning_rate": 0.014406643464474822,
      "loss": 0.2912,
      "num_input_tokens_seen": 31878928,
      "step": 34375
    },
    {
      "epoch": 16.20933521923621,
      "grad_norm": 0.0008059171959757805,
      "learning_rate": 0.014381464664219539,
      "loss": 0.3836,
      "num_input_tokens_seen": 31883616,
      "step": 34380
    },
    {
      "epoch": 16.211692597831213,
      "grad_norm": 0.00043841288425028324,
      "learning_rate": 0.014356306778046656,
      "loss": 0.3059,
      "num_input_tokens_seen": 31888048,
      "step": 34385
    },
    {
      "epoch": 16.214049976426214,
      "grad_norm": 0.0007367781363427639,
      "learning_rate": 0.014331169809835885,
      "loss": 0.4009,
      "num_input_tokens_seen": 31892592,
      "step": 34390
    },
    {
      "epoch": 16.216407355021218,
      "grad_norm": 0.0006777559174224734,
      "learning_rate": 0.014306053763463644,
      "loss": 0.3395,
      "num_input_tokens_seen": 31896752,
      "step": 34395
    },
    {
      "epoch": 16.21876473361622,
      "grad_norm": 0.00037273403722792864,
      "learning_rate": 0.014280958642803147,
      "loss": 0.3434,
      "num_input_tokens_seen": 31901696,
      "step": 34400
    },
    {
      "epoch": 16.21876473361622,
      "eval_loss": 0.3284761607646942,
      "eval_runtime": 33.5545,
      "eval_samples_per_second": 28.104,
      "eval_steps_per_second": 14.067,
      "num_input_tokens_seen": 31901696,
      "step": 34400
    },
    {
      "epoch": 16.221122112211223,
      "grad_norm": 0.000384542130632326,
      "learning_rate": 0.014255884451724404,
      "loss": 0.3365,
      "num_input_tokens_seen": 31907168,
      "step": 34405
    },
    {
      "epoch": 16.223479490806223,
      "grad_norm": 0.00033285951940342784,
      "learning_rate": 0.014230831194094101,
      "loss": 0.2939,
      "num_input_tokens_seen": 31911488,
      "step": 34410
    },
    {
      "epoch": 16.225836869401228,
      "grad_norm": 0.0008764236117713153,
      "learning_rate": 0.014205798873775865,
      "loss": 0.3055,
      "num_input_tokens_seen": 31916512,
      "step": 34415
    },
    {
      "epoch": 16.22819424799623,
      "grad_norm": 0.000989869236946106,
      "learning_rate": 0.014180787494629893,
      "loss": 0.291,
      "num_input_tokens_seen": 31921808,
      "step": 34420
    },
    {
      "epoch": 16.23055162659123,
      "grad_norm": 0.0003353665815666318,
      "learning_rate": 0.014155797060513314,
      "loss": 0.3004,
      "num_input_tokens_seen": 31926288,
      "step": 34425
    },
    {
      "epoch": 16.232909005186233,
      "grad_norm": 0.0003002944285981357,
      "learning_rate": 0.014130827575279963,
      "loss": 0.3297,
      "num_input_tokens_seen": 31931360,
      "step": 34430
    },
    {
      "epoch": 16.235266383781234,
      "grad_norm": 0.00030835633515380323,
      "learning_rate": 0.014105879042780427,
      "loss": 0.2984,
      "num_input_tokens_seen": 31936608,
      "step": 34435
    },
    {
      "epoch": 16.237623762376238,
      "grad_norm": 0.00042998368735425174,
      "learning_rate": 0.014080951466862113,
      "loss": 0.3476,
      "num_input_tokens_seen": 31940576,
      "step": 34440
    },
    {
      "epoch": 16.23998114097124,
      "grad_norm": 0.0003966007789131254,
      "learning_rate": 0.014056044851369126,
      "loss": 0.2512,
      "num_input_tokens_seen": 31945024,
      "step": 34445
    },
    {
      "epoch": 16.242338519566243,
      "grad_norm": 0.0006704042898491025,
      "learning_rate": 0.014031159200142428,
      "loss": 0.2963,
      "num_input_tokens_seen": 31950304,
      "step": 34450
    },
    {
      "epoch": 16.244695898161243,
      "grad_norm": 0.0008834393229335546,
      "learning_rate": 0.014006294517019667,
      "loss": 0.3579,
      "num_input_tokens_seen": 31955024,
      "step": 34455
    },
    {
      "epoch": 16.247053276756247,
      "grad_norm": 0.00044879908091388643,
      "learning_rate": 0.013981450805835276,
      "loss": 0.3181,
      "num_input_tokens_seen": 31960288,
      "step": 34460
    },
    {
      "epoch": 16.249410655351248,
      "grad_norm": 0.0002939710393548012,
      "learning_rate": 0.01395662807042049,
      "loss": 0.32,
      "num_input_tokens_seen": 31964704,
      "step": 34465
    },
    {
      "epoch": 16.251768033946252,
      "grad_norm": 0.0006169257685542107,
      "learning_rate": 0.013931826314603296,
      "loss": 0.2697,
      "num_input_tokens_seen": 31969184,
      "step": 34470
    },
    {
      "epoch": 16.254125412541253,
      "grad_norm": 0.0005224021151661873,
      "learning_rate": 0.013907045542208401,
      "loss": 0.3546,
      "num_input_tokens_seen": 31973952,
      "step": 34475
    },
    {
      "epoch": 16.256482791136257,
      "grad_norm": 0.000765692675486207,
      "learning_rate": 0.013882285757057333,
      "loss": 0.3767,
      "num_input_tokens_seen": 31979472,
      "step": 34480
    },
    {
      "epoch": 16.258840169731258,
      "grad_norm": 0.0003396034298930317,
      "learning_rate": 0.013857546962968403,
      "loss": 0.3316,
      "num_input_tokens_seen": 31983648,
      "step": 34485
    },
    {
      "epoch": 16.261197548326262,
      "grad_norm": 0.0004810203390661627,
      "learning_rate": 0.013832829163756577,
      "loss": 0.3508,
      "num_input_tokens_seen": 31987792,
      "step": 34490
    },
    {
      "epoch": 16.263554926921262,
      "grad_norm": 0.0007066364632919431,
      "learning_rate": 0.013808132363233689,
      "loss": 0.3059,
      "num_input_tokens_seen": 31992192,
      "step": 34495
    },
    {
      "epoch": 16.265912305516267,
      "grad_norm": 0.0005656384164467454,
      "learning_rate": 0.013783456565208256,
      "loss": 0.3848,
      "num_input_tokens_seen": 31996976,
      "step": 34500
    },
    {
      "epoch": 16.268269684111267,
      "grad_norm": 0.0008281879709102213,
      "learning_rate": 0.01375880177348564,
      "loss": 0.3167,
      "num_input_tokens_seen": 32000944,
      "step": 34505
    },
    {
      "epoch": 16.27062706270627,
      "grad_norm": 0.00047179037937894464,
      "learning_rate": 0.013734167991867928,
      "loss": 0.3283,
      "num_input_tokens_seen": 32005712,
      "step": 34510
    },
    {
      "epoch": 16.272984441301272,
      "grad_norm": 0.0003648332494776696,
      "learning_rate": 0.013709555224153935,
      "loss": 0.3508,
      "num_input_tokens_seen": 32010992,
      "step": 34515
    },
    {
      "epoch": 16.275341819896276,
      "grad_norm": 0.0008427563589066267,
      "learning_rate": 0.013684963474139222,
      "loss": 0.337,
      "num_input_tokens_seen": 32015600,
      "step": 34520
    },
    {
      "epoch": 16.277699198491277,
      "grad_norm": 0.00041175211663357913,
      "learning_rate": 0.013660392745616224,
      "loss": 0.3365,
      "num_input_tokens_seen": 32020064,
      "step": 34525
    },
    {
      "epoch": 16.28005657708628,
      "grad_norm": 0.0008631301461718976,
      "learning_rate": 0.013635843042373974,
      "loss": 0.315,
      "num_input_tokens_seen": 32025168,
      "step": 34530
    },
    {
      "epoch": 16.28241395568128,
      "grad_norm": 0.0002976927498821169,
      "learning_rate": 0.01361131436819843,
      "loss": 0.3446,
      "num_input_tokens_seen": 32030736,
      "step": 34535
    },
    {
      "epoch": 16.284771334276286,
      "grad_norm": 0.0004672621435020119,
      "learning_rate": 0.013586806726872147,
      "loss": 0.2945,
      "num_input_tokens_seen": 32035376,
      "step": 34540
    },
    {
      "epoch": 16.287128712871286,
      "grad_norm": 0.0004539421643130481,
      "learning_rate": 0.013562320122174537,
      "loss": 0.3269,
      "num_input_tokens_seen": 32039552,
      "step": 34545
    },
    {
      "epoch": 16.28948609146629,
      "grad_norm": 0.0007112338207662106,
      "learning_rate": 0.013537854557881762,
      "loss": 0.3182,
      "num_input_tokens_seen": 32044416,
      "step": 34550
    },
    {
      "epoch": 16.29184347006129,
      "grad_norm": 0.0005252067348919809,
      "learning_rate": 0.013513410037766687,
      "loss": 0.3237,
      "num_input_tokens_seen": 32048688,
      "step": 34555
    },
    {
      "epoch": 16.294200848656295,
      "grad_norm": 0.0006369067705236375,
      "learning_rate": 0.013488986565598998,
      "loss": 0.3828,
      "num_input_tokens_seen": 32053648,
      "step": 34560
    },
    {
      "epoch": 16.296558227251296,
      "grad_norm": 0.0008563878363929689,
      "learning_rate": 0.013464584145145097,
      "loss": 0.3652,
      "num_input_tokens_seen": 32058224,
      "step": 34565
    },
    {
      "epoch": 16.2989156058463,
      "grad_norm": 0.000575774407479912,
      "learning_rate": 0.013440202780168109,
      "loss": 0.3903,
      "num_input_tokens_seen": 32063248,
      "step": 34570
    },
    {
      "epoch": 16.3012729844413,
      "grad_norm": 0.000622838968411088,
      "learning_rate": 0.01341584247442799,
      "loss": 0.3048,
      "num_input_tokens_seen": 32068288,
      "step": 34575
    },
    {
      "epoch": 16.303630363036305,
      "grad_norm": 0.00035171539639122784,
      "learning_rate": 0.013391503231681355,
      "loss": 0.3236,
      "num_input_tokens_seen": 32073024,
      "step": 34580
    },
    {
      "epoch": 16.305987741631306,
      "grad_norm": 0.0003627141995821148,
      "learning_rate": 0.013367185055681685,
      "loss": 0.335,
      "num_input_tokens_seen": 32077952,
      "step": 34585
    },
    {
      "epoch": 16.30834512022631,
      "grad_norm": 0.0006656666519120336,
      "learning_rate": 0.013342887950179095,
      "loss": 0.2865,
      "num_input_tokens_seen": 32083296,
      "step": 34590
    },
    {
      "epoch": 16.31070249882131,
      "grad_norm": 0.00039658305468037724,
      "learning_rate": 0.013318611918920554,
      "loss": 0.2791,
      "num_input_tokens_seen": 32088128,
      "step": 34595
    },
    {
      "epoch": 16.313059877416315,
      "grad_norm": 0.00045574267278425395,
      "learning_rate": 0.01329435696564965,
      "loss": 0.3191,
      "num_input_tokens_seen": 32092528,
      "step": 34600
    },
    {
      "epoch": 16.313059877416315,
      "eval_loss": 0.3289685547351837,
      "eval_runtime": 33.6028,
      "eval_samples_per_second": 28.063,
      "eval_steps_per_second": 14.046,
      "num_input_tokens_seen": 32092528,
      "step": 34600
    },
    {
      "epoch": 16.315417256011315,
      "grad_norm": 0.0004941652296110988,
      "learning_rate": 0.013270123094106894,
      "loss": 0.3667,
      "num_input_tokens_seen": 32097728,
      "step": 34605
    },
    {
      "epoch": 16.31777463460632,
      "grad_norm": 0.0010971195297315717,
      "learning_rate": 0.013245910308029395,
      "loss": 0.4001,
      "num_input_tokens_seen": 32101872,
      "step": 34610
    },
    {
      "epoch": 16.32013201320132,
      "grad_norm": 0.0008606293704360723,
      "learning_rate": 0.0132217186111511,
      "loss": 0.3103,
      "num_input_tokens_seen": 32106896,
      "step": 34615
    },
    {
      "epoch": 16.32248939179632,
      "grad_norm": 0.0004981998936273158,
      "learning_rate": 0.013197548007202626,
      "loss": 0.3514,
      "num_input_tokens_seen": 32111280,
      "step": 34620
    },
    {
      "epoch": 16.324846770391325,
      "grad_norm": 0.00040432330570183694,
      "learning_rate": 0.01317339849991142,
      "loss": 0.3301,
      "num_input_tokens_seen": 32116256,
      "step": 34625
    },
    {
      "epoch": 16.327204148986326,
      "grad_norm": 0.0008150822250172496,
      "learning_rate": 0.013149270093001675,
      "loss": 0.3256,
      "num_input_tokens_seen": 32120224,
      "step": 34630
    },
    {
      "epoch": 16.32956152758133,
      "grad_norm": 0.0005399414803832769,
      "learning_rate": 0.013125162790194227,
      "loss": 0.338,
      "num_input_tokens_seen": 32124720,
      "step": 34635
    },
    {
      "epoch": 16.33191890617633,
      "grad_norm": 0.0007156927604228258,
      "learning_rate": 0.01310107659520674,
      "loss": 0.3355,
      "num_input_tokens_seen": 32129600,
      "step": 34640
    },
    {
      "epoch": 16.334276284771335,
      "grad_norm": 0.0003497044963296503,
      "learning_rate": 0.013077011511753655,
      "loss": 0.31,
      "num_input_tokens_seen": 32134128,
      "step": 34645
    },
    {
      "epoch": 16.336633663366335,
      "grad_norm": 0.0012972570257261395,
      "learning_rate": 0.013052967543546056,
      "loss": 0.3329,
      "num_input_tokens_seen": 32138976,
      "step": 34650
    },
    {
      "epoch": 16.33899104196134,
      "grad_norm": 0.00044288436765782535,
      "learning_rate": 0.01302894469429186,
      "loss": 0.3646,
      "num_input_tokens_seen": 32143056,
      "step": 34655
    },
    {
      "epoch": 16.34134842055634,
      "grad_norm": 0.0006570191471837461,
      "learning_rate": 0.013004942967695653,
      "loss": 0.3339,
      "num_input_tokens_seen": 32146944,
      "step": 34660
    },
    {
      "epoch": 16.343705799151344,
      "grad_norm": 0.0006515401764772832,
      "learning_rate": 0.012980962367458859,
      "loss": 0.3545,
      "num_input_tokens_seen": 32151744,
      "step": 34665
    },
    {
      "epoch": 16.346063177746345,
      "grad_norm": 0.0006345859728753567,
      "learning_rate": 0.012957002897279567,
      "loss": 0.2868,
      "num_input_tokens_seen": 32156560,
      "step": 34670
    },
    {
      "epoch": 16.34842055634135,
      "grad_norm": 0.0003938811714760959,
      "learning_rate": 0.012933064560852576,
      "loss": 0.3205,
      "num_input_tokens_seen": 32161344,
      "step": 34675
    },
    {
      "epoch": 16.35077793493635,
      "grad_norm": 0.0007805594941601157,
      "learning_rate": 0.012909147361869527,
      "loss": 0.3362,
      "num_input_tokens_seen": 32167872,
      "step": 34680
    },
    {
      "epoch": 16.353135313531354,
      "grad_norm": 0.0004731643130071461,
      "learning_rate": 0.012885251304018774,
      "loss": 0.3372,
      "num_input_tokens_seen": 32172336,
      "step": 34685
    },
    {
      "epoch": 16.355492692126354,
      "grad_norm": 0.0006546253571286798,
      "learning_rate": 0.012861376390985335,
      "loss": 0.3523,
      "num_input_tokens_seen": 32177840,
      "step": 34690
    },
    {
      "epoch": 16.35785007072136,
      "grad_norm": 0.0003686354903038591,
      "learning_rate": 0.012837522626451063,
      "loss": 0.3044,
      "num_input_tokens_seen": 32183184,
      "step": 34695
    },
    {
      "epoch": 16.36020744931636,
      "grad_norm": 0.0006630761781707406,
      "learning_rate": 0.01281369001409447,
      "loss": 0.2931,
      "num_input_tokens_seen": 32187408,
      "step": 34700
    },
    {
      "epoch": 16.362564827911363,
      "grad_norm": 0.00040485465433448553,
      "learning_rate": 0.012789878557590877,
      "loss": 0.3363,
      "num_input_tokens_seen": 32192272,
      "step": 34705
    },
    {
      "epoch": 16.364922206506364,
      "grad_norm": 0.00037871699896641076,
      "learning_rate": 0.012766088260612334,
      "loss": 0.3449,
      "num_input_tokens_seen": 32197488,
      "step": 34710
    },
    {
      "epoch": 16.367279585101368,
      "grad_norm": 0.0004129793378524482,
      "learning_rate": 0.012742319126827523,
      "loss": 0.2974,
      "num_input_tokens_seen": 32201984,
      "step": 34715
    },
    {
      "epoch": 16.36963696369637,
      "grad_norm": 0.0004974536714144051,
      "learning_rate": 0.012718571159902008,
      "loss": 0.352,
      "num_input_tokens_seen": 32207088,
      "step": 34720
    },
    {
      "epoch": 16.371994342291373,
      "grad_norm": 0.0006344598368741572,
      "learning_rate": 0.01269484436349803,
      "loss": 0.3341,
      "num_input_tokens_seen": 32211616,
      "step": 34725
    },
    {
      "epoch": 16.374351720886374,
      "grad_norm": 0.00048104493180289865,
      "learning_rate": 0.012671138741274528,
      "loss": 0.338,
      "num_input_tokens_seen": 32216624,
      "step": 34730
    },
    {
      "epoch": 16.376709099481378,
      "grad_norm": 0.0005211880197748542,
      "learning_rate": 0.012647454296887194,
      "loss": 0.342,
      "num_input_tokens_seen": 32220656,
      "step": 34735
    },
    {
      "epoch": 16.37906647807638,
      "grad_norm": 0.00034720395342446864,
      "learning_rate": 0.012623791033988507,
      "loss": 0.3782,
      "num_input_tokens_seen": 32225376,
      "step": 34740
    },
    {
      "epoch": 16.381423856671383,
      "grad_norm": 0.000707377097569406,
      "learning_rate": 0.012600148956227597,
      "loss": 0.3296,
      "num_input_tokens_seen": 32229824,
      "step": 34745
    },
    {
      "epoch": 16.383781235266383,
      "grad_norm": 0.0006738206138834357,
      "learning_rate": 0.012576528067250414,
      "loss": 0.3178,
      "num_input_tokens_seen": 32234528,
      "step": 34750
    },
    {
      "epoch": 16.386138613861387,
      "grad_norm": 0.0007544878753833473,
      "learning_rate": 0.012552928370699561,
      "loss": 0.304,
      "num_input_tokens_seen": 32238592,
      "step": 34755
    },
    {
      "epoch": 16.388495992456388,
      "grad_norm": 0.0007441902416758239,
      "learning_rate": 0.012529349870214411,
      "loss": 0.3382,
      "num_input_tokens_seen": 32243264,
      "step": 34760
    },
    {
      "epoch": 16.390853371051392,
      "grad_norm": 0.0005973994266241789,
      "learning_rate": 0.012505792569431106,
      "loss": 0.2984,
      "num_input_tokens_seen": 32248096,
      "step": 34765
    },
    {
      "epoch": 16.393210749646393,
      "grad_norm": 0.0003801946004386991,
      "learning_rate": 0.012482256471982422,
      "loss": 0.3609,
      "num_input_tokens_seen": 32253072,
      "step": 34770
    },
    {
      "epoch": 16.395568128241397,
      "grad_norm": 0.000832955411169678,
      "learning_rate": 0.012458741581497956,
      "loss": 0.3253,
      "num_input_tokens_seen": 32257440,
      "step": 34775
    },
    {
      "epoch": 16.397925506836398,
      "grad_norm": 0.00045947483158670366,
      "learning_rate": 0.012435247901603974,
      "loss": 0.3059,
      "num_input_tokens_seen": 32262672,
      "step": 34780
    },
    {
      "epoch": 16.400282885431402,
      "grad_norm": 0.0004925584071315825,
      "learning_rate": 0.012411775435923528,
      "loss": 0.3393,
      "num_input_tokens_seen": 32267248,
      "step": 34785
    },
    {
      "epoch": 16.402640264026402,
      "grad_norm": 0.0004215284716337919,
      "learning_rate": 0.012388324188076354,
      "loss": 0.3199,
      "num_input_tokens_seen": 32272192,
      "step": 34790
    },
    {
      "epoch": 16.404997642621407,
      "grad_norm": 0.000703357916790992,
      "learning_rate": 0.012364894161678913,
      "loss": 0.376,
      "num_input_tokens_seen": 32275968,
      "step": 34795
    },
    {
      "epoch": 16.407355021216407,
      "grad_norm": 0.00048568338388577104,
      "learning_rate": 0.012341485360344445,
      "loss": 0.2926,
      "num_input_tokens_seen": 32279920,
      "step": 34800
    },
    {
      "epoch": 16.407355021216407,
      "eval_loss": 0.3287159502506256,
      "eval_runtime": 33.599,
      "eval_samples_per_second": 28.066,
      "eval_steps_per_second": 14.048,
      "num_input_tokens_seen": 32279920,
      "step": 34800
    },
    {
      "epoch": 16.40971239981141,
      "grad_norm": 0.0007921826327219605,
      "learning_rate": 0.01231809778768283,
      "loss": 0.338,
      "num_input_tokens_seen": 32284288,
      "step": 34805
    },
    {
      "epoch": 16.412069778406412,
      "grad_norm": 0.00045303557999432087,
      "learning_rate": 0.012294731447300799,
      "loss": 0.3277,
      "num_input_tokens_seen": 32289264,
      "step": 34810
    },
    {
      "epoch": 16.414427157001413,
      "grad_norm": 0.0007921472424641252,
      "learning_rate": 0.012271386342801671,
      "loss": 0.3331,
      "num_input_tokens_seen": 32294368,
      "step": 34815
    },
    {
      "epoch": 16.416784535596417,
      "grad_norm": 0.0006046927883289754,
      "learning_rate": 0.012248062477785565,
      "loss": 0.3245,
      "num_input_tokens_seen": 32298624,
      "step": 34820
    },
    {
      "epoch": 16.419141914191417,
      "grad_norm": 0.00034902431070804596,
      "learning_rate": 0.012224759855849305,
      "loss": 0.3339,
      "num_input_tokens_seen": 32303504,
      "step": 34825
    },
    {
      "epoch": 16.42149929278642,
      "grad_norm": 0.00040909615927375853,
      "learning_rate": 0.012201478480586513,
      "loss": 0.3417,
      "num_input_tokens_seen": 32308384,
      "step": 34830
    },
    {
      "epoch": 16.423856671381422,
      "grad_norm": 0.0004196910886093974,
      "learning_rate": 0.012178218355587389,
      "loss": 0.3265,
      "num_input_tokens_seen": 32313696,
      "step": 34835
    },
    {
      "epoch": 16.426214049976426,
      "grad_norm": 0.0007704325253143907,
      "learning_rate": 0.01215497948443896,
      "loss": 0.3164,
      "num_input_tokens_seen": 32318400,
      "step": 34840
    },
    {
      "epoch": 16.428571428571427,
      "grad_norm": 0.0006123183993622661,
      "learning_rate": 0.012131761870724993,
      "loss": 0.3339,
      "num_input_tokens_seen": 32322896,
      "step": 34845
    },
    {
      "epoch": 16.43092880716643,
      "grad_norm": 0.0004344562184996903,
      "learning_rate": 0.012108565518025893,
      "loss": 0.32,
      "num_input_tokens_seen": 32327920,
      "step": 34850
    },
    {
      "epoch": 16.433286185761432,
      "grad_norm": 0.001281208242289722,
      "learning_rate": 0.012085390429918862,
      "loss": 0.37,
      "num_input_tokens_seen": 32331920,
      "step": 34855
    },
    {
      "epoch": 16.435643564356436,
      "grad_norm": 0.00038933567702770233,
      "learning_rate": 0.012062236609977744,
      "loss": 0.3176,
      "num_input_tokens_seen": 32336272,
      "step": 34860
    },
    {
      "epoch": 16.438000942951437,
      "grad_norm": 0.0003655453911051154,
      "learning_rate": 0.01203910406177318,
      "loss": 0.2986,
      "num_input_tokens_seen": 32340400,
      "step": 34865
    },
    {
      "epoch": 16.44035832154644,
      "grad_norm": 0.0003574155271053314,
      "learning_rate": 0.01201599278887252,
      "loss": 0.2961,
      "num_input_tokens_seen": 32345376,
      "step": 34870
    },
    {
      "epoch": 16.44271570014144,
      "grad_norm": 0.0004131785244680941,
      "learning_rate": 0.011992902794839744,
      "loss": 0.3751,
      "num_input_tokens_seen": 32349776,
      "step": 34875
    },
    {
      "epoch": 16.445073078736446,
      "grad_norm": 0.0007253691437654197,
      "learning_rate": 0.011969834083235703,
      "loss": 0.3915,
      "num_input_tokens_seen": 32354384,
      "step": 34880
    },
    {
      "epoch": 16.447430457331446,
      "grad_norm": 0.0004986560088582337,
      "learning_rate": 0.011946786657617836,
      "loss": 0.3564,
      "num_input_tokens_seen": 32358784,
      "step": 34885
    },
    {
      "epoch": 16.44978783592645,
      "grad_norm": 0.0004374063282739371,
      "learning_rate": 0.011923760521540332,
      "loss": 0.3104,
      "num_input_tokens_seen": 32364560,
      "step": 34890
    },
    {
      "epoch": 16.45214521452145,
      "grad_norm": 0.0008592430385760963,
      "learning_rate": 0.011900755678554153,
      "loss": 0.3685,
      "num_input_tokens_seen": 32368448,
      "step": 34895
    },
    {
      "epoch": 16.454502593116455,
      "grad_norm": 0.00031306693563237786,
      "learning_rate": 0.011877772132206893,
      "loss": 0.3479,
      "num_input_tokens_seen": 32373376,
      "step": 34900
    },
    {
      "epoch": 16.456859971711456,
      "grad_norm": 0.0004800009191967547,
      "learning_rate": 0.011854809886042915,
      "loss": 0.3299,
      "num_input_tokens_seen": 32377952,
      "step": 34905
    },
    {
      "epoch": 16.45921735030646,
      "grad_norm": 0.0006486248457804322,
      "learning_rate": 0.011831868943603325,
      "loss": 0.3463,
      "num_input_tokens_seen": 32381872,
      "step": 34910
    },
    {
      "epoch": 16.46157472890146,
      "grad_norm": 0.0004356966237537563,
      "learning_rate": 0.011808949308425836,
      "loss": 0.325,
      "num_input_tokens_seen": 32386016,
      "step": 34915
    },
    {
      "epoch": 16.463932107496465,
      "grad_norm": 0.00032061105594038963,
      "learning_rate": 0.01178605098404501,
      "loss": 0.3292,
      "num_input_tokens_seen": 32390304,
      "step": 34920
    },
    {
      "epoch": 16.466289486091465,
      "grad_norm": 0.0005856853676959872,
      "learning_rate": 0.011763173973992002,
      "loss": 0.3483,
      "num_input_tokens_seen": 32394880,
      "step": 34925
    },
    {
      "epoch": 16.46864686468647,
      "grad_norm": 0.0007568149594590068,
      "learning_rate": 0.011740318281794776,
      "loss": 0.2523,
      "num_input_tokens_seen": 32399632,
      "step": 34930
    },
    {
      "epoch": 16.47100424328147,
      "grad_norm": 0.0004921752260997891,
      "learning_rate": 0.01171748391097796,
      "loss": 0.3483,
      "num_input_tokens_seen": 32404192,
      "step": 34935
    },
    {
      "epoch": 16.473361621876474,
      "grad_norm": 0.0004033578443340957,
      "learning_rate": 0.011694670865062873,
      "loss": 0.3042,
      "num_input_tokens_seen": 32407616,
      "step": 34940
    },
    {
      "epoch": 16.475719000471475,
      "grad_norm": 0.0007643658900633454,
      "learning_rate": 0.011671879147567616,
      "loss": 0.349,
      "num_input_tokens_seen": 32412640,
      "step": 34945
    },
    {
      "epoch": 16.47807637906648,
      "grad_norm": 0.0008234513225033879,
      "learning_rate": 0.011649108762006893,
      "loss": 0.3339,
      "num_input_tokens_seen": 32417008,
      "step": 34950
    },
    {
      "epoch": 16.48043375766148,
      "grad_norm": 0.00042887250310741365,
      "learning_rate": 0.011626359711892265,
      "loss": 0.2911,
      "num_input_tokens_seen": 32422384,
      "step": 34955
    },
    {
      "epoch": 16.482791136256484,
      "grad_norm": 0.0006734798080287874,
      "learning_rate": 0.01160363200073189,
      "loss": 0.3054,
      "num_input_tokens_seen": 32427088,
      "step": 34960
    },
    {
      "epoch": 16.485148514851485,
      "grad_norm": 0.0005146127077750862,
      "learning_rate": 0.011580925632030614,
      "loss": 0.3336,
      "num_input_tokens_seen": 32431392,
      "step": 34965
    },
    {
      "epoch": 16.48750589344649,
      "grad_norm": 0.0009458709973841906,
      "learning_rate": 0.011558240609290104,
      "loss": 0.4178,
      "num_input_tokens_seen": 32435568,
      "step": 34970
    },
    {
      "epoch": 16.48986327204149,
      "grad_norm": 0.0007688464829698205,
      "learning_rate": 0.011535576936008679,
      "loss": 0.3096,
      "num_input_tokens_seen": 32439344,
      "step": 34975
    },
    {
      "epoch": 16.492220650636494,
      "grad_norm": 0.00047899014316499233,
      "learning_rate": 0.011512934615681309,
      "loss": 0.3186,
      "num_input_tokens_seen": 32444240,
      "step": 34980
    },
    {
      "epoch": 16.494578029231494,
      "grad_norm": 0.0005906751612201333,
      "learning_rate": 0.011490313651799765,
      "loss": 0.2473,
      "num_input_tokens_seen": 32449024,
      "step": 34985
    },
    {
      "epoch": 16.4969354078265,
      "grad_norm": 0.0007716568652540445,
      "learning_rate": 0.011467714047852512,
      "loss": 0.3422,
      "num_input_tokens_seen": 32453168,
      "step": 34990
    },
    {
      "epoch": 16.4992927864215,
      "grad_norm": 0.0007014306029304862,
      "learning_rate": 0.011445135807324624,
      "loss": 0.2993,
      "num_input_tokens_seen": 32457824,
      "step": 34995
    },
    {
      "epoch": 16.501650165016503,
      "grad_norm": 0.0003288265143055469,
      "learning_rate": 0.011422578933698002,
      "loss": 0.3153,
      "num_input_tokens_seen": 32461952,
      "step": 35000
    },
    {
      "epoch": 16.501650165016503,
      "eval_loss": 0.3286610543727875,
      "eval_runtime": 33.4832,
      "eval_samples_per_second": 28.163,
      "eval_steps_per_second": 14.097,
      "num_input_tokens_seen": 32461952,
      "step": 35000
    },
    {
      "epoch": 16.504007543611504,
      "grad_norm": 0.00034600909566506743,
      "learning_rate": 0.011400043430451161,
      "loss": 0.3105,
      "num_input_tokens_seen": 32466352,
      "step": 35005
    },
    {
      "epoch": 16.506364922206508,
      "grad_norm": 0.0004993703914806247,
      "learning_rate": 0.011377529301059392,
      "loss": 0.2935,
      "num_input_tokens_seen": 32471680,
      "step": 35010
    },
    {
      "epoch": 16.50872230080151,
      "grad_norm": 0.00043063476914539933,
      "learning_rate": 0.011355036548994646,
      "loss": 0.339,
      "num_input_tokens_seen": 32476336,
      "step": 35015
    },
    {
      "epoch": 16.51107967939651,
      "grad_norm": 0.0012343614362180233,
      "learning_rate": 0.011332565177725584,
      "loss": 0.3363,
      "num_input_tokens_seen": 32480528,
      "step": 35020
    },
    {
      "epoch": 16.513437057991514,
      "grad_norm": 0.0005779620260000229,
      "learning_rate": 0.011310115190717585,
      "loss": 0.3609,
      "num_input_tokens_seen": 32484384,
      "step": 35025
    },
    {
      "epoch": 16.515794436586514,
      "grad_norm": 0.0007416508160531521,
      "learning_rate": 0.01128768659143271,
      "loss": 0.2738,
      "num_input_tokens_seen": 32489600,
      "step": 35030
    },
    {
      "epoch": 16.51815181518152,
      "grad_norm": 0.0004362393810879439,
      "learning_rate": 0.011265279383329713,
      "loss": 0.3157,
      "num_input_tokens_seen": 32493840,
      "step": 35035
    },
    {
      "epoch": 16.52050919377652,
      "grad_norm": 0.0004120978992432356,
      "learning_rate": 0.01124289356986411,
      "loss": 0.3581,
      "num_input_tokens_seen": 32497872,
      "step": 35040
    },
    {
      "epoch": 16.522866572371523,
      "grad_norm": 0.0007055887253955007,
      "learning_rate": 0.011220529154488023,
      "loss": 0.3311,
      "num_input_tokens_seen": 32502352,
      "step": 35045
    },
    {
      "epoch": 16.525223950966524,
      "grad_norm": 0.0006785319419577718,
      "learning_rate": 0.011198186140650346,
      "loss": 0.2607,
      "num_input_tokens_seen": 32506864,
      "step": 35050
    },
    {
      "epoch": 16.527581329561528,
      "grad_norm": 0.000681796227581799,
      "learning_rate": 0.011175864531796685,
      "loss": 0.3344,
      "num_input_tokens_seen": 32511728,
      "step": 35055
    },
    {
      "epoch": 16.52993870815653,
      "grad_norm": 0.0006598320906050503,
      "learning_rate": 0.011153564331369258,
      "loss": 0.3274,
      "num_input_tokens_seen": 32516544,
      "step": 35060
    },
    {
      "epoch": 16.532296086751533,
      "grad_norm": 0.0008056619553826749,
      "learning_rate": 0.011131285542807078,
      "loss": 0.3029,
      "num_input_tokens_seen": 32520848,
      "step": 35065
    },
    {
      "epoch": 16.534653465346533,
      "grad_norm": 0.0004527486162260175,
      "learning_rate": 0.011109028169545815,
      "loss": 0.2831,
      "num_input_tokens_seen": 32525344,
      "step": 35070
    },
    {
      "epoch": 16.537010843941538,
      "grad_norm": 0.00039509066846221685,
      "learning_rate": 0.011086792215017804,
      "loss": 0.2703,
      "num_input_tokens_seen": 32530560,
      "step": 35075
    },
    {
      "epoch": 16.539368222536538,
      "grad_norm": 0.0004217651148792356,
      "learning_rate": 0.011064577682652137,
      "loss": 0.3527,
      "num_input_tokens_seen": 32535104,
      "step": 35080
    },
    {
      "epoch": 16.541725601131542,
      "grad_norm": 0.000845195958390832,
      "learning_rate": 0.011042384575874559,
      "loss": 0.3423,
      "num_input_tokens_seen": 32539936,
      "step": 35085
    },
    {
      "epoch": 16.544082979726543,
      "grad_norm": 0.00043140375055372715,
      "learning_rate": 0.011020212898107512,
      "loss": 0.3221,
      "num_input_tokens_seen": 32544208,
      "step": 35090
    },
    {
      "epoch": 16.546440358321547,
      "grad_norm": 0.00041014060843735933,
      "learning_rate": 0.010998062652770197,
      "loss": 0.3045,
      "num_input_tokens_seen": 32549104,
      "step": 35095
    },
    {
      "epoch": 16.548797736916548,
      "grad_norm": 0.0007439719629473984,
      "learning_rate": 0.010975933843278428,
      "loss": 0.3106,
      "num_input_tokens_seen": 32554560,
      "step": 35100
    },
    {
      "epoch": 16.551155115511552,
      "grad_norm": 0.0007063186494633555,
      "learning_rate": 0.010953826473044714,
      "loss": 0.3501,
      "num_input_tokens_seen": 32558992,
      "step": 35105
    },
    {
      "epoch": 16.553512494106553,
      "grad_norm": 0.0005050214240327477,
      "learning_rate": 0.010931740545478357,
      "loss": 0.322,
      "num_input_tokens_seen": 32564208,
      "step": 35110
    },
    {
      "epoch": 16.555869872701557,
      "grad_norm": 0.00036158872535452247,
      "learning_rate": 0.010909676063985218,
      "loss": 0.3413,
      "num_input_tokens_seen": 32568368,
      "step": 35115
    },
    {
      "epoch": 16.558227251296557,
      "grad_norm": 0.00036590086529031396,
      "learning_rate": 0.010887633031967974,
      "loss": 0.3308,
      "num_input_tokens_seen": 32574640,
      "step": 35120
    },
    {
      "epoch": 16.56058462989156,
      "grad_norm": 0.0010527214035391808,
      "learning_rate": 0.01086561145282589,
      "loss": 0.3291,
      "num_input_tokens_seen": 32579600,
      "step": 35125
    },
    {
      "epoch": 16.562942008486562,
      "grad_norm": 0.00039805658161640167,
      "learning_rate": 0.010843611329954983,
      "loss": 0.2932,
      "num_input_tokens_seen": 32583856,
      "step": 35130
    },
    {
      "epoch": 16.565299387081566,
      "grad_norm": 0.0003876847622450441,
      "learning_rate": 0.010821632666747988,
      "loss": 0.327,
      "num_input_tokens_seen": 32588464,
      "step": 35135
    },
    {
      "epoch": 16.567656765676567,
      "grad_norm": 0.0006801072740927339,
      "learning_rate": 0.010799675466594244,
      "loss": 0.3028,
      "num_input_tokens_seen": 32592784,
      "step": 35140
    },
    {
      "epoch": 16.57001414427157,
      "grad_norm": 0.0002830050652846694,
      "learning_rate": 0.010777739732879826,
      "loss": 0.2855,
      "num_input_tokens_seen": 32596816,
      "step": 35145
    },
    {
      "epoch": 16.572371522866572,
      "grad_norm": 0.0006620403728447855,
      "learning_rate": 0.010755825468987562,
      "loss": 0.3316,
      "num_input_tokens_seen": 32601712,
      "step": 35150
    },
    {
      "epoch": 16.574728901461576,
      "grad_norm": 0.0008036388899199665,
      "learning_rate": 0.010733932678296814,
      "loss": 0.3565,
      "num_input_tokens_seen": 32606608,
      "step": 35155
    },
    {
      "epoch": 16.577086280056577,
      "grad_norm": 0.0004102684906683862,
      "learning_rate": 0.010712061364183817,
      "loss": 0.3485,
      "num_input_tokens_seen": 32610800,
      "step": 35160
    },
    {
      "epoch": 16.57944365865158,
      "grad_norm": 0.0006706236163154244,
      "learning_rate": 0.010690211530021337,
      "loss": 0.3139,
      "num_input_tokens_seen": 32615568,
      "step": 35165
    },
    {
      "epoch": 16.58180103724658,
      "grad_norm": 0.0004571249010041356,
      "learning_rate": 0.01066838317917893,
      "loss": 0.3141,
      "num_input_tokens_seen": 32620912,
      "step": 35170
    },
    {
      "epoch": 16.584158415841586,
      "grad_norm": 0.00027340013184584677,
      "learning_rate": 0.010646576315022787,
      "loss": 0.3082,
      "num_input_tokens_seen": 32625872,
      "step": 35175
    },
    {
      "epoch": 16.586515794436586,
      "grad_norm": 0.00046912406105548143,
      "learning_rate": 0.010624790940915785,
      "loss": 0.3353,
      "num_input_tokens_seen": 32629520,
      "step": 35180
    },
    {
      "epoch": 16.58887317303159,
      "grad_norm": 0.0004007226671092212,
      "learning_rate": 0.0106030270602175,
      "loss": 0.3261,
      "num_input_tokens_seen": 32634272,
      "step": 35185
    },
    {
      "epoch": 16.59123055162659,
      "grad_norm": 0.0005749795236624777,
      "learning_rate": 0.010581284676284252,
      "loss": 0.4017,
      "num_input_tokens_seen": 32638688,
      "step": 35190
    },
    {
      "epoch": 16.593587930221595,
      "grad_norm": 0.0006376617820933461,
      "learning_rate": 0.010559563792468923,
      "loss": 0.3367,
      "num_input_tokens_seen": 32642832,
      "step": 35195
    },
    {
      "epoch": 16.595945308816596,
      "grad_norm": 0.00034410165972076356,
      "learning_rate": 0.010537864412121217,
      "loss": 0.3194,
      "num_input_tokens_seen": 32647696,
      "step": 35200
    },
    {
      "epoch": 16.595945308816596,
      "eval_loss": 0.3285839855670929,
      "eval_runtime": 33.5409,
      "eval_samples_per_second": 28.115,
      "eval_steps_per_second": 14.072,
      "num_input_tokens_seen": 32647696,
      "step": 35200
    },
    {
      "epoch": 16.5983026874116,
      "grad_norm": 0.0007358368020504713,
      "learning_rate": 0.010516186538587357,
      "loss": 0.3139,
      "num_input_tokens_seen": 32652608,
      "step": 35205
    },
    {
      "epoch": 16.6006600660066,
      "grad_norm": 0.0003587876562960446,
      "learning_rate": 0.01049453017521042,
      "loss": 0.3142,
      "num_input_tokens_seen": 32656576,
      "step": 35210
    },
    {
      "epoch": 16.603017444601605,
      "grad_norm": 0.00037776431418024004,
      "learning_rate": 0.010472895325330083,
      "loss": 0.3202,
      "num_input_tokens_seen": 32661792,
      "step": 35215
    },
    {
      "epoch": 16.605374823196605,
      "grad_norm": 0.0005141954752616584,
      "learning_rate": 0.010451281992282662,
      "loss": 0.3294,
      "num_input_tokens_seen": 32665936,
      "step": 35220
    },
    {
      "epoch": 16.607732201791606,
      "grad_norm": 0.0004008707182947546,
      "learning_rate": 0.01042969017940124,
      "loss": 0.3706,
      "num_input_tokens_seen": 32670688,
      "step": 35225
    },
    {
      "epoch": 16.61008958038661,
      "grad_norm": 0.0012639540946111083,
      "learning_rate": 0.01040811989001557,
      "loss": 0.3395,
      "num_input_tokens_seen": 32676032,
      "step": 35230
    },
    {
      "epoch": 16.61244695898161,
      "grad_norm": 0.0007288546767085791,
      "learning_rate": 0.010386571127451992,
      "loss": 0.3354,
      "num_input_tokens_seen": 32680656,
      "step": 35235
    },
    {
      "epoch": 16.614804337576615,
      "grad_norm": 0.000802516529802233,
      "learning_rate": 0.010365043895033682,
      "loss": 0.3078,
      "num_input_tokens_seen": 32685120,
      "step": 35240
    },
    {
      "epoch": 16.617161716171616,
      "grad_norm": 0.0006194415036588907,
      "learning_rate": 0.010343538196080365,
      "loss": 0.3186,
      "num_input_tokens_seen": 32689632,
      "step": 35245
    },
    {
      "epoch": 16.61951909476662,
      "grad_norm": 0.0006778054521419108,
      "learning_rate": 0.010322054033908457,
      "loss": 0.308,
      "num_input_tokens_seen": 32695136,
      "step": 35250
    },
    {
      "epoch": 16.62187647336162,
      "grad_norm": 0.0004138107760809362,
      "learning_rate": 0.010300591411831156,
      "loss": 0.2956,
      "num_input_tokens_seen": 32699760,
      "step": 35255
    },
    {
      "epoch": 16.624233851956625,
      "grad_norm": 0.0006957348086871207,
      "learning_rate": 0.010279150333158198,
      "loss": 0.2907,
      "num_input_tokens_seen": 32704720,
      "step": 35260
    },
    {
      "epoch": 16.626591230551625,
      "grad_norm": 0.0008132615475915372,
      "learning_rate": 0.010257730801196107,
      "loss": 0.3574,
      "num_input_tokens_seen": 32709376,
      "step": 35265
    },
    {
      "epoch": 16.62894860914663,
      "grad_norm": 0.00035567270242609084,
      "learning_rate": 0.010236332819248056,
      "loss": 0.2982,
      "num_input_tokens_seen": 32713936,
      "step": 35270
    },
    {
      "epoch": 16.63130598774163,
      "grad_norm": 0.00023457252245862037,
      "learning_rate": 0.010214956390613854,
      "loss": 0.3715,
      "num_input_tokens_seen": 32718512,
      "step": 35275
    },
    {
      "epoch": 16.633663366336634,
      "grad_norm": 0.0007917041657492518,
      "learning_rate": 0.010193601518590034,
      "loss": 0.3478,
      "num_input_tokens_seen": 32722768,
      "step": 35280
    },
    {
      "epoch": 16.636020744931635,
      "grad_norm": 0.0007126876153051853,
      "learning_rate": 0.010172268206469758,
      "loss": 0.3132,
      "num_input_tokens_seen": 32726896,
      "step": 35285
    },
    {
      "epoch": 16.63837812352664,
      "grad_norm": 0.0006806279998272657,
      "learning_rate": 0.010150956457542897,
      "loss": 0.3194,
      "num_input_tokens_seen": 32731456,
      "step": 35290
    },
    {
      "epoch": 16.64073550212164,
      "grad_norm": 0.0006839651614427567,
      "learning_rate": 0.010129666275096054,
      "loss": 0.3032,
      "num_input_tokens_seen": 32735824,
      "step": 35295
    },
    {
      "epoch": 16.643092880716644,
      "grad_norm": 0.00043068578816019,
      "learning_rate": 0.010108397662412338,
      "loss": 0.3058,
      "num_input_tokens_seen": 32739760,
      "step": 35300
    },
    {
      "epoch": 16.645450259311644,
      "grad_norm": 0.0005297245224937797,
      "learning_rate": 0.010087150622771707,
      "loss": 0.3309,
      "num_input_tokens_seen": 32745088,
      "step": 35305
    },
    {
      "epoch": 16.64780763790665,
      "grad_norm": 0.0008560963324271142,
      "learning_rate": 0.010065925159450739,
      "loss": 0.3563,
      "num_input_tokens_seen": 32749952,
      "step": 35310
    },
    {
      "epoch": 16.65016501650165,
      "grad_norm": 0.0004009790427517146,
      "learning_rate": 0.010044721275722618,
      "loss": 0.3579,
      "num_input_tokens_seen": 32754576,
      "step": 35315
    },
    {
      "epoch": 16.652522395096653,
      "grad_norm": 0.0012012337101623416,
      "learning_rate": 0.01002353897485726,
      "loss": 0.3879,
      "num_input_tokens_seen": 32759216,
      "step": 35320
    },
    {
      "epoch": 16.654879773691654,
      "grad_norm": 0.000440767063992098,
      "learning_rate": 0.010002378260121236,
      "loss": 0.3285,
      "num_input_tokens_seen": 32763808,
      "step": 35325
    },
    {
      "epoch": 16.65723715228666,
      "grad_norm": 0.000414976297179237,
      "learning_rate": 0.009981239134777786,
      "loss": 0.3255,
      "num_input_tokens_seen": 32767904,
      "step": 35330
    },
    {
      "epoch": 16.65959453088166,
      "grad_norm": 0.00037271055043675005,
      "learning_rate": 0.009960121602086884,
      "loss": 0.3508,
      "num_input_tokens_seen": 32772736,
      "step": 35335
    },
    {
      "epoch": 16.661951909476663,
      "grad_norm": 0.00047861222992651165,
      "learning_rate": 0.009939025665305062,
      "loss": 0.3638,
      "num_input_tokens_seen": 32777312,
      "step": 35340
    },
    {
      "epoch": 16.664309288071664,
      "grad_norm": 0.0006322067929431796,
      "learning_rate": 0.009917951327685597,
      "loss": 0.304,
      "num_input_tokens_seen": 32781376,
      "step": 35345
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.0005210103117860854,
      "learning_rate": 0.009896898592478425,
      "loss": 0.3204,
      "num_input_tokens_seen": 32785344,
      "step": 35350
    },
    {
      "epoch": 16.66902404526167,
      "grad_norm": 0.00035669910721480846,
      "learning_rate": 0.009875867462930132,
      "loss": 0.3447,
      "num_input_tokens_seen": 32790368,
      "step": 35355
    },
    {
      "epoch": 16.671381423856673,
      "grad_norm": 0.0007203141576610506,
      "learning_rate": 0.009854857942284006,
      "loss": 0.3307,
      "num_input_tokens_seen": 32794256,
      "step": 35360
    },
    {
      "epoch": 16.673738802451673,
      "grad_norm": 0.0007836950826458633,
      "learning_rate": 0.009833870033779923,
      "loss": 0.3411,
      "num_input_tokens_seen": 32798224,
      "step": 35365
    },
    {
      "epoch": 16.676096181046677,
      "grad_norm": 0.0005519400001503527,
      "learning_rate": 0.009812903740654527,
      "loss": 0.322,
      "num_input_tokens_seen": 32802688,
      "step": 35370
    },
    {
      "epoch": 16.678453559641678,
      "grad_norm": 0.0003767031303141266,
      "learning_rate": 0.009791959066141097,
      "loss": 0.3093,
      "num_input_tokens_seen": 32806912,
      "step": 35375
    },
    {
      "epoch": 16.680810938236682,
      "grad_norm": 0.000884142704308033,
      "learning_rate": 0.009771036013469537,
      "loss": 0.3174,
      "num_input_tokens_seen": 32810608,
      "step": 35380
    },
    {
      "epoch": 16.683168316831683,
      "grad_norm": 0.0002806386037264019,
      "learning_rate": 0.00975013458586646,
      "loss": 0.3106,
      "num_input_tokens_seen": 32814544,
      "step": 35385
    },
    {
      "epoch": 16.685525695426687,
      "grad_norm": 0.0005240946193225682,
      "learning_rate": 0.009729254786555107,
      "loss": 0.3044,
      "num_input_tokens_seen": 32819296,
      "step": 35390
    },
    {
      "epoch": 16.687883074021688,
      "grad_norm": 0.0006672622985206544,
      "learning_rate": 0.009708396618755421,
      "loss": 0.2906,
      "num_input_tokens_seen": 32823520,
      "step": 35395
    },
    {
      "epoch": 16.690240452616692,
      "grad_norm": 0.0003476293059065938,
      "learning_rate": 0.009687560085683994,
      "loss": 0.2946,
      "num_input_tokens_seen": 32828656,
      "step": 35400
    },
    {
      "epoch": 16.690240452616692,
      "eval_loss": 0.3287907540798187,
      "eval_runtime": 33.6239,
      "eval_samples_per_second": 28.045,
      "eval_steps_per_second": 14.038,
      "num_input_tokens_seen": 32828656,
      "step": 35400
    },
    {
      "epoch": 16.692597831211692,
      "grad_norm": 0.0005524521111510694,
      "learning_rate": 0.009666745190554054,
      "loss": 0.2992,
      "num_input_tokens_seen": 32833344,
      "step": 35405
    },
    {
      "epoch": 16.694955209806697,
      "grad_norm": 0.0006862051668576896,
      "learning_rate": 0.009645951936575553,
      "loss": 0.2966,
      "num_input_tokens_seen": 32838032,
      "step": 35410
    },
    {
      "epoch": 16.697312588401697,
      "grad_norm": 0.0003528372326400131,
      "learning_rate": 0.00962518032695509,
      "loss": 0.3176,
      "num_input_tokens_seen": 32842336,
      "step": 35415
    },
    {
      "epoch": 16.6996699669967,
      "grad_norm": 0.0007509420975111425,
      "learning_rate": 0.009604430364895855,
      "loss": 0.3128,
      "num_input_tokens_seen": 32847936,
      "step": 35420
    },
    {
      "epoch": 16.702027345591702,
      "grad_norm": 0.0004186308360658586,
      "learning_rate": 0.00958370205359777,
      "loss": 0.3333,
      "num_input_tokens_seen": 32852432,
      "step": 35425
    },
    {
      "epoch": 16.704384724186703,
      "grad_norm": 0.0003525874635670334,
      "learning_rate": 0.009562995396257445,
      "loss": 0.3358,
      "num_input_tokens_seen": 32856720,
      "step": 35430
    },
    {
      "epoch": 16.706742102781707,
      "grad_norm": 0.000499775109346956,
      "learning_rate": 0.009542310396068026,
      "loss": 0.2875,
      "num_input_tokens_seen": 32861936,
      "step": 35435
    },
    {
      "epoch": 16.709099481376708,
      "grad_norm": 0.0004765216144733131,
      "learning_rate": 0.009521647056219495,
      "loss": 0.3479,
      "num_input_tokens_seen": 32866656,
      "step": 35440
    },
    {
      "epoch": 16.71145685997171,
      "grad_norm": 0.0013469795230776072,
      "learning_rate": 0.00950100537989832,
      "loss": 0.3691,
      "num_input_tokens_seen": 32871440,
      "step": 35445
    },
    {
      "epoch": 16.713814238566712,
      "grad_norm": 0.0005327523685991764,
      "learning_rate": 0.00948038537028772,
      "loss": 0.3489,
      "num_input_tokens_seen": 32876032,
      "step": 35450
    },
    {
      "epoch": 16.716171617161717,
      "grad_norm": 0.0006182012148201466,
      "learning_rate": 0.009459787030567617,
      "loss": 0.3529,
      "num_input_tokens_seen": 32879904,
      "step": 35455
    },
    {
      "epoch": 16.718528995756717,
      "grad_norm": 0.0002833232865668833,
      "learning_rate": 0.00943921036391449,
      "loss": 0.3173,
      "num_input_tokens_seen": 32884592,
      "step": 35460
    },
    {
      "epoch": 16.72088637435172,
      "grad_norm": 0.00037674896884709597,
      "learning_rate": 0.009418655373501483,
      "loss": 0.3636,
      "num_input_tokens_seen": 32888608,
      "step": 35465
    },
    {
      "epoch": 16.723243752946722,
      "grad_norm": 0.00043303752318024635,
      "learning_rate": 0.00939812206249851,
      "loss": 0.2961,
      "num_input_tokens_seen": 32893248,
      "step": 35470
    },
    {
      "epoch": 16.725601131541726,
      "grad_norm": 0.0013382938923314214,
      "learning_rate": 0.009377610434072004,
      "loss": 0.4059,
      "num_input_tokens_seen": 32899360,
      "step": 35475
    },
    {
      "epoch": 16.727958510136727,
      "grad_norm": 0.0006556882872246206,
      "learning_rate": 0.009357120491385167,
      "loss": 0.2716,
      "num_input_tokens_seen": 32904080,
      "step": 35480
    },
    {
      "epoch": 16.73031588873173,
      "grad_norm": 0.0003945123462472111,
      "learning_rate": 0.009336652237597743,
      "loss": 0.3871,
      "num_input_tokens_seen": 32908416,
      "step": 35485
    },
    {
      "epoch": 16.73267326732673,
      "grad_norm": 0.0003681787638925016,
      "learning_rate": 0.009316205675866251,
      "loss": 0.3403,
      "num_input_tokens_seen": 32912864,
      "step": 35490
    },
    {
      "epoch": 16.735030645921736,
      "grad_norm": 0.0008430855814367533,
      "learning_rate": 0.00929578080934379,
      "loss": 0.3599,
      "num_input_tokens_seen": 32917328,
      "step": 35495
    },
    {
      "epoch": 16.737388024516736,
      "grad_norm": 0.00029394353623501956,
      "learning_rate": 0.00927537764118012,
      "loss": 0.3227,
      "num_input_tokens_seen": 32921376,
      "step": 35500
    },
    {
      "epoch": 16.73974540311174,
      "grad_norm": 0.0005177845596335828,
      "learning_rate": 0.009254996174521678,
      "loss": 0.3229,
      "num_input_tokens_seen": 32925616,
      "step": 35505
    },
    {
      "epoch": 16.74210278170674,
      "grad_norm": 0.0005037295049987733,
      "learning_rate": 0.009234636412511531,
      "loss": 0.3099,
      "num_input_tokens_seen": 32930048,
      "step": 35510
    },
    {
      "epoch": 16.744460160301745,
      "grad_norm": 0.0007276572287082672,
      "learning_rate": 0.009214298358289418,
      "loss": 0.3529,
      "num_input_tokens_seen": 32935024,
      "step": 35515
    },
    {
      "epoch": 16.746817538896746,
      "grad_norm": 0.0005138261476531625,
      "learning_rate": 0.00919398201499173,
      "loss": 0.3525,
      "num_input_tokens_seen": 32940752,
      "step": 35520
    },
    {
      "epoch": 16.74917491749175,
      "grad_norm": 0.0007567817810922861,
      "learning_rate": 0.009173687385751495,
      "loss": 0.3073,
      "num_input_tokens_seen": 32946096,
      "step": 35525
    },
    {
      "epoch": 16.75153229608675,
      "grad_norm": 0.0005093474755994976,
      "learning_rate": 0.009153414473698407,
      "loss": 0.3223,
      "num_input_tokens_seen": 32950640,
      "step": 35530
    },
    {
      "epoch": 16.753889674681755,
      "grad_norm": 0.00038801608025096357,
      "learning_rate": 0.009133163281958784,
      "loss": 0.3493,
      "num_input_tokens_seen": 32955168,
      "step": 35535
    },
    {
      "epoch": 16.756247053276756,
      "grad_norm": 0.000373963441234082,
      "learning_rate": 0.009112933813655627,
      "loss": 0.3486,
      "num_input_tokens_seen": 32960000,
      "step": 35540
    },
    {
      "epoch": 16.75860443187176,
      "grad_norm": 0.0007343320758081973,
      "learning_rate": 0.009092726071908573,
      "loss": 0.3401,
      "num_input_tokens_seen": 32964544,
      "step": 35545
    },
    {
      "epoch": 16.76096181046676,
      "grad_norm": 0.000839425774756819,
      "learning_rate": 0.0090725400598339,
      "loss": 0.3602,
      "num_input_tokens_seen": 32969008,
      "step": 35550
    },
    {
      "epoch": 16.763319189061765,
      "grad_norm": 0.0003549146349541843,
      "learning_rate": 0.009052375780544563,
      "loss": 0.2965,
      "num_input_tokens_seen": 32973280,
      "step": 35555
    },
    {
      "epoch": 16.765676567656765,
      "grad_norm": 0.0007642263080924749,
      "learning_rate": 0.009032233237150144,
      "loss": 0.2672,
      "num_input_tokens_seen": 32977888,
      "step": 35560
    },
    {
      "epoch": 16.76803394625177,
      "grad_norm": 0.0007601393153890967,
      "learning_rate": 0.009012112432756875,
      "loss": 0.31,
      "num_input_tokens_seen": 32982208,
      "step": 35565
    },
    {
      "epoch": 16.77039132484677,
      "grad_norm": 0.0007571281166747212,
      "learning_rate": 0.008992013370467605,
      "loss": 0.3396,
      "num_input_tokens_seen": 32986672,
      "step": 35570
    },
    {
      "epoch": 16.772748703441774,
      "grad_norm": 0.0005108797340653837,
      "learning_rate": 0.008971936053381924,
      "loss": 0.3522,
      "num_input_tokens_seen": 32991808,
      "step": 35575
    },
    {
      "epoch": 16.775106082036775,
      "grad_norm": 0.0010889419354498386,
      "learning_rate": 0.008951880484595953,
      "loss": 0.3063,
      "num_input_tokens_seen": 32996368,
      "step": 35580
    },
    {
      "epoch": 16.77746346063178,
      "grad_norm": 0.0004602622357197106,
      "learning_rate": 0.008931846667202552,
      "loss": 0.2967,
      "num_input_tokens_seen": 33001328,
      "step": 35585
    },
    {
      "epoch": 16.77982083922678,
      "grad_norm": 0.0005714548169635236,
      "learning_rate": 0.008911834604291152,
      "loss": 0.3872,
      "num_input_tokens_seen": 33006224,
      "step": 35590
    },
    {
      "epoch": 16.782178217821784,
      "grad_norm": 0.0003089821548201144,
      "learning_rate": 0.008891844298947882,
      "loss": 0.3091,
      "num_input_tokens_seen": 33011344,
      "step": 35595
    },
    {
      "epoch": 16.784535596416784,
      "grad_norm": 0.0006057682912796736,
      "learning_rate": 0.008871875754255508,
      "loss": 0.3516,
      "num_input_tokens_seen": 33016320,
      "step": 35600
    },
    {
      "epoch": 16.784535596416784,
      "eval_loss": 0.32903987169265747,
      "eval_runtime": 33.6114,
      "eval_samples_per_second": 28.056,
      "eval_steps_per_second": 14.043,
      "num_input_tokens_seen": 33016320,
      "step": 35600
    },
    {
      "epoch": 16.78689297501179,
      "grad_norm": 0.0003284341946709901,
      "learning_rate": 0.008851928973293422,
      "loss": 0.3317,
      "num_input_tokens_seen": 33020672,
      "step": 35605
    },
    {
      "epoch": 16.78925035360679,
      "grad_norm": 0.0003898429567925632,
      "learning_rate": 0.00883200395913764,
      "loss": 0.3592,
      "num_input_tokens_seen": 33025072,
      "step": 35610
    },
    {
      "epoch": 16.79160773220179,
      "grad_norm": 0.0004570686141960323,
      "learning_rate": 0.00881210071486091,
      "loss": 0.3066,
      "num_input_tokens_seen": 33031456,
      "step": 35615
    },
    {
      "epoch": 16.793965110796794,
      "grad_norm": 0.0004090372531209141,
      "learning_rate": 0.008792219243532505,
      "loss": 0.3187,
      "num_input_tokens_seen": 33036400,
      "step": 35620
    },
    {
      "epoch": 16.796322489391795,
      "grad_norm": 0.00039548278436996043,
      "learning_rate": 0.008772359548218428,
      "loss": 0.3034,
      "num_input_tokens_seen": 33041008,
      "step": 35625
    },
    {
      "epoch": 16.7986798679868,
      "grad_norm": 0.0005446187569759786,
      "learning_rate": 0.008752521631981274,
      "loss": 0.2946,
      "num_input_tokens_seen": 33045680,
      "step": 35630
    },
    {
      "epoch": 16.8010372465818,
      "grad_norm": 0.0006853933446109295,
      "learning_rate": 0.008732705497880315,
      "loss": 0.3066,
      "num_input_tokens_seen": 33049968,
      "step": 35635
    },
    {
      "epoch": 16.803394625176804,
      "grad_norm": 0.0006402434664778411,
      "learning_rate": 0.008712911148971459,
      "loss": 0.287,
      "num_input_tokens_seen": 33054032,
      "step": 35640
    },
    {
      "epoch": 16.805752003771804,
      "grad_norm": 0.0006028083735145628,
      "learning_rate": 0.008693138588307208,
      "loss": 0.2967,
      "num_input_tokens_seen": 33059008,
      "step": 35645
    },
    {
      "epoch": 16.80810938236681,
      "grad_norm": 0.0005751213175244629,
      "learning_rate": 0.008673387818936762,
      "loss": 0.3176,
      "num_input_tokens_seen": 33063568,
      "step": 35650
    },
    {
      "epoch": 16.81046676096181,
      "grad_norm": 0.0005026414291933179,
      "learning_rate": 0.008653658843905948,
      "loss": 0.3661,
      "num_input_tokens_seen": 33068000,
      "step": 35655
    },
    {
      "epoch": 16.812824139556813,
      "grad_norm": 0.00048330522258765996,
      "learning_rate": 0.0086339516662572,
      "loss": 0.3706,
      "num_input_tokens_seen": 33073040,
      "step": 35660
    },
    {
      "epoch": 16.815181518151814,
      "grad_norm": 0.0004073814779985696,
      "learning_rate": 0.008614266289029638,
      "loss": 0.3401,
      "num_input_tokens_seen": 33077440,
      "step": 35665
    },
    {
      "epoch": 16.817538896746818,
      "grad_norm": 0.00033892644569277763,
      "learning_rate": 0.008594602715258965,
      "loss": 0.3429,
      "num_input_tokens_seen": 33081728,
      "step": 35670
    },
    {
      "epoch": 16.81989627534182,
      "grad_norm": 0.00115712801925838,
      "learning_rate": 0.008574960947977573,
      "loss": 0.3942,
      "num_input_tokens_seen": 33086480,
      "step": 35675
    },
    {
      "epoch": 16.822253653936823,
      "grad_norm": 0.0003177616454195231,
      "learning_rate": 0.008555340990214438,
      "loss": 0.3333,
      "num_input_tokens_seen": 33090496,
      "step": 35680
    },
    {
      "epoch": 16.824611032531823,
      "grad_norm": 0.00039063437725417316,
      "learning_rate": 0.008535742844995258,
      "loss": 0.2892,
      "num_input_tokens_seen": 33095264,
      "step": 35685
    },
    {
      "epoch": 16.826968411126828,
      "grad_norm": 0.0006396467215381563,
      "learning_rate": 0.008516166515342266,
      "loss": 0.2896,
      "num_input_tokens_seen": 33099616,
      "step": 35690
    },
    {
      "epoch": 16.82932578972183,
      "grad_norm": 0.0006135418661870062,
      "learning_rate": 0.008496612004274411,
      "loss": 0.3258,
      "num_input_tokens_seen": 33104864,
      "step": 35695
    },
    {
      "epoch": 16.831683168316832,
      "grad_norm": 0.000413261353969574,
      "learning_rate": 0.008477079314807201,
      "loss": 0.3082,
      "num_input_tokens_seen": 33109296,
      "step": 35700
    },
    {
      "epoch": 16.834040546911833,
      "grad_norm": 0.0004142911056987941,
      "learning_rate": 0.008457568449952874,
      "loss": 0.334,
      "num_input_tokens_seen": 33113568,
      "step": 35705
    },
    {
      "epoch": 16.836397925506837,
      "grad_norm": 0.0008029933669604361,
      "learning_rate": 0.008438079412720189,
      "loss": 0.2669,
      "num_input_tokens_seen": 33118272,
      "step": 35710
    },
    {
      "epoch": 16.838755304101838,
      "grad_norm": 0.0008399310754612088,
      "learning_rate": 0.00841861220611466,
      "loss": 0.3072,
      "num_input_tokens_seen": 33123824,
      "step": 35715
    },
    {
      "epoch": 16.841112682696842,
      "grad_norm": 0.0007256748504005373,
      "learning_rate": 0.008399166833138355,
      "loss": 0.3034,
      "num_input_tokens_seen": 33128016,
      "step": 35720
    },
    {
      "epoch": 16.843470061291843,
      "grad_norm": 0.0003892066306434572,
      "learning_rate": 0.008379743296789987,
      "loss": 0.2998,
      "num_input_tokens_seen": 33133248,
      "step": 35725
    },
    {
      "epoch": 16.845827439886847,
      "grad_norm": 0.0008999413112178445,
      "learning_rate": 0.008360341600064896,
      "loss": 0.3482,
      "num_input_tokens_seen": 33138336,
      "step": 35730
    },
    {
      "epoch": 16.848184818481847,
      "grad_norm": 0.0005491488263942301,
      "learning_rate": 0.008340961745955121,
      "loss": 0.3438,
      "num_input_tokens_seen": 33143024,
      "step": 35735
    },
    {
      "epoch": 16.85054219707685,
      "grad_norm": 0.0006638644263148308,
      "learning_rate": 0.008321603737449224,
      "loss": 0.3371,
      "num_input_tokens_seen": 33147424,
      "step": 35740
    },
    {
      "epoch": 16.852899575671852,
      "grad_norm": 0.0008855981286615133,
      "learning_rate": 0.008302267577532479,
      "loss": 0.3471,
      "num_input_tokens_seen": 33152768,
      "step": 35745
    },
    {
      "epoch": 16.855256954266856,
      "grad_norm": 0.0008403942338190973,
      "learning_rate": 0.008282953269186771,
      "loss": 0.3519,
      "num_input_tokens_seen": 33156896,
      "step": 35750
    },
    {
      "epoch": 16.857614332861857,
      "grad_norm": 0.0009427497279830277,
      "learning_rate": 0.008263660815390567,
      "loss": 0.3304,
      "num_input_tokens_seen": 33160768,
      "step": 35755
    },
    {
      "epoch": 16.85997171145686,
      "grad_norm": 0.0005910337204113603,
      "learning_rate": 0.008244390219119069,
      "loss": 0.3508,
      "num_input_tokens_seen": 33165488,
      "step": 35760
    },
    {
      "epoch": 16.862329090051862,
      "grad_norm": 0.000827876734547317,
      "learning_rate": 0.008225141483343967,
      "loss": 0.3389,
      "num_input_tokens_seen": 33170624,
      "step": 35765
    },
    {
      "epoch": 16.864686468646866,
      "grad_norm": 0.00027759099612012506,
      "learning_rate": 0.00820591461103372,
      "loss": 0.3302,
      "num_input_tokens_seen": 33175616,
      "step": 35770
    },
    {
      "epoch": 16.867043847241867,
      "grad_norm": 0.0004379054589662701,
      "learning_rate": 0.008186709605153358,
      "loss": 0.3249,
      "num_input_tokens_seen": 33179856,
      "step": 35775
    },
    {
      "epoch": 16.86940122583687,
      "grad_norm": 0.0006795314257033169,
      "learning_rate": 0.008167526468664492,
      "loss": 0.2974,
      "num_input_tokens_seen": 33184288,
      "step": 35780
    },
    {
      "epoch": 16.87175860443187,
      "grad_norm": 0.0009084612829610705,
      "learning_rate": 0.008148365204525443,
      "loss": 0.335,
      "num_input_tokens_seen": 33188208,
      "step": 35785
    },
    {
      "epoch": 16.874115983026876,
      "grad_norm": 0.00055878353305161,
      "learning_rate": 0.00812922581569106,
      "loss": 0.3371,
      "num_input_tokens_seen": 33192560,
      "step": 35790
    },
    {
      "epoch": 16.876473361621876,
      "grad_norm": 0.00043266150169074535,
      "learning_rate": 0.008110108305112934,
      "loss": 0.3274,
      "num_input_tokens_seen": 33197248,
      "step": 35795
    },
    {
      "epoch": 16.87883074021688,
      "grad_norm": 0.0007820745231583714,
      "learning_rate": 0.008091012675739223,
      "loss": 0.3322,
      "num_input_tokens_seen": 33202224,
      "step": 35800
    },
    {
      "epoch": 16.87883074021688,
      "eval_loss": 0.3295246958732605,
      "eval_runtime": 33.5871,
      "eval_samples_per_second": 28.076,
      "eval_steps_per_second": 14.053,
      "num_input_tokens_seen": 33202224,
      "step": 35800
    },
    {
      "epoch": 16.88118811881188,
      "grad_norm": 0.0004516129847615957,
      "learning_rate": 0.008071938930514671,
      "loss": 0.294,
      "num_input_tokens_seen": 33206336,
      "step": 35805
    },
    {
      "epoch": 16.883545497406885,
      "grad_norm": 0.0006439655553549528,
      "learning_rate": 0.008052887072380726,
      "loss": 0.2872,
      "num_input_tokens_seen": 33210320,
      "step": 35810
    },
    {
      "epoch": 16.885902876001886,
      "grad_norm": 0.0003637493937276304,
      "learning_rate": 0.008033857104275437,
      "loss": 0.3801,
      "num_input_tokens_seen": 33215792,
      "step": 35815
    },
    {
      "epoch": 16.888260254596887,
      "grad_norm": 0.0003559580072760582,
      "learning_rate": 0.008014849029133424,
      "loss": 0.3085,
      "num_input_tokens_seen": 33220096,
      "step": 35820
    },
    {
      "epoch": 16.89061763319189,
      "grad_norm": 0.0005929641774855554,
      "learning_rate": 0.007995862849885975,
      "loss": 0.3673,
      "num_input_tokens_seen": 33225072,
      "step": 35825
    },
    {
      "epoch": 16.89297501178689,
      "grad_norm": 0.001169603201560676,
      "learning_rate": 0.007976898569461032,
      "loss": 0.3537,
      "num_input_tokens_seen": 33230576,
      "step": 35830
    },
    {
      "epoch": 16.895332390381895,
      "grad_norm": 0.00047525804257020354,
      "learning_rate": 0.007957956190783088,
      "loss": 0.3185,
      "num_input_tokens_seen": 33234944,
      "step": 35835
    },
    {
      "epoch": 16.897689768976896,
      "grad_norm": 0.00040280408575199544,
      "learning_rate": 0.007939035716773324,
      "loss": 0.3121,
      "num_input_tokens_seen": 33239552,
      "step": 35840
    },
    {
      "epoch": 16.9000471475719,
      "grad_norm": 0.0006616166210733354,
      "learning_rate": 0.007920137150349487,
      "loss": 0.333,
      "num_input_tokens_seen": 33245200,
      "step": 35845
    },
    {
      "epoch": 16.9024045261669,
      "grad_norm": 0.0009303883416578174,
      "learning_rate": 0.007901260494425981,
      "loss": 0.336,
      "num_input_tokens_seen": 33250176,
      "step": 35850
    },
    {
      "epoch": 16.904761904761905,
      "grad_norm": 0.0004137285868637264,
      "learning_rate": 0.007882405751913861,
      "loss": 0.3302,
      "num_input_tokens_seen": 33254512,
      "step": 35855
    },
    {
      "epoch": 16.907119283356906,
      "grad_norm": 0.0006660724757239223,
      "learning_rate": 0.007863572925720702,
      "loss": 0.3407,
      "num_input_tokens_seen": 33258592,
      "step": 35860
    },
    {
      "epoch": 16.90947666195191,
      "grad_norm": 0.00042660345206968486,
      "learning_rate": 0.007844762018750827,
      "loss": 0.2922,
      "num_input_tokens_seen": 33263328,
      "step": 35865
    },
    {
      "epoch": 16.91183404054691,
      "grad_norm": 0.0004455953894648701,
      "learning_rate": 0.007825973033905054,
      "loss": 0.2991,
      "num_input_tokens_seen": 33267728,
      "step": 35870
    },
    {
      "epoch": 16.914191419141915,
      "grad_norm": 0.0004868892137892544,
      "learning_rate": 0.007807205974080927,
      "loss": 0.3472,
      "num_input_tokens_seen": 33272512,
      "step": 35875
    },
    {
      "epoch": 16.916548797736915,
      "grad_norm": 0.0006725871353410184,
      "learning_rate": 0.007788460842172551,
      "loss": 0.343,
      "num_input_tokens_seen": 33276336,
      "step": 35880
    },
    {
      "epoch": 16.91890617633192,
      "grad_norm": 0.0005521398852579296,
      "learning_rate": 0.0077697376410706285,
      "loss": 0.3362,
      "num_input_tokens_seen": 33280992,
      "step": 35885
    },
    {
      "epoch": 16.92126355492692,
      "grad_norm": 0.00065086898393929,
      "learning_rate": 0.007751036373662567,
      "loss": 0.3157,
      "num_input_tokens_seen": 33286272,
      "step": 35890
    },
    {
      "epoch": 16.923620933521924,
      "grad_norm": 0.0003543230704963207,
      "learning_rate": 0.00773235704283231,
      "loss": 0.3248,
      "num_input_tokens_seen": 33291104,
      "step": 35895
    },
    {
      "epoch": 16.925978312116925,
      "grad_norm": 0.0003701410605572164,
      "learning_rate": 0.007713699651460437,
      "loss": 0.329,
      "num_input_tokens_seen": 33295616,
      "step": 35900
    },
    {
      "epoch": 16.92833569071193,
      "grad_norm": 0.0006989045650698245,
      "learning_rate": 0.007695064202424162,
      "loss": 0.279,
      "num_input_tokens_seen": 33300560,
      "step": 35905
    },
    {
      "epoch": 16.93069306930693,
      "grad_norm": 0.0009980908362194896,
      "learning_rate": 0.007676450698597286,
      "loss": 0.3922,
      "num_input_tokens_seen": 33304864,
      "step": 35910
    },
    {
      "epoch": 16.933050447901934,
      "grad_norm": 0.000443210854427889,
      "learning_rate": 0.007657859142850265,
      "loss": 0.314,
      "num_input_tokens_seen": 33309168,
      "step": 35915
    },
    {
      "epoch": 16.935407826496935,
      "grad_norm": 0.0005872717592865229,
      "learning_rate": 0.0076392895380501535,
      "loss": 0.3488,
      "num_input_tokens_seen": 33314080,
      "step": 35920
    },
    {
      "epoch": 16.93776520509194,
      "grad_norm": 0.0005554712261073291,
      "learning_rate": 0.007620741887060611,
      "loss": 0.349,
      "num_input_tokens_seen": 33318464,
      "step": 35925
    },
    {
      "epoch": 16.94012258368694,
      "grad_norm": 0.00038231132202781737,
      "learning_rate": 0.007602216192741901,
      "loss": 0.2947,
      "num_input_tokens_seen": 33323200,
      "step": 35930
    },
    {
      "epoch": 16.942479962281944,
      "grad_norm": 0.0005870879394933581,
      "learning_rate": 0.007583712457950969,
      "loss": 0.3887,
      "num_input_tokens_seen": 33328256,
      "step": 35935
    },
    {
      "epoch": 16.944837340876944,
      "grad_norm": 0.0008170435903593898,
      "learning_rate": 0.007565230685541269,
      "loss": 0.3364,
      "num_input_tokens_seen": 33332064,
      "step": 35940
    },
    {
      "epoch": 16.94719471947195,
      "grad_norm": 0.0007595454808324575,
      "learning_rate": 0.007546770878362968,
      "loss": 0.3705,
      "num_input_tokens_seen": 33336544,
      "step": 35945
    },
    {
      "epoch": 16.94955209806695,
      "grad_norm": 0.000386105413781479,
      "learning_rate": 0.0075283330392627405,
      "loss": 0.3437,
      "num_input_tokens_seen": 33341376,
      "step": 35950
    },
    {
      "epoch": 16.951909476661953,
      "grad_norm": 0.00043192054727114737,
      "learning_rate": 0.007509917171083979,
      "loss": 0.315,
      "num_input_tokens_seen": 33346064,
      "step": 35955
    },
    {
      "epoch": 16.954266855256954,
      "grad_norm": 0.0010544974356889725,
      "learning_rate": 0.007491523276666662,
      "loss": 0.3098,
      "num_input_tokens_seen": 33350272,
      "step": 35960
    },
    {
      "epoch": 16.956624233851958,
      "grad_norm": 0.00032562154228799045,
      "learning_rate": 0.007473151358847318,
      "loss": 0.3726,
      "num_input_tokens_seen": 33354528,
      "step": 35965
    },
    {
      "epoch": 16.95898161244696,
      "grad_norm": 0.0008898399537429214,
      "learning_rate": 0.007454801420459117,
      "loss": 0.3216,
      "num_input_tokens_seen": 33359744,
      "step": 35970
    },
    {
      "epoch": 16.961338991041963,
      "grad_norm": 0.0008093075593933463,
      "learning_rate": 0.0074364734643319105,
      "loss": 0.283,
      "num_input_tokens_seen": 33363728,
      "step": 35975
    },
    {
      "epoch": 16.963696369636963,
      "grad_norm": 0.0011339415796101093,
      "learning_rate": 0.007418167493292022,
      "loss": 0.345,
      "num_input_tokens_seen": 33367728,
      "step": 35980
    },
    {
      "epoch": 16.966053748231968,
      "grad_norm": 0.0005104131996631622,
      "learning_rate": 0.0073998835101625245,
      "loss": 0.3279,
      "num_input_tokens_seen": 33372240,
      "step": 35985
    },
    {
      "epoch": 16.968411126826968,
      "grad_norm": 0.0009170422563329339,
      "learning_rate": 0.007381621517762998,
      "loss": 0.319,
      "num_input_tokens_seen": 33376496,
      "step": 35990
    },
    {
      "epoch": 16.970768505421972,
      "grad_norm": 0.0005571225774474442,
      "learning_rate": 0.007363381518909689,
      "loss": 0.3146,
      "num_input_tokens_seen": 33381776,
      "step": 35995
    },
    {
      "epoch": 16.973125884016973,
      "grad_norm": 0.0006086803623475134,
      "learning_rate": 0.007345163516415448,
      "loss": 0.2848,
      "num_input_tokens_seen": 33385424,
      "step": 36000
    },
    {
      "epoch": 16.973125884016973,
      "eval_loss": 0.3288109302520752,
      "eval_runtime": 33.5534,
      "eval_samples_per_second": 28.104,
      "eval_steps_per_second": 14.067,
      "num_input_tokens_seen": 33385424,
      "step": 36000
    },
    {
      "epoch": 16.975483262611977,
      "grad_norm": 0.0008150177891366184,
      "learning_rate": 0.007326967513089693,
      "loss": 0.2956,
      "num_input_tokens_seen": 33389856,
      "step": 36005
    },
    {
      "epoch": 16.977840641206978,
      "grad_norm": 0.0006775417714379728,
      "learning_rate": 0.0073087935117384815,
      "loss": 0.352,
      "num_input_tokens_seen": 33394688,
      "step": 36010
    },
    {
      "epoch": 16.980198019801982,
      "grad_norm": 0.0004653901560232043,
      "learning_rate": 0.007290641515164503,
      "loss": 0.3236,
      "num_input_tokens_seen": 33399456,
      "step": 36015
    },
    {
      "epoch": 16.982555398396983,
      "grad_norm": 0.0007135195774026215,
      "learning_rate": 0.007272511526166986,
      "loss": 0.3251,
      "num_input_tokens_seen": 33404656,
      "step": 36020
    },
    {
      "epoch": 16.984912776991983,
      "grad_norm": 0.0005712224519811571,
      "learning_rate": 0.0072544035475418265,
      "loss": 0.3372,
      "num_input_tokens_seen": 33409376,
      "step": 36025
    },
    {
      "epoch": 16.987270155586987,
      "grad_norm": 0.0004541355010587722,
      "learning_rate": 0.007236317582081475,
      "loss": 0.3566,
      "num_input_tokens_seen": 33413744,
      "step": 36030
    },
    {
      "epoch": 16.989627534181988,
      "grad_norm": 0.0004411074332892895,
      "learning_rate": 0.007218253632575066,
      "loss": 0.3101,
      "num_input_tokens_seen": 33418832,
      "step": 36035
    },
    {
      "epoch": 16.991984912776992,
      "grad_norm": 0.0003810174821410328,
      "learning_rate": 0.007200211701808223,
      "loss": 0.3008,
      "num_input_tokens_seen": 33423184,
      "step": 36040
    },
    {
      "epoch": 16.994342291371993,
      "grad_norm": 0.0004692662041634321,
      "learning_rate": 0.007182191792563286,
      "loss": 0.285,
      "num_input_tokens_seen": 33427984,
      "step": 36045
    },
    {
      "epoch": 16.996699669966997,
      "grad_norm": 0.0007006324594840407,
      "learning_rate": 0.0071641939076191145,
      "loss": 0.3426,
      "num_input_tokens_seen": 33432304,
      "step": 36050
    },
    {
      "epoch": 16.999057048561998,
      "grad_norm": 0.00040457770228385925,
      "learning_rate": 0.007146218049751257,
      "loss": 0.3312,
      "num_input_tokens_seen": 33436960,
      "step": 36055
    },
    {
      "epoch": 17.001414427157002,
      "grad_norm": 0.00047322153113782406,
      "learning_rate": 0.0071282642217317775,
      "loss": 0.2516,
      "num_input_tokens_seen": 33441968,
      "step": 36060
    },
    {
      "epoch": 17.003771805752002,
      "grad_norm": 0.0008671689429320395,
      "learning_rate": 0.007110332426329396,
      "loss": 0.3292,
      "num_input_tokens_seen": 33445952,
      "step": 36065
    },
    {
      "epoch": 17.006129184347007,
      "grad_norm": 0.0005848984583280981,
      "learning_rate": 0.007092422666309417,
      "loss": 0.2991,
      "num_input_tokens_seen": 33450160,
      "step": 36070
    },
    {
      "epoch": 17.008486562942007,
      "grad_norm": 0.000769835663959384,
      "learning_rate": 0.0070745349444337295,
      "loss": 0.3289,
      "num_input_tokens_seen": 33454352,
      "step": 36075
    },
    {
      "epoch": 17.01084394153701,
      "grad_norm": 0.0003497824363876134,
      "learning_rate": 0.007056669263460913,
      "loss": 0.296,
      "num_input_tokens_seen": 33458816,
      "step": 36080
    },
    {
      "epoch": 17.013201320132012,
      "grad_norm": 0.0008175747934728861,
      "learning_rate": 0.007038825626145995,
      "loss": 0.3355,
      "num_input_tokens_seen": 33463680,
      "step": 36085
    },
    {
      "epoch": 17.015558698727016,
      "grad_norm": 0.00042910772026516497,
      "learning_rate": 0.007021004035240724,
      "loss": 0.273,
      "num_input_tokens_seen": 33468304,
      "step": 36090
    },
    {
      "epoch": 17.017916077322017,
      "grad_norm": 0.000696908391546458,
      "learning_rate": 0.007003204493493453,
      "loss": 0.3162,
      "num_input_tokens_seen": 33472640,
      "step": 36095
    },
    {
      "epoch": 17.02027345591702,
      "grad_norm": 0.0006350624025799334,
      "learning_rate": 0.006985427003649036,
      "loss": 0.316,
      "num_input_tokens_seen": 33477312,
      "step": 36100
    },
    {
      "epoch": 17.02263083451202,
      "grad_norm": 0.0005038013332523406,
      "learning_rate": 0.006967671568449013,
      "loss": 0.3892,
      "num_input_tokens_seen": 33481760,
      "step": 36105
    },
    {
      "epoch": 17.024988213107026,
      "grad_norm": 0.0004520198272075504,
      "learning_rate": 0.006949938190631511,
      "loss": 0.3159,
      "num_input_tokens_seen": 33487312,
      "step": 36110
    },
    {
      "epoch": 17.027345591702026,
      "grad_norm": 0.0006870768265798688,
      "learning_rate": 0.0069322268729311905,
      "loss": 0.3234,
      "num_input_tokens_seen": 33491424,
      "step": 36115
    },
    {
      "epoch": 17.02970297029703,
      "grad_norm": 0.0006449475768022239,
      "learning_rate": 0.006914537618079403,
      "loss": 0.3167,
      "num_input_tokens_seen": 33496112,
      "step": 36120
    },
    {
      "epoch": 17.03206034889203,
      "grad_norm": 0.0004753140383400023,
      "learning_rate": 0.006896870428804031,
      "loss": 0.3538,
      "num_input_tokens_seen": 33500496,
      "step": 36125
    },
    {
      "epoch": 17.034417727487035,
      "grad_norm": 0.0005500145489349961,
      "learning_rate": 0.006879225307829595,
      "loss": 0.3003,
      "num_input_tokens_seen": 33505296,
      "step": 36130
    },
    {
      "epoch": 17.036775106082036,
      "grad_norm": 0.0003544551145751029,
      "learning_rate": 0.00686160225787717,
      "loss": 0.3364,
      "num_input_tokens_seen": 33509680,
      "step": 36135
    },
    {
      "epoch": 17.03913248467704,
      "grad_norm": 0.0007854898576624691,
      "learning_rate": 0.006844001281664463,
      "loss": 0.3398,
      "num_input_tokens_seen": 33515776,
      "step": 36140
    },
    {
      "epoch": 17.04148986327204,
      "grad_norm": 0.0007426285301335156,
      "learning_rate": 0.006826422381905789,
      "loss": 0.3136,
      "num_input_tokens_seen": 33519968,
      "step": 36145
    },
    {
      "epoch": 17.043847241867045,
      "grad_norm": 0.0007005475927144289,
      "learning_rate": 0.006808865561311994,
      "loss": 0.3112,
      "num_input_tokens_seen": 33524288,
      "step": 36150
    },
    {
      "epoch": 17.046204620462046,
      "grad_norm": 0.0003987116215284914,
      "learning_rate": 0.00679133082259058,
      "loss": 0.3396,
      "num_input_tokens_seen": 33528544,
      "step": 36155
    },
    {
      "epoch": 17.04856199905705,
      "grad_norm": 0.0006759123643860221,
      "learning_rate": 0.00677381816844565,
      "loss": 0.3572,
      "num_input_tokens_seen": 33533632,
      "step": 36160
    },
    {
      "epoch": 17.05091937765205,
      "grad_norm": 0.00040764533332549036,
      "learning_rate": 0.0067563276015778434,
      "loss": 0.3307,
      "num_input_tokens_seen": 33539664,
      "step": 36165
    },
    {
      "epoch": 17.053276756247055,
      "grad_norm": 0.0006687079439871013,
      "learning_rate": 0.006738859124684437,
      "loss": 0.3289,
      "num_input_tokens_seen": 33543920,
      "step": 36170
    },
    {
      "epoch": 17.055634134842055,
      "grad_norm": 0.000923357845749706,
      "learning_rate": 0.006721412740459259,
      "loss": 0.3436,
      "num_input_tokens_seen": 33550064,
      "step": 36175
    },
    {
      "epoch": 17.05799151343706,
      "grad_norm": 0.00032784699578769505,
      "learning_rate": 0.006703988451592824,
      "loss": 0.3075,
      "num_input_tokens_seen": 33555232,
      "step": 36180
    },
    {
      "epoch": 17.06034889203206,
      "grad_norm": 0.0007915444439277053,
      "learning_rate": 0.006686586260772114,
      "loss": 0.299,
      "num_input_tokens_seen": 33559552,
      "step": 36185
    },
    {
      "epoch": 17.062706270627064,
      "grad_norm": 0.0007423890056088567,
      "learning_rate": 0.006669206170680819,
      "loss": 0.2931,
      "num_input_tokens_seen": 33563792,
      "step": 36190
    },
    {
      "epoch": 17.065063649222065,
      "grad_norm": 0.0003422306617721915,
      "learning_rate": 0.0066518481839991095,
      "loss": 0.2741,
      "num_input_tokens_seen": 33567760,
      "step": 36195
    },
    {
      "epoch": 17.06742102781707,
      "grad_norm": 0.0007826330838724971,
      "learning_rate": 0.006634512303403861,
      "loss": 0.3162,
      "num_input_tokens_seen": 33572672,
      "step": 36200
    },
    {
      "epoch": 17.06742102781707,
      "eval_loss": 0.32785990834236145,
      "eval_runtime": 33.6175,
      "eval_samples_per_second": 28.051,
      "eval_steps_per_second": 14.04,
      "num_input_tokens_seen": 33572672,
      "step": 36200
    },
    {
      "epoch": 17.06977840641207,
      "grad_norm": 0.0003989459073636681,
      "learning_rate": 0.0066171985315684355,
      "loss": 0.3393,
      "num_input_tokens_seen": 33577664,
      "step": 36205
    },
    {
      "epoch": 17.072135785007074,
      "grad_norm": 0.0004898390034213662,
      "learning_rate": 0.0065999068711628806,
      "loss": 0.3471,
      "num_input_tokens_seen": 33582448,
      "step": 36210
    },
    {
      "epoch": 17.074493163602074,
      "grad_norm": 0.0004268506891094148,
      "learning_rate": 0.0065826373248537295,
      "loss": 0.3536,
      "num_input_tokens_seen": 33586880,
      "step": 36215
    },
    {
      "epoch": 17.076850542197075,
      "grad_norm": 0.0005107491160742939,
      "learning_rate": 0.006565389895304218,
      "loss": 0.3083,
      "num_input_tokens_seen": 33591136,
      "step": 36220
    },
    {
      "epoch": 17.07920792079208,
      "grad_norm": 0.0006753834313713014,
      "learning_rate": 0.006548164585174104,
      "loss": 0.2943,
      "num_input_tokens_seen": 33595904,
      "step": 36225
    },
    {
      "epoch": 17.08156529938708,
      "grad_norm": 0.000523104565218091,
      "learning_rate": 0.006530961397119728,
      "loss": 0.3294,
      "num_input_tokens_seen": 33600448,
      "step": 36230
    },
    {
      "epoch": 17.083922677982084,
      "grad_norm": 0.00045666497317142785,
      "learning_rate": 0.00651378033379405,
      "loss": 0.3816,
      "num_input_tokens_seen": 33604768,
      "step": 36235
    },
    {
      "epoch": 17.086280056577085,
      "grad_norm": 0.000747787591535598,
      "learning_rate": 0.006496621397846619,
      "loss": 0.3845,
      "num_input_tokens_seen": 33609232,
      "step": 36240
    },
    {
      "epoch": 17.08863743517209,
      "grad_norm": 0.0008553153602406383,
      "learning_rate": 0.006479484591923518,
      "loss": 0.2917,
      "num_input_tokens_seen": 33615408,
      "step": 36245
    },
    {
      "epoch": 17.09099481376709,
      "grad_norm": 0.001033107633702457,
      "learning_rate": 0.006462369918667515,
      "loss": 0.3571,
      "num_input_tokens_seen": 33619584,
      "step": 36250
    },
    {
      "epoch": 17.093352192362094,
      "grad_norm": 0.0005313367582857609,
      "learning_rate": 0.006445277380717851,
      "loss": 0.3643,
      "num_input_tokens_seen": 33624736,
      "step": 36255
    },
    {
      "epoch": 17.095709570957094,
      "grad_norm": 0.0005915130604989827,
      "learning_rate": 0.006428206980710466,
      "loss": 0.3448,
      "num_input_tokens_seen": 33628688,
      "step": 36260
    },
    {
      "epoch": 17.0980669495521,
      "grad_norm": 0.000554537633433938,
      "learning_rate": 0.006411158721277788,
      "loss": 0.3312,
      "num_input_tokens_seen": 33633264,
      "step": 36265
    },
    {
      "epoch": 17.1004243281471,
      "grad_norm": 0.0009283350082114339,
      "learning_rate": 0.00639413260504888,
      "loss": 0.3427,
      "num_input_tokens_seen": 33638304,
      "step": 36270
    },
    {
      "epoch": 17.102781706742103,
      "grad_norm": 0.00040047505171969533,
      "learning_rate": 0.006377128634649376,
      "loss": 0.3045,
      "num_input_tokens_seen": 33642912,
      "step": 36275
    },
    {
      "epoch": 17.105139085337104,
      "grad_norm": 0.00035039312206208706,
      "learning_rate": 0.006360146812701528,
      "loss": 0.2809,
      "num_input_tokens_seen": 33647312,
      "step": 36280
    },
    {
      "epoch": 17.107496463932108,
      "grad_norm": 0.0003422508598305285,
      "learning_rate": 0.006343187141824125,
      "loss": 0.314,
      "num_input_tokens_seen": 33652224,
      "step": 36285
    },
    {
      "epoch": 17.10985384252711,
      "grad_norm": 0.0006457779672928154,
      "learning_rate": 0.00632624962463259,
      "loss": 0.3072,
      "num_input_tokens_seen": 33657216,
      "step": 36290
    },
    {
      "epoch": 17.112211221122113,
      "grad_norm": 0.0002799374342430383,
      "learning_rate": 0.006309334263738853,
      "loss": 0.3864,
      "num_input_tokens_seen": 33661936,
      "step": 36295
    },
    {
      "epoch": 17.114568599717114,
      "grad_norm": 0.0005390996229834855,
      "learning_rate": 0.006292441061751508,
      "loss": 0.3317,
      "num_input_tokens_seen": 33667248,
      "step": 36300
    },
    {
      "epoch": 17.116925978312118,
      "grad_norm": 0.0004412139824125916,
      "learning_rate": 0.0062755700212757054,
      "loss": 0.3234,
      "num_input_tokens_seen": 33671392,
      "step": 36305
    },
    {
      "epoch": 17.11928335690712,
      "grad_norm": 0.000838485371787101,
      "learning_rate": 0.006258721144913148,
      "loss": 0.293,
      "num_input_tokens_seen": 33677472,
      "step": 36310
    },
    {
      "epoch": 17.121640735502123,
      "grad_norm": 0.00040943027124740183,
      "learning_rate": 0.0062418944352621575,
      "loss": 0.3238,
      "num_input_tokens_seen": 33682336,
      "step": 36315
    },
    {
      "epoch": 17.123998114097123,
      "grad_norm": 0.0004507197008933872,
      "learning_rate": 0.0062250898949176405,
      "loss": 0.3075,
      "num_input_tokens_seen": 33687424,
      "step": 36320
    },
    {
      "epoch": 17.126355492692127,
      "grad_norm": 0.00044450120185501873,
      "learning_rate": 0.006208307526471041,
      "loss": 0.3506,
      "num_input_tokens_seen": 33692288,
      "step": 36325
    },
    {
      "epoch": 17.128712871287128,
      "grad_norm": 0.00043017161078751087,
      "learning_rate": 0.006191547332510405,
      "loss": 0.2984,
      "num_input_tokens_seen": 33696736,
      "step": 36330
    },
    {
      "epoch": 17.131070249882132,
      "grad_norm": 0.0005896657821722329,
      "learning_rate": 0.006174809315620416,
      "loss": 0.2785,
      "num_input_tokens_seen": 33701520,
      "step": 36335
    },
    {
      "epoch": 17.133427628477133,
      "grad_norm": 0.0005446193972602487,
      "learning_rate": 0.00615809347838221,
      "loss": 0.3544,
      "num_input_tokens_seen": 33705472,
      "step": 36340
    },
    {
      "epoch": 17.135785007072137,
      "grad_norm": 0.000873936980497092,
      "learning_rate": 0.006141399823373655,
      "loss": 0.3605,
      "num_input_tokens_seen": 33710224,
      "step": 36345
    },
    {
      "epoch": 17.138142385667138,
      "grad_norm": 0.001080716960132122,
      "learning_rate": 0.0061247283531690455,
      "loss": 0.3023,
      "num_input_tokens_seen": 33714560,
      "step": 36350
    },
    {
      "epoch": 17.14049976426214,
      "grad_norm": 0.0003756500082090497,
      "learning_rate": 0.0061080790703393895,
      "loss": 0.3049,
      "num_input_tokens_seen": 33718656,
      "step": 36355
    },
    {
      "epoch": 17.142857142857142,
      "grad_norm": 0.0007005787920206785,
      "learning_rate": 0.006091451977452217,
      "loss": 0.2897,
      "num_input_tokens_seen": 33723104,
      "step": 36360
    },
    {
      "epoch": 17.145214521452147,
      "grad_norm": 0.0008298446773551404,
      "learning_rate": 0.00607484707707161,
      "loss": 0.319,
      "num_input_tokens_seen": 33727584,
      "step": 36365
    },
    {
      "epoch": 17.147571900047147,
      "grad_norm": 0.0014041990507394075,
      "learning_rate": 0.006058264371758254,
      "loss": 0.3591,
      "num_input_tokens_seen": 33731984,
      "step": 36370
    },
    {
      "epoch": 17.14992927864215,
      "grad_norm": 0.0005015658098272979,
      "learning_rate": 0.00604170386406942,
      "loss": 0.3537,
      "num_input_tokens_seen": 33736640,
      "step": 36375
    },
    {
      "epoch": 17.152286657237152,
      "grad_norm": 0.0003403151931706816,
      "learning_rate": 0.006025165556558931,
      "loss": 0.2536,
      "num_input_tokens_seen": 33740512,
      "step": 36380
    },
    {
      "epoch": 17.154644035832156,
      "grad_norm": 0.0005295755108818412,
      "learning_rate": 0.006008649451777248,
      "loss": 0.3272,
      "num_input_tokens_seen": 33745280,
      "step": 36385
    },
    {
      "epoch": 17.157001414427157,
      "grad_norm": 0.0005690761026926339,
      "learning_rate": 0.005992155552271283,
      "loss": 0.3145,
      "num_input_tokens_seen": 33750176,
      "step": 36390
    },
    {
      "epoch": 17.15935879302216,
      "grad_norm": 0.0006725575076416135,
      "learning_rate": 0.005975683860584685,
      "loss": 0.382,
      "num_input_tokens_seen": 33754896,
      "step": 36395
    },
    {
      "epoch": 17.16171617161716,
      "grad_norm": 0.0005395645857788622,
      "learning_rate": 0.0059592343792575385,
      "loss": 0.3277,
      "num_input_tokens_seen": 33759120,
      "step": 36400
    },
    {
      "epoch": 17.16171617161716,
      "eval_loss": 0.32878726720809937,
      "eval_runtime": 33.6366,
      "eval_samples_per_second": 28.035,
      "eval_steps_per_second": 14.032,
      "num_input_tokens_seen": 33759120,
      "step": 36400
    },
    {
      "epoch": 17.164073550212166,
      "grad_norm": 0.0007818529848009348,
      "learning_rate": 0.0059428071108265975,
      "loss": 0.3144,
      "num_input_tokens_seen": 33764352,
      "step": 36405
    },
    {
      "epoch": 17.166430928807166,
      "grad_norm": 0.000807356380391866,
      "learning_rate": 0.005926402057825136,
      "loss": 0.2717,
      "num_input_tokens_seen": 33768720,
      "step": 36410
    },
    {
      "epoch": 17.16878830740217,
      "grad_norm": 0.0004392208647914231,
      "learning_rate": 0.005910019222782997,
      "loss": 0.2522,
      "num_input_tokens_seen": 33773568,
      "step": 36415
    },
    {
      "epoch": 17.17114568599717,
      "grad_norm": 0.00046646263217553496,
      "learning_rate": 0.005893658608226643,
      "loss": 0.3508,
      "num_input_tokens_seen": 33778304,
      "step": 36420
    },
    {
      "epoch": 17.173503064592172,
      "grad_norm": 0.0006023020250722766,
      "learning_rate": 0.0058773202166791045,
      "loss": 0.3942,
      "num_input_tokens_seen": 33782688,
      "step": 36425
    },
    {
      "epoch": 17.175860443187176,
      "grad_norm": 0.0004182906122878194,
      "learning_rate": 0.005861004050659918,
      "loss": 0.3162,
      "num_input_tokens_seen": 33787488,
      "step": 36430
    },
    {
      "epoch": 17.178217821782177,
      "grad_norm": 0.000889479648321867,
      "learning_rate": 0.005844710112685286,
      "loss": 0.3021,
      "num_input_tokens_seen": 33792288,
      "step": 36435
    },
    {
      "epoch": 17.18057520037718,
      "grad_norm": 0.0003957651206292212,
      "learning_rate": 0.005828438405267933,
      "loss": 0.3005,
      "num_input_tokens_seen": 33797408,
      "step": 36440
    },
    {
      "epoch": 17.18293257897218,
      "grad_norm": 0.0004549328878056258,
      "learning_rate": 0.00581218893091715,
      "loss": 0.3367,
      "num_input_tokens_seen": 33802176,
      "step": 36445
    },
    {
      "epoch": 17.185289957567186,
      "grad_norm": 0.0007586546707898378,
      "learning_rate": 0.005795961692138801,
      "loss": 0.3087,
      "num_input_tokens_seen": 33806640,
      "step": 36450
    },
    {
      "epoch": 17.187647336162186,
      "grad_norm": 0.000483467651065439,
      "learning_rate": 0.00577975669143535,
      "loss": 0.3137,
      "num_input_tokens_seen": 33810288,
      "step": 36455
    },
    {
      "epoch": 17.19000471475719,
      "grad_norm": 0.0004680331621784717,
      "learning_rate": 0.005763573931305782,
      "loss": 0.4085,
      "num_input_tokens_seen": 33815040,
      "step": 36460
    },
    {
      "epoch": 17.19236209335219,
      "grad_norm": 0.0003088585799559951,
      "learning_rate": 0.005747413414245733,
      "loss": 0.3107,
      "num_input_tokens_seen": 33819472,
      "step": 36465
    },
    {
      "epoch": 17.194719471947195,
      "grad_norm": 0.0004385067441035062,
      "learning_rate": 0.005731275142747294,
      "loss": 0.3196,
      "num_input_tokens_seen": 33823664,
      "step": 36470
    },
    {
      "epoch": 17.197076850542196,
      "grad_norm": 0.00090055912733078,
      "learning_rate": 0.005715159119299256,
      "loss": 0.297,
      "num_input_tokens_seen": 33828064,
      "step": 36475
    },
    {
      "epoch": 17.1994342291372,
      "grad_norm": 0.000793890212662518,
      "learning_rate": 0.005699065346386867,
      "loss": 0.3317,
      "num_input_tokens_seen": 33833248,
      "step": 36480
    },
    {
      "epoch": 17.2017916077322,
      "grad_norm": 0.00040228868601843715,
      "learning_rate": 0.0056829938264919885,
      "loss": 0.3378,
      "num_input_tokens_seen": 33837392,
      "step": 36485
    },
    {
      "epoch": 17.204148986327205,
      "grad_norm": 0.00044782867189496756,
      "learning_rate": 0.005666944562093074,
      "loss": 0.3435,
      "num_input_tokens_seen": 33841744,
      "step": 36490
    },
    {
      "epoch": 17.206506364922205,
      "grad_norm": 0.0004996951320208609,
      "learning_rate": 0.005650917555665108,
      "loss": 0.3182,
      "num_input_tokens_seen": 33845856,
      "step": 36495
    },
    {
      "epoch": 17.20886374351721,
      "grad_norm": 0.000817609135992825,
      "learning_rate": 0.005634912809679632,
      "loss": 0.3523,
      "num_input_tokens_seen": 33852000,
      "step": 36500
    },
    {
      "epoch": 17.21122112211221,
      "grad_norm": 0.0005789933493360877,
      "learning_rate": 0.005618930326604854,
      "loss": 0.3501,
      "num_input_tokens_seen": 33857024,
      "step": 36505
    },
    {
      "epoch": 17.213578500707214,
      "grad_norm": 0.00039743201341480017,
      "learning_rate": 0.005602970108905386,
      "loss": 0.3758,
      "num_input_tokens_seen": 33860944,
      "step": 36510
    },
    {
      "epoch": 17.215935879302215,
      "grad_norm": 0.0004355394921731204,
      "learning_rate": 0.005587032159042543,
      "loss": 0.3376,
      "num_input_tokens_seen": 33865440,
      "step": 36515
    },
    {
      "epoch": 17.21829325789722,
      "grad_norm": 0.0004314372199587524,
      "learning_rate": 0.005571116479474158,
      "loss": 0.2715,
      "num_input_tokens_seen": 33869680,
      "step": 36520
    },
    {
      "epoch": 17.22065063649222,
      "grad_norm": 0.0005241957842372358,
      "learning_rate": 0.005555223072654619,
      "loss": 0.3078,
      "num_input_tokens_seen": 33874480,
      "step": 36525
    },
    {
      "epoch": 17.223008015087224,
      "grad_norm": 0.00046422568266279995,
      "learning_rate": 0.005539351941034881,
      "loss": 0.2902,
      "num_input_tokens_seen": 33878624,
      "step": 36530
    },
    {
      "epoch": 17.225365393682225,
      "grad_norm": 0.0004701920261140913,
      "learning_rate": 0.0055235030870624865,
      "loss": 0.3366,
      "num_input_tokens_seen": 33884672,
      "step": 36535
    },
    {
      "epoch": 17.22772277227723,
      "grad_norm": 0.0007555169286206365,
      "learning_rate": 0.005507676513181514,
      "loss": 0.3118,
      "num_input_tokens_seen": 33889200,
      "step": 36540
    },
    {
      "epoch": 17.23008015087223,
      "grad_norm": 0.0007378468289971352,
      "learning_rate": 0.005491872221832628,
      "loss": 0.3776,
      "num_input_tokens_seen": 33893552,
      "step": 36545
    },
    {
      "epoch": 17.232437529467234,
      "grad_norm": 0.0005027760635130107,
      "learning_rate": 0.005476090215453061,
      "loss": 0.3106,
      "num_input_tokens_seen": 33897728,
      "step": 36550
    },
    {
      "epoch": 17.234794908062234,
      "grad_norm": 0.0008144726161845028,
      "learning_rate": 0.0054603304964765675,
      "loss": 0.3317,
      "num_input_tokens_seen": 33901952,
      "step": 36555
    },
    {
      "epoch": 17.23715228665724,
      "grad_norm": 0.0003990373224951327,
      "learning_rate": 0.005444593067333519,
      "loss": 0.296,
      "num_input_tokens_seen": 33906080,
      "step": 36560
    },
    {
      "epoch": 17.23950966525224,
      "grad_norm": 0.00030283452360890806,
      "learning_rate": 0.00542887793045081,
      "loss": 0.2525,
      "num_input_tokens_seen": 33911136,
      "step": 36565
    },
    {
      "epoch": 17.241867043847243,
      "grad_norm": 0.00029801693744957447,
      "learning_rate": 0.005413185088251932,
      "loss": 0.2712,
      "num_input_tokens_seen": 33915520,
      "step": 36570
    },
    {
      "epoch": 17.244224422442244,
      "grad_norm": 0.0005231029354035854,
      "learning_rate": 0.005397514543156884,
      "loss": 0.3128,
      "num_input_tokens_seen": 33920480,
      "step": 36575
    },
    {
      "epoch": 17.246581801037248,
      "grad_norm": 0.0006826650351285934,
      "learning_rate": 0.0053818662975822825,
      "loss": 0.372,
      "num_input_tokens_seen": 33924880,
      "step": 36580
    },
    {
      "epoch": 17.24893917963225,
      "grad_norm": 0.00037748608156107366,
      "learning_rate": 0.005366240353941315,
      "loss": 0.2826,
      "num_input_tokens_seen": 33930080,
      "step": 36585
    },
    {
      "epoch": 17.251296558227253,
      "grad_norm": 0.001037707319483161,
      "learning_rate": 0.005350636714643636,
      "loss": 0.3815,
      "num_input_tokens_seen": 33935376,
      "step": 36590
    },
    {
      "epoch": 17.253653936822253,
      "grad_norm": 0.0002858676016330719,
      "learning_rate": 0.005335055382095555,
      "loss": 0.3597,
      "num_input_tokens_seen": 33940384,
      "step": 36595
    },
    {
      "epoch": 17.256011315417258,
      "grad_norm": 0.0004706961626652628,
      "learning_rate": 0.005319496358699915,
      "loss": 0.3295,
      "num_input_tokens_seen": 33946224,
      "step": 36600
    },
    {
      "epoch": 17.256011315417258,
      "eval_loss": 0.3282875418663025,
      "eval_runtime": 33.5931,
      "eval_samples_per_second": 28.071,
      "eval_steps_per_second": 14.051,
      "num_input_tokens_seen": 33946224,
      "step": 36600
    },
    {
      "epoch": 17.25836869401226,
      "grad_norm": 0.0005235353601165116,
      "learning_rate": 0.005303959646856099,
      "loss": 0.3217,
      "num_input_tokens_seen": 33950784,
      "step": 36605
    },
    {
      "epoch": 17.260726072607262,
      "grad_norm": 0.0003460862208157778,
      "learning_rate": 0.005288445248960089,
      "loss": 0.3592,
      "num_input_tokens_seen": 33955168,
      "step": 36610
    },
    {
      "epoch": 17.263083451202263,
      "grad_norm": 0.0008065321599133313,
      "learning_rate": 0.005272953167404354,
      "loss": 0.3424,
      "num_input_tokens_seen": 33959472,
      "step": 36615
    },
    {
      "epoch": 17.265440829797264,
      "grad_norm": 0.0005823386018164456,
      "learning_rate": 0.005257483404578017,
      "loss": 0.359,
      "num_input_tokens_seen": 33964512,
      "step": 36620
    },
    {
      "epoch": 17.267798208392268,
      "grad_norm": 0.0007136281346902251,
      "learning_rate": 0.0052420359628666865,
      "loss": 0.4109,
      "num_input_tokens_seen": 33969152,
      "step": 36625
    },
    {
      "epoch": 17.27015558698727,
      "grad_norm": 0.0007215572986751795,
      "learning_rate": 0.00522661084465254,
      "loss": 0.3643,
      "num_input_tokens_seen": 33973872,
      "step": 36630
    },
    {
      "epoch": 17.272512965582273,
      "grad_norm": 0.0003915661945939064,
      "learning_rate": 0.005211208052314326,
      "loss": 0.3207,
      "num_input_tokens_seen": 33978000,
      "step": 36635
    },
    {
      "epoch": 17.274870344177273,
      "grad_norm": 0.0005975140957161784,
      "learning_rate": 0.005195827588227391,
      "loss": 0.3318,
      "num_input_tokens_seen": 33983328,
      "step": 36640
    },
    {
      "epoch": 17.277227722772277,
      "grad_norm": 0.0004656660894397646,
      "learning_rate": 0.0051804694547635255,
      "loss": 0.2599,
      "num_input_tokens_seen": 33988304,
      "step": 36645
    },
    {
      "epoch": 17.279585101367278,
      "grad_norm": 0.0007464034133590758,
      "learning_rate": 0.005165133654291232,
      "loss": 0.275,
      "num_input_tokens_seen": 33993520,
      "step": 36650
    },
    {
      "epoch": 17.281942479962282,
      "grad_norm": 0.0008459362434223294,
      "learning_rate": 0.005149820189175402,
      "loss": 0.3457,
      "num_input_tokens_seen": 33997952,
      "step": 36655
    },
    {
      "epoch": 17.284299858557283,
      "grad_norm": 0.0002889342431444675,
      "learning_rate": 0.005134529061777598,
      "loss": 0.356,
      "num_input_tokens_seen": 34002624,
      "step": 36660
    },
    {
      "epoch": 17.286657237152287,
      "grad_norm": 0.0005058592651039362,
      "learning_rate": 0.005119260274455933,
      "loss": 0.3367,
      "num_input_tokens_seen": 34007072,
      "step": 36665
    },
    {
      "epoch": 17.289014615747288,
      "grad_norm": 0.000373824528651312,
      "learning_rate": 0.005104013829565007,
      "loss": 0.3156,
      "num_input_tokens_seen": 34012480,
      "step": 36670
    },
    {
      "epoch": 17.291371994342292,
      "grad_norm": 0.0016127419658005238,
      "learning_rate": 0.005088789729456006,
      "loss": 0.3967,
      "num_input_tokens_seen": 34017088,
      "step": 36675
    },
    {
      "epoch": 17.293729372937293,
      "grad_norm": 0.0009497016435489058,
      "learning_rate": 0.005073587976476735,
      "loss": 0.322,
      "num_input_tokens_seen": 34022256,
      "step": 36680
    },
    {
      "epoch": 17.296086751532297,
      "grad_norm": 0.00042622265755198896,
      "learning_rate": 0.005058408572971418,
      "loss": 0.3506,
      "num_input_tokens_seen": 34027600,
      "step": 36685
    },
    {
      "epoch": 17.298444130127297,
      "grad_norm": 0.00044443379738368094,
      "learning_rate": 0.005043251521280983,
      "loss": 0.353,
      "num_input_tokens_seen": 34032320,
      "step": 36690
    },
    {
      "epoch": 17.3008015087223,
      "grad_norm": 0.0004043570952489972,
      "learning_rate": 0.005028116823742795,
      "loss": 0.3442,
      "num_input_tokens_seen": 34036304,
      "step": 36695
    },
    {
      "epoch": 17.303158887317302,
      "grad_norm": 0.000492988561745733,
      "learning_rate": 0.005013004482690819,
      "loss": 0.3288,
      "num_input_tokens_seen": 34041072,
      "step": 36700
    },
    {
      "epoch": 17.305516265912306,
      "grad_norm": 0.0007729153730906546,
      "learning_rate": 0.0049979145004555746,
      "loss": 0.3079,
      "num_input_tokens_seen": 34046048,
      "step": 36705
    },
    {
      "epoch": 17.307873644507307,
      "grad_norm": 0.0005343309021554887,
      "learning_rate": 0.004982846879364116,
      "loss": 0.3396,
      "num_input_tokens_seen": 34051008,
      "step": 36710
    },
    {
      "epoch": 17.31023102310231,
      "grad_norm": 0.0005473493365570903,
      "learning_rate": 0.0049678016217400535,
      "loss": 0.35,
      "num_input_tokens_seen": 34056048,
      "step": 36715
    },
    {
      "epoch": 17.31258840169731,
      "grad_norm": 0.0006814555381424725,
      "learning_rate": 0.004952778729903595,
      "loss": 0.3641,
      "num_input_tokens_seen": 34060304,
      "step": 36720
    },
    {
      "epoch": 17.314945780292316,
      "grad_norm": 0.00043194720637984574,
      "learning_rate": 0.004937778206171422,
      "loss": 0.3365,
      "num_input_tokens_seen": 34064960,
      "step": 36725
    },
    {
      "epoch": 17.317303158887317,
      "grad_norm": 0.0012731663882732391,
      "learning_rate": 0.004922800052856835,
      "loss": 0.3652,
      "num_input_tokens_seen": 34070560,
      "step": 36730
    },
    {
      "epoch": 17.31966053748232,
      "grad_norm": 0.0005822883686050773,
      "learning_rate": 0.004907844272269602,
      "loss": 0.3407,
      "num_input_tokens_seen": 34075632,
      "step": 36735
    },
    {
      "epoch": 17.32201791607732,
      "grad_norm": 0.00045690604019910097,
      "learning_rate": 0.004892910866716144,
      "loss": 0.3306,
      "num_input_tokens_seen": 34079904,
      "step": 36740
    },
    {
      "epoch": 17.324375294672326,
      "grad_norm": 0.0007616311777383089,
      "learning_rate": 0.004877999838499369,
      "loss": 0.2782,
      "num_input_tokens_seen": 34085120,
      "step": 36745
    },
    {
      "epoch": 17.326732673267326,
      "grad_norm": 0.0003540867182891816,
      "learning_rate": 0.0048631111899187065,
      "loss": 0.3862,
      "num_input_tokens_seen": 34090992,
      "step": 36750
    },
    {
      "epoch": 17.32909005186233,
      "grad_norm": 0.0008200734155252576,
      "learning_rate": 0.0048482449232702335,
      "loss": 0.3564,
      "num_input_tokens_seen": 34095424,
      "step": 36755
    },
    {
      "epoch": 17.33144743045733,
      "grad_norm": 0.0013423997443169355,
      "learning_rate": 0.004833401040846469,
      "loss": 0.3452,
      "num_input_tokens_seen": 34100592,
      "step": 36760
    },
    {
      "epoch": 17.333804809052335,
      "grad_norm": 0.0006792671047151089,
      "learning_rate": 0.004818579544936546,
      "loss": 0.3501,
      "num_input_tokens_seen": 34104752,
      "step": 36765
    },
    {
      "epoch": 17.336162187647336,
      "grad_norm": 0.000439649069448933,
      "learning_rate": 0.004803780437826121,
      "loss": 0.3645,
      "num_input_tokens_seen": 34109152,
      "step": 36770
    },
    {
      "epoch": 17.33851956624234,
      "grad_norm": 0.0007759581785649061,
      "learning_rate": 0.004789003721797402,
      "loss": 0.3264,
      "num_input_tokens_seen": 34113536,
      "step": 36775
    },
    {
      "epoch": 17.34087694483734,
      "grad_norm": 0.0007102675153873861,
      "learning_rate": 0.004774249399129132,
      "loss": 0.3379,
      "num_input_tokens_seen": 34117968,
      "step": 36780
    },
    {
      "epoch": 17.343234323432345,
      "grad_norm": 0.0007521254592575133,
      "learning_rate": 0.004759517472096642,
      "loss": 0.3255,
      "num_input_tokens_seen": 34122128,
      "step": 36785
    },
    {
      "epoch": 17.345591702027345,
      "grad_norm": 0.0005490314797498286,
      "learning_rate": 0.004744807942971746,
      "loss": 0.2934,
      "num_input_tokens_seen": 34126976,
      "step": 36790
    },
    {
      "epoch": 17.34794908062235,
      "grad_norm": 0.000643485807813704,
      "learning_rate": 0.004730120814022881,
      "loss": 0.3377,
      "num_input_tokens_seen": 34132128,
      "step": 36795
    },
    {
      "epoch": 17.35030645921735,
      "grad_norm": 0.0004735707479994744,
      "learning_rate": 0.004715456087514935,
      "loss": 0.3543,
      "num_input_tokens_seen": 34137504,
      "step": 36800
    },
    {
      "epoch": 17.35030645921735,
      "eval_loss": 0.33003726601600647,
      "eval_runtime": 33.575,
      "eval_samples_per_second": 28.086,
      "eval_steps_per_second": 14.058,
      "num_input_tokens_seen": 34137504,
      "step": 36800
    },
    {
      "epoch": 17.352663837812354,
      "grad_norm": 0.0005217117141000926,
      "learning_rate": 0.004700813765709432,
      "loss": 0.3289,
      "num_input_tokens_seen": 34142096,
      "step": 36805
    },
    {
      "epoch": 17.355021216407355,
      "grad_norm": 0.0004938843776471913,
      "learning_rate": 0.004686193850864401,
      "loss": 0.3615,
      "num_input_tokens_seen": 34147328,
      "step": 36810
    },
    {
      "epoch": 17.35737859500236,
      "grad_norm": 0.0007479899795725942,
      "learning_rate": 0.004671596345234385,
      "loss": 0.3218,
      "num_input_tokens_seen": 34152480,
      "step": 36815
    },
    {
      "epoch": 17.35973597359736,
      "grad_norm": 0.0004997591604478657,
      "learning_rate": 0.00465702125107052,
      "loss": 0.381,
      "num_input_tokens_seen": 34156944,
      "step": 36820
    },
    {
      "epoch": 17.36209335219236,
      "grad_norm": 0.0007531152805313468,
      "learning_rate": 0.004642468570620506,
      "loss": 0.2881,
      "num_input_tokens_seen": 34161248,
      "step": 36825
    },
    {
      "epoch": 17.364450730787365,
      "grad_norm": 0.0005572146037593484,
      "learning_rate": 0.004627938306128482,
      "loss": 0.3464,
      "num_input_tokens_seen": 34166112,
      "step": 36830
    },
    {
      "epoch": 17.366808109382365,
      "grad_norm": 0.0003279398661106825,
      "learning_rate": 0.004613430459835255,
      "loss": 0.3008,
      "num_input_tokens_seen": 34170688,
      "step": 36835
    },
    {
      "epoch": 17.36916548797737,
      "grad_norm": 0.0007928090635687113,
      "learning_rate": 0.004598945033978085,
      "loss": 0.276,
      "num_input_tokens_seen": 34175632,
      "step": 36840
    },
    {
      "epoch": 17.37152286657237,
      "grad_norm": 0.0003681204980239272,
      "learning_rate": 0.004584482030790804,
      "loss": 0.366,
      "num_input_tokens_seen": 34179840,
      "step": 36845
    },
    {
      "epoch": 17.373880245167374,
      "grad_norm": 0.0005680880858562887,
      "learning_rate": 0.004570041452503826,
      "loss": 0.3248,
      "num_input_tokens_seen": 34183808,
      "step": 36850
    },
    {
      "epoch": 17.376237623762375,
      "grad_norm": 0.0006804469157941639,
      "learning_rate": 0.004555623301344003,
      "loss": 0.3053,
      "num_input_tokens_seen": 34189504,
      "step": 36855
    },
    {
      "epoch": 17.37859500235738,
      "grad_norm": 0.0004647014429792762,
      "learning_rate": 0.004541227579534857,
      "loss": 0.3555,
      "num_input_tokens_seen": 34194160,
      "step": 36860
    },
    {
      "epoch": 17.38095238095238,
      "grad_norm": 0.0007433334831148386,
      "learning_rate": 0.004526854289296378,
      "loss": 0.2973,
      "num_input_tokens_seen": 34198688,
      "step": 36865
    },
    {
      "epoch": 17.383309759547384,
      "grad_norm": 0.0005077364621683955,
      "learning_rate": 0.004512503432845078,
      "loss": 0.343,
      "num_input_tokens_seen": 34202448,
      "step": 36870
    },
    {
      "epoch": 17.385667138142384,
      "grad_norm": 0.0009547967929393053,
      "learning_rate": 0.004498175012394068,
      "loss": 0.2912,
      "num_input_tokens_seen": 34206816,
      "step": 36875
    },
    {
      "epoch": 17.38802451673739,
      "grad_norm": 0.0006392842624336481,
      "learning_rate": 0.004483869030152965,
      "loss": 0.3134,
      "num_input_tokens_seen": 34210896,
      "step": 36880
    },
    {
      "epoch": 17.39038189533239,
      "grad_norm": 0.0005804981919936836,
      "learning_rate": 0.004469585488327904,
      "loss": 0.369,
      "num_input_tokens_seen": 34215232,
      "step": 36885
    },
    {
      "epoch": 17.392739273927393,
      "grad_norm": 0.0007381613249890506,
      "learning_rate": 0.0044553243891216395,
      "loss": 0.2669,
      "num_input_tokens_seen": 34219456,
      "step": 36890
    },
    {
      "epoch": 17.395096652522394,
      "grad_norm": 0.0002923531283158809,
      "learning_rate": 0.004441085734733363,
      "loss": 0.3299,
      "num_input_tokens_seen": 34224032,
      "step": 36895
    },
    {
      "epoch": 17.397454031117398,
      "grad_norm": 0.0005498527316376567,
      "learning_rate": 0.004426869527358884,
      "loss": 0.3646,
      "num_input_tokens_seen": 34228672,
      "step": 36900
    },
    {
      "epoch": 17.3998114097124,
      "grad_norm": 0.00042544372263364494,
      "learning_rate": 0.0044126757691905156,
      "loss": 0.2698,
      "num_input_tokens_seen": 34233136,
      "step": 36905
    },
    {
      "epoch": 17.402168788307403,
      "grad_norm": 0.0005690432153642178,
      "learning_rate": 0.004398504462417107,
      "loss": 0.3575,
      "num_input_tokens_seen": 34238608,
      "step": 36910
    },
    {
      "epoch": 17.404526166902404,
      "grad_norm": 0.0006854383391328156,
      "learning_rate": 0.0043843556092240605,
      "loss": 0.3492,
      "num_input_tokens_seen": 34243200,
      "step": 36915
    },
    {
      "epoch": 17.406883545497408,
      "grad_norm": 0.0005238706362433732,
      "learning_rate": 0.004370229211793281,
      "loss": 0.3594,
      "num_input_tokens_seen": 34247312,
      "step": 36920
    },
    {
      "epoch": 17.40924092409241,
      "grad_norm": 0.0005173963727429509,
      "learning_rate": 0.0043561252723032405,
      "loss": 0.3491,
      "num_input_tokens_seen": 34251648,
      "step": 36925
    },
    {
      "epoch": 17.411598302687413,
      "grad_norm": 0.00045279020559974015,
      "learning_rate": 0.004342043792929001,
      "loss": 0.2829,
      "num_input_tokens_seen": 34255888,
      "step": 36930
    },
    {
      "epoch": 17.413955681282413,
      "grad_norm": 0.0005145229515619576,
      "learning_rate": 0.004327984775842025,
      "loss": 0.3359,
      "num_input_tokens_seen": 34259488,
      "step": 36935
    },
    {
      "epoch": 17.416313059877417,
      "grad_norm": 0.0006233335006982088,
      "learning_rate": 0.004313948223210428,
      "loss": 0.3082,
      "num_input_tokens_seen": 34264432,
      "step": 36940
    },
    {
      "epoch": 17.418670438472418,
      "grad_norm": 0.0007719302666373551,
      "learning_rate": 0.004299934137198846,
      "loss": 0.3395,
      "num_input_tokens_seen": 34269840,
      "step": 36945
    },
    {
      "epoch": 17.421027817067422,
      "grad_norm": 0.0003719167143572122,
      "learning_rate": 0.004285942519968383,
      "loss": 0.3722,
      "num_input_tokens_seen": 34273968,
      "step": 36950
    },
    {
      "epoch": 17.423385195662423,
      "grad_norm": 0.0004129989247303456,
      "learning_rate": 0.004271973373676746,
      "loss": 0.3078,
      "num_input_tokens_seen": 34278624,
      "step": 36955
    },
    {
      "epoch": 17.425742574257427,
      "grad_norm": 0.0004939650534652174,
      "learning_rate": 0.004258026700478146,
      "loss": 0.3081,
      "num_input_tokens_seen": 34284592,
      "step": 36960
    },
    {
      "epoch": 17.428099952852428,
      "grad_norm": 0.0008056544465944171,
      "learning_rate": 0.004244102502523328,
      "loss": 0.2553,
      "num_input_tokens_seen": 34289920,
      "step": 36965
    },
    {
      "epoch": 17.430457331447432,
      "grad_norm": 0.0009021278820000589,
      "learning_rate": 0.004230200781959592,
      "loss": 0.3327,
      "num_input_tokens_seen": 34295264,
      "step": 36970
    },
    {
      "epoch": 17.432814710042432,
      "grad_norm": 0.0004570194869302213,
      "learning_rate": 0.004216321540930756,
      "loss": 0.3012,
      "num_input_tokens_seen": 34299840,
      "step": 36975
    },
    {
      "epoch": 17.435172088637437,
      "grad_norm": 0.000942958693485707,
      "learning_rate": 0.004202464781577175,
      "loss": 0.3923,
      "num_input_tokens_seen": 34303984,
      "step": 36980
    },
    {
      "epoch": 17.437529467232437,
      "grad_norm": 0.00044511386658996344,
      "learning_rate": 0.00418863050603574,
      "loss": 0.3413,
      "num_input_tokens_seen": 34308992,
      "step": 36985
    },
    {
      "epoch": 17.43988684582744,
      "grad_norm": 0.0005967160104773939,
      "learning_rate": 0.004174818716439843,
      "loss": 0.3271,
      "num_input_tokens_seen": 34313120,
      "step": 36990
    },
    {
      "epoch": 17.442244224422442,
      "grad_norm": 0.0003829068155027926,
      "learning_rate": 0.004161029414919464,
      "loss": 0.3703,
      "num_input_tokens_seen": 34317664,
      "step": 36995
    },
    {
      "epoch": 17.444601603017446,
      "grad_norm": 0.000539066968485713,
      "learning_rate": 0.004147262603601071,
      "loss": 0.291,
      "num_input_tokens_seen": 34322448,
      "step": 37000
    },
    {
      "epoch": 17.444601603017446,
      "eval_loss": 0.3288927674293518,
      "eval_runtime": 33.6369,
      "eval_samples_per_second": 28.035,
      "eval_steps_per_second": 14.032,
      "num_input_tokens_seen": 34322448,
      "step": 37000
    },
    {
      "epoch": 17.446958981612447,
      "grad_norm": 0.0004478166520129889,
      "learning_rate": 0.004133518284607679,
      "loss": 0.3362,
      "num_input_tokens_seen": 34326800,
      "step": 37005
    },
    {
      "epoch": 17.44931636020745,
      "grad_norm": 0.00040764460572972894,
      "learning_rate": 0.004119796460058861,
      "loss": 0.3549,
      "num_input_tokens_seen": 34331712,
      "step": 37010
    },
    {
      "epoch": 17.45167373880245,
      "grad_norm": 0.0009178518666885793,
      "learning_rate": 0.00410609713207064,
      "loss": 0.3188,
      "num_input_tokens_seen": 34337392,
      "step": 37015
    },
    {
      "epoch": 17.454031117397456,
      "grad_norm": 0.0005285186925902963,
      "learning_rate": 0.004092420302755678,
      "loss": 0.3546,
      "num_input_tokens_seen": 34342208,
      "step": 37020
    },
    {
      "epoch": 17.456388495992456,
      "grad_norm": 0.000378674129024148,
      "learning_rate": 0.004078765974223103,
      "loss": 0.3222,
      "num_input_tokens_seen": 34346784,
      "step": 37025
    },
    {
      "epoch": 17.458745874587457,
      "grad_norm": 0.0005125647294335067,
      "learning_rate": 0.004065134148578564,
      "loss": 0.2903,
      "num_input_tokens_seen": 34352288,
      "step": 37030
    },
    {
      "epoch": 17.46110325318246,
      "grad_norm": 0.0007121069356799126,
      "learning_rate": 0.004051524827924279,
      "loss": 0.293,
      "num_input_tokens_seen": 34357200,
      "step": 37035
    },
    {
      "epoch": 17.463460631777462,
      "grad_norm": 0.00042418140219524503,
      "learning_rate": 0.004037938014358955,
      "loss": 0.3102,
      "num_input_tokens_seen": 34362736,
      "step": 37040
    },
    {
      "epoch": 17.465818010372466,
      "grad_norm": 0.0004353620170149952,
      "learning_rate": 0.004024373709977863,
      "loss": 0.333,
      "num_input_tokens_seen": 34366976,
      "step": 37045
    },
    {
      "epoch": 17.468175388967467,
      "grad_norm": 0.0007931871223263443,
      "learning_rate": 0.004010831916872814,
      "loss": 0.3062,
      "num_input_tokens_seen": 34371872,
      "step": 37050
    },
    {
      "epoch": 17.47053276756247,
      "grad_norm": 0.0006790512707084417,
      "learning_rate": 0.003997312637132089,
      "loss": 0.3408,
      "num_input_tokens_seen": 34376288,
      "step": 37055
    },
    {
      "epoch": 17.47289014615747,
      "grad_norm": 0.0005010089371353388,
      "learning_rate": 0.003983815872840535,
      "loss": 0.3245,
      "num_input_tokens_seen": 34381232,
      "step": 37060
    },
    {
      "epoch": 17.475247524752476,
      "grad_norm": 0.0004974972689524293,
      "learning_rate": 0.003970341626079521,
      "loss": 0.2862,
      "num_input_tokens_seen": 34386096,
      "step": 37065
    },
    {
      "epoch": 17.477604903347476,
      "grad_norm": 0.0003850339271593839,
      "learning_rate": 0.003956889898926952,
      "loss": 0.3201,
      "num_input_tokens_seen": 34390480,
      "step": 37070
    },
    {
      "epoch": 17.47996228194248,
      "grad_norm": 0.0007998758228495717,
      "learning_rate": 0.0039434606934572675,
      "loss": 0.3181,
      "num_input_tokens_seen": 34394416,
      "step": 37075
    },
    {
      "epoch": 17.48231966053748,
      "grad_norm": 0.0007206824375316501,
      "learning_rate": 0.003930054011741396,
      "loss": 0.3667,
      "num_input_tokens_seen": 34399040,
      "step": 37080
    },
    {
      "epoch": 17.484677039132485,
      "grad_norm": 0.000803234928753227,
      "learning_rate": 0.0039166698558468155,
      "loss": 0.2594,
      "num_input_tokens_seen": 34403696,
      "step": 37085
    },
    {
      "epoch": 17.487034417727486,
      "grad_norm": 0.0010389246745035052,
      "learning_rate": 0.0039033082278375594,
      "loss": 0.3249,
      "num_input_tokens_seen": 34408832,
      "step": 37090
    },
    {
      "epoch": 17.48939179632249,
      "grad_norm": 0.001172760734334588,
      "learning_rate": 0.003889969129774112,
      "loss": 0.3497,
      "num_input_tokens_seen": 34413152,
      "step": 37095
    },
    {
      "epoch": 17.49174917491749,
      "grad_norm": 0.0003351837513037026,
      "learning_rate": 0.0038766525637135784,
      "loss": 0.3486,
      "num_input_tokens_seen": 34417216,
      "step": 37100
    },
    {
      "epoch": 17.494106553512495,
      "grad_norm": 0.000668613298330456,
      "learning_rate": 0.0038633585317095318,
      "loss": 0.3249,
      "num_input_tokens_seen": 34421024,
      "step": 37105
    },
    {
      "epoch": 17.496463932107496,
      "grad_norm": 0.0006477537681348622,
      "learning_rate": 0.00385008703581205,
      "loss": 0.3482,
      "num_input_tokens_seen": 34425104,
      "step": 37110
    },
    {
      "epoch": 17.4988213107025,
      "grad_norm": 0.0003321811091154814,
      "learning_rate": 0.0038368380780677944,
      "loss": 0.2583,
      "num_input_tokens_seen": 34429392,
      "step": 37115
    },
    {
      "epoch": 17.5011786892975,
      "grad_norm": 0.0003789081238210201,
      "learning_rate": 0.003823611660519882,
      "loss": 0.3208,
      "num_input_tokens_seen": 34434128,
      "step": 37120
    },
    {
      "epoch": 17.503536067892504,
      "grad_norm": 0.0007259150734171271,
      "learning_rate": 0.0038104077852080475,
      "loss": 0.3315,
      "num_input_tokens_seen": 34438208,
      "step": 37125
    },
    {
      "epoch": 17.505893446487505,
      "grad_norm": 0.0008122393046505749,
      "learning_rate": 0.003797226454168462,
      "loss": 0.2842,
      "num_input_tokens_seen": 34442992,
      "step": 37130
    },
    {
      "epoch": 17.50825082508251,
      "grad_norm": 0.00046097851009108126,
      "learning_rate": 0.003784067669433849,
      "loss": 0.3184,
      "num_input_tokens_seen": 34447744,
      "step": 37135
    },
    {
      "epoch": 17.51060820367751,
      "grad_norm": 0.0007157994550652802,
      "learning_rate": 0.0037709314330334528,
      "loss": 0.3186,
      "num_input_tokens_seen": 34451840,
      "step": 37140
    },
    {
      "epoch": 17.512965582272514,
      "grad_norm": 0.000744913297239691,
      "learning_rate": 0.003757817746993086,
      "loss": 0.3169,
      "num_input_tokens_seen": 34455856,
      "step": 37145
    },
    {
      "epoch": 17.515322960867515,
      "grad_norm": 0.0008055859943851829,
      "learning_rate": 0.0037447266133349977,
      "loss": 0.3019,
      "num_input_tokens_seen": 34460976,
      "step": 37150
    },
    {
      "epoch": 17.51768033946252,
      "grad_norm": 0.0005771848373115063,
      "learning_rate": 0.003731658034078039,
      "loss": 0.3639,
      "num_input_tokens_seen": 34464720,
      "step": 37155
    },
    {
      "epoch": 17.52003771805752,
      "grad_norm": 0.0003840390418190509,
      "learning_rate": 0.0037186120112375153,
      "loss": 0.3397,
      "num_input_tokens_seen": 34469712,
      "step": 37160
    },
    {
      "epoch": 17.522395096652524,
      "grad_norm": 0.0007763108587823808,
      "learning_rate": 0.003705588546825317,
      "loss": 0.3213,
      "num_input_tokens_seen": 34473648,
      "step": 37165
    },
    {
      "epoch": 17.524752475247524,
      "grad_norm": 0.0007020782213658094,
      "learning_rate": 0.0036925876428498205,
      "loss": 0.2549,
      "num_input_tokens_seen": 34479152,
      "step": 37170
    },
    {
      "epoch": 17.52710985384253,
      "grad_norm": 0.00043743831338360906,
      "learning_rate": 0.0036796093013159057,
      "loss": 0.3258,
      "num_input_tokens_seen": 34483568,
      "step": 37175
    },
    {
      "epoch": 17.52946723243753,
      "grad_norm": 0.0004699224082287401,
      "learning_rate": 0.0036666535242250217,
      "loss": 0.3317,
      "num_input_tokens_seen": 34488448,
      "step": 37180
    },
    {
      "epoch": 17.531824611032533,
      "grad_norm": 0.00047378032468259335,
      "learning_rate": 0.003653720313575104,
      "loss": 0.3758,
      "num_input_tokens_seen": 34493440,
      "step": 37185
    },
    {
      "epoch": 17.534181989627534,
      "grad_norm": 0.00041976291686296463,
      "learning_rate": 0.003640809671360623,
      "loss": 0.2998,
      "num_input_tokens_seen": 34497776,
      "step": 37190
    },
    {
      "epoch": 17.536539368222538,
      "grad_norm": 0.0004207214806228876,
      "learning_rate": 0.003627921599572553,
      "loss": 0.2917,
      "num_input_tokens_seen": 34502400,
      "step": 37195
    },
    {
      "epoch": 17.53889674681754,
      "grad_norm": 0.0004323215107433498,
      "learning_rate": 0.003615056100198405,
      "loss": 0.3199,
      "num_input_tokens_seen": 34506880,
      "step": 37200
    },
    {
      "epoch": 17.53889674681754,
      "eval_loss": 0.3286420404911041,
      "eval_runtime": 33.6349,
      "eval_samples_per_second": 28.036,
      "eval_steps_per_second": 14.033,
      "num_input_tokens_seen": 34506880,
      "step": 37200
    },
    {
      "epoch": 17.541254125412543,
      "grad_norm": 0.0007519710925407708,
      "learning_rate": 0.003602213175222174,
      "loss": 0.2883,
      "num_input_tokens_seen": 34511200,
      "step": 37205
    },
    {
      "epoch": 17.543611504007544,
      "grad_norm": 0.0004451487911865115,
      "learning_rate": 0.0035893928266244432,
      "loss": 0.3192,
      "num_input_tokens_seen": 34516192,
      "step": 37210
    },
    {
      "epoch": 17.545968882602544,
      "grad_norm": 0.0004127563734073192,
      "learning_rate": 0.003576595056382248,
      "loss": 0.3655,
      "num_input_tokens_seen": 34520976,
      "step": 37215
    },
    {
      "epoch": 17.54832626119755,
      "grad_norm": 0.0007921037613414228,
      "learning_rate": 0.0035638198664691423,
      "loss": 0.2934,
      "num_input_tokens_seen": 34524624,
      "step": 37220
    },
    {
      "epoch": 17.55068363979255,
      "grad_norm": 0.000482655072119087,
      "learning_rate": 0.003551067258855267,
      "loss": 0.3794,
      "num_input_tokens_seen": 34529680,
      "step": 37225
    },
    {
      "epoch": 17.553041018387553,
      "grad_norm": 0.0011437349021434784,
      "learning_rate": 0.0035383372355071996,
      "loss": 0.3681,
      "num_input_tokens_seen": 34535088,
      "step": 37230
    },
    {
      "epoch": 17.555398396982554,
      "grad_norm": 0.0004268866323400289,
      "learning_rate": 0.0035256297983881023,
      "loss": 0.3429,
      "num_input_tokens_seen": 34539264,
      "step": 37235
    },
    {
      "epoch": 17.557755775577558,
      "grad_norm": 0.0008105778833851218,
      "learning_rate": 0.0035129449494575747,
      "loss": 0.345,
      "num_input_tokens_seen": 34544160,
      "step": 37240
    },
    {
      "epoch": 17.56011315417256,
      "grad_norm": 0.0007616877555847168,
      "learning_rate": 0.0035002826906718187,
      "loss": 0.3103,
      "num_input_tokens_seen": 34548848,
      "step": 37245
    },
    {
      "epoch": 17.562470532767563,
      "grad_norm": 0.00036554582766257226,
      "learning_rate": 0.003487643023983522,
      "loss": 0.3519,
      "num_input_tokens_seen": 34553344,
      "step": 37250
    },
    {
      "epoch": 17.564827911362563,
      "grad_norm": 0.0003823288716375828,
      "learning_rate": 0.003475025951341842,
      "loss": 0.3053,
      "num_input_tokens_seen": 34557312,
      "step": 37255
    },
    {
      "epoch": 17.567185289957568,
      "grad_norm": 0.0010599285596981645,
      "learning_rate": 0.00346243147469249,
      "loss": 0.3978,
      "num_input_tokens_seen": 34561616,
      "step": 37260
    },
    {
      "epoch": 17.569542668552568,
      "grad_norm": 0.0009310562163591385,
      "learning_rate": 0.0034498595959777446,
      "loss": 0.3654,
      "num_input_tokens_seen": 34567216,
      "step": 37265
    },
    {
      "epoch": 17.571900047147572,
      "grad_norm": 0.0014333120780065656,
      "learning_rate": 0.003437310317136305,
      "loss": 0.3228,
      "num_input_tokens_seen": 34572176,
      "step": 37270
    },
    {
      "epoch": 17.574257425742573,
      "grad_norm": 0.0009174278238788247,
      "learning_rate": 0.0034247836401034236,
      "loss": 0.3833,
      "num_input_tokens_seen": 34577008,
      "step": 37275
    },
    {
      "epoch": 17.576614804337577,
      "grad_norm": 0.0006690616137348115,
      "learning_rate": 0.003412279566810905,
      "loss": 0.3812,
      "num_input_tokens_seen": 34581440,
      "step": 37280
    },
    {
      "epoch": 17.578972182932578,
      "grad_norm": 0.0009704427211545408,
      "learning_rate": 0.00339979809918699,
      "loss": 0.3386,
      "num_input_tokens_seen": 34585328,
      "step": 37285
    },
    {
      "epoch": 17.581329561527582,
      "grad_norm": 0.0007848695386201143,
      "learning_rate": 0.0033873392391565228,
      "loss": 0.3015,
      "num_input_tokens_seen": 34589872,
      "step": 37290
    },
    {
      "epoch": 17.583686940122583,
      "grad_norm": 0.0003673058236017823,
      "learning_rate": 0.003374902988640782,
      "loss": 0.3237,
      "num_input_tokens_seen": 34595040,
      "step": 37295
    },
    {
      "epoch": 17.586044318717587,
      "grad_norm": 0.0005028516170568764,
      "learning_rate": 0.0033624893495576014,
      "loss": 0.3143,
      "num_input_tokens_seen": 34599824,
      "step": 37300
    },
    {
      "epoch": 17.588401697312587,
      "grad_norm": 0.00047094293404370546,
      "learning_rate": 0.0033500983238213323,
      "loss": 0.3543,
      "num_input_tokens_seen": 34604256,
      "step": 37305
    },
    {
      "epoch": 17.59075907590759,
      "grad_norm": 0.0008451066678389907,
      "learning_rate": 0.0033377299133428126,
      "loss": 0.306,
      "num_input_tokens_seen": 34608144,
      "step": 37310
    },
    {
      "epoch": 17.593116454502592,
      "grad_norm": 0.0007351780077442527,
      "learning_rate": 0.003325384120029434,
      "loss": 0.3185,
      "num_input_tokens_seen": 34612928,
      "step": 37315
    },
    {
      "epoch": 17.595473833097596,
      "grad_norm": 0.0005200334708206356,
      "learning_rate": 0.0033130609457850233,
      "loss": 0.325,
      "num_input_tokens_seen": 34617328,
      "step": 37320
    },
    {
      "epoch": 17.597831211692597,
      "grad_norm": 0.0005066985613666475,
      "learning_rate": 0.0033007603925100104,
      "loss": 0.3351,
      "num_input_tokens_seen": 34621984,
      "step": 37325
    },
    {
      "epoch": 17.6001885902876,
      "grad_norm": 0.0008185971528291702,
      "learning_rate": 0.003288482462101294,
      "loss": 0.3441,
      "num_input_tokens_seen": 34627584,
      "step": 37330
    },
    {
      "epoch": 17.602545968882602,
      "grad_norm": 0.0004147316503804177,
      "learning_rate": 0.0032762271564522605,
      "loss": 0.3447,
      "num_input_tokens_seen": 34632640,
      "step": 37335
    },
    {
      "epoch": 17.604903347477606,
      "grad_norm": 0.0005242318147793412,
      "learning_rate": 0.003263994477452864,
      "loss": 0.3634,
      "num_input_tokens_seen": 34636368,
      "step": 37340
    },
    {
      "epoch": 17.607260726072607,
      "grad_norm": 0.000596045283600688,
      "learning_rate": 0.0032517844269895125,
      "loss": 0.2785,
      "num_input_tokens_seen": 34641104,
      "step": 37345
    },
    {
      "epoch": 17.60961810466761,
      "grad_norm": 0.0006532028783112764,
      "learning_rate": 0.0032395970069451496,
      "loss": 0.3418,
      "num_input_tokens_seen": 34645424,
      "step": 37350
    },
    {
      "epoch": 17.61197548326261,
      "grad_norm": 0.0004919898346997797,
      "learning_rate": 0.0032274322191992388,
      "loss": 0.3105,
      "num_input_tokens_seen": 34649840,
      "step": 37355
    },
    {
      "epoch": 17.614332861857616,
      "grad_norm": 0.0008316156454384327,
      "learning_rate": 0.0032152900656277294,
      "loss": 0.324,
      "num_input_tokens_seen": 34654256,
      "step": 37360
    },
    {
      "epoch": 17.616690240452616,
      "grad_norm": 0.000532429781742394,
      "learning_rate": 0.0032031705481030902,
      "loss": 0.3413,
      "num_input_tokens_seen": 34659392,
      "step": 37365
    },
    {
      "epoch": 17.61904761904762,
      "grad_norm": 0.0005673686973750591,
      "learning_rate": 0.0031910736684943428,
      "loss": 0.3508,
      "num_input_tokens_seen": 34663968,
      "step": 37370
    },
    {
      "epoch": 17.62140499764262,
      "grad_norm": 0.0007942650699988008,
      "learning_rate": 0.0031789994286669453,
      "loss": 0.3271,
      "num_input_tokens_seen": 34668656,
      "step": 37375
    },
    {
      "epoch": 17.623762376237625,
      "grad_norm": 0.0005353006417863071,
      "learning_rate": 0.003166947830482908,
      "loss": 0.3376,
      "num_input_tokens_seen": 34673456,
      "step": 37380
    },
    {
      "epoch": 17.626119754832626,
      "grad_norm": 0.0004426763334777206,
      "learning_rate": 0.003154918875800727,
      "loss": 0.3842,
      "num_input_tokens_seen": 34678384,
      "step": 37385
    },
    {
      "epoch": 17.62847713342763,
      "grad_norm": 0.0008104530279524624,
      "learning_rate": 0.00314291256647542,
      "loss": 0.313,
      "num_input_tokens_seen": 34682672,
      "step": 37390
    },
    {
      "epoch": 17.63083451202263,
      "grad_norm": 0.0003211347502656281,
      "learning_rate": 0.0031309289043585375,
      "loss": 0.3174,
      "num_input_tokens_seen": 34686736,
      "step": 37395
    },
    {
      "epoch": 17.633191890617635,
      "grad_norm": 0.0009414918022230268,
      "learning_rate": 0.003118967891298069,
      "loss": 0.3043,
      "num_input_tokens_seen": 34692032,
      "step": 37400
    },
    {
      "epoch": 17.633191890617635,
      "eval_loss": 0.3294546604156494,
      "eval_runtime": 33.5717,
      "eval_samples_per_second": 28.089,
      "eval_steps_per_second": 14.059,
      "num_input_tokens_seen": 34692032,
      "step": 37400
    },
    {
      "epoch": 17.635549269212635,
      "grad_norm": 0.0004390760441310704,
      "learning_rate": 0.003107029529138572,
      "loss": 0.2746,
      "num_input_tokens_seen": 34696944,
      "step": 37405
    },
    {
      "epoch": 17.63790664780764,
      "grad_norm": 0.0004573217884171754,
      "learning_rate": 0.0030951138197211235,
      "loss": 0.3953,
      "num_input_tokens_seen": 34701776,
      "step": 37410
    },
    {
      "epoch": 17.64026402640264,
      "grad_norm": 0.0007593524060212076,
      "learning_rate": 0.0030832207648832377,
      "loss": 0.2489,
      "num_input_tokens_seen": 34706400,
      "step": 37415
    },
    {
      "epoch": 17.64262140499764,
      "grad_norm": 0.00048541853902861476,
      "learning_rate": 0.0030713503664589635,
      "loss": 0.326,
      "num_input_tokens_seen": 34710416,
      "step": 37420
    },
    {
      "epoch": 17.644978783592645,
      "grad_norm": 0.0007462420617230237,
      "learning_rate": 0.0030595026262788872,
      "loss": 0.2974,
      "num_input_tokens_seen": 34714352,
      "step": 37425
    },
    {
      "epoch": 17.647336162187646,
      "grad_norm": 0.0003508043009787798,
      "learning_rate": 0.00304767754617008,
      "loss": 0.2788,
      "num_input_tokens_seen": 34719104,
      "step": 37430
    },
    {
      "epoch": 17.64969354078265,
      "grad_norm": 0.0006209732382558286,
      "learning_rate": 0.003035875127956117,
      "loss": 0.3496,
      "num_input_tokens_seen": 34724160,
      "step": 37435
    },
    {
      "epoch": 17.65205091937765,
      "grad_norm": 0.00041662619332782924,
      "learning_rate": 0.0030240953734570752,
      "loss": 0.3003,
      "num_input_tokens_seen": 34728160,
      "step": 37440
    },
    {
      "epoch": 17.654408297972655,
      "grad_norm": 0.00045692428830079734,
      "learning_rate": 0.003012338284489535,
      "loss": 0.3248,
      "num_input_tokens_seen": 34732080,
      "step": 37445
    },
    {
      "epoch": 17.656765676567655,
      "grad_norm": 0.0004900508210994303,
      "learning_rate": 0.0030006038628665964,
      "loss": 0.3697,
      "num_input_tokens_seen": 34736768,
      "step": 37450
    },
    {
      "epoch": 17.65912305516266,
      "grad_norm": 0.000510718731675297,
      "learning_rate": 0.002988892110397845,
      "loss": 0.2971,
      "num_input_tokens_seen": 34741280,
      "step": 37455
    },
    {
      "epoch": 17.66148043375766,
      "grad_norm": 0.00032273787655867636,
      "learning_rate": 0.0029772030288894025,
      "loss": 0.2894,
      "num_input_tokens_seen": 34745168,
      "step": 37460
    },
    {
      "epoch": 17.663837812352664,
      "grad_norm": 0.0007615797221660614,
      "learning_rate": 0.0029655366201438438,
      "loss": 0.3118,
      "num_input_tokens_seen": 34750096,
      "step": 37465
    },
    {
      "epoch": 17.666195190947665,
      "grad_norm": 0.00070519233122468,
      "learning_rate": 0.0029538928859602965,
      "loss": 0.2833,
      "num_input_tokens_seen": 34754768,
      "step": 37470
    },
    {
      "epoch": 17.66855256954267,
      "grad_norm": 0.0007389942184090614,
      "learning_rate": 0.002942271828134374,
      "loss": 0.326,
      "num_input_tokens_seen": 34759392,
      "step": 37475
    },
    {
      "epoch": 17.67090994813767,
      "grad_norm": 0.00048648269148543477,
      "learning_rate": 0.00293067344845816,
      "loss": 0.2987,
      "num_input_tokens_seen": 34763552,
      "step": 37480
    },
    {
      "epoch": 17.673267326732674,
      "grad_norm": 0.0006198094342835248,
      "learning_rate": 0.0029190977487202896,
      "loss": 0.3298,
      "num_input_tokens_seen": 34767536,
      "step": 37485
    },
    {
      "epoch": 17.675624705327674,
      "grad_norm": 0.0004802331968676299,
      "learning_rate": 0.0029075447307058853,
      "loss": 0.3002,
      "num_input_tokens_seen": 34772864,
      "step": 37490
    },
    {
      "epoch": 17.67798208392268,
      "grad_norm": 0.0008357365150004625,
      "learning_rate": 0.0028960143961965722,
      "loss": 0.355,
      "num_input_tokens_seen": 34777536,
      "step": 37495
    },
    {
      "epoch": 17.68033946251768,
      "grad_norm": 0.00044881334179081023,
      "learning_rate": 0.002884506746970461,
      "loss": 0.3402,
      "num_input_tokens_seen": 34781920,
      "step": 37500
    },
    {
      "epoch": 17.682696841112683,
      "grad_norm": 0.0008361172513104975,
      "learning_rate": 0.0028730217848021654,
      "loss": 0.3476,
      "num_input_tokens_seen": 34786016,
      "step": 37505
    },
    {
      "epoch": 17.685054219707684,
      "grad_norm": 0.0004608554590959102,
      "learning_rate": 0.0028615595114628188,
      "loss": 0.3308,
      "num_input_tokens_seen": 34790688,
      "step": 37510
    },
    {
      "epoch": 17.68741159830269,
      "grad_norm": 0.00090793363051489,
      "learning_rate": 0.002850119928720074,
      "loss": 0.3697,
      "num_input_tokens_seen": 34795200,
      "step": 37515
    },
    {
      "epoch": 17.68976897689769,
      "grad_norm": 0.00042429607128724456,
      "learning_rate": 0.0028387030383380195,
      "loss": 0.3167,
      "num_input_tokens_seen": 34799456,
      "step": 37520
    },
    {
      "epoch": 17.692126355492693,
      "grad_norm": 0.0008380450308322906,
      "learning_rate": 0.0028273088420772974,
      "loss": 0.297,
      "num_input_tokens_seen": 34804096,
      "step": 37525
    },
    {
      "epoch": 17.694483734087694,
      "grad_norm": 0.0004040731000714004,
      "learning_rate": 0.002815937341695068,
      "loss": 0.322,
      "num_input_tokens_seen": 34809408,
      "step": 37530
    },
    {
      "epoch": 17.696841112682698,
      "grad_norm": 0.0009438873967155814,
      "learning_rate": 0.0028045885389448963,
      "loss": 0.2938,
      "num_input_tokens_seen": 34813440,
      "step": 37535
    },
    {
      "epoch": 17.6991984912777,
      "grad_norm": 0.00031633221078664064,
      "learning_rate": 0.002793262435576965,
      "loss": 0.2901,
      "num_input_tokens_seen": 34818448,
      "step": 37540
    },
    {
      "epoch": 17.701555869872703,
      "grad_norm": 0.0007332817767746747,
      "learning_rate": 0.0027819590333378772,
      "loss": 0.3272,
      "num_input_tokens_seen": 34822672,
      "step": 37545
    },
    {
      "epoch": 17.703913248467703,
      "grad_norm": 0.0003344420692883432,
      "learning_rate": 0.002770678333970755,
      "loss": 0.2727,
      "num_input_tokens_seen": 34827232,
      "step": 37550
    },
    {
      "epoch": 17.706270627062707,
      "grad_norm": 0.00040897520375438035,
      "learning_rate": 0.0027594203392152573,
      "loss": 0.3286,
      "num_input_tokens_seen": 34831888,
      "step": 37555
    },
    {
      "epoch": 17.708628005657708,
      "grad_norm": 0.00045731497812084854,
      "learning_rate": 0.002748185050807478,
      "loss": 0.3132,
      "num_input_tokens_seen": 34836896,
      "step": 37560
    },
    {
      "epoch": 17.710985384252712,
      "grad_norm": 0.0006865360774099827,
      "learning_rate": 0.002736972470480031,
      "loss": 0.3985,
      "num_input_tokens_seen": 34841392,
      "step": 37565
    },
    {
      "epoch": 17.713342762847713,
      "grad_norm": 0.0005605011247098446,
      "learning_rate": 0.002725782599962068,
      "loss": 0.398,
      "num_input_tokens_seen": 34845856,
      "step": 37570
    },
    {
      "epoch": 17.715700141442717,
      "grad_norm": 0.0004165408608969301,
      "learning_rate": 0.0027146154409791734,
      "loss": 0.2853,
      "num_input_tokens_seen": 34850688,
      "step": 37575
    },
    {
      "epoch": 17.718057520037718,
      "grad_norm": 0.0007452224381268024,
      "learning_rate": 0.002703470995253504,
      "loss": 0.2901,
      "num_input_tokens_seen": 34854912,
      "step": 37580
    },
    {
      "epoch": 17.720414898632722,
      "grad_norm": 0.000551573175471276,
      "learning_rate": 0.0026923492645036184,
      "loss": 0.3758,
      "num_input_tokens_seen": 34860032,
      "step": 37585
    },
    {
      "epoch": 17.722772277227723,
      "grad_norm": 0.00044551165774464607,
      "learning_rate": 0.0026812502504446776,
      "loss": 0.3134,
      "num_input_tokens_seen": 34864944,
      "step": 37590
    },
    {
      "epoch": 17.725129655822727,
      "grad_norm": 0.0004751787637360394,
      "learning_rate": 0.0026701739547882798,
      "loss": 0.3675,
      "num_input_tokens_seen": 34868960,
      "step": 37595
    },
    {
      "epoch": 17.727487034417727,
      "grad_norm": 0.0005792527226731181,
      "learning_rate": 0.0026591203792425077,
      "loss": 0.272,
      "num_input_tokens_seen": 34873984,
      "step": 37600
    },
    {
      "epoch": 17.727487034417727,
      "eval_loss": 0.3286833167076111,
      "eval_runtime": 33.5815,
      "eval_samples_per_second": 28.081,
      "eval_steps_per_second": 14.055,
      "num_input_tokens_seen": 34873984,
      "step": 37600
    },
    {
      "epoch": 17.72984441301273,
      "grad_norm": 0.0005902040284126997,
      "learning_rate": 0.0026480895255119818,
      "loss": 0.3357,
      "num_input_tokens_seen": 34878464,
      "step": 37605
    },
    {
      "epoch": 17.732201791607732,
      "grad_norm": 0.0009298733784817159,
      "learning_rate": 0.002637081395297791,
      "loss": 0.32,
      "num_input_tokens_seen": 34881840,
      "step": 37610
    },
    {
      "epoch": 17.734559170202736,
      "grad_norm": 0.0007836091099306941,
      "learning_rate": 0.0026260959902975113,
      "loss": 0.2679,
      "num_input_tokens_seen": 34885920,
      "step": 37615
    },
    {
      "epoch": 17.736916548797737,
      "grad_norm": 0.0005165631300769746,
      "learning_rate": 0.00261513331220527,
      "loss": 0.2918,
      "num_input_tokens_seen": 34889920,
      "step": 37620
    },
    {
      "epoch": 17.739273927392738,
      "grad_norm": 0.000515027204528451,
      "learning_rate": 0.0026041933627116154,
      "loss": 0.3327,
      "num_input_tokens_seen": 34894048,
      "step": 37625
    },
    {
      "epoch": 17.74163130598774,
      "grad_norm": 0.0004051442083436996,
      "learning_rate": 0.0025932761435036476,
      "loss": 0.3212,
      "num_input_tokens_seen": 34898528,
      "step": 37630
    },
    {
      "epoch": 17.743988684582742,
      "grad_norm": 0.0004288375494070351,
      "learning_rate": 0.002582381656264904,
      "loss": 0.332,
      "num_input_tokens_seen": 34904560,
      "step": 37635
    },
    {
      "epoch": 17.746346063177747,
      "grad_norm": 0.00035965561983175576,
      "learning_rate": 0.0025715099026754895,
      "loss": 0.3376,
      "num_input_tokens_seen": 34909312,
      "step": 37640
    },
    {
      "epoch": 17.748703441772747,
      "grad_norm": 0.0006114624557085335,
      "learning_rate": 0.002560660884411947,
      "loss": 0.3245,
      "num_input_tokens_seen": 34914288,
      "step": 37645
    },
    {
      "epoch": 17.75106082036775,
      "grad_norm": 0.0005548015469685197,
      "learning_rate": 0.0025498346031473385,
      "loss": 0.3319,
      "num_input_tokens_seen": 34918832,
      "step": 37650
    },
    {
      "epoch": 17.753418198962752,
      "grad_norm": 0.0007279913988895714,
      "learning_rate": 0.0025390310605511945,
      "loss": 0.3801,
      "num_input_tokens_seen": 34923312,
      "step": 37655
    },
    {
      "epoch": 17.755775577557756,
      "grad_norm": 0.0006665096152573824,
      "learning_rate": 0.0025282502582895995,
      "loss": 0.2656,
      "num_input_tokens_seen": 34928608,
      "step": 37660
    },
    {
      "epoch": 17.758132956152757,
      "grad_norm": 0.00036828016163781285,
      "learning_rate": 0.002517492198025023,
      "loss": 0.3265,
      "num_input_tokens_seen": 34933040,
      "step": 37665
    },
    {
      "epoch": 17.76049033474776,
      "grad_norm": 0.00042760063661262393,
      "learning_rate": 0.0025067568814165554,
      "loss": 0.3308,
      "num_input_tokens_seen": 34936640,
      "step": 37670
    },
    {
      "epoch": 17.76284771334276,
      "grad_norm": 0.00037097776657901704,
      "learning_rate": 0.0024960443101196884,
      "loss": 0.3432,
      "num_input_tokens_seen": 34941120,
      "step": 37675
    },
    {
      "epoch": 17.765205091937766,
      "grad_norm": 0.0005064661963842809,
      "learning_rate": 0.002485354485786434,
      "loss": 0.3272,
      "num_input_tokens_seen": 34945216,
      "step": 37680
    },
    {
      "epoch": 17.767562470532766,
      "grad_norm": 0.0004890935961157084,
      "learning_rate": 0.002474687410065307,
      "loss": 0.3024,
      "num_input_tokens_seen": 34949344,
      "step": 37685
    },
    {
      "epoch": 17.76991984912777,
      "grad_norm": 0.0007763559115119278,
      "learning_rate": 0.002464043084601308,
      "loss": 0.26,
      "num_input_tokens_seen": 34956096,
      "step": 37690
    },
    {
      "epoch": 17.77227722772277,
      "grad_norm": 0.0004075201286468655,
      "learning_rate": 0.0024534215110358915,
      "loss": 0.3272,
      "num_input_tokens_seen": 34960816,
      "step": 37695
    },
    {
      "epoch": 17.774634606317775,
      "grad_norm": 0.00045727583346888423,
      "learning_rate": 0.002442822691007096,
      "loss": 0.2707,
      "num_input_tokens_seen": 34965264,
      "step": 37700
    },
    {
      "epoch": 17.776991984912776,
      "grad_norm": 0.00044423964573070407,
      "learning_rate": 0.002432246626149348,
      "loss": 0.2974,
      "num_input_tokens_seen": 34969408,
      "step": 37705
    },
    {
      "epoch": 17.77934936350778,
      "grad_norm": 0.0007591815083287656,
      "learning_rate": 0.002421693318093626,
      "loss": 0.3768,
      "num_input_tokens_seen": 34973792,
      "step": 37710
    },
    {
      "epoch": 17.78170674210278,
      "grad_norm": 0.0008438210934400558,
      "learning_rate": 0.0024111627684673784,
      "loss": 0.3383,
      "num_input_tokens_seen": 34979056,
      "step": 37715
    },
    {
      "epoch": 17.784064120697785,
      "grad_norm": 0.0005953813088126481,
      "learning_rate": 0.0024006549788945395,
      "loss": 0.3369,
      "num_input_tokens_seen": 34984640,
      "step": 37720
    },
    {
      "epoch": 17.786421499292786,
      "grad_norm": 0.0002810252772178501,
      "learning_rate": 0.0023901699509955463,
      "loss": 0.2999,
      "num_input_tokens_seen": 34989216,
      "step": 37725
    },
    {
      "epoch": 17.78877887788779,
      "grad_norm": 0.0008308939286507666,
      "learning_rate": 0.0023797076863873554,
      "loss": 0.3163,
      "num_input_tokens_seen": 34993696,
      "step": 37730
    },
    {
      "epoch": 17.79113625648279,
      "grad_norm": 0.0004384329076856375,
      "learning_rate": 0.0023692681866833262,
      "loss": 0.3298,
      "num_input_tokens_seen": 34998352,
      "step": 37735
    },
    {
      "epoch": 17.793493635077795,
      "grad_norm": 0.001529626315459609,
      "learning_rate": 0.0023588514534934046,
      "loss": 0.3478,
      "num_input_tokens_seen": 35002928,
      "step": 37740
    },
    {
      "epoch": 17.795851013672795,
      "grad_norm": 0.00033704997622407973,
      "learning_rate": 0.002348457488423955,
      "loss": 0.3572,
      "num_input_tokens_seen": 35008688,
      "step": 37745
    },
    {
      "epoch": 17.7982083922678,
      "grad_norm": 0.00025971702416427433,
      "learning_rate": 0.0023380862930778624,
      "loss": 0.2892,
      "num_input_tokens_seen": 35013344,
      "step": 37750
    },
    {
      "epoch": 17.8005657708628,
      "grad_norm": 0.0006099995807744563,
      "learning_rate": 0.0023277378690545135,
      "loss": 0.326,
      "num_input_tokens_seen": 35017456,
      "step": 37755
    },
    {
      "epoch": 17.802923149457804,
      "grad_norm": 0.0008124166051857173,
      "learning_rate": 0.0023174122179497325,
      "loss": 0.3543,
      "num_input_tokens_seen": 35022272,
      "step": 37760
    },
    {
      "epoch": 17.805280528052805,
      "grad_norm": 0.0004669433692470193,
      "learning_rate": 0.0023071093413558784,
      "loss": 0.3933,
      "num_input_tokens_seen": 35027552,
      "step": 37765
    },
    {
      "epoch": 17.80763790664781,
      "grad_norm": 0.0004706977342721075,
      "learning_rate": 0.002296829240861814,
      "loss": 0.3276,
      "num_input_tokens_seen": 35032512,
      "step": 37770
    },
    {
      "epoch": 17.80999528524281,
      "grad_norm": 0.0007418959285132587,
      "learning_rate": 0.002286571918052821,
      "loss": 0.3163,
      "num_input_tokens_seen": 35036496,
      "step": 37775
    },
    {
      "epoch": 17.812352663837814,
      "grad_norm": 0.0005056341178715229,
      "learning_rate": 0.0022763373745107174,
      "loss": 0.299,
      "num_input_tokens_seen": 35040832,
      "step": 37780
    },
    {
      "epoch": 17.814710042432814,
      "grad_norm": 0.0007658149115741253,
      "learning_rate": 0.0022661256118138074,
      "loss": 0.3018,
      "num_input_tokens_seen": 35045888,
      "step": 37785
    },
    {
      "epoch": 17.81706742102782,
      "grad_norm": 0.000459774601040408,
      "learning_rate": 0.0022559366315368645,
      "loss": 0.31,
      "num_input_tokens_seen": 35049824,
      "step": 37790
    },
    {
      "epoch": 17.81942479962282,
      "grad_norm": 0.0009567197412252426,
      "learning_rate": 0.002245770435251182,
      "loss": 0.3315,
      "num_input_tokens_seen": 35054400,
      "step": 37795
    },
    {
      "epoch": 17.821782178217823,
      "grad_norm": 0.0009094777633436024,
      "learning_rate": 0.002235627024524456,
      "loss": 0.3184,
      "num_input_tokens_seen": 35058576,
      "step": 37800
    },
    {
      "epoch": 17.821782178217823,
      "eval_loss": 0.32945606112480164,
      "eval_runtime": 33.6254,
      "eval_samples_per_second": 28.044,
      "eval_steps_per_second": 14.037,
      "num_input_tokens_seen": 35058576,
      "step": 37800
    },
    {
      "epoch": 17.824139556812824,
      "grad_norm": 0.001166377798654139,
      "learning_rate": 0.0022255064009209847,
      "loss": 0.3568,
      "num_input_tokens_seen": 35063360,
      "step": 37805
    },
    {
      "epoch": 17.826496935407828,
      "grad_norm": 0.0006106608198024333,
      "learning_rate": 0.0022154085660014864,
      "loss": 0.3121,
      "num_input_tokens_seen": 35068336,
      "step": 37810
    },
    {
      "epoch": 17.82885431400283,
      "grad_norm": 0.0009221793152391911,
      "learning_rate": 0.0022053335213231494,
      "loss": 0.308,
      "num_input_tokens_seen": 35072688,
      "step": 37815
    },
    {
      "epoch": 17.831211692597833,
      "grad_norm": 0.0005924475262872875,
      "learning_rate": 0.002195281268439697,
      "loss": 0.3483,
      "num_input_tokens_seen": 35077984,
      "step": 37820
    },
    {
      "epoch": 17.833569071192834,
      "grad_norm": 0.00046837719855830073,
      "learning_rate": 0.002185251808901306,
      "loss": 0.3419,
      "num_input_tokens_seen": 35082480,
      "step": 37825
    },
    {
      "epoch": 17.835926449787834,
      "grad_norm": 0.0005469353054650128,
      "learning_rate": 0.0021752451442546227,
      "loss": 0.3241,
      "num_input_tokens_seen": 35087520,
      "step": 37830
    },
    {
      "epoch": 17.83828382838284,
      "grad_norm": 0.0010375917190685868,
      "learning_rate": 0.0021652612760428456,
      "loss": 0.34,
      "num_input_tokens_seen": 35091824,
      "step": 37835
    },
    {
      "epoch": 17.84064120697784,
      "grad_norm": 0.00040006707422435284,
      "learning_rate": 0.0021553002058055603,
      "loss": 0.3799,
      "num_input_tokens_seen": 35096896,
      "step": 37840
    },
    {
      "epoch": 17.842998585572843,
      "grad_norm": 0.000626365072093904,
      "learning_rate": 0.0021453619350789376,
      "loss": 0.2899,
      "num_input_tokens_seen": 35102032,
      "step": 37845
    },
    {
      "epoch": 17.845355964167844,
      "grad_norm": 0.00063325121300295,
      "learning_rate": 0.0021354464653955516,
      "loss": 0.3138,
      "num_input_tokens_seen": 35107040,
      "step": 37850
    },
    {
      "epoch": 17.847713342762848,
      "grad_norm": 0.000822997244540602,
      "learning_rate": 0.002125553798284513,
      "loss": 0.378,
      "num_input_tokens_seen": 35111888,
      "step": 37855
    },
    {
      "epoch": 17.85007072135785,
      "grad_norm": 0.000510718731675297,
      "learning_rate": 0.002115683935271384,
      "loss": 0.3546,
      "num_input_tokens_seen": 35117184,
      "step": 37860
    },
    {
      "epoch": 17.852428099952853,
      "grad_norm": 0.0006091983523219824,
      "learning_rate": 0.0021058368778782144,
      "loss": 0.2939,
      "num_input_tokens_seen": 35121568,
      "step": 37865
    },
    {
      "epoch": 17.854785478547853,
      "grad_norm": 0.0006563986535184085,
      "learning_rate": 0.002096012627623539,
      "loss": 0.3715,
      "num_input_tokens_seen": 35126272,
      "step": 37870
    },
    {
      "epoch": 17.857142857142858,
      "grad_norm": 0.000548080017324537,
      "learning_rate": 0.00208621118602243,
      "loss": 0.374,
      "num_input_tokens_seen": 35130880,
      "step": 37875
    },
    {
      "epoch": 17.85950023573786,
      "grad_norm": 0.000942935177590698,
      "learning_rate": 0.002076432554586327,
      "loss": 0.3181,
      "num_input_tokens_seen": 35135328,
      "step": 37880
    },
    {
      "epoch": 17.861857614332862,
      "grad_norm": 0.001411495846696198,
      "learning_rate": 0.002066676734823258,
      "loss": 0.3601,
      "num_input_tokens_seen": 35140304,
      "step": 37885
    },
    {
      "epoch": 17.864214992927863,
      "grad_norm": 0.0007682842551730573,
      "learning_rate": 0.0020569437282376866,
      "loss": 0.2953,
      "num_input_tokens_seen": 35144864,
      "step": 37890
    },
    {
      "epoch": 17.866572371522867,
      "grad_norm": 0.0003872311790473759,
      "learning_rate": 0.002047233536330545,
      "loss": 0.2727,
      "num_input_tokens_seen": 35150176,
      "step": 37895
    },
    {
      "epoch": 17.868929750117868,
      "grad_norm": 0.000710098072886467,
      "learning_rate": 0.0020375461605993015,
      "loss": 0.3432,
      "num_input_tokens_seen": 35153888,
      "step": 37900
    },
    {
      "epoch": 17.871287128712872,
      "grad_norm": 0.0003871275985147804,
      "learning_rate": 0.002027881602537845,
      "loss": 0.3461,
      "num_input_tokens_seen": 35157648,
      "step": 37905
    },
    {
      "epoch": 17.873644507307873,
      "grad_norm": 0.0007146539282985032,
      "learning_rate": 0.002018239863636567,
      "loss": 0.2834,
      "num_input_tokens_seen": 35161440,
      "step": 37910
    },
    {
      "epoch": 17.876001885902877,
      "grad_norm": 0.0006578129250556231,
      "learning_rate": 0.002008620945382378,
      "loss": 0.3398,
      "num_input_tokens_seen": 35166320,
      "step": 37915
    },
    {
      "epoch": 17.878359264497877,
      "grad_norm": 0.0006824220181442797,
      "learning_rate": 0.001999024849258607,
      "loss": 0.3621,
      "num_input_tokens_seen": 35170816,
      "step": 37920
    },
    {
      "epoch": 17.88071664309288,
      "grad_norm": 0.0008034319616854191,
      "learning_rate": 0.001989451576745105,
      "loss": 0.3773,
      "num_input_tokens_seen": 35175296,
      "step": 37925
    },
    {
      "epoch": 17.883074021687882,
      "grad_norm": 0.0004740758740808815,
      "learning_rate": 0.00197990112931819,
      "loss": 0.341,
      "num_input_tokens_seen": 35179872,
      "step": 37930
    },
    {
      "epoch": 17.885431400282886,
      "grad_norm": 0.0004033826699014753,
      "learning_rate": 0.0019703735084506345,
      "loss": 0.2819,
      "num_input_tokens_seen": 35184624,
      "step": 37935
    },
    {
      "epoch": 17.887788778877887,
      "grad_norm": 0.00033747454290278256,
      "learning_rate": 0.001960868715611763,
      "loss": 0.3419,
      "num_input_tokens_seen": 35189840,
      "step": 37940
    },
    {
      "epoch": 17.89014615747289,
      "grad_norm": 0.0008350104908458889,
      "learning_rate": 0.0019513867522673034,
      "loss": 0.2965,
      "num_input_tokens_seen": 35195152,
      "step": 37945
    },
    {
      "epoch": 17.892503536067892,
      "grad_norm": 0.00033037233515642583,
      "learning_rate": 0.001941927619879502,
      "loss": 0.353,
      "num_input_tokens_seen": 35199936,
      "step": 37950
    },
    {
      "epoch": 17.894860914662896,
      "grad_norm": 0.0005325993406586349,
      "learning_rate": 0.0019324913199070758,
      "loss": 0.3707,
      "num_input_tokens_seen": 35204192,
      "step": 37955
    },
    {
      "epoch": 17.897218293257897,
      "grad_norm": 0.00048686936497688293,
      "learning_rate": 0.0019230778538052106,
      "loss": 0.3256,
      "num_input_tokens_seen": 35208736,
      "step": 37960
    },
    {
      "epoch": 17.8995756718529,
      "grad_norm": 0.0004246408643666655,
      "learning_rate": 0.0019136872230255952,
      "loss": 0.3115,
      "num_input_tokens_seen": 35212800,
      "step": 37965
    },
    {
      "epoch": 17.9019330504479,
      "grad_norm": 0.0007101112278178334,
      "learning_rate": 0.0019043194290164045,
      "loss": 0.3406,
      "num_input_tokens_seen": 35216304,
      "step": 37970
    },
    {
      "epoch": 17.904290429042906,
      "grad_norm": 0.0004359112062957138,
      "learning_rate": 0.0018949744732222162,
      "loss": 0.3295,
      "num_input_tokens_seen": 35221376,
      "step": 37975
    },
    {
      "epoch": 17.906647807637906,
      "grad_norm": 0.0007514699245803058,
      "learning_rate": 0.0018856523570841776,
      "loss": 0.3245,
      "num_input_tokens_seen": 35226272,
      "step": 37980
    },
    {
      "epoch": 17.90900518623291,
      "grad_norm": 0.00042647792724892497,
      "learning_rate": 0.0018763530820398555,
      "loss": 0.2776,
      "num_input_tokens_seen": 35230752,
      "step": 37985
    },
    {
      "epoch": 17.91136256482791,
      "grad_norm": 0.00038056951598264277,
      "learning_rate": 0.0018670766495233525,
      "loss": 0.3195,
      "num_input_tokens_seen": 35236528,
      "step": 37990
    },
    {
      "epoch": 17.913719943422915,
      "grad_norm": 0.000744959688745439,
      "learning_rate": 0.001857823060965158,
      "loss": 0.3403,
      "num_input_tokens_seen": 35240864,
      "step": 37995
    },
    {
      "epoch": 17.916077322017916,
      "grad_norm": 0.0004069434944540262,
      "learning_rate": 0.0018485923177923467,
      "loss": 0.296,
      "num_input_tokens_seen": 35245152,
      "step": 38000
    },
    {
      "epoch": 17.916077322017916,
      "eval_loss": 0.3284275233745575,
      "eval_runtime": 33.6037,
      "eval_samples_per_second": 28.062,
      "eval_steps_per_second": 14.046,
      "num_input_tokens_seen": 35245152,
      "step": 38000
    },
    {
      "epoch": 17.91843470061292,
      "grad_norm": 0.0005869438173249364,
      "learning_rate": 0.001839384421428364,
      "loss": 0.2855,
      "num_input_tokens_seen": 35249616,
      "step": 38005
    },
    {
      "epoch": 17.92079207920792,
      "grad_norm": 0.00041519434307701886,
      "learning_rate": 0.0018301993732932065,
      "loss": 0.2945,
      "num_input_tokens_seen": 35254256,
      "step": 38010
    },
    {
      "epoch": 17.92314945780292,
      "grad_norm": 0.000558848085347563,
      "learning_rate": 0.0018210371748033248,
      "loss": 0.3564,
      "num_input_tokens_seen": 35259040,
      "step": 38015
    },
    {
      "epoch": 17.925506836397926,
      "grad_norm": 0.0008242654730565846,
      "learning_rate": 0.0018118978273716556,
      "loss": 0.3072,
      "num_input_tokens_seen": 35263424,
      "step": 38020
    },
    {
      "epoch": 17.927864214992926,
      "grad_norm": 0.0005445526912808418,
      "learning_rate": 0.001802781332407588,
      "loss": 0.369,
      "num_input_tokens_seen": 35269072,
      "step": 38025
    },
    {
      "epoch": 17.93022159358793,
      "grad_norm": 0.0008186649065464735,
      "learning_rate": 0.0017936876913169806,
      "loss": 0.2885,
      "num_input_tokens_seen": 35273280,
      "step": 38030
    },
    {
      "epoch": 17.93257897218293,
      "grad_norm": 0.0005411559250205755,
      "learning_rate": 0.0017846169055022287,
      "loss": 0.2823,
      "num_input_tokens_seen": 35277872,
      "step": 38035
    },
    {
      "epoch": 17.934936350777935,
      "grad_norm": 0.0008544166339561343,
      "learning_rate": 0.0017755689763621295,
      "loss": 0.3594,
      "num_input_tokens_seen": 35282464,
      "step": 38040
    },
    {
      "epoch": 17.937293729372936,
      "grad_norm": 0.00045549069182015955,
      "learning_rate": 0.0017665439052920173,
      "loss": 0.3252,
      "num_input_tokens_seen": 35287232,
      "step": 38045
    },
    {
      "epoch": 17.93965110796794,
      "grad_norm": 0.0003840349963866174,
      "learning_rate": 0.0017575416936836286,
      "loss": 0.3126,
      "num_input_tokens_seen": 35291712,
      "step": 38050
    },
    {
      "epoch": 17.94200848656294,
      "grad_norm": 0.0009596769814379513,
      "learning_rate": 0.0017485623429252528,
      "loss": 0.3579,
      "num_input_tokens_seen": 35296352,
      "step": 38055
    },
    {
      "epoch": 17.944365865157945,
      "grad_norm": 0.0004607680020853877,
      "learning_rate": 0.0017396058544016156,
      "loss": 0.2852,
      "num_input_tokens_seen": 35301312,
      "step": 38060
    },
    {
      "epoch": 17.946723243752945,
      "grad_norm": 0.00038950491580180824,
      "learning_rate": 0.0017306722294938958,
      "loss": 0.3761,
      "num_input_tokens_seen": 35305152,
      "step": 38065
    },
    {
      "epoch": 17.94908062234795,
      "grad_norm": 0.0005491823540069163,
      "learning_rate": 0.0017217614695798078,
      "loss": 0.3839,
      "num_input_tokens_seen": 35309968,
      "step": 38070
    },
    {
      "epoch": 17.95143800094295,
      "grad_norm": 0.0004498938506003469,
      "learning_rate": 0.001712873576033469,
      "loss": 0.2515,
      "num_input_tokens_seen": 35315024,
      "step": 38075
    },
    {
      "epoch": 17.953795379537954,
      "grad_norm": 0.000541830318979919,
      "learning_rate": 0.0017040085502255163,
      "loss": 0.3843,
      "num_input_tokens_seen": 35320416,
      "step": 38080
    },
    {
      "epoch": 17.956152758132955,
      "grad_norm": 0.00040984636871144176,
      "learning_rate": 0.0016951663935230565,
      "loss": 0.3334,
      "num_input_tokens_seen": 35325792,
      "step": 38085
    },
    {
      "epoch": 17.95851013672796,
      "grad_norm": 0.0007921138312667608,
      "learning_rate": 0.0016863471072896485,
      "loss": 0.3399,
      "num_input_tokens_seen": 35330192,
      "step": 38090
    },
    {
      "epoch": 17.96086751532296,
      "grad_norm": 0.0007606763974763453,
      "learning_rate": 0.0016775506928853377,
      "loss": 0.3119,
      "num_input_tokens_seen": 35334464,
      "step": 38095
    },
    {
      "epoch": 17.963224893917964,
      "grad_norm": 0.00039617138099856675,
      "learning_rate": 0.001668777151666656,
      "loss": 0.3282,
      "num_input_tokens_seen": 35338896,
      "step": 38100
    },
    {
      "epoch": 17.965582272512965,
      "grad_norm": 0.0006952030817046762,
      "learning_rate": 0.0016600264849865709,
      "loss": 0.256,
      "num_input_tokens_seen": 35342928,
      "step": 38105
    },
    {
      "epoch": 17.96793965110797,
      "grad_norm": 0.00043379541602917016,
      "learning_rate": 0.0016512986941945695,
      "loss": 0.3669,
      "num_input_tokens_seen": 35347488,
      "step": 38110
    },
    {
      "epoch": 17.97029702970297,
      "grad_norm": 0.0007001488120295107,
      "learning_rate": 0.0016425937806365753,
      "loss": 0.324,
      "num_input_tokens_seen": 35352496,
      "step": 38115
    },
    {
      "epoch": 17.972654408297974,
      "grad_norm": 0.0004568111908156425,
      "learning_rate": 0.0016339117456549979,
      "loss": 0.3408,
      "num_input_tokens_seen": 35356336,
      "step": 38120
    },
    {
      "epoch": 17.975011786892974,
      "grad_norm": 0.0005851248279213905,
      "learning_rate": 0.0016252525905886995,
      "loss": 0.3315,
      "num_input_tokens_seen": 35361184,
      "step": 38125
    },
    {
      "epoch": 17.97736916548798,
      "grad_norm": 0.00036984492908231914,
      "learning_rate": 0.0016166163167730617,
      "loss": 0.3108,
      "num_input_tokens_seen": 35365728,
      "step": 38130
    },
    {
      "epoch": 17.97972654408298,
      "grad_norm": 0.00031973241129890084,
      "learning_rate": 0.0016080029255398864,
      "loss": 0.2895,
      "num_input_tokens_seen": 35369936,
      "step": 38135
    },
    {
      "epoch": 17.982083922677983,
      "grad_norm": 0.0007484302623197436,
      "learning_rate": 0.0015994124182174606,
      "loss": 0.2702,
      "num_input_tokens_seen": 35375136,
      "step": 38140
    },
    {
      "epoch": 17.984441301272984,
      "grad_norm": 0.0006105836946517229,
      "learning_rate": 0.001590844796130575,
      "loss": 0.355,
      "num_input_tokens_seen": 35379984,
      "step": 38145
    },
    {
      "epoch": 17.986798679867988,
      "grad_norm": 0.0007294415263459086,
      "learning_rate": 0.001582300060600439,
      "loss": 0.3624,
      "num_input_tokens_seen": 35384624,
      "step": 38150
    },
    {
      "epoch": 17.98915605846299,
      "grad_norm": 0.000454903143690899,
      "learning_rate": 0.0015737782129447652,
      "loss": 0.2873,
      "num_input_tokens_seen": 35389088,
      "step": 38155
    },
    {
      "epoch": 17.991513437057993,
      "grad_norm": 0.0005469523021019995,
      "learning_rate": 0.0015652792544777361,
      "loss": 0.351,
      "num_input_tokens_seen": 35393552,
      "step": 38160
    },
    {
      "epoch": 17.993870815652993,
      "grad_norm": 0.0009446573676541448,
      "learning_rate": 0.0015568031865099863,
      "loss": 0.2808,
      "num_input_tokens_seen": 35398528,
      "step": 38165
    },
    {
      "epoch": 17.996228194247998,
      "grad_norm": 0.0010020565241575241,
      "learning_rate": 0.0015483500103486369,
      "loss": 0.3113,
      "num_input_tokens_seen": 35402704,
      "step": 38170
    },
    {
      "epoch": 17.998585572842998,
      "grad_norm": 0.0006262119859457016,
      "learning_rate": 0.0015399197272972787,
      "loss": 0.351,
      "num_input_tokens_seen": 35407760,
      "step": 38175
    },
    {
      "epoch": 18.000942951438002,
      "grad_norm": 0.0005766304675489664,
      "learning_rate": 0.0015315123386559714,
      "loss": 0.3543,
      "num_input_tokens_seen": 35412608,
      "step": 38180
    },
    {
      "epoch": 18.003300330033003,
      "grad_norm": 0.0005349426646716893,
      "learning_rate": 0.0015231278457212283,
      "loss": 0.3508,
      "num_input_tokens_seen": 35418576,
      "step": 38185
    },
    {
      "epoch": 18.005657708628007,
      "grad_norm": 0.00039997181738726795,
      "learning_rate": 0.001514766249786048,
      "loss": 0.2985,
      "num_input_tokens_seen": 35422720,
      "step": 38190
    },
    {
      "epoch": 18.008015087223008,
      "grad_norm": 0.0006950837559998035,
      "learning_rate": 0.0015064275521398994,
      "loss": 0.2768,
      "num_input_tokens_seen": 35426944,
      "step": 38195
    },
    {
      "epoch": 18.010372465818012,
      "grad_norm": 0.0004525891854427755,
      "learning_rate": 0.0014981117540686872,
      "loss": 0.3044,
      "num_input_tokens_seen": 35431232,
      "step": 38200
    },
    {
      "epoch": 18.010372465818012,
      "eval_loss": 0.32943254709243774,
      "eval_runtime": 33.5772,
      "eval_samples_per_second": 28.085,
      "eval_steps_per_second": 14.057,
      "num_input_tokens_seen": 35431232,
      "step": 38200
    },
    {
      "epoch": 18.012729844413013,
      "grad_norm": 0.0005218111327849329,
      "learning_rate": 0.0014898188568548687,
      "loss": 0.3013,
      "num_input_tokens_seen": 35436176,
      "step": 38205
    },
    {
      "epoch": 18.015087223008017,
      "grad_norm": 0.0005566615145653486,
      "learning_rate": 0.0014815488617772542,
      "loss": 0.3359,
      "num_input_tokens_seen": 35440624,
      "step": 38210
    },
    {
      "epoch": 18.017444601603017,
      "grad_norm": 0.0009091754909604788,
      "learning_rate": 0.0014733017701112072,
      "loss": 0.3333,
      "num_input_tokens_seen": 35445264,
      "step": 38215
    },
    {
      "epoch": 18.019801980198018,
      "grad_norm": 0.0010694594820961356,
      "learning_rate": 0.0014650775831285435,
      "loss": 0.4006,
      "num_input_tokens_seen": 35449616,
      "step": 38220
    },
    {
      "epoch": 18.022159358793022,
      "grad_norm": 0.00038128785672597587,
      "learning_rate": 0.001456876302097515,
      "loss": 0.3354,
      "num_input_tokens_seen": 35454160,
      "step": 38225
    },
    {
      "epoch": 18.024516737388023,
      "grad_norm": 0.0006341541884467006,
      "learning_rate": 0.0014486979282828604,
      "loss": 0.3125,
      "num_input_tokens_seen": 35458736,
      "step": 38230
    },
    {
      "epoch": 18.026874115983027,
      "grad_norm": 0.0005527367466129363,
      "learning_rate": 0.001440542462945804,
      "loss": 0.3682,
      "num_input_tokens_seen": 35462880,
      "step": 38235
    },
    {
      "epoch": 18.029231494578028,
      "grad_norm": 0.0007992853061296046,
      "learning_rate": 0.0014324099073440232,
      "loss": 0.31,
      "num_input_tokens_seen": 35467552,
      "step": 38240
    },
    {
      "epoch": 18.031588873173032,
      "grad_norm": 0.0003264650295022875,
      "learning_rate": 0.0014243002627316482,
      "loss": 0.3189,
      "num_input_tokens_seen": 35472288,
      "step": 38245
    },
    {
      "epoch": 18.033946251768032,
      "grad_norm": 0.0005001961253583431,
      "learning_rate": 0.0014162135303592781,
      "loss": 0.2973,
      "num_input_tokens_seen": 35477040,
      "step": 38250
    },
    {
      "epoch": 18.036303630363037,
      "grad_norm": 0.0004829762619920075,
      "learning_rate": 0.001408149711474016,
      "loss": 0.3285,
      "num_input_tokens_seen": 35481440,
      "step": 38255
    },
    {
      "epoch": 18.038661008958037,
      "grad_norm": 0.00041481549851596355,
      "learning_rate": 0.0014001088073193834,
      "loss": 0.3225,
      "num_input_tokens_seen": 35486096,
      "step": 38260
    },
    {
      "epoch": 18.04101838755304,
      "grad_norm": 0.0007070705760270357,
      "learning_rate": 0.0013920908191354052,
      "loss": 0.3176,
      "num_input_tokens_seen": 35491488,
      "step": 38265
    },
    {
      "epoch": 18.043375766148042,
      "grad_norm": 0.0006564765353687108,
      "learning_rate": 0.001384095748158526,
      "loss": 0.3579,
      "num_input_tokens_seen": 35496016,
      "step": 38270
    },
    {
      "epoch": 18.045733144743046,
      "grad_norm": 0.0004550031735561788,
      "learning_rate": 0.0013761235956217255,
      "loss": 0.2905,
      "num_input_tokens_seen": 35500384,
      "step": 38275
    },
    {
      "epoch": 18.048090523338047,
      "grad_norm": 0.0005656955763697624,
      "learning_rate": 0.0013681743627543873,
      "loss": 0.2722,
      "num_input_tokens_seen": 35505856,
      "step": 38280
    },
    {
      "epoch": 18.05044790193305,
      "grad_norm": 0.0008217205759137869,
      "learning_rate": 0.001360248050782381,
      "loss": 0.3189,
      "num_input_tokens_seen": 35510976,
      "step": 38285
    },
    {
      "epoch": 18.05280528052805,
      "grad_norm": 0.0015573727432638407,
      "learning_rate": 0.001352344660928062,
      "loss": 0.3327,
      "num_input_tokens_seen": 35514880,
      "step": 38290
    },
    {
      "epoch": 18.055162659123056,
      "grad_norm": 0.0012334366329014301,
      "learning_rate": 0.0013444641944102052,
      "loss": 0.4006,
      "num_input_tokens_seen": 35518848,
      "step": 38295
    },
    {
      "epoch": 18.057520037718056,
      "grad_norm": 0.0005208657239563763,
      "learning_rate": 0.0013366066524441056,
      "loss": 0.2842,
      "num_input_tokens_seen": 35523248,
      "step": 38300
    },
    {
      "epoch": 18.05987741631306,
      "grad_norm": 0.0007301647565327585,
      "learning_rate": 0.0013287720362414768,
      "loss": 0.3477,
      "num_input_tokens_seen": 35527744,
      "step": 38305
    },
    {
      "epoch": 18.06223479490806,
      "grad_norm": 0.0007158020744100213,
      "learning_rate": 0.0013209603470105025,
      "loss": 0.309,
      "num_input_tokens_seen": 35531824,
      "step": 38310
    },
    {
      "epoch": 18.064592173503065,
      "grad_norm": 0.0006667629349976778,
      "learning_rate": 0.0013131715859558857,
      "loss": 0.3172,
      "num_input_tokens_seen": 35537648,
      "step": 38315
    },
    {
      "epoch": 18.066949552098066,
      "grad_norm": 0.0007593011250719428,
      "learning_rate": 0.001305405754278699,
      "loss": 0.3122,
      "num_input_tokens_seen": 35542640,
      "step": 38320
    },
    {
      "epoch": 18.06930693069307,
      "grad_norm": 0.000397040625102818,
      "learning_rate": 0.0012976628531765843,
      "loss": 0.3147,
      "num_input_tokens_seen": 35547424,
      "step": 38325
    },
    {
      "epoch": 18.07166430928807,
      "grad_norm": 0.0004348836955614388,
      "learning_rate": 0.0012899428838435533,
      "loss": 0.3892,
      "num_input_tokens_seen": 35552288,
      "step": 38330
    },
    {
      "epoch": 18.074021687883075,
      "grad_norm": 0.00046779311378486454,
      "learning_rate": 0.001282245847470137,
      "loss": 0.3502,
      "num_input_tokens_seen": 35556096,
      "step": 38335
    },
    {
      "epoch": 18.076379066478076,
      "grad_norm": 0.0004926541587337852,
      "learning_rate": 0.001274571745243319,
      "loss": 0.3505,
      "num_input_tokens_seen": 35561632,
      "step": 38340
    },
    {
      "epoch": 18.07873644507308,
      "grad_norm": 0.00032897404162213206,
      "learning_rate": 0.0012669205783465364,
      "loss": 0.2806,
      "num_input_tokens_seen": 35566400,
      "step": 38345
    },
    {
      "epoch": 18.08109382366808,
      "grad_norm": 0.000356383272446692,
      "learning_rate": 0.001259292347959695,
      "loss": 0.3567,
      "num_input_tokens_seen": 35570544,
      "step": 38350
    },
    {
      "epoch": 18.083451202263085,
      "grad_norm": 0.0009226750698871911,
      "learning_rate": 0.0012516870552591707,
      "loss": 0.3918,
      "num_input_tokens_seen": 35574928,
      "step": 38355
    },
    {
      "epoch": 18.085808580858085,
      "grad_norm": 0.0004857791936956346,
      "learning_rate": 0.001244104701417792,
      "loss": 0.3111,
      "num_input_tokens_seen": 35579504,
      "step": 38360
    },
    {
      "epoch": 18.08816595945309,
      "grad_norm": 0.000834448728710413,
      "learning_rate": 0.0012365452876048565,
      "loss": 0.2731,
      "num_input_tokens_seen": 35583232,
      "step": 38365
    },
    {
      "epoch": 18.09052333804809,
      "grad_norm": 0.0004890942946076393,
      "learning_rate": 0.001229008814986099,
      "loss": 0.3398,
      "num_input_tokens_seen": 35588016,
      "step": 38370
    },
    {
      "epoch": 18.092880716643094,
      "grad_norm": 0.0005843393737450242,
      "learning_rate": 0.0012214952847237725,
      "loss": 0.3215,
      "num_input_tokens_seen": 35592768,
      "step": 38375
    },
    {
      "epoch": 18.095238095238095,
      "grad_norm": 0.0004552601894829422,
      "learning_rate": 0.0012140046979765339,
      "loss": 0.3218,
      "num_input_tokens_seen": 35596720,
      "step": 38380
    },
    {
      "epoch": 18.0975954738331,
      "grad_norm": 0.0004935511387884617,
      "learning_rate": 0.0012065370558995258,
      "loss": 0.3249,
      "num_input_tokens_seen": 35601072,
      "step": 38385
    },
    {
      "epoch": 18.0999528524281,
      "grad_norm": 0.0003854478127323091,
      "learning_rate": 0.0011990923596443602,
      "loss": 0.3278,
      "num_input_tokens_seen": 35605696,
      "step": 38390
    },
    {
      "epoch": 18.102310231023104,
      "grad_norm": 0.0005022428813390434,
      "learning_rate": 0.001191670610359119,
      "loss": 0.3033,
      "num_input_tokens_seen": 35610912,
      "step": 38395
    },
    {
      "epoch": 18.104667609618105,
      "grad_norm": 0.0007241087732836604,
      "learning_rate": 0.0011842718091882865,
      "loss": 0.2966,
      "num_input_tokens_seen": 35615248,
      "step": 38400
    },
    {
      "epoch": 18.104667609618105,
      "eval_loss": 0.3291270136833191,
      "eval_runtime": 33.6259,
      "eval_samples_per_second": 28.044,
      "eval_steps_per_second": 14.037,
      "num_input_tokens_seen": 35615248,
      "step": 38400
    },
    {
      "epoch": 18.10702498821311,
      "grad_norm": 0.0007824768545106053,
      "learning_rate": 0.0011768959572729,
      "loss": 0.3247,
      "num_input_tokens_seen": 35619984,
      "step": 38405
    },
    {
      "epoch": 18.10938236680811,
      "grad_norm": 0.00043330134940333664,
      "learning_rate": 0.001169543055750366,
      "loss": 0.3306,
      "num_input_tokens_seen": 35623952,
      "step": 38410
    },
    {
      "epoch": 18.111739745403113,
      "grad_norm": 0.00042020733235403895,
      "learning_rate": 0.0011622131057546115,
      "loss": 0.3392,
      "num_input_tokens_seen": 35628576,
      "step": 38415
    },
    {
      "epoch": 18.114097123998114,
      "grad_norm": 0.0007222171407192945,
      "learning_rate": 0.0011549061084160316,
      "loss": 0.3299,
      "num_input_tokens_seen": 35632912,
      "step": 38420
    },
    {
      "epoch": 18.116454502593115,
      "grad_norm": 0.000823512498755008,
      "learning_rate": 0.0011476220648614088,
      "loss": 0.3336,
      "num_input_tokens_seen": 35636560,
      "step": 38425
    },
    {
      "epoch": 18.11881188118812,
      "grad_norm": 0.0007767322240397334,
      "learning_rate": 0.0011403609762140777,
      "loss": 0.3695,
      "num_input_tokens_seen": 35641456,
      "step": 38430
    },
    {
      "epoch": 18.12116925978312,
      "grad_norm": 0.0006686466513201594,
      "learning_rate": 0.0011331228435937756,
      "loss": 0.3098,
      "num_input_tokens_seen": 35646832,
      "step": 38435
    },
    {
      "epoch": 18.123526638378124,
      "grad_norm": 0.001336412038654089,
      "learning_rate": 0.0011259076681166935,
      "loss": 0.312,
      "num_input_tokens_seen": 35651168,
      "step": 38440
    },
    {
      "epoch": 18.125884016973124,
      "grad_norm": 0.0007863123901188374,
      "learning_rate": 0.0011187154508955244,
      "loss": 0.2992,
      "num_input_tokens_seen": 35655136,
      "step": 38445
    },
    {
      "epoch": 18.12824139556813,
      "grad_norm": 0.0005619162111543119,
      "learning_rate": 0.001111546193039381,
      "loss": 0.3083,
      "num_input_tokens_seen": 35659296,
      "step": 38450
    },
    {
      "epoch": 18.13059877416313,
      "grad_norm": 0.0007356146234087646,
      "learning_rate": 0.0011043998956538792,
      "loss": 0.3659,
      "num_input_tokens_seen": 35664480,
      "step": 38455
    },
    {
      "epoch": 18.132956152758133,
      "grad_norm": 0.0006084367050789297,
      "learning_rate": 0.0010972765598410538,
      "loss": 0.3428,
      "num_input_tokens_seen": 35668992,
      "step": 38460
    },
    {
      "epoch": 18.135313531353134,
      "grad_norm": 0.0004317024431657046,
      "learning_rate": 0.0010901761866993931,
      "loss": 0.2985,
      "num_input_tokens_seen": 35673936,
      "step": 38465
    },
    {
      "epoch": 18.137670909948138,
      "grad_norm": 0.00038129070890136063,
      "learning_rate": 0.0010830987773238876,
      "loss": 0.3088,
      "num_input_tokens_seen": 35678480,
      "step": 38470
    },
    {
      "epoch": 18.14002828854314,
      "grad_norm": 0.0007542498060502112,
      "learning_rate": 0.0010760443328059644,
      "loss": 0.3199,
      "num_input_tokens_seen": 35682896,
      "step": 38475
    },
    {
      "epoch": 18.142385667138143,
      "grad_norm": 0.0006918407743796706,
      "learning_rate": 0.001069012854233503,
      "loss": 0.2785,
      "num_input_tokens_seen": 35687744,
      "step": 38480
    },
    {
      "epoch": 18.144743045733144,
      "grad_norm": 0.0007234811782836914,
      "learning_rate": 0.0010620043426908365,
      "loss": 0.3575,
      "num_input_tokens_seen": 35692336,
      "step": 38485
    },
    {
      "epoch": 18.147100424328148,
      "grad_norm": 0.00033176393480971456,
      "learning_rate": 0.0010550187992587833,
      "loss": 0.3513,
      "num_input_tokens_seen": 35696672,
      "step": 38490
    },
    {
      "epoch": 18.14945780292315,
      "grad_norm": 0.0006747888401150703,
      "learning_rate": 0.0010480562250145653,
      "loss": 0.3762,
      "num_input_tokens_seen": 35700832,
      "step": 38495
    },
    {
      "epoch": 18.151815181518153,
      "grad_norm": 0.0005274107097648084,
      "learning_rate": 0.0010411166210319567,
      "loss": 0.3143,
      "num_input_tokens_seen": 35705424,
      "step": 38500
    },
    {
      "epoch": 18.154172560113153,
      "grad_norm": 0.0005372869200073183,
      "learning_rate": 0.0010341999883810848,
      "loss": 0.3236,
      "num_input_tokens_seen": 35709184,
      "step": 38505
    },
    {
      "epoch": 18.156529938708157,
      "grad_norm": 0.0009322565165348351,
      "learning_rate": 0.0010273063281285965,
      "loss": 0.328,
      "num_input_tokens_seen": 35714240,
      "step": 38510
    },
    {
      "epoch": 18.158887317303158,
      "grad_norm": 0.00046701772953383625,
      "learning_rate": 0.0010204356413375747,
      "loss": 0.3026,
      "num_input_tokens_seen": 35719520,
      "step": 38515
    },
    {
      "epoch": 18.161244695898162,
      "grad_norm": 0.0008069312898442149,
      "learning_rate": 0.001013587929067572,
      "loss": 0.299,
      "num_input_tokens_seen": 35723456,
      "step": 38520
    },
    {
      "epoch": 18.163602074493163,
      "grad_norm": 0.0003906420315615833,
      "learning_rate": 0.00100676319237461,
      "loss": 0.3472,
      "num_input_tokens_seen": 35728000,
      "step": 38525
    },
    {
      "epoch": 18.165959453088167,
      "grad_norm": 0.00037733156932517886,
      "learning_rate": 0.0009999614323110972,
      "loss": 0.363,
      "num_input_tokens_seen": 35732496,
      "step": 38530
    },
    {
      "epoch": 18.168316831683168,
      "grad_norm": 0.0006702198297716677,
      "learning_rate": 0.000993182649926011,
      "loss": 0.3427,
      "num_input_tokens_seen": 35737552,
      "step": 38535
    },
    {
      "epoch": 18.17067421027817,
      "grad_norm": 0.0004562682588584721,
      "learning_rate": 0.000986426846264682,
      "loss": 0.3056,
      "num_input_tokens_seen": 35742288,
      "step": 38540
    },
    {
      "epoch": 18.173031588873172,
      "grad_norm": 0.0004538297653198242,
      "learning_rate": 0.00097969402236896,
      "loss": 0.3274,
      "num_input_tokens_seen": 35746880,
      "step": 38545
    },
    {
      "epoch": 18.175388967468177,
      "grad_norm": 0.0006062721950002015,
      "learning_rate": 0.0009729841792771143,
      "loss": 0.3234,
      "num_input_tokens_seen": 35751952,
      "step": 38550
    },
    {
      "epoch": 18.177746346063177,
      "grad_norm": 0.0007362681208178401,
      "learning_rate": 0.0009662973180239176,
      "loss": 0.2964,
      "num_input_tokens_seen": 35756128,
      "step": 38555
    },
    {
      "epoch": 18.18010372465818,
      "grad_norm": 0.0004076799377799034,
      "learning_rate": 0.0009596334396405448,
      "loss": 0.3396,
      "num_input_tokens_seen": 35760992,
      "step": 38560
    },
    {
      "epoch": 18.182461103253182,
      "grad_norm": 0.0006399248377420008,
      "learning_rate": 0.0009529925451546406,
      "loss": 0.3452,
      "num_input_tokens_seen": 35765136,
      "step": 38565
    },
    {
      "epoch": 18.184818481848186,
      "grad_norm": 0.0005609364015981555,
      "learning_rate": 0.0009463746355903357,
      "loss": 0.315,
      "num_input_tokens_seen": 35769280,
      "step": 38570
    },
    {
      "epoch": 18.187175860443187,
      "grad_norm": 0.0006006840267218649,
      "learning_rate": 0.0009397797119681971,
      "loss": 0.3248,
      "num_input_tokens_seen": 35774064,
      "step": 38575
    },
    {
      "epoch": 18.18953323903819,
      "grad_norm": 0.00047128094593062997,
      "learning_rate": 0.0009332077753052281,
      "loss": 0.3392,
      "num_input_tokens_seen": 35778592,
      "step": 38580
    },
    {
      "epoch": 18.19189061763319,
      "grad_norm": 0.000362207560101524,
      "learning_rate": 0.0009266588266149011,
      "loss": 0.3022,
      "num_input_tokens_seen": 35783488,
      "step": 38585
    },
    {
      "epoch": 18.194247996228196,
      "grad_norm": 0.0009925754275172949,
      "learning_rate": 0.0009201328669071584,
      "loss": 0.3446,
      "num_input_tokens_seen": 35788192,
      "step": 38590
    },
    {
      "epoch": 18.196605374823196,
      "grad_norm": 0.0007001656340435147,
      "learning_rate": 0.0009136298971883949,
      "loss": 0.2802,
      "num_input_tokens_seen": 35793760,
      "step": 38595
    },
    {
      "epoch": 18.1989627534182,
      "grad_norm": 0.0006474335677921772,
      "learning_rate": 0.0009071499184614251,
      "loss": 0.2675,
      "num_input_tokens_seen": 35798688,
      "step": 38600
    },
    {
      "epoch": 18.1989627534182,
      "eval_loss": 0.3291322886943817,
      "eval_runtime": 33.6555,
      "eval_samples_per_second": 28.019,
      "eval_steps_per_second": 14.024,
      "num_input_tokens_seen": 35798688,
      "step": 38600
    },
    {
      "epoch": 18.2013201320132,
      "grad_norm": 0.0004953358438797295,
      "learning_rate": 0.0009006929317255663,
      "loss": 0.3649,
      "num_input_tokens_seen": 35803088,
      "step": 38605
    },
    {
      "epoch": 18.203677510608205,
      "grad_norm": 0.0008321255445480347,
      "learning_rate": 0.0008942589379765387,
      "loss": 0.3502,
      "num_input_tokens_seen": 35807312,
      "step": 38610
    },
    {
      "epoch": 18.206034889203206,
      "grad_norm": 0.00044592085760086775,
      "learning_rate": 0.0008878479382065817,
      "loss": 0.3871,
      "num_input_tokens_seen": 35811488,
      "step": 38615
    },
    {
      "epoch": 18.208392267798207,
      "grad_norm": 0.00047204943257384,
      "learning_rate": 0.0008814599334043215,
      "loss": 0.3178,
      "num_input_tokens_seen": 35816000,
      "step": 38620
    },
    {
      "epoch": 18.21074964639321,
      "grad_norm": 0.0009844005107879639,
      "learning_rate": 0.0008750949245548866,
      "loss": 0.3698,
      "num_input_tokens_seen": 35821008,
      "step": 38625
    },
    {
      "epoch": 18.21310702498821,
      "grad_norm": 0.00036781097878701985,
      "learning_rate": 0.0008687529126398252,
      "loss": 0.2914,
      "num_input_tokens_seen": 35825440,
      "step": 38630
    },
    {
      "epoch": 18.215464403583216,
      "grad_norm": 0.0009101483738049865,
      "learning_rate": 0.0008624338986371715,
      "loss": 0.324,
      "num_input_tokens_seen": 35830320,
      "step": 38635
    },
    {
      "epoch": 18.217821782178216,
      "grad_norm": 0.00029939261730760336,
      "learning_rate": 0.0008561378835213962,
      "loss": 0.3282,
      "num_input_tokens_seen": 35834832,
      "step": 38640
    },
    {
      "epoch": 18.22017916077322,
      "grad_norm": 0.0005024717538617551,
      "learning_rate": 0.0008498648682634058,
      "loss": 0.3372,
      "num_input_tokens_seen": 35839408,
      "step": 38645
    },
    {
      "epoch": 18.22253653936822,
      "grad_norm": 0.0005689840763807297,
      "learning_rate": 0.0008436148538306099,
      "loss": 0.3544,
      "num_input_tokens_seen": 35843760,
      "step": 38650
    },
    {
      "epoch": 18.224893917963225,
      "grad_norm": 0.0008070039912126958,
      "learning_rate": 0.0008373878411868041,
      "loss": 0.3153,
      "num_input_tokens_seen": 35848080,
      "step": 38655
    },
    {
      "epoch": 18.227251296558226,
      "grad_norm": 0.0008882707334123552,
      "learning_rate": 0.000831183831292287,
      "loss": 0.274,
      "num_input_tokens_seen": 35852144,
      "step": 38660
    },
    {
      "epoch": 18.22960867515323,
      "grad_norm": 0.0005791932344436646,
      "learning_rate": 0.0008250028251037933,
      "loss": 0.3142,
      "num_input_tokens_seen": 35857296,
      "step": 38665
    },
    {
      "epoch": 18.23196605374823,
      "grad_norm": 0.0004794469568878412,
      "learning_rate": 0.0008188448235745271,
      "loss": 0.3321,
      "num_input_tokens_seen": 35862192,
      "step": 38670
    },
    {
      "epoch": 18.234323432343235,
      "grad_norm": 0.00048331686411984265,
      "learning_rate": 0.0008127098276541122,
      "loss": 0.2732,
      "num_input_tokens_seen": 35866480,
      "step": 38675
    },
    {
      "epoch": 18.236680810938235,
      "grad_norm": 0.0005491283372975886,
      "learning_rate": 0.0008065978382886418,
      "loss": 0.3213,
      "num_input_tokens_seen": 35871264,
      "step": 38680
    },
    {
      "epoch": 18.23903818953324,
      "grad_norm": 0.0005816187476739287,
      "learning_rate": 0.0008005088564206785,
      "loss": 0.2953,
      "num_input_tokens_seen": 35875904,
      "step": 38685
    },
    {
      "epoch": 18.24139556812824,
      "grad_norm": 0.000454878929303959,
      "learning_rate": 0.0007944428829891881,
      "loss": 0.2971,
      "num_input_tokens_seen": 35879744,
      "step": 38690
    },
    {
      "epoch": 18.243752946723244,
      "grad_norm": 0.000492254039272666,
      "learning_rate": 0.0007883999189296386,
      "loss": 0.3418,
      "num_input_tokens_seen": 35886096,
      "step": 38695
    },
    {
      "epoch": 18.246110325318245,
      "grad_norm": 0.0005000968230888247,
      "learning_rate": 0.0007823799651739515,
      "loss": 0.298,
      "num_input_tokens_seen": 35890320,
      "step": 38700
    },
    {
      "epoch": 18.24846770391325,
      "grad_norm": 0.0009764163987711072,
      "learning_rate": 0.0007763830226504509,
      "loss": 0.3159,
      "num_input_tokens_seen": 35896032,
      "step": 38705
    },
    {
      "epoch": 18.25082508250825,
      "grad_norm": 0.0004920758074149489,
      "learning_rate": 0.0007704090922839468,
      "loss": 0.2806,
      "num_input_tokens_seen": 35900832,
      "step": 38710
    },
    {
      "epoch": 18.253182461103254,
      "grad_norm": 0.0010416971053928137,
      "learning_rate": 0.0007644581749957025,
      "loss": 0.3269,
      "num_input_tokens_seen": 35905792,
      "step": 38715
    },
    {
      "epoch": 18.255539839698255,
      "grad_norm": 0.0003766437584999949,
      "learning_rate": 0.000758530271703417,
      "loss": 0.3234,
      "num_input_tokens_seen": 35913312,
      "step": 38720
    },
    {
      "epoch": 18.25789721829326,
      "grad_norm": 0.00037308980245143175,
      "learning_rate": 0.0007526253833212426,
      "loss": 0.3297,
      "num_input_tokens_seen": 35917520,
      "step": 38725
    },
    {
      "epoch": 18.26025459688826,
      "grad_norm": 0.000346582819474861,
      "learning_rate": 0.0007467435107598008,
      "loss": 0.3843,
      "num_input_tokens_seen": 35921744,
      "step": 38730
    },
    {
      "epoch": 18.262611975483264,
      "grad_norm": 0.0010963553795590997,
      "learning_rate": 0.0007408846549261328,
      "loss": 0.3839,
      "num_input_tokens_seen": 35926208,
      "step": 38735
    },
    {
      "epoch": 18.264969354078264,
      "grad_norm": 0.0005182438180781901,
      "learning_rate": 0.0007350488167237656,
      "loss": 0.3659,
      "num_input_tokens_seen": 35930416,
      "step": 38740
    },
    {
      "epoch": 18.26732673267327,
      "grad_norm": 0.0005551858921535313,
      "learning_rate": 0.0007292359970526629,
      "loss": 0.2978,
      "num_input_tokens_seen": 35934400,
      "step": 38745
    },
    {
      "epoch": 18.26968411126827,
      "grad_norm": 0.000559621665161103,
      "learning_rate": 0.0007234461968092076,
      "loss": 0.3469,
      "num_input_tokens_seen": 35938160,
      "step": 38750
    },
    {
      "epoch": 18.272041489863273,
      "grad_norm": 0.00036456293310038745,
      "learning_rate": 0.0007176794168862854,
      "loss": 0.3306,
      "num_input_tokens_seen": 35943232,
      "step": 38755
    },
    {
      "epoch": 18.274398868458274,
      "grad_norm": 0.000386234576581046,
      "learning_rate": 0.000711935658173185,
      "loss": 0.3041,
      "num_input_tokens_seen": 35947520,
      "step": 38760
    },
    {
      "epoch": 18.276756247053278,
      "grad_norm": 0.00044924914254806936,
      "learning_rate": 0.0007062149215556812,
      "loss": 0.3443,
      "num_input_tokens_seen": 35952064,
      "step": 38765
    },
    {
      "epoch": 18.27911362564828,
      "grad_norm": 0.0005375097971409559,
      "learning_rate": 0.0007005172079159849,
      "loss": 0.323,
      "num_input_tokens_seen": 35956064,
      "step": 38770
    },
    {
      "epoch": 18.281471004243283,
      "grad_norm": 0.0007207370363175869,
      "learning_rate": 0.0006948425181327267,
      "loss": 0.3047,
      "num_input_tokens_seen": 35961936,
      "step": 38775
    },
    {
      "epoch": 18.283828382838283,
      "grad_norm": 0.0004595855425577611,
      "learning_rate": 0.000689190853081073,
      "loss": 0.3594,
      "num_input_tokens_seen": 35966416,
      "step": 38780
    },
    {
      "epoch": 18.286185761433288,
      "grad_norm": 0.0004538905341178179,
      "learning_rate": 0.000683562213632527,
      "loss": 0.2818,
      "num_input_tokens_seen": 35970384,
      "step": 38785
    },
    {
      "epoch": 18.28854314002829,
      "grad_norm": 0.00044911529403179884,
      "learning_rate": 0.0006779566006551108,
      "loss": 0.3308,
      "num_input_tokens_seen": 35974736,
      "step": 38790
    },
    {
      "epoch": 18.290900518623292,
      "grad_norm": 0.0005691877449862659,
      "learning_rate": 0.0006723740150132995,
      "loss": 0.322,
      "num_input_tokens_seen": 35979456,
      "step": 38795
    },
    {
      "epoch": 18.293257897218293,
      "grad_norm": 0.0008977873367257416,
      "learning_rate": 0.0006668144575679713,
      "loss": 0.3953,
      "num_input_tokens_seen": 35984224,
      "step": 38800
    },
    {
      "epoch": 18.293257897218293,
      "eval_loss": 0.32874342799186707,
      "eval_runtime": 33.6039,
      "eval_samples_per_second": 28.062,
      "eval_steps_per_second": 14.046,
      "num_input_tokens_seen": 35984224,
      "step": 38800
    },
    {
      "epoch": 18.295615275813297,
      "grad_norm": 0.0006095943972468376,
      "learning_rate": 0.0006612779291765069,
      "loss": 0.2982,
      "num_input_tokens_seen": 35988496,
      "step": 38805
    },
    {
      "epoch": 18.297972654408298,
      "grad_norm": 0.0005276797455735505,
      "learning_rate": 0.0006557644306926736,
      "loss": 0.2968,
      "num_input_tokens_seen": 35993296,
      "step": 38810
    },
    {
      "epoch": 18.300330033003302,
      "grad_norm": 0.0004974518669769168,
      "learning_rate": 0.0006502739629667575,
      "loss": 0.3214,
      "num_input_tokens_seen": 35998192,
      "step": 38815
    },
    {
      "epoch": 18.302687411598303,
      "grad_norm": 0.000814581464510411,
      "learning_rate": 0.0006448065268454317,
      "loss": 0.2834,
      "num_input_tokens_seen": 36003232,
      "step": 38820
    },
    {
      "epoch": 18.305044790193303,
      "grad_norm": 0.0003956457949243486,
      "learning_rate": 0.0006393621231718549,
      "loss": 0.3363,
      "num_input_tokens_seen": 36007232,
      "step": 38825
    },
    {
      "epoch": 18.307402168788308,
      "grad_norm": 0.0003660898073576391,
      "learning_rate": 0.0006339407527856389,
      "loss": 0.349,
      "num_input_tokens_seen": 36012016,
      "step": 38830
    },
    {
      "epoch": 18.309759547383308,
      "grad_norm": 0.0006996815791353583,
      "learning_rate": 0.0006285424165227982,
      "loss": 0.3471,
      "num_input_tokens_seen": 36015664,
      "step": 38835
    },
    {
      "epoch": 18.312116925978312,
      "grad_norm": 0.0007981621893122792,
      "learning_rate": 0.0006231671152158169,
      "loss": 0.3507,
      "num_input_tokens_seen": 36019888,
      "step": 38840
    },
    {
      "epoch": 18.314474304573313,
      "grad_norm": 0.00036108630592934787,
      "learning_rate": 0.0006178148496936819,
      "loss": 0.3533,
      "num_input_tokens_seen": 36024144,
      "step": 38845
    },
    {
      "epoch": 18.316831683168317,
      "grad_norm": 0.00034441822208464146,
      "learning_rate": 0.000612485620781733,
      "loss": 0.3012,
      "num_input_tokens_seen": 36029120,
      "step": 38850
    },
    {
      "epoch": 18.319189061763318,
      "grad_norm": 0.0004161787801422179,
      "learning_rate": 0.0006071794293018296,
      "loss": 0.388,
      "num_input_tokens_seen": 36033232,
      "step": 38855
    },
    {
      "epoch": 18.321546440358322,
      "grad_norm": 0.0005760519416071475,
      "learning_rate": 0.0006018962760722501,
      "loss": 0.3425,
      "num_input_tokens_seen": 36037760,
      "step": 38860
    },
    {
      "epoch": 18.323903818953323,
      "grad_norm": 0.0006398229743354023,
      "learning_rate": 0.0005966361619077098,
      "loss": 0.3556,
      "num_input_tokens_seen": 36041824,
      "step": 38865
    },
    {
      "epoch": 18.326261197548327,
      "grad_norm": 0.0003800116537604481,
      "learning_rate": 0.000591399087619393,
      "loss": 0.3287,
      "num_input_tokens_seen": 36046448,
      "step": 38870
    },
    {
      "epoch": 18.328618576143327,
      "grad_norm": 0.000559567182790488,
      "learning_rate": 0.0005861850540149371,
      "loss": 0.3034,
      "num_input_tokens_seen": 36050144,
      "step": 38875
    },
    {
      "epoch": 18.33097595473833,
      "grad_norm": 0.0003997728636022657,
      "learning_rate": 0.0005809940618983822,
      "loss": 0.2773,
      "num_input_tokens_seen": 36054848,
      "step": 38880
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.0005546570755541325,
      "learning_rate": 0.0005758261120702712,
      "loss": 0.3234,
      "num_input_tokens_seen": 36059776,
      "step": 38885
    },
    {
      "epoch": 18.335690711928336,
      "grad_norm": 0.000806543801445514,
      "learning_rate": 0.0005706812053275501,
      "loss": 0.3478,
      "num_input_tokens_seen": 36064128,
      "step": 38890
    },
    {
      "epoch": 18.338048090523337,
      "grad_norm": 0.0007463833899237216,
      "learning_rate": 0.0005655593424636173,
      "loss": 0.2575,
      "num_input_tokens_seen": 36069152,
      "step": 38895
    },
    {
      "epoch": 18.34040546911834,
      "grad_norm": 0.0012156262528151274,
      "learning_rate": 0.0005604605242683746,
      "loss": 0.3434,
      "num_input_tokens_seen": 36074736,
      "step": 38900
    },
    {
      "epoch": 18.34276284771334,
      "grad_norm": 0.0002980065473821014,
      "learning_rate": 0.0005553847515280596,
      "loss": 0.3427,
      "num_input_tokens_seen": 36079536,
      "step": 38905
    },
    {
      "epoch": 18.345120226308346,
      "grad_norm": 0.00038016753387637436,
      "learning_rate": 0.0005503320250254795,
      "loss": 0.3304,
      "num_input_tokens_seen": 36084256,
      "step": 38910
    },
    {
      "epoch": 18.347477604903347,
      "grad_norm": 0.0003209293936379254,
      "learning_rate": 0.0005453023455397943,
      "loss": 0.2757,
      "num_input_tokens_seen": 36088912,
      "step": 38915
    },
    {
      "epoch": 18.34983498349835,
      "grad_norm": 0.0011378201888874173,
      "learning_rate": 0.0005402957138466502,
      "loss": 0.3126,
      "num_input_tokens_seen": 36093232,
      "step": 38920
    },
    {
      "epoch": 18.35219236209335,
      "grad_norm": 0.0004742499440908432,
      "learning_rate": 0.0005353121307181463,
      "loss": 0.2968,
      "num_input_tokens_seen": 36097600,
      "step": 38925
    },
    {
      "epoch": 18.354549740688356,
      "grad_norm": 0.0004848292446695268,
      "learning_rate": 0.0005303515969227845,
      "loss": 0.2905,
      "num_input_tokens_seen": 36101760,
      "step": 38930
    },
    {
      "epoch": 18.356907119283356,
      "grad_norm": 0.0004847830277867615,
      "learning_rate": 0.0005254141132255862,
      "loss": 0.33,
      "num_input_tokens_seen": 36108416,
      "step": 38935
    },
    {
      "epoch": 18.35926449787836,
      "grad_norm": 0.0005925180157646537,
      "learning_rate": 0.0005204996803879258,
      "loss": 0.3238,
      "num_input_tokens_seen": 36113520,
      "step": 38940
    },
    {
      "epoch": 18.36162187647336,
      "grad_norm": 0.0007839365280233324,
      "learning_rate": 0.0005156082991676969,
      "loss": 0.3171,
      "num_input_tokens_seen": 36118112,
      "step": 38945
    },
    {
      "epoch": 18.363979255068365,
      "grad_norm": 0.00045302827493287623,
      "learning_rate": 0.0005107399703192127,
      "loss": 0.3396,
      "num_input_tokens_seen": 36121952,
      "step": 38950
    },
    {
      "epoch": 18.366336633663366,
      "grad_norm": 0.00073088618228212,
      "learning_rate": 0.0005058946945932063,
      "loss": 0.2945,
      "num_input_tokens_seen": 36126816,
      "step": 38955
    },
    {
      "epoch": 18.36869401225837,
      "grad_norm": 0.0005003490368835628,
      "learning_rate": 0.0005010724727369131,
      "loss": 0.3182,
      "num_input_tokens_seen": 36131088,
      "step": 38960
    },
    {
      "epoch": 18.37105139085337,
      "grad_norm": 0.0010671596974134445,
      "learning_rate": 0.000496273305493955,
      "loss": 0.3223,
      "num_input_tokens_seen": 36135216,
      "step": 38965
    },
    {
      "epoch": 18.373408769448375,
      "grad_norm": 0.0006327082519419491,
      "learning_rate": 0.0004914971936044399,
      "loss": 0.3334,
      "num_input_tokens_seen": 36140496,
      "step": 38970
    },
    {
      "epoch": 18.375766148043375,
      "grad_norm": 0.0004312880337238312,
      "learning_rate": 0.00048674413780491196,
      "loss": 0.277,
      "num_input_tokens_seen": 36145232,
      "step": 38975
    },
    {
      "epoch": 18.37812352663838,
      "grad_norm": 0.0007045348174870014,
      "learning_rate": 0.0004820141388283183,
      "loss": 0.3256,
      "num_input_tokens_seen": 36151040,
      "step": 38980
    },
    {
      "epoch": 18.38048090523338,
      "grad_norm": 0.0009109950042329729,
      "learning_rate": 0.00047730719740410874,
      "loss": 0.3885,
      "num_input_tokens_seen": 36155664,
      "step": 38985
    },
    {
      "epoch": 18.382838283828384,
      "grad_norm": 0.0007344964542426169,
      "learning_rate": 0.00047262331425816927,
      "loss": 0.2801,
      "num_input_tokens_seen": 36159968,
      "step": 38990
    },
    {
      "epoch": 18.385195662423385,
      "grad_norm": 0.0006051463424228132,
      "learning_rate": 0.00046796249011277213,
      "loss": 0.3214,
      "num_input_tokens_seen": 36163520,
      "step": 38995
    },
    {
      "epoch": 18.38755304101839,
      "grad_norm": 0.0005311874556355178,
      "learning_rate": 0.00046332472568669236,
      "loss": 0.3121,
      "num_input_tokens_seen": 36168064,
      "step": 39000
    },
    {
      "epoch": 18.38755304101839,
      "eval_loss": 0.32882243394851685,
      "eval_runtime": 33.5691,
      "eval_samples_per_second": 28.091,
      "eval_steps_per_second": 14.061,
      "num_input_tokens_seen": 36168064,
      "step": 39000
    },
    {
      "epoch": 18.38991041961339,
      "grad_norm": 0.0006057227728888392,
      "learning_rate": 0.0004587100216951578,
      "loss": 0.3238,
      "num_input_tokens_seen": 36172960,
      "step": 39005
    },
    {
      "epoch": 18.392267798208394,
      "grad_norm": 0.0005348807317204773,
      "learning_rate": 0.00045411837884978265,
      "loss": 0.3453,
      "num_input_tokens_seen": 36176528,
      "step": 39010
    },
    {
      "epoch": 18.394625176803395,
      "grad_norm": 0.0007155524799600244,
      "learning_rate": 0.00044954979785865045,
      "loss": 0.3261,
      "num_input_tokens_seen": 36180832,
      "step": 39015
    },
    {
      "epoch": 18.396982555398395,
      "grad_norm": 0.0006950755487196147,
      "learning_rate": 0.00044500427942631426,
      "loss": 0.3274,
      "num_input_tokens_seen": 36184416,
      "step": 39020
    },
    {
      "epoch": 18.3993399339934,
      "grad_norm": 0.00041272997623309493,
      "learning_rate": 0.0004404818242537467,
      "loss": 0.3013,
      "num_input_tokens_seen": 36188560,
      "step": 39025
    },
    {
      "epoch": 18.4016973125884,
      "grad_norm": 0.0004612274351529777,
      "learning_rate": 0.00043598243303837324,
      "loss": 0.3295,
      "num_input_tokens_seen": 36194224,
      "step": 39030
    },
    {
      "epoch": 18.404054691183404,
      "grad_norm": 0.0005765149253420532,
      "learning_rate": 0.00043150610647403885,
      "loss": 0.301,
      "num_input_tokens_seen": 36199312,
      "step": 39035
    },
    {
      "epoch": 18.406412069778405,
      "grad_norm": 0.00037441813037730753,
      "learning_rate": 0.00042705284525104134,
      "loss": 0.3145,
      "num_input_tokens_seen": 36204416,
      "step": 39040
    },
    {
      "epoch": 18.40876944837341,
      "grad_norm": 0.0009263997781090438,
      "learning_rate": 0.0004226226500561647,
      "loss": 0.3392,
      "num_input_tokens_seen": 36208928,
      "step": 39045
    },
    {
      "epoch": 18.41112682696841,
      "grad_norm": 0.00035763217601925135,
      "learning_rate": 0.0004182155215725791,
      "loss": 0.3608,
      "num_input_tokens_seen": 36213408,
      "step": 39050
    },
    {
      "epoch": 18.413484205563414,
      "grad_norm": 0.00045311020221561193,
      "learning_rate": 0.00041383146047992424,
      "loss": 0.3066,
      "num_input_tokens_seen": 36218992,
      "step": 39055
    },
    {
      "epoch": 18.415841584158414,
      "grad_norm": 0.0005099179106764495,
      "learning_rate": 0.00040947046745427597,
      "loss": 0.2826,
      "num_input_tokens_seen": 36223440,
      "step": 39060
    },
    {
      "epoch": 18.41819896275342,
      "grad_norm": 0.000878060469403863,
      "learning_rate": 0.00040513254316814625,
      "loss": 0.3438,
      "num_input_tokens_seen": 36229136,
      "step": 39065
    },
    {
      "epoch": 18.42055634134842,
      "grad_norm": 0.0005955498781986535,
      "learning_rate": 0.0004008176882905168,
      "loss": 0.3249,
      "num_input_tokens_seen": 36234112,
      "step": 39070
    },
    {
      "epoch": 18.422913719943423,
      "grad_norm": 0.0007635675137862563,
      "learning_rate": 0.00039652590348677184,
      "loss": 0.3045,
      "num_input_tokens_seen": 36238192,
      "step": 39075
    },
    {
      "epoch": 18.425271098538424,
      "grad_norm": 0.0008232316467911005,
      "learning_rate": 0.00039225718941878206,
      "loss": 0.3113,
      "num_input_tokens_seen": 36242240,
      "step": 39080
    },
    {
      "epoch": 18.427628477133428,
      "grad_norm": 0.0007165834540501237,
      "learning_rate": 0.00038801154674480417,
      "loss": 0.3366,
      "num_input_tokens_seen": 36246400,
      "step": 39085
    },
    {
      "epoch": 18.42998585572843,
      "grad_norm": 0.0007941200165078044,
      "learning_rate": 0.00038378897611959784,
      "loss": 0.351,
      "num_input_tokens_seen": 36250544,
      "step": 39090
    },
    {
      "epoch": 18.432343234323433,
      "grad_norm": 0.0005157795385457575,
      "learning_rate": 0.00037958947819430875,
      "loss": 0.3125,
      "num_input_tokens_seen": 36255024,
      "step": 39095
    },
    {
      "epoch": 18.434700612918434,
      "grad_norm": 0.001184435561299324,
      "learning_rate": 0.0003754130536165856,
      "loss": 0.3656,
      "num_input_tokens_seen": 36259936,
      "step": 39100
    },
    {
      "epoch": 18.437057991513438,
      "grad_norm": 0.0006859335699118674,
      "learning_rate": 0.0003712597030304632,
      "loss": 0.294,
      "num_input_tokens_seen": 36264176,
      "step": 39105
    },
    {
      "epoch": 18.43941537010844,
      "grad_norm": 0.0008332450524903834,
      "learning_rate": 0.00036712942707646247,
      "loss": 0.3155,
      "num_input_tokens_seen": 36268848,
      "step": 39110
    },
    {
      "epoch": 18.441772748703443,
      "grad_norm": 0.0007642219425179064,
      "learning_rate": 0.00036302222639149063,
      "loss": 0.2665,
      "num_input_tokens_seen": 36273408,
      "step": 39115
    },
    {
      "epoch": 18.444130127298443,
      "grad_norm": 0.001041877898387611,
      "learning_rate": 0.000358938101608941,
      "loss": 0.316,
      "num_input_tokens_seen": 36278720,
      "step": 39120
    },
    {
      "epoch": 18.446487505893447,
      "grad_norm": 0.0004474285233300179,
      "learning_rate": 0.0003548770533586598,
      "loss": 0.3425,
      "num_input_tokens_seen": 36283152,
      "step": 39125
    },
    {
      "epoch": 18.448844884488448,
      "grad_norm": 0.0004117022326681763,
      "learning_rate": 0.0003508390822668961,
      "loss": 0.3389,
      "num_input_tokens_seen": 36287248,
      "step": 39130
    },
    {
      "epoch": 18.451202263083452,
      "grad_norm": 0.00040483937482349575,
      "learning_rate": 0.00034682418895633503,
      "loss": 0.3383,
      "num_input_tokens_seen": 36291840,
      "step": 39135
    },
    {
      "epoch": 18.453559641678453,
      "grad_norm": 0.0004744984325952828,
      "learning_rate": 0.0003428323740461647,
      "loss": 0.3323,
      "num_input_tokens_seen": 36296480,
      "step": 39140
    },
    {
      "epoch": 18.455917020273457,
      "grad_norm": 0.00035456681507639587,
      "learning_rate": 0.00033886363815194276,
      "loss": 0.3367,
      "num_input_tokens_seen": 36301152,
      "step": 39145
    },
    {
      "epoch": 18.458274398868458,
      "grad_norm": 0.000785790616646409,
      "learning_rate": 0.0003349179818857129,
      "loss": 0.3473,
      "num_input_tokens_seen": 36306496,
      "step": 39150
    },
    {
      "epoch": 18.460631777463462,
      "grad_norm": 0.0009104564669542015,
      "learning_rate": 0.0003309954058559383,
      "loss": 0.3661,
      "num_input_tokens_seen": 36310768,
      "step": 39155
    },
    {
      "epoch": 18.462989156058462,
      "grad_norm": 0.0006171336281113327,
      "learning_rate": 0.0003270959106675186,
      "loss": 0.34,
      "num_input_tokens_seen": 36314688,
      "step": 39160
    },
    {
      "epoch": 18.465346534653467,
      "grad_norm": 0.0004986601416021585,
      "learning_rate": 0.0003232194969218227,
      "loss": 0.3212,
      "num_input_tokens_seen": 36318896,
      "step": 39165
    },
    {
      "epoch": 18.467703913248467,
      "grad_norm": 0.0008358168415725231,
      "learning_rate": 0.00031936616521663905,
      "loss": 0.3406,
      "num_input_tokens_seen": 36323712,
      "step": 39170
    },
    {
      "epoch": 18.47006129184347,
      "grad_norm": 0.0003899112343788147,
      "learning_rate": 0.00031553591614619236,
      "loss": 0.2857,
      "num_input_tokens_seen": 36328224,
      "step": 39175
    },
    {
      "epoch": 18.472418670438472,
      "grad_norm": 0.0008768230327405035,
      "learning_rate": 0.00031172875030117676,
      "loss": 0.3086,
      "num_input_tokens_seen": 36332768,
      "step": 39180
    },
    {
      "epoch": 18.474776049033476,
      "grad_norm": 0.0004760531010106206,
      "learning_rate": 0.0003079446682686726,
      "loss": 0.2807,
      "num_input_tokens_seen": 36336880,
      "step": 39185
    },
    {
      "epoch": 18.477133427628477,
      "grad_norm": 0.0006594933802261949,
      "learning_rate": 0.0003041836706322465,
      "loss": 0.3527,
      "num_input_tokens_seen": 36341392,
      "step": 39190
    },
    {
      "epoch": 18.47949080622348,
      "grad_norm": 0.0003109076642431319,
      "learning_rate": 0.0003004457579719011,
      "loss": 0.3404,
      "num_input_tokens_seen": 36346224,
      "step": 39195
    },
    {
      "epoch": 18.48184818481848,
      "grad_norm": 0.0007866534288041294,
      "learning_rate": 0.00029673093086405867,
      "loss": 0.284,
      "num_input_tokens_seen": 36351216,
      "step": 39200
    },
    {
      "epoch": 18.48184818481848,
      "eval_loss": 0.32872965931892395,
      "eval_runtime": 33.5939,
      "eval_samples_per_second": 28.071,
      "eval_steps_per_second": 14.05,
      "num_input_tokens_seen": 36351216,
      "step": 39200
    },
    {
      "epoch": 18.484205563413486,
      "grad_norm": 0.0003575600276235491,
      "learning_rate": 0.00029303918988159426,
      "loss": 0.3296,
      "num_input_tokens_seen": 36355488,
      "step": 39205
    },
    {
      "epoch": 18.486562942008486,
      "grad_norm": 0.0005043020355515182,
      "learning_rate": 0.0002893705355938192,
      "loss": 0.3274,
      "num_input_tokens_seen": 36359456,
      "step": 39210
    },
    {
      "epoch": 18.48892032060349,
      "grad_norm": 0.0008483062847517431,
      "learning_rate": 0.0002857249685664975,
      "loss": 0.323,
      "num_input_tokens_seen": 36364000,
      "step": 39215
    },
    {
      "epoch": 18.49127769919849,
      "grad_norm": 0.0006156976451165974,
      "learning_rate": 0.0002821024893618129,
      "loss": 0.3598,
      "num_input_tokens_seen": 36369504,
      "step": 39220
    },
    {
      "epoch": 18.493635077793492,
      "grad_norm": 0.0005713337450288236,
      "learning_rate": 0.0002785030985383852,
      "loss": 0.3384,
      "num_input_tokens_seen": 36374656,
      "step": 39225
    },
    {
      "epoch": 18.495992456388496,
      "grad_norm": 0.0010579803492873907,
      "learning_rate": 0.00027492679665130356,
      "loss": 0.3864,
      "num_input_tokens_seen": 36379408,
      "step": 39230
    },
    {
      "epoch": 18.498349834983497,
      "grad_norm": 0.000865600595716387,
      "learning_rate": 0.000271373584252077,
      "loss": 0.339,
      "num_input_tokens_seen": 36383904,
      "step": 39235
    },
    {
      "epoch": 18.5007072135785,
      "grad_norm": 0.0008159107528626919,
      "learning_rate": 0.00026784346188865046,
      "loss": 0.3414,
      "num_input_tokens_seen": 36388992,
      "step": 39240
    },
    {
      "epoch": 18.5030645921735,
      "grad_norm": 0.0009360190597362816,
      "learning_rate": 0.0002643364301054218,
      "loss": 0.3053,
      "num_input_tokens_seen": 36395280,
      "step": 39245
    },
    {
      "epoch": 18.505421970768506,
      "grad_norm": 0.000399655953515321,
      "learning_rate": 0.0002608524894431918,
      "loss": 0.3291,
      "num_input_tokens_seen": 36400000,
      "step": 39250
    },
    {
      "epoch": 18.507779349363506,
      "grad_norm": 0.00026867809356190264,
      "learning_rate": 0.000257391640439264,
      "loss": 0.276,
      "num_input_tokens_seen": 36404688,
      "step": 39255
    },
    {
      "epoch": 18.51013672795851,
      "grad_norm": 0.0008737823227420449,
      "learning_rate": 0.00025395388362732806,
      "loss": 0.3202,
      "num_input_tokens_seen": 36409984,
      "step": 39260
    },
    {
      "epoch": 18.51249410655351,
      "grad_norm": 0.0005296116578392684,
      "learning_rate": 0.00025053921953751,
      "loss": 0.3461,
      "num_input_tokens_seen": 36414000,
      "step": 39265
    },
    {
      "epoch": 18.514851485148515,
      "grad_norm": 0.0005857647047378123,
      "learning_rate": 0.00024714764869643855,
      "loss": 0.3318,
      "num_input_tokens_seen": 36418656,
      "step": 39270
    },
    {
      "epoch": 18.517208863743516,
      "grad_norm": 0.00046543165808543563,
      "learning_rate": 0.0002437791716270954,
      "loss": 0.3922,
      "num_input_tokens_seen": 36422000,
      "step": 39275
    },
    {
      "epoch": 18.51956624233852,
      "grad_norm": 0.00048482444253750145,
      "learning_rate": 0.00024043378884896493,
      "loss": 0.2806,
      "num_input_tokens_seen": 36426832,
      "step": 39280
    },
    {
      "epoch": 18.52192362093352,
      "grad_norm": 0.0007756781997159123,
      "learning_rate": 0.00023711150087793453,
      "loss": 0.2934,
      "num_input_tokens_seen": 36430912,
      "step": 39285
    },
    {
      "epoch": 18.524280999528525,
      "grad_norm": 0.0008645020425319672,
      "learning_rate": 0.000233812308226361,
      "loss": 0.2614,
      "num_input_tokens_seen": 36435392,
      "step": 39290
    },
    {
      "epoch": 18.526638378123526,
      "grad_norm": 0.00043317023664712906,
      "learning_rate": 0.00023053621140300406,
      "loss": 0.3451,
      "num_input_tokens_seen": 36440528,
      "step": 39295
    },
    {
      "epoch": 18.52899575671853,
      "grad_norm": 0.00040318170795217156,
      "learning_rate": 0.00022728321091307623,
      "loss": 0.2678,
      "num_input_tokens_seen": 36445232,
      "step": 39300
    },
    {
      "epoch": 18.53135313531353,
      "grad_norm": 0.0005094759399071336,
      "learning_rate": 0.0002240533072582429,
      "loss": 0.3197,
      "num_input_tokens_seen": 36449024,
      "step": 39305
    },
    {
      "epoch": 18.533710513908535,
      "grad_norm": 0.0008123599691316485,
      "learning_rate": 0.00022084650093658897,
      "loss": 0.3493,
      "num_input_tokens_seen": 36453216,
      "step": 39310
    },
    {
      "epoch": 18.536067892503535,
      "grad_norm": 0.00048470849287696183,
      "learning_rate": 0.0002176627924426522,
      "loss": 0.3246,
      "num_input_tokens_seen": 36458368,
      "step": 39315
    },
    {
      "epoch": 18.53842527109854,
      "grad_norm": 0.0005180378211662173,
      "learning_rate": 0.0002145021822673898,
      "loss": 0.3467,
      "num_input_tokens_seen": 36462768,
      "step": 39320
    },
    {
      "epoch": 18.54078264969354,
      "grad_norm": 0.0003551323898136616,
      "learning_rate": 0.00021136467089822862,
      "loss": 0.3363,
      "num_input_tokens_seen": 36467104,
      "step": 39325
    },
    {
      "epoch": 18.543140028288544,
      "grad_norm": 0.0006553137791343033,
      "learning_rate": 0.00020825025881898162,
      "loss": 0.2853,
      "num_input_tokens_seen": 36472496,
      "step": 39330
    },
    {
      "epoch": 18.545497406883545,
      "grad_norm": 0.0006250406731851399,
      "learning_rate": 0.0002051589465099479,
      "loss": 0.3915,
      "num_input_tokens_seen": 36477584,
      "step": 39335
    },
    {
      "epoch": 18.54785478547855,
      "grad_norm": 0.00045968551421537995,
      "learning_rate": 0.0002020907344478462,
      "loss": 0.3304,
      "num_input_tokens_seen": 36482304,
      "step": 39340
    },
    {
      "epoch": 18.55021216407355,
      "grad_norm": 0.0009714036132209003,
      "learning_rate": 0.0001990456231058313,
      "loss": 0.26,
      "num_input_tokens_seen": 36487232,
      "step": 39345
    },
    {
      "epoch": 18.552569542668554,
      "grad_norm": 0.0003759857208933681,
      "learning_rate": 0.00019602361295349423,
      "loss": 0.3385,
      "num_input_tokens_seen": 36491920,
      "step": 39350
    },
    {
      "epoch": 18.554926921263554,
      "grad_norm": 0.0007728750933893025,
      "learning_rate": 0.0001930247044568789,
      "loss": 0.3179,
      "num_input_tokens_seen": 36496208,
      "step": 39355
    },
    {
      "epoch": 18.55728429985856,
      "grad_norm": 0.0006751515902578831,
      "learning_rate": 0.00019004889807843205,
      "loss": 0.2909,
      "num_input_tokens_seen": 36501392,
      "step": 39360
    },
    {
      "epoch": 18.55964167845356,
      "grad_norm": 0.00044998934026807547,
      "learning_rate": 0.00018709619427708656,
      "loss": 0.3107,
      "num_input_tokens_seen": 36506288,
      "step": 39365
    },
    {
      "epoch": 18.561999057048563,
      "grad_norm": 0.0004415575531311333,
      "learning_rate": 0.00018416659350817822,
      "loss": 0.376,
      "num_input_tokens_seen": 36510688,
      "step": 39370
    },
    {
      "epoch": 18.564356435643564,
      "grad_norm": 0.000774434651248157,
      "learning_rate": 0.00018126009622346229,
      "loss": 0.3281,
      "num_input_tokens_seen": 36515824,
      "step": 39375
    },
    {
      "epoch": 18.566713814238568,
      "grad_norm": 0.00036121706943959,
      "learning_rate": 0.00017837670287119687,
      "loss": 0.3475,
      "num_input_tokens_seen": 36519936,
      "step": 39380
    },
    {
      "epoch": 18.56907119283357,
      "grad_norm": 0.0005728837568312883,
      "learning_rate": 0.00017551641389602633,
      "loss": 0.3362,
      "num_input_tokens_seen": 36525008,
      "step": 39385
    },
    {
      "epoch": 18.571428571428573,
      "grad_norm": 0.0005601239972747862,
      "learning_rate": 0.00017267922973903115,
      "loss": 0.3229,
      "num_input_tokens_seen": 36529264,
      "step": 39390
    },
    {
      "epoch": 18.573785950023574,
      "grad_norm": 0.0005925188888795674,
      "learning_rate": 0.00016986515083774467,
      "loss": 0.3807,
      "num_input_tokens_seen": 36533472,
      "step": 39395
    },
    {
      "epoch": 18.576143328618578,
      "grad_norm": 0.00039559585275128484,
      "learning_rate": 0.00016707417762611975,
      "loss": 0.3022,
      "num_input_tokens_seen": 36537456,
      "step": 39400
    },
    {
      "epoch": 18.576143328618578,
      "eval_loss": 0.32878851890563965,
      "eval_runtime": 33.5962,
      "eval_samples_per_second": 28.069,
      "eval_steps_per_second": 14.049,
      "num_input_tokens_seen": 36537456,
      "step": 39400
    },
    {
      "epoch": 18.57850070721358,
      "grad_norm": 0.00035175023367628455,
      "learning_rate": 0.00016430631053459543,
      "loss": 0.3218,
      "num_input_tokens_seen": 36541424,
      "step": 39405
    },
    {
      "epoch": 18.580858085808583,
      "grad_norm": 0.0004405969229992479,
      "learning_rate": 0.0001615615499899803,
      "loss": 0.3302,
      "num_input_tokens_seen": 36545792,
      "step": 39410
    },
    {
      "epoch": 18.583215464403583,
      "grad_norm": 0.0009888046188279986,
      "learning_rate": 0.00015883989641556905,
      "loss": 0.3874,
      "num_input_tokens_seen": 36550800,
      "step": 39415
    },
    {
      "epoch": 18.585572842998587,
      "grad_norm": 0.0005860868841409683,
      "learning_rate": 0.00015614135023105934,
      "loss": 0.3628,
      "num_input_tokens_seen": 36555280,
      "step": 39420
    },
    {
      "epoch": 18.587930221593588,
      "grad_norm": 0.0004664133593905717,
      "learning_rate": 0.00015346591185261827,
      "loss": 0.299,
      "num_input_tokens_seen": 36560304,
      "step": 39425
    },
    {
      "epoch": 18.59028760018859,
      "grad_norm": 0.0007302891463041306,
      "learning_rate": 0.00015081358169281576,
      "loss": 0.3108,
      "num_input_tokens_seen": 36564896,
      "step": 39430
    },
    {
      "epoch": 18.592644978783593,
      "grad_norm": 0.0007057212060317397,
      "learning_rate": 0.00014818436016069135,
      "loss": 0.3625,
      "num_input_tokens_seen": 36569888,
      "step": 39435
    },
    {
      "epoch": 18.595002357378593,
      "grad_norm": 0.0004913332522846758,
      "learning_rate": 0.00014557824766168735,
      "loss": 0.3738,
      "num_input_tokens_seen": 36573984,
      "step": 39440
    },
    {
      "epoch": 18.597359735973598,
      "grad_norm": 0.0006335446960292757,
      "learning_rate": 0.00014299524459769896,
      "loss": 0.3921,
      "num_input_tokens_seen": 36577968,
      "step": 39445
    },
    {
      "epoch": 18.599717114568598,
      "grad_norm": 0.00042931234929710627,
      "learning_rate": 0.0001404353513670742,
      "loss": 0.3244,
      "num_input_tokens_seen": 36582048,
      "step": 39450
    },
    {
      "epoch": 18.602074493163602,
      "grad_norm": 0.000463794480310753,
      "learning_rate": 0.0001378985683645806,
      "loss": 0.4188,
      "num_input_tokens_seen": 36586400,
      "step": 39455
    },
    {
      "epoch": 18.604431871758603,
      "grad_norm": 0.00038035513716749847,
      "learning_rate": 0.0001353848959813886,
      "loss": 0.3042,
      "num_input_tokens_seen": 36590432,
      "step": 39460
    },
    {
      "epoch": 18.606789250353607,
      "grad_norm": 0.0006387537578120828,
      "learning_rate": 0.00013289433460517142,
      "loss": 0.3217,
      "num_input_tokens_seen": 36594912,
      "step": 39465
    },
    {
      "epoch": 18.609146628948608,
      "grad_norm": 0.00040566810639575124,
      "learning_rate": 0.00013042688462000518,
      "loss": 0.296,
      "num_input_tokens_seen": 36600208,
      "step": 39470
    },
    {
      "epoch": 18.611504007543612,
      "grad_norm": 0.0006244953256100416,
      "learning_rate": 0.0001279825464063855,
      "loss": 0.3182,
      "num_input_tokens_seen": 36605488,
      "step": 39475
    },
    {
      "epoch": 18.613861386138613,
      "grad_norm": 0.00037394280661828816,
      "learning_rate": 0.00012556132034126087,
      "loss": 0.2518,
      "num_input_tokens_seen": 36610576,
      "step": 39480
    },
    {
      "epoch": 18.616218764733617,
      "grad_norm": 0.00047210310003720224,
      "learning_rate": 0.0001231632067980326,
      "loss": 0.3353,
      "num_input_tokens_seen": 36616480,
      "step": 39485
    },
    {
      "epoch": 18.618576143328617,
      "grad_norm": 0.0008122975705191493,
      "learning_rate": 0.00012078820614650486,
      "loss": 0.3576,
      "num_input_tokens_seen": 36621040,
      "step": 39490
    },
    {
      "epoch": 18.62093352192362,
      "grad_norm": 0.0008451825124211609,
      "learning_rate": 0.00011843631875291804,
      "loss": 0.2995,
      "num_input_tokens_seen": 36625600,
      "step": 39495
    },
    {
      "epoch": 18.623290900518622,
      "grad_norm": 0.0004494317399803549,
      "learning_rate": 0.00011610754497999863,
      "loss": 0.3248,
      "num_input_tokens_seen": 36630240,
      "step": 39500
    },
    {
      "epoch": 18.625648279113626,
      "grad_norm": 0.0010384292108938098,
      "learning_rate": 0.0001138018851868594,
      "loss": 0.3025,
      "num_input_tokens_seen": 36634080,
      "step": 39505
    },
    {
      "epoch": 18.628005657708627,
      "grad_norm": 0.0003796830424107611,
      "learning_rate": 0.0001115193397290326,
      "loss": 0.3303,
      "num_input_tokens_seen": 36638416,
      "step": 39510
    },
    {
      "epoch": 18.63036303630363,
      "grad_norm": 0.0007615095237269998,
      "learning_rate": 0.00010925990895856996,
      "loss": 0.3438,
      "num_input_tokens_seen": 36643568,
      "step": 39515
    },
    {
      "epoch": 18.632720414898632,
      "grad_norm": 0.00047975537017919123,
      "learning_rate": 0.00010702359322385946,
      "loss": 0.3332,
      "num_input_tokens_seen": 36648608,
      "step": 39520
    },
    {
      "epoch": 18.635077793493636,
      "grad_norm": 0.0008306591771543026,
      "learning_rate": 0.00010481039286977523,
      "loss": 0.2943,
      "num_input_tokens_seen": 36653696,
      "step": 39525
    },
    {
      "epoch": 18.637435172088637,
      "grad_norm": 0.0005476480000652373,
      "learning_rate": 0.00010262030823764423,
      "loss": 0.3316,
      "num_input_tokens_seen": 36657952,
      "step": 39530
    },
    {
      "epoch": 18.63979255068364,
      "grad_norm": 0.00048237963346764445,
      "learning_rate": 0.00010045333966517966,
      "loss": 0.2738,
      "num_input_tokens_seen": 36662336,
      "step": 39535
    },
    {
      "epoch": 18.64214992927864,
      "grad_norm": 0.0007007243111729622,
      "learning_rate": 9.83094874865642e-05,
      "loss": 0.3001,
      "num_input_tokens_seen": 36667296,
      "step": 39540
    },
    {
      "epoch": 18.644507307873646,
      "grad_norm": 0.0009957937290892005,
      "learning_rate": 9.618875203241672e-05,
      "loss": 0.2759,
      "num_input_tokens_seen": 36671888,
      "step": 39545
    },
    {
      "epoch": 18.646864686468646,
      "grad_norm": 0.000787163560744375,
      "learning_rate": 9.409113362977561e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 36676624,
      "step": 39550
    },
    {
      "epoch": 18.64922206506365,
      "grad_norm": 0.0005463386187329888,
      "learning_rate": 9.20166326020988e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 36680320,
      "step": 39555
    },
    {
      "epoch": 18.65157944365865,
      "grad_norm": 0.000547907198779285,
      "learning_rate": 8.996524926933035e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 36686256,
      "step": 39560
    },
    {
      "epoch": 18.653936822253655,
      "grad_norm": 0.0005148855270817876,
      "learning_rate": 8.793698394781723e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 36689872,
      "step": 39565
    },
    {
      "epoch": 18.656294200848656,
      "grad_norm": 0.0004919039201922715,
      "learning_rate": 8.593183695030926e-05,
      "loss": 0.3063,
      "num_input_tokens_seen": 36694128,
      "step": 39570
    },
    {
      "epoch": 18.65865157944366,
      "grad_norm": 0.0007419353350996971,
      "learning_rate": 8.39498085860757e-05,
      "loss": 0.3081,
      "num_input_tokens_seen": 36699088,
      "step": 39575
    },
    {
      "epoch": 18.66100895803866,
      "grad_norm": 0.0009020661818794906,
      "learning_rate": 8.199089916072211e-05,
      "loss": 0.3755,
      "num_input_tokens_seen": 36703824,
      "step": 39580
    },
    {
      "epoch": 18.663366336633665,
      "grad_norm": 0.000544824986718595,
      "learning_rate": 8.005510897637346e-05,
      "loss": 0.3603,
      "num_input_tokens_seen": 36709056,
      "step": 39585
    },
    {
      "epoch": 18.665723715228665,
      "grad_norm": 0.0008357432088814676,
      "learning_rate": 7.8142438331541e-05,
      "loss": 0.3416,
      "num_input_tokens_seen": 36713232,
      "step": 39590
    },
    {
      "epoch": 18.66808109382367,
      "grad_norm": 0.001299525611102581,
      "learning_rate": 7.625288752117209e-05,
      "loss": 0.2998,
      "num_input_tokens_seen": 36719344,
      "step": 39595
    },
    {
      "epoch": 18.67043847241867,
      "grad_norm": 0.0005059082759544253,
      "learning_rate": 7.4386456836667e-05,
      "loss": 0.3618,
      "num_input_tokens_seen": 36723376,
      "step": 39600
    },
    {
      "epoch": 18.67043847241867,
      "eval_loss": 0.3285972476005554,
      "eval_runtime": 33.6204,
      "eval_samples_per_second": 28.048,
      "eval_steps_per_second": 14.039,
      "num_input_tokens_seen": 36723376,
      "step": 39600
    },
    {
      "epoch": 18.672795851013674,
      "grad_norm": 0.0008593794191256166,
      "learning_rate": 7.254314656586214e-05,
      "loss": 0.3361,
      "num_input_tokens_seen": 36728448,
      "step": 39605
    },
    {
      "epoch": 18.675153229608675,
      "grad_norm": 0.0005660603637807071,
      "learning_rate": 7.07229569929968e-05,
      "loss": 0.3194,
      "num_input_tokens_seen": 36733072,
      "step": 39610
    },
    {
      "epoch": 18.677510608203676,
      "grad_norm": 0.0004572699835989624,
      "learning_rate": 6.892588839879643e-05,
      "loss": 0.3744,
      "num_input_tokens_seen": 36738192,
      "step": 39615
    },
    {
      "epoch": 18.67986798679868,
      "grad_norm": 0.000651845708489418,
      "learning_rate": 6.71519410603727e-05,
      "loss": 0.3357,
      "num_input_tokens_seen": 36742304,
      "step": 39620
    },
    {
      "epoch": 18.68222536539368,
      "grad_norm": 0.0004317142302170396,
      "learning_rate": 6.540111525129011e-05,
      "loss": 0.3368,
      "num_input_tokens_seen": 36747136,
      "step": 39625
    },
    {
      "epoch": 18.684582743988685,
      "grad_norm": 0.0007332460954785347,
      "learning_rate": 6.367341124154934e-05,
      "loss": 0.3029,
      "num_input_tokens_seen": 36752048,
      "step": 39630
    },
    {
      "epoch": 18.686940122583685,
      "grad_norm": 0.0004377727454993874,
      "learning_rate": 6.19688292975873e-05,
      "loss": 0.3561,
      "num_input_tokens_seen": 36755952,
      "step": 39635
    },
    {
      "epoch": 18.68929750117869,
      "grad_norm": 0.0003957887820433825,
      "learning_rate": 6.0287369682260336e-05,
      "loss": 0.3233,
      "num_input_tokens_seen": 36760592,
      "step": 39640
    },
    {
      "epoch": 18.69165487977369,
      "grad_norm": 0.0005441435496322811,
      "learning_rate": 5.8629032654894384e-05,
      "loss": 0.3482,
      "num_input_tokens_seen": 36766032,
      "step": 39645
    },
    {
      "epoch": 18.694012258368694,
      "grad_norm": 0.00039159582229331136,
      "learning_rate": 5.699381847120155e-05,
      "loss": 0.2781,
      "num_input_tokens_seen": 36770176,
      "step": 39650
    },
    {
      "epoch": 18.696369636963695,
      "grad_norm": 0.0009269213769584894,
      "learning_rate": 5.5381727383380094e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 36774224,
      "step": 39655
    },
    {
      "epoch": 18.6987270155587,
      "grad_norm": 0.0003923369222320616,
      "learning_rate": 5.379275964001451e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 36778800,
      "step": 39660
    },
    {
      "epoch": 18.7010843941537,
      "grad_norm": 0.0005194168770685792,
      "learning_rate": 5.222691548614211e-05,
      "loss": 0.3533,
      "num_input_tokens_seen": 36784064,
      "step": 39665
    },
    {
      "epoch": 18.703441772748704,
      "grad_norm": 0.00037764632725156844,
      "learning_rate": 5.068419516323641e-05,
      "loss": 0.2933,
      "num_input_tokens_seen": 36789184,
      "step": 39670
    },
    {
      "epoch": 18.705799151343705,
      "grad_norm": 0.0004814645217265934,
      "learning_rate": 4.91645989092071e-05,
      "loss": 0.3327,
      "num_input_tokens_seen": 36794528,
      "step": 39675
    },
    {
      "epoch": 18.70815652993871,
      "grad_norm": 0.0005027198349125683,
      "learning_rate": 4.7668126958400056e-05,
      "loss": 0.3333,
      "num_input_tokens_seen": 36798592,
      "step": 39680
    },
    {
      "epoch": 18.71051390853371,
      "grad_norm": 0.0005365029210224748,
      "learning_rate": 4.619477954159734e-05,
      "loss": 0.3229,
      "num_input_tokens_seen": 36803360,
      "step": 39685
    },
    {
      "epoch": 18.712871287128714,
      "grad_norm": 0.000480244227219373,
      "learning_rate": 4.4744556885983884e-05,
      "loss": 0.3983,
      "num_input_tokens_seen": 36807536,
      "step": 39690
    },
    {
      "epoch": 18.715228665723714,
      "grad_norm": 0.0008488482562825084,
      "learning_rate": 4.331745921523078e-05,
      "loss": 0.3287,
      "num_input_tokens_seen": 36812368,
      "step": 39695
    },
    {
      "epoch": 18.71758604431872,
      "grad_norm": 0.0004984604893252254,
      "learning_rate": 4.191348674937867e-05,
      "loss": 0.3103,
      "num_input_tokens_seen": 36816928,
      "step": 39700
    },
    {
      "epoch": 18.71994342291372,
      "grad_norm": 0.00041743708425201476,
      "learning_rate": 4.0532639704971006e-05,
      "loss": 0.3746,
      "num_input_tokens_seen": 36820832,
      "step": 39705
    },
    {
      "epoch": 18.722300801508723,
      "grad_norm": 0.0006508693331852555,
      "learning_rate": 3.917491829493747e-05,
      "loss": 0.2894,
      "num_input_tokens_seen": 36825072,
      "step": 39710
    },
    {
      "epoch": 18.724658180103724,
      "grad_norm": 0.0004889988340437412,
      "learning_rate": 3.78403227286439e-05,
      "loss": 0.3383,
      "num_input_tokens_seen": 36829552,
      "step": 39715
    },
    {
      "epoch": 18.727015558698728,
      "grad_norm": 0.0005605871556326747,
      "learning_rate": 3.652885321192567e-05,
      "loss": 0.337,
      "num_input_tokens_seen": 36833312,
      "step": 39720
    },
    {
      "epoch": 18.72937293729373,
      "grad_norm": 0.0005940769915468991,
      "learning_rate": 3.524050994702099e-05,
      "loss": 0.3517,
      "num_input_tokens_seen": 36838032,
      "step": 39725
    },
    {
      "epoch": 18.731730315888733,
      "grad_norm": 0.0006332024931907654,
      "learning_rate": 3.3975293132604276e-05,
      "loss": 0.3171,
      "num_input_tokens_seen": 36842032,
      "step": 39730
    },
    {
      "epoch": 18.734087694483733,
      "grad_norm": 0.00046026965719647706,
      "learning_rate": 3.2733202963786125e-05,
      "loss": 0.3219,
      "num_input_tokens_seen": 36846752,
      "step": 39735
    },
    {
      "epoch": 18.736445073078738,
      "grad_norm": 0.0007848079549148679,
      "learning_rate": 3.15142396321133e-05,
      "loss": 0.3313,
      "num_input_tokens_seen": 36852960,
      "step": 39740
    },
    {
      "epoch": 18.738802451673738,
      "grad_norm": 0.0006848740158602595,
      "learning_rate": 3.0318403325552132e-05,
      "loss": 0.2852,
      "num_input_tokens_seen": 36857424,
      "step": 39745
    },
    {
      "epoch": 18.741159830268742,
      "grad_norm": 0.00033870822517201304,
      "learning_rate": 2.914569422855506e-05,
      "loss": 0.2673,
      "num_input_tokens_seen": 36861408,
      "step": 39750
    },
    {
      "epoch": 18.743517208863743,
      "grad_norm": 0.0006388265173882246,
      "learning_rate": 2.7996112521927462e-05,
      "loss": 0.3021,
      "num_input_tokens_seen": 36866176,
      "step": 39755
    },
    {
      "epoch": 18.745874587458747,
      "grad_norm": 0.0008203398901969194,
      "learning_rate": 2.68696583829775e-05,
      "loss": 0.2962,
      "num_input_tokens_seen": 36870672,
      "step": 39760
    },
    {
      "epoch": 18.748231966053748,
      "grad_norm": 0.0008444614941254258,
      "learning_rate": 2.576633198539957e-05,
      "loss": 0.3142,
      "num_input_tokens_seen": 36874544,
      "step": 39765
    },
    {
      "epoch": 18.750589344648752,
      "grad_norm": 0.0005690757534466684,
      "learning_rate": 2.46861334993409e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 36879888,
      "step": 39770
    },
    {
      "epoch": 18.752946723243753,
      "grad_norm": 0.0007471232092939317,
      "learning_rate": 2.3629063091384903e-05,
      "loss": 0.2724,
      "num_input_tokens_seen": 36885008,
      "step": 39775
    },
    {
      "epoch": 18.755304101838757,
      "grad_norm": 0.0010587942088022828,
      "learning_rate": 2.2595120924567834e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 36890608,
      "step": 39780
    },
    {
      "epoch": 18.757661480433757,
      "grad_norm": 0.00038363601197488606,
      "learning_rate": 2.158430715829551e-05,
      "loss": 0.3447,
      "num_input_tokens_seen": 36895440,
      "step": 39785
    },
    {
      "epoch": 18.76001885902876,
      "grad_norm": 0.00038872906588949263,
      "learning_rate": 2.059662194849321e-05,
      "loss": 0.3134,
      "num_input_tokens_seen": 36900960,
      "step": 39790
    },
    {
      "epoch": 18.762376237623762,
      "grad_norm": 0.0008238440495915711,
      "learning_rate": 1.9632065447422463e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 36905440,
      "step": 39795
    },
    {
      "epoch": 18.764733616218766,
      "grad_norm": 0.0008332908619195223,
      "learning_rate": 1.8690637803880916e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 36910256,
      "step": 39800
    },
    {
      "epoch": 18.764733616218766,
      "eval_loss": 0.3283248841762543,
      "eval_runtime": 33.6021,
      "eval_samples_per_second": 28.064,
      "eval_steps_per_second": 14.047,
      "num_input_tokens_seen": 36910256,
      "step": 39800
    },
    {
      "epoch": 18.767090994813767,
      "grad_norm": 0.00048283429350703955,
      "learning_rate": 1.7772339163019123e-05,
      "loss": 0.3009,
      "num_input_tokens_seen": 36914608,
      "step": 39805
    },
    {
      "epoch": 18.76944837340877,
      "grad_norm": 0.0003486855130176991,
      "learning_rate": 1.6877169666457138e-05,
      "loss": 0.3276,
      "num_input_tokens_seen": 36918928,
      "step": 39810
    },
    {
      "epoch": 18.77180575200377,
      "grad_norm": 0.00041437227628193796,
      "learning_rate": 1.6005129452234532e-05,
      "loss": 0.3168,
      "num_input_tokens_seen": 36923520,
      "step": 39815
    },
    {
      "epoch": 18.774163130598772,
      "grad_norm": 0.0004448097897693515,
      "learning_rate": 1.5156218654843733e-05,
      "loss": 0.3335,
      "num_input_tokens_seen": 36929904,
      "step": 39820
    },
    {
      "epoch": 18.776520509193777,
      "grad_norm": 0.0005045164725743234,
      "learning_rate": 1.4330437405196683e-05,
      "loss": 0.3293,
      "num_input_tokens_seen": 36933840,
      "step": 39825
    },
    {
      "epoch": 18.778877887788777,
      "grad_norm": 0.00035695431870408356,
      "learning_rate": 1.352778583062486e-05,
      "loss": 0.2867,
      "num_input_tokens_seen": 36938416,
      "step": 39830
    },
    {
      "epoch": 18.78123526638378,
      "grad_norm": 0.0007933588931336999,
      "learning_rate": 1.2748264054929237e-05,
      "loss": 0.2814,
      "num_input_tokens_seen": 36943136,
      "step": 39835
    },
    {
      "epoch": 18.783592644978782,
      "grad_norm": 0.0007267258479259908,
      "learning_rate": 1.1991872198297004e-05,
      "loss": 0.3216,
      "num_input_tokens_seen": 36948224,
      "step": 39840
    },
    {
      "epoch": 18.785950023573786,
      "grad_norm": 0.0004713740781880915,
      "learning_rate": 1.1258610377384847e-05,
      "loss": 0.3174,
      "num_input_tokens_seen": 36953872,
      "step": 39845
    },
    {
      "epoch": 18.788307402168787,
      "grad_norm": 0.0005294667207635939,
      "learning_rate": 1.0548478705268982e-05,
      "loss": 0.3217,
      "num_input_tokens_seen": 36958032,
      "step": 39850
    },
    {
      "epoch": 18.79066478076379,
      "grad_norm": 0.0004188097664155066,
      "learning_rate": 9.86147729147846e-06,
      "loss": 0.3144,
      "num_input_tokens_seen": 36961760,
      "step": 39855
    },
    {
      "epoch": 18.79302215935879,
      "grad_norm": 0.00044369115494191647,
      "learning_rate": 9.197606241928557e-06,
      "loss": 0.2808,
      "num_input_tokens_seen": 36965136,
      "step": 39860
    },
    {
      "epoch": 18.795379537953796,
      "grad_norm": 0.0008818375063128769,
      "learning_rate": 8.556865659004042e-06,
      "loss": 0.3354,
      "num_input_tokens_seen": 36969840,
      "step": 39865
    },
    {
      "epoch": 18.797736916548796,
      "grad_norm": 0.00047336117131635547,
      "learning_rate": 7.939255641525867e-06,
      "loss": 0.3325,
      "num_input_tokens_seen": 36974336,
      "step": 39870
    },
    {
      "epoch": 18.8000942951438,
      "grad_norm": 0.0008653895929455757,
      "learning_rate": 7.344776284751164e-06,
      "loss": 0.305,
      "num_input_tokens_seen": 36978752,
      "step": 39875
    },
    {
      "epoch": 18.8024516737388,
      "grad_norm": 0.00034863935434259474,
      "learning_rate": 6.773427680323296e-06,
      "loss": 0.2663,
      "num_input_tokens_seen": 36984416,
      "step": 39880
    },
    {
      "epoch": 18.804809052333805,
      "grad_norm": 0.0005066712037660182,
      "learning_rate": 6.225209916355112e-06,
      "loss": 0.315,
      "num_input_tokens_seen": 36988512,
      "step": 39885
    },
    {
      "epoch": 18.807166430928806,
      "grad_norm": 0.0007341099553741515,
      "learning_rate": 5.7001230774123e-06,
      "loss": 0.3538,
      "num_input_tokens_seen": 36993024,
      "step": 39890
    },
    {
      "epoch": 18.80952380952381,
      "grad_norm": 0.0005276708980090916,
      "learning_rate": 5.198167244446772e-06,
      "loss": 0.3711,
      "num_input_tokens_seen": 36998448,
      "step": 39895
    },
    {
      "epoch": 18.81188118811881,
      "grad_norm": 0.0008371441508643329,
      "learning_rate": 4.71934249487993e-06,
      "loss": 0.3227,
      "num_input_tokens_seen": 37003600,
      "step": 39900
    },
    {
      "epoch": 18.814238566713815,
      "grad_norm": 0.0010567017598077655,
      "learning_rate": 4.2636489025527075e-06,
      "loss": 0.3114,
      "num_input_tokens_seen": 37008000,
      "step": 39905
    },
    {
      "epoch": 18.816595945308816,
      "grad_norm": 0.0012279131915420294,
      "learning_rate": 3.831086537742223e-06,
      "loss": 0.3193,
      "num_input_tokens_seen": 37012608,
      "step": 39910
    },
    {
      "epoch": 18.81895332390382,
      "grad_norm": 0.0007476341561414301,
      "learning_rate": 3.4216554671451236e-06,
      "loss": 0.3755,
      "num_input_tokens_seen": 37017408,
      "step": 39915
    },
    {
      "epoch": 18.82131070249882,
      "grad_norm": 0.0009185114759020507,
      "learning_rate": 3.035355753894242e-06,
      "loss": 0.363,
      "num_input_tokens_seen": 37021616,
      "step": 39920
    },
    {
      "epoch": 18.823668081093825,
      "grad_norm": 0.0006984603824093938,
      "learning_rate": 2.6721874575752477e-06,
      "loss": 0.3028,
      "num_input_tokens_seen": 37026480,
      "step": 39925
    },
    {
      "epoch": 18.826025459688825,
      "grad_norm": 0.0007336573326028883,
      "learning_rate": 2.3321506341933418e-06,
      "loss": 0.3195,
      "num_input_tokens_seen": 37031408,
      "step": 39930
    },
    {
      "epoch": 18.82838283828383,
      "grad_norm": 0.0006742941914126277,
      "learning_rate": 2.0152453361732546e-06,
      "loss": 0.3534,
      "num_input_tokens_seen": 37035920,
      "step": 39935
    },
    {
      "epoch": 18.83074021687883,
      "grad_norm": 0.0006823717849329114,
      "learning_rate": 1.7214716123925554e-06,
      "loss": 0.3344,
      "num_input_tokens_seen": 37039696,
      "step": 39940
    },
    {
      "epoch": 18.833097595473834,
      "grad_norm": 0.0006458980496972799,
      "learning_rate": 1.4508295081649968e-06,
      "loss": 0.3248,
      "num_input_tokens_seen": 37044208,
      "step": 39945
    },
    {
      "epoch": 18.835454974068835,
      "grad_norm": 0.0007900646887719631,
      "learning_rate": 1.2033190652238623e-06,
      "loss": 0.3386,
      "num_input_tokens_seen": 37049168,
      "step": 39950
    },
    {
      "epoch": 18.83781235266384,
      "grad_norm": 0.0005520584527403116,
      "learning_rate": 9.78940321721966e-07,
      "loss": 0.3599,
      "num_input_tokens_seen": 37053712,
      "step": 39955
    },
    {
      "epoch": 18.84016973125884,
      "grad_norm": 0.0005295728915371001,
      "learning_rate": 7.776933122816132e-07,
      "loss": 0.3222,
      "num_input_tokens_seen": 37058592,
      "step": 39960
    },
    {
      "epoch": 18.842527109853844,
      "grad_norm": 0.0008061463013291359,
      "learning_rate": 5.99578067927986e-07,
      "loss": 0.3024,
      "num_input_tokens_seen": 37063312,
      "step": 39965
    },
    {
      "epoch": 18.844884488448844,
      "grad_norm": 0.0005367737612687051,
      "learning_rate": 4.445946161224512e-07,
      "loss": 0.3202,
      "num_input_tokens_seen": 37068192,
      "step": 39970
    },
    {
      "epoch": 18.84724186704385,
      "grad_norm": 0.00037264529964886606,
      "learning_rate": 3.127429807792126e-07,
      "loss": 0.3578,
      "num_input_tokens_seen": 37074112,
      "step": 39975
    },
    {
      "epoch": 18.84959924563885,
      "grad_norm": 0.00041749730007722974,
      "learning_rate": 2.040231822320049e-07,
      "loss": 0.3563,
      "num_input_tokens_seen": 37079376,
      "step": 39980
    },
    {
      "epoch": 18.851956624233853,
      "grad_norm": 0.0009565838263370097,
      "learning_rate": 1.1843523723409354e-07,
      "loss": 0.314,
      "num_input_tokens_seen": 37083760,
      "step": 39985
    },
    {
      "epoch": 18.854314002828854,
      "grad_norm": 0.00047559195081703365,
      "learning_rate": 5.597915897492811e-08,
      "loss": 0.3603,
      "num_input_tokens_seen": 37088688,
      "step": 39990
    },
    {
      "epoch": 18.85667138142386,
      "grad_norm": 0.0004936708137392998,
      "learning_rate": 1.6654957113448885e-08,
      "loss": 0.3479,
      "num_input_tokens_seen": 37092992,
      "step": 39995
    },
    {
      "epoch": 18.85902876001886,
      "grad_norm": 0.0011332299327477813,
      "learning_rate": 4.626377114735902e-10,
      "loss": 0.3403,
      "num_input_tokens_seen": 37097424,
      "step": 40000
    },
    {
      "epoch": 18.85902876001886,
      "eval_loss": 0.3285662531852722,
      "eval_runtime": 33.5902,
      "eval_samples_per_second": 28.074,
      "eval_steps_per_second": 14.052,
      "num_input_tokens_seen": 37097424,
      "step": 40000
    },
    {
      "epoch": 18.85902876001886,
      "num_input_tokens_seen": 37097424,
      "step": 40000,
      "total_flos": 1.5834232254395843e+18,
      "train_loss": 0.33570288619101046,
      "train_runtime": 19776.3723,
      "train_samples_per_second": 8.09,
      "train_steps_per_second": 2.023
    }
  ],
  "logging_steps": 5,
  "max_steps": 40000,
  "num_input_tokens_seen": 37097424,
  "num_train_epochs": 19,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5834232254395843e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}