{
  "best_global_step": 13356,
  "best_metric": 0.4737432897090912,
  "best_model_checkpoint": "saves_multiple/p-tuning/llama-3-8b-instruct/train_codealpacapy_789_1767650456/checkpoint-13356",
  "epoch": 20.0,
  "eval_steps": 1908,
  "global_step": 38160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002620545073375262,
      "grad_norm": 28.341598510742188,
      "learning_rate": 1.0482180293501048e-06,
      "loss": 4.9229,
      "num_input_tokens_seen": 3168,
      "step": 5
    },
    {
      "epoch": 0.005241090146750524,
      "grad_norm": 24.48307228088379,
      "learning_rate": 2.358490566037736e-06,
      "loss": 5.0406,
      "num_input_tokens_seen": 6048,
      "step": 10
    },
    {
      "epoch": 0.007861635220125786,
      "grad_norm": 37.527252197265625,
      "learning_rate": 3.668763102725367e-06,
      "loss": 4.2287,
      "num_input_tokens_seen": 9024,
      "step": 15
    },
    {
      "epoch": 0.010482180293501049,
      "grad_norm": 36.4847526550293,
      "learning_rate": 4.979035639412998e-06,
      "loss": 3.4847,
      "num_input_tokens_seen": 12224,
      "step": 20
    },
    {
      "epoch": 0.01310272536687631,
      "grad_norm": 24.732309341430664,
      "learning_rate": 6.289308176100629e-06,
      "loss": 3.2527,
      "num_input_tokens_seen": 15200,
      "step": 25
    },
    {
      "epoch": 0.015723270440251572,
      "grad_norm": 26.903778076171875,
      "learning_rate": 7.59958071278826e-06,
      "loss": 2.8695,
      "num_input_tokens_seen": 18784,
      "step": 30
    },
    {
      "epoch": 0.018343815513626835,
      "grad_norm": 24.142057418823242,
      "learning_rate": 8.90985324947589e-06,
      "loss": 2.8376,
      "num_input_tokens_seen": 21792,
      "step": 35
    },
    {
      "epoch": 0.020964360587002098,
      "grad_norm": 30.03262710571289,
      "learning_rate": 1.0220125786163522e-05,
      "loss": 2.1485,
      "num_input_tokens_seen": 24928,
      "step": 40
    },
    {
      "epoch": 0.02358490566037736,
      "grad_norm": 26.423484802246094,
      "learning_rate": 1.1530398322851153e-05,
      "loss": 1.9032,
      "num_input_tokens_seen": 27872,
      "step": 45
    },
    {
      "epoch": 0.02620545073375262,
      "grad_norm": 24.86802864074707,
      "learning_rate": 1.2840670859538784e-05,
      "loss": 1.6174,
      "num_input_tokens_seen": 30496,
      "step": 50
    },
    {
      "epoch": 0.028825995807127882,
      "grad_norm": 25.093460083007812,
      "learning_rate": 1.4150943396226415e-05,
      "loss": 1.2085,
      "num_input_tokens_seen": 33728,
      "step": 55
    },
    {
      "epoch": 0.031446540880503145,
      "grad_norm": 6.439154148101807,
      "learning_rate": 1.5461215932914046e-05,
      "loss": 0.9601,
      "num_input_tokens_seen": 37344,
      "step": 60
    },
    {
      "epoch": 0.034067085953878404,
      "grad_norm": 3.826608657836914,
      "learning_rate": 1.6771488469601677e-05,
      "loss": 0.8051,
      "num_input_tokens_seen": 40096,
      "step": 65
    },
    {
      "epoch": 0.03668763102725367,
      "grad_norm": 33.4272575378418,
      "learning_rate": 1.8081761006289308e-05,
      "loss": 0.7361,
      "num_input_tokens_seen": 44736,
      "step": 70
    },
    {
      "epoch": 0.03930817610062893,
      "grad_norm": 2.8137032985687256,
      "learning_rate": 1.9392033542976942e-05,
      "loss": 0.8448,
      "num_input_tokens_seen": 48896,
      "step": 75
    },
    {
      "epoch": 0.041928721174004195,
      "grad_norm": 3.0701944828033447,
      "learning_rate": 2.070230607966457e-05,
      "loss": 0.8328,
      "num_input_tokens_seen": 51744,
      "step": 80
    },
    {
      "epoch": 0.044549266247379454,
      "grad_norm": 4.98459005355835,
      "learning_rate": 2.20125786163522e-05,
      "loss": 0.4573,
      "num_input_tokens_seen": 58880,
      "step": 85
    },
    {
      "epoch": 0.04716981132075472,
      "grad_norm": 5.481986999511719,
      "learning_rate": 2.3322851153039832e-05,
      "loss": 0.4666,
      "num_input_tokens_seen": 61536,
      "step": 90
    },
    {
      "epoch": 0.04979035639412998,
      "grad_norm": 2.278977870941162,
      "learning_rate": 2.4633123689727463e-05,
      "loss": 0.6622,
      "num_input_tokens_seen": 65248,
      "step": 95
    },
    {
      "epoch": 0.05241090146750524,
      "grad_norm": 2.6575448513031006,
      "learning_rate": 2.5943396226415097e-05,
      "loss": 0.645,
      "num_input_tokens_seen": 68096,
      "step": 100
    },
    {
      "epoch": 0.055031446540880505,
      "grad_norm": 1.6364809274673462,
      "learning_rate": 2.7253668763102725e-05,
      "loss": 0.6175,
      "num_input_tokens_seen": 70848,
      "step": 105
    },
    {
      "epoch": 0.057651991614255764,
      "grad_norm": 6.349959850311279,
      "learning_rate": 2.8563941299790356e-05,
      "loss": 0.5948,
      "num_input_tokens_seen": 73376,
      "step": 110
    },
    {
      "epoch": 0.06027253668763103,
      "grad_norm": 1.7356617450714111,
      "learning_rate": 2.987421383647799e-05,
      "loss": 0.5027,
      "num_input_tokens_seen": 77184,
      "step": 115
    },
    {
      "epoch": 0.06289308176100629,
      "grad_norm": 5.524155616760254,
      "learning_rate": 3.118448637316562e-05,
      "loss": 0.7691,
      "num_input_tokens_seen": 79904,
      "step": 120
    },
    {
      "epoch": 0.06551362683438156,
      "grad_norm": 3.51576828956604,
      "learning_rate": 3.2494758909853245e-05,
      "loss": 0.5038,
      "num_input_tokens_seen": 82784,
      "step": 125
    },
    {
      "epoch": 0.06813417190775681,
      "grad_norm": 1.9050875902175903,
      "learning_rate": 3.380503144654088e-05,
      "loss": 0.6341,
      "num_input_tokens_seen": 86112,
      "step": 130
    },
    {
      "epoch": 0.07075471698113207,
      "grad_norm": 3.902390241622925,
      "learning_rate": 3.5115303983228514e-05,
      "loss": 0.5157,
      "num_input_tokens_seen": 89600,
      "step": 135
    },
    {
      "epoch": 0.07337526205450734,
      "grad_norm": 3.8953659534454346,
      "learning_rate": 3.642557651991614e-05,
      "loss": 0.573,
      "num_input_tokens_seen": 92928,
      "step": 140
    },
    {
      "epoch": 0.0759958071278826,
      "grad_norm": 2.9823741912841797,
      "learning_rate": 3.7735849056603776e-05,
      "loss": 0.6007,
      "num_input_tokens_seen": 96384,
      "step": 145
    },
    {
      "epoch": 0.07861635220125786,
      "grad_norm": 1.461076021194458,
      "learning_rate": 3.90461215932914e-05,
      "loss": 0.453,
      "num_input_tokens_seen": 99104,
      "step": 150
    },
    {
      "epoch": 0.08123689727463312,
      "grad_norm": 0.8321852684020996,
      "learning_rate": 4.035639412997904e-05,
      "loss": 0.6111,
      "num_input_tokens_seen": 101920,
      "step": 155
    },
    {
      "epoch": 0.08385744234800839,
      "grad_norm": 0.8446222543716431,
      "learning_rate": 4.1666666666666665e-05,
      "loss": 0.5626,
      "num_input_tokens_seen": 104800,
      "step": 160
    },
    {
      "epoch": 0.08647798742138364,
      "grad_norm": 1.0877573490142822,
      "learning_rate": 4.29769392033543e-05,
      "loss": 0.658,
      "num_input_tokens_seen": 107168,
      "step": 165
    },
    {
      "epoch": 0.08909853249475891,
      "grad_norm": 0.863732635974884,
      "learning_rate": 4.4287211740041934e-05,
      "loss": 0.4918,
      "num_input_tokens_seen": 110336,
      "step": 170
    },
    {
      "epoch": 0.09171907756813417,
      "grad_norm": 2.4734227657318115,
      "learning_rate": 4.5597484276729555e-05,
      "loss": 0.576,
      "num_input_tokens_seen": 113568,
      "step": 175
    },
    {
      "epoch": 0.09433962264150944,
      "grad_norm": 1.122622013092041,
      "learning_rate": 4.690775681341719e-05,
      "loss": 0.516,
      "num_input_tokens_seen": 117120,
      "step": 180
    },
    {
      "epoch": 0.09696016771488469,
      "grad_norm": 0.673669695854187,
      "learning_rate": 4.8218029350104823e-05,
      "loss": 0.6092,
      "num_input_tokens_seen": 120320,
      "step": 185
    },
    {
      "epoch": 0.09958071278825996,
      "grad_norm": 1.2331252098083496,
      "learning_rate": 4.952830188679246e-05,
      "loss": 0.6167,
      "num_input_tokens_seen": 123392,
      "step": 190
    },
    {
      "epoch": 0.10220125786163523,
      "grad_norm": 1.5728901624679565,
      "learning_rate": 5.0838574423480085e-05,
      "loss": 0.5546,
      "num_input_tokens_seen": 126464,
      "step": 195
    },
    {
      "epoch": 0.10482180293501048,
      "grad_norm": 1.5097122192382812,
      "learning_rate": 5.214884696016771e-05,
      "loss": 0.5771,
      "num_input_tokens_seen": 129504,
      "step": 200
    },
    {
      "epoch": 0.10744234800838574,
      "grad_norm": 0.8808813691139221,
      "learning_rate": 5.345911949685535e-05,
      "loss": 0.4551,
      "num_input_tokens_seen": 132608,
      "step": 205
    },
    {
      "epoch": 0.11006289308176101,
      "grad_norm": 1.2964835166931152,
      "learning_rate": 5.4769392033542975e-05,
      "loss": 0.5844,
      "num_input_tokens_seen": 135264,
      "step": 210
    },
    {
      "epoch": 0.11268343815513626,
      "grad_norm": 1.8560967445373535,
      "learning_rate": 5.607966457023061e-05,
      "loss": 0.5269,
      "num_input_tokens_seen": 138208,
      "step": 215
    },
    {
      "epoch": 0.11530398322851153,
      "grad_norm": 1.5642472505569458,
      "learning_rate": 5.7389937106918244e-05,
      "loss": 0.4985,
      "num_input_tokens_seen": 141696,
      "step": 220
    },
    {
      "epoch": 0.1179245283018868,
      "grad_norm": 1.1251163482666016,
      "learning_rate": 5.870020964360587e-05,
      "loss": 0.624,
      "num_input_tokens_seen": 144256,
      "step": 225
    },
    {
      "epoch": 0.12054507337526206,
      "grad_norm": 1.108954668045044,
      "learning_rate": 6.00104821802935e-05,
      "loss": 0.4014,
      "num_input_tokens_seen": 147904,
      "step": 230
    },
    {
      "epoch": 0.12316561844863731,
      "grad_norm": 0.8976665735244751,
      "learning_rate": 6.132075471698113e-05,
      "loss": 0.4918,
      "num_input_tokens_seen": 151616,
      "step": 235
    },
    {
      "epoch": 0.12578616352201258,
      "grad_norm": 1.6201988458633423,
      "learning_rate": 6.263102725366875e-05,
      "loss": 0.5845,
      "num_input_tokens_seen": 154048,
      "step": 240
    },
    {
      "epoch": 0.12840670859538783,
      "grad_norm": 0.6677184700965881,
      "learning_rate": 6.39412997903564e-05,
      "loss": 0.4531,
      "num_input_tokens_seen": 156992,
      "step": 245
    },
    {
      "epoch": 0.1310272536687631,
      "grad_norm": 0.7208623290061951,
      "learning_rate": 6.525157232704402e-05,
      "loss": 0.6773,
      "num_input_tokens_seen": 160544,
      "step": 250
    },
    {
      "epoch": 0.13364779874213836,
      "grad_norm": 1.3676540851593018,
      "learning_rate": 6.656184486373166e-05,
      "loss": 0.492,
      "num_input_tokens_seen": 164000,
      "step": 255
    },
    {
      "epoch": 0.13626834381551362,
      "grad_norm": 1.6362849473953247,
      "learning_rate": 6.787211740041929e-05,
      "loss": 0.5338,
      "num_input_tokens_seen": 167200,
      "step": 260
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 1.1188222169876099,
      "learning_rate": 6.918238993710691e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 169888,
      "step": 265
    },
    {
      "epoch": 0.14150943396226415,
      "grad_norm": 1.2136503458023071,
      "learning_rate": 7.049266247379455e-05,
      "loss": 0.577,
      "num_input_tokens_seen": 172832,
      "step": 270
    },
    {
      "epoch": 0.1441299790356394,
      "grad_norm": 1.5422791242599487,
      "learning_rate": 7.180293501048218e-05,
      "loss": 0.6146,
      "num_input_tokens_seen": 176672,
      "step": 275
    },
    {
      "epoch": 0.14675052410901468,
      "grad_norm": 0.9035360813140869,
      "learning_rate": 7.311320754716982e-05,
      "loss": 0.4481,
      "num_input_tokens_seen": 180000,
      "step": 280
    },
    {
      "epoch": 0.14937106918238993,
      "grad_norm": 1.3397626876831055,
      "learning_rate": 7.442348008385745e-05,
      "loss": 0.6305,
      "num_input_tokens_seen": 182880,
      "step": 285
    },
    {
      "epoch": 0.1519916142557652,
      "grad_norm": 0.6887792944908142,
      "learning_rate": 7.573375262054507e-05,
      "loss": 0.4868,
      "num_input_tokens_seen": 185760,
      "step": 290
    },
    {
      "epoch": 0.15461215932914046,
      "grad_norm": 0.9990873336791992,
      "learning_rate": 7.70440251572327e-05,
      "loss": 0.5348,
      "num_input_tokens_seen": 188960,
      "step": 295
    },
    {
      "epoch": 0.15723270440251572,
      "grad_norm": 1.1454553604125977,
      "learning_rate": 7.835429769392034e-05,
      "loss": 0.5696,
      "num_input_tokens_seen": 191488,
      "step": 300
    },
    {
      "epoch": 0.159853249475891,
      "grad_norm": 1.2876200675964355,
      "learning_rate": 7.966457023060797e-05,
      "loss": 0.5623,
      "num_input_tokens_seen": 194240,
      "step": 305
    },
    {
      "epoch": 0.16247379454926625,
      "grad_norm": 1.4143599271774292,
      "learning_rate": 8.09748427672956e-05,
      "loss": 0.5474,
      "num_input_tokens_seen": 197408,
      "step": 310
    },
    {
      "epoch": 0.1650943396226415,
      "grad_norm": 1.0386141538619995,
      "learning_rate": 8.228511530398323e-05,
      "loss": 0.5481,
      "num_input_tokens_seen": 200384,
      "step": 315
    },
    {
      "epoch": 0.16771488469601678,
      "grad_norm": 0.7782875895500183,
      "learning_rate": 8.359538784067086e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 204480,
      "step": 320
    },
    {
      "epoch": 0.17033542976939203,
      "grad_norm": 0.6410771012306213,
      "learning_rate": 8.490566037735848e-05,
      "loss": 0.4788,
      "num_input_tokens_seen": 207264,
      "step": 325
    },
    {
      "epoch": 0.17295597484276728,
      "grad_norm": 0.4257238805294037,
      "learning_rate": 8.621593291404613e-05,
      "loss": 0.4435,
      "num_input_tokens_seen": 211360,
      "step": 330
    },
    {
      "epoch": 0.17557651991614256,
      "grad_norm": 0.8328954577445984,
      "learning_rate": 8.752620545073375e-05,
      "loss": 0.4863,
      "num_input_tokens_seen": 215712,
      "step": 335
    },
    {
      "epoch": 0.17819706498951782,
      "grad_norm": 0.4347583055496216,
      "learning_rate": 8.883647798742137e-05,
      "loss": 0.5438,
      "num_input_tokens_seen": 219680,
      "step": 340
    },
    {
      "epoch": 0.18081761006289307,
      "grad_norm": 0.5141206383705139,
      "learning_rate": 9.014675052410902e-05,
      "loss": 0.5976,
      "num_input_tokens_seen": 223232,
      "step": 345
    },
    {
      "epoch": 0.18343815513626835,
      "grad_norm": 0.5412020087242126,
      "learning_rate": 9.145702306079664e-05,
      "loss": 0.5586,
      "num_input_tokens_seen": 226528,
      "step": 350
    },
    {
      "epoch": 0.1860587002096436,
      "grad_norm": 0.5247107148170471,
      "learning_rate": 9.276729559748428e-05,
      "loss": 0.3727,
      "num_input_tokens_seen": 229600,
      "step": 355
    },
    {
      "epoch": 0.18867924528301888,
      "grad_norm": 0.44839125871658325,
      "learning_rate": 9.407756813417191e-05,
      "loss": 0.5024,
      "num_input_tokens_seen": 232512,
      "step": 360
    },
    {
      "epoch": 0.19129979035639413,
      "grad_norm": 0.7247802019119263,
      "learning_rate": 9.538784067085953e-05,
      "loss": 0.6346,
      "num_input_tokens_seen": 234784,
      "step": 365
    },
    {
      "epoch": 0.19392033542976939,
      "grad_norm": 0.7882610559463501,
      "learning_rate": 9.669811320754718e-05,
      "loss": 0.6313,
      "num_input_tokens_seen": 237440,
      "step": 370
    },
    {
      "epoch": 0.19654088050314467,
      "grad_norm": 1.2012758255004883,
      "learning_rate": 9.80083857442348e-05,
      "loss": 0.4851,
      "num_input_tokens_seen": 240064,
      "step": 375
    },
    {
      "epoch": 0.19916142557651992,
      "grad_norm": 0.6341954469680786,
      "learning_rate": 9.931865828092243e-05,
      "loss": 0.549,
      "num_input_tokens_seen": 243168,
      "step": 380
    },
    {
      "epoch": 0.20178197064989517,
      "grad_norm": 0.5374959707260132,
      "learning_rate": 0.00010062893081761007,
      "loss": 0.5128,
      "num_input_tokens_seen": 246496,
      "step": 385
    },
    {
      "epoch": 0.20440251572327045,
      "grad_norm": 0.9029459953308105,
      "learning_rate": 0.0001019392033542977,
      "loss": 0.5051,
      "num_input_tokens_seen": 249408,
      "step": 390
    },
    {
      "epoch": 0.2070230607966457,
      "grad_norm": 0.6597592234611511,
      "learning_rate": 0.00010324947589098532,
      "loss": 0.5215,
      "num_input_tokens_seen": 253248,
      "step": 395
    },
    {
      "epoch": 0.20964360587002095,
      "grad_norm": 0.46015939116477966,
      "learning_rate": 0.00010455974842767296,
      "loss": 0.6575,
      "num_input_tokens_seen": 256352,
      "step": 400
    },
    {
      "epoch": 0.21226415094339623,
      "grad_norm": 0.41296711564064026,
      "learning_rate": 0.00010587002096436059,
      "loss": 0.4375,
      "num_input_tokens_seen": 259648,
      "step": 405
    },
    {
      "epoch": 0.2148846960167715,
      "grad_norm": 0.6181530356407166,
      "learning_rate": 0.00010718029350104821,
      "loss": 0.5458,
      "num_input_tokens_seen": 262912,
      "step": 410
    },
    {
      "epoch": 0.21750524109014674,
      "grad_norm": 0.485388845205307,
      "learning_rate": 0.00010849056603773586,
      "loss": 0.6207,
      "num_input_tokens_seen": 265824,
      "step": 415
    },
    {
      "epoch": 0.22012578616352202,
      "grad_norm": 0.5924397110939026,
      "learning_rate": 0.00010980083857442348,
      "loss": 0.4599,
      "num_input_tokens_seen": 268032,
      "step": 420
    },
    {
      "epoch": 0.22274633123689727,
      "grad_norm": 0.8242554068565369,
      "learning_rate": 0.0001111111111111111,
      "loss": 0.6377,
      "num_input_tokens_seen": 271744,
      "step": 425
    },
    {
      "epoch": 0.22536687631027252,
      "grad_norm": 5.009267807006836,
      "learning_rate": 0.00011242138364779875,
      "loss": 0.5364,
      "num_input_tokens_seen": 274944,
      "step": 430
    },
    {
      "epoch": 0.2279874213836478,
      "grad_norm": 0.5686752796173096,
      "learning_rate": 0.00011373165618448637,
      "loss": 0.7079,
      "num_input_tokens_seen": 278080,
      "step": 435
    },
    {
      "epoch": 0.23060796645702306,
      "grad_norm": 0.5001971125602722,
      "learning_rate": 0.00011504192872117402,
      "loss": 0.4335,
      "num_input_tokens_seen": 281280,
      "step": 440
    },
    {
      "epoch": 0.23322851153039834,
      "grad_norm": 0.7201725244522095,
      "learning_rate": 0.00011635220125786164,
      "loss": 0.5513,
      "num_input_tokens_seen": 285312,
      "step": 445
    },
    {
      "epoch": 0.2358490566037736,
      "grad_norm": 0.5479955077171326,
      "learning_rate": 0.00011766247379454926,
      "loss": 0.5327,
      "num_input_tokens_seen": 288064,
      "step": 450
    },
    {
      "epoch": 0.23846960167714884,
      "grad_norm": 0.4823366105556488,
      "learning_rate": 0.00011897274633123691,
      "loss": 0.3892,
      "num_input_tokens_seen": 291648,
      "step": 455
    },
    {
      "epoch": 0.24109014675052412,
      "grad_norm": 0.615696370601654,
      "learning_rate": 0.00012028301886792453,
      "loss": 0.5781,
      "num_input_tokens_seen": 294368,
      "step": 460
    },
    {
      "epoch": 0.24371069182389937,
      "grad_norm": 1.0467119216918945,
      "learning_rate": 0.00012159329140461216,
      "loss": 0.542,
      "num_input_tokens_seen": 296864,
      "step": 465
    },
    {
      "epoch": 0.24633123689727462,
      "grad_norm": 0.8821552395820618,
      "learning_rate": 0.0001229035639412998,
      "loss": 0.4504,
      "num_input_tokens_seen": 299968,
      "step": 470
    },
    {
      "epoch": 0.2489517819706499,
      "grad_norm": 0.5553276538848877,
      "learning_rate": 0.00012421383647798743,
      "loss": 0.5574,
      "num_input_tokens_seen": 302624,
      "step": 475
    },
    {
      "epoch": 0.25157232704402516,
      "grad_norm": 0.9329220056533813,
      "learning_rate": 0.00012552410901467507,
      "loss": 0.5654,
      "num_input_tokens_seen": 305216,
      "step": 480
    },
    {
      "epoch": 0.25419287211740044,
      "grad_norm": 0.8522934317588806,
      "learning_rate": 0.00012683438155136267,
      "loss": 0.6158,
      "num_input_tokens_seen": 307648,
      "step": 485
    },
    {
      "epoch": 0.25681341719077566,
      "grad_norm": 0.3521101772785187,
      "learning_rate": 0.0001281446540880503,
      "loss": 0.7134,
      "num_input_tokens_seen": 310464,
      "step": 490
    },
    {
      "epoch": 0.25943396226415094,
      "grad_norm": 0.44710293412208557,
      "learning_rate": 0.00012945492662473794,
      "loss": 0.4226,
      "num_input_tokens_seen": 314912,
      "step": 495
    },
    {
      "epoch": 0.2620545073375262,
      "grad_norm": 0.4127686321735382,
      "learning_rate": 0.00013076519916142558,
      "loss": 0.5279,
      "num_input_tokens_seen": 317792,
      "step": 500
    },
    {
      "epoch": 0.26467505241090145,
      "grad_norm": 0.8219266533851624,
      "learning_rate": 0.0001320754716981132,
      "loss": 0.5003,
      "num_input_tokens_seen": 321024,
      "step": 505
    },
    {
      "epoch": 0.2672955974842767,
      "grad_norm": 0.5059698820114136,
      "learning_rate": 0.00013338574423480085,
      "loss": 0.4719,
      "num_input_tokens_seen": 323168,
      "step": 510
    },
    {
      "epoch": 0.269916142557652,
      "grad_norm": 0.6230670809745789,
      "learning_rate": 0.00013469601677148845,
      "loss": 0.6244,
      "num_input_tokens_seen": 326496,
      "step": 515
    },
    {
      "epoch": 0.27253668763102723,
      "grad_norm": 0.7439540028572083,
      "learning_rate": 0.0001360062893081761,
      "loss": 0.4719,
      "num_input_tokens_seen": 331072,
      "step": 520
    },
    {
      "epoch": 0.2751572327044025,
      "grad_norm": 0.8922321796417236,
      "learning_rate": 0.00013731656184486375,
      "loss": 0.6193,
      "num_input_tokens_seen": 334976,
      "step": 525
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.5827063918113708,
      "learning_rate": 0.00013862683438155136,
      "loss": 0.5899,
      "num_input_tokens_seen": 337568,
      "step": 530
    },
    {
      "epoch": 0.280398322851153,
      "grad_norm": 0.5815718173980713,
      "learning_rate": 0.000139937106918239,
      "loss": 0.5917,
      "num_input_tokens_seen": 340256,
      "step": 535
    },
    {
      "epoch": 0.2830188679245283,
      "grad_norm": 0.4162651598453522,
      "learning_rate": 0.00014124737945492663,
      "loss": 0.7038,
      "num_input_tokens_seen": 342688,
      "step": 540
    },
    {
      "epoch": 0.2856394129979036,
      "grad_norm": 0.5105886459350586,
      "learning_rate": 0.00014255765199161423,
      "loss": 0.4241,
      "num_input_tokens_seen": 345824,
      "step": 545
    },
    {
      "epoch": 0.2882599580712788,
      "grad_norm": 0.8562425374984741,
      "learning_rate": 0.0001438679245283019,
      "loss": 0.4756,
      "num_input_tokens_seen": 349408,
      "step": 550
    },
    {
      "epoch": 0.2908805031446541,
      "grad_norm": 0.5064226984977722,
      "learning_rate": 0.00014517819706498953,
      "loss": 0.521,
      "num_input_tokens_seen": 352544,
      "step": 555
    },
    {
      "epoch": 0.29350104821802936,
      "grad_norm": 0.3431900441646576,
      "learning_rate": 0.00014648846960167716,
      "loss": 0.6276,
      "num_input_tokens_seen": 355232,
      "step": 560
    },
    {
      "epoch": 0.29612159329140464,
      "grad_norm": 0.44668248295783997,
      "learning_rate": 0.00014779874213836477,
      "loss": 0.7176,
      "num_input_tokens_seen": 358720,
      "step": 565
    },
    {
      "epoch": 0.29874213836477986,
      "grad_norm": 0.6379881501197815,
      "learning_rate": 0.00014910901467505243,
      "loss": 0.53,
      "num_input_tokens_seen": 361344,
      "step": 570
    },
    {
      "epoch": 0.30136268343815514,
      "grad_norm": 0.3486432731151581,
      "learning_rate": 0.00015041928721174007,
      "loss": 0.5918,
      "num_input_tokens_seen": 364288,
      "step": 575
    },
    {
      "epoch": 0.3039832285115304,
      "grad_norm": 1.248974323272705,
      "learning_rate": 0.00015172955974842767,
      "loss": 0.4578,
      "num_input_tokens_seen": 366784,
      "step": 580
    },
    {
      "epoch": 0.30660377358490565,
      "grad_norm": 1.0053578615188599,
      "learning_rate": 0.0001530398322851153,
      "loss": 0.6156,
      "num_input_tokens_seen": 369952,
      "step": 585
    },
    {
      "epoch": 0.30922431865828093,
      "grad_norm": 0.48687809705734253,
      "learning_rate": 0.00015435010482180294,
      "loss": 0.54,
      "num_input_tokens_seen": 373120,
      "step": 590
    },
    {
      "epoch": 0.3118448637316562,
      "grad_norm": 0.24177607893943787,
      "learning_rate": 0.00015566037735849058,
      "loss": 0.4903,
      "num_input_tokens_seen": 376416,
      "step": 595
    },
    {
      "epoch": 0.31446540880503143,
      "grad_norm": 0.23523740470409393,
      "learning_rate": 0.0001569706498951782,
      "loss": 0.4471,
      "num_input_tokens_seen": 379232,
      "step": 600
    },
    {
      "epoch": 0.3170859538784067,
      "grad_norm": 1.16096830368042,
      "learning_rate": 0.00015828092243186584,
      "loss": 0.4847,
      "num_input_tokens_seen": 383072,
      "step": 605
    },
    {
      "epoch": 0.319706498951782,
      "grad_norm": 0.28727996349334717,
      "learning_rate": 0.00015959119496855345,
      "loss": 0.5597,
      "num_input_tokens_seen": 386944,
      "step": 610
    },
    {
      "epoch": 0.3223270440251572,
      "grad_norm": 0.38372093439102173,
      "learning_rate": 0.00016090146750524109,
      "loss": 0.508,
      "num_input_tokens_seen": 390944,
      "step": 615
    },
    {
      "epoch": 0.3249475890985325,
      "grad_norm": 0.2962290048599243,
      "learning_rate": 0.00016221174004192875,
      "loss": 0.4371,
      "num_input_tokens_seen": 393856,
      "step": 620
    },
    {
      "epoch": 0.3275681341719078,
      "grad_norm": 0.5791663527488708,
      "learning_rate": 0.00016352201257861635,
      "loss": 0.5038,
      "num_input_tokens_seen": 397280,
      "step": 625
    },
    {
      "epoch": 0.330188679245283,
      "grad_norm": 1.0240583419799805,
      "learning_rate": 0.000164832285115304,
      "loss": 0.5765,
      "num_input_tokens_seen": 400448,
      "step": 630
    },
    {
      "epoch": 0.3328092243186583,
      "grad_norm": 1.1016900539398193,
      "learning_rate": 0.00016614255765199162,
      "loss": 0.6586,
      "num_input_tokens_seen": 404192,
      "step": 635
    },
    {
      "epoch": 0.33542976939203356,
      "grad_norm": 0.8588545322418213,
      "learning_rate": 0.00016745283018867923,
      "loss": 0.581,
      "num_input_tokens_seen": 407744,
      "step": 640
    },
    {
      "epoch": 0.3380503144654088,
      "grad_norm": 0.4924255311489105,
      "learning_rate": 0.0001687631027253669,
      "loss": 0.4902,
      "num_input_tokens_seen": 410592,
      "step": 645
    },
    {
      "epoch": 0.34067085953878407,
      "grad_norm": 0.4284215569496155,
      "learning_rate": 0.00017007337526205453,
      "loss": 0.5253,
      "num_input_tokens_seen": 414624,
      "step": 650
    },
    {
      "epoch": 0.34329140461215935,
      "grad_norm": 0.41914165019989014,
      "learning_rate": 0.00017138364779874213,
      "loss": 0.5805,
      "num_input_tokens_seen": 417600,
      "step": 655
    },
    {
      "epoch": 0.34591194968553457,
      "grad_norm": 0.41753512620925903,
      "learning_rate": 0.00017269392033542977,
      "loss": 0.5252,
      "num_input_tokens_seen": 421024,
      "step": 660
    },
    {
      "epoch": 0.34853249475890985,
      "grad_norm": 0.3579016923904419,
      "learning_rate": 0.0001740041928721174,
      "loss": 0.5378,
      "num_input_tokens_seen": 424256,
      "step": 665
    },
    {
      "epoch": 0.35115303983228513,
      "grad_norm": 0.6081915497779846,
      "learning_rate": 0.00017531446540880504,
      "loss": 0.5033,
      "num_input_tokens_seen": 427808,
      "step": 670
    },
    {
      "epoch": 0.35377358490566035,
      "grad_norm": 0.3013359010219574,
      "learning_rate": 0.00017662473794549267,
      "loss": 0.4626,
      "num_input_tokens_seen": 430400,
      "step": 675
    },
    {
      "epoch": 0.35639412997903563,
      "grad_norm": 0.45834463834762573,
      "learning_rate": 0.0001779350104821803,
      "loss": 0.5206,
      "num_input_tokens_seen": 434176,
      "step": 680
    },
    {
      "epoch": 0.3590146750524109,
      "grad_norm": 0.4863824248313904,
      "learning_rate": 0.0001792452830188679,
      "loss": 0.558,
      "num_input_tokens_seen": 437536,
      "step": 685
    },
    {
      "epoch": 0.36163522012578614,
      "grad_norm": 0.35119470953941345,
      "learning_rate": 0.00018055555555555555,
      "loss": 0.4753,
      "num_input_tokens_seen": 440384,
      "step": 690
    },
    {
      "epoch": 0.3642557651991614,
      "grad_norm": 0.368272989988327,
      "learning_rate": 0.0001818658280922432,
      "loss": 0.5656,
      "num_input_tokens_seen": 443808,
      "step": 695
    },
    {
      "epoch": 0.3668763102725367,
      "grad_norm": 0.5639125108718872,
      "learning_rate": 0.00018317610062893082,
      "loss": 0.4675,
      "num_input_tokens_seen": 446880,
      "step": 700
    },
    {
      "epoch": 0.3694968553459119,
      "grad_norm": 0.39882275462150574,
      "learning_rate": 0.00018448637316561845,
      "loss": 0.4406,
      "num_input_tokens_seen": 450368,
      "step": 705
    },
    {
      "epoch": 0.3721174004192872,
      "grad_norm": 0.6133154630661011,
      "learning_rate": 0.00018579664570230608,
      "loss": 0.5657,
      "num_input_tokens_seen": 453344,
      "step": 710
    },
    {
      "epoch": 0.3747379454926625,
      "grad_norm": 0.33918729424476624,
      "learning_rate": 0.0001871069182389937,
      "loss": 0.6242,
      "num_input_tokens_seen": 456768,
      "step": 715
    },
    {
      "epoch": 0.37735849056603776,
      "grad_norm": 0.24809056520462036,
      "learning_rate": 0.00018841719077568135,
      "loss": 0.4846,
      "num_input_tokens_seen": 459936,
      "step": 720
    },
    {
      "epoch": 0.379979035639413,
      "grad_norm": 0.1993657350540161,
      "learning_rate": 0.000189727463312369,
      "loss": 0.4661,
      "num_input_tokens_seen": 463040,
      "step": 725
    },
    {
      "epoch": 0.38259958071278827,
      "grad_norm": 0.26079216599464417,
      "learning_rate": 0.00019103773584905662,
      "loss": 0.5437,
      "num_input_tokens_seen": 466432,
      "step": 730
    },
    {
      "epoch": 0.38522012578616355,
      "grad_norm": 0.3971749544143677,
      "learning_rate": 0.00019234800838574423,
      "loss": 0.5089,
      "num_input_tokens_seen": 469440,
      "step": 735
    },
    {
      "epoch": 0.38784067085953877,
      "grad_norm": 0.5082456469535828,
      "learning_rate": 0.00019365828092243186,
      "loss": 0.6701,
      "num_input_tokens_seen": 474400,
      "step": 740
    },
    {
      "epoch": 0.39046121593291405,
      "grad_norm": 0.29700398445129395,
      "learning_rate": 0.00019496855345911953,
      "loss": 0.7283,
      "num_input_tokens_seen": 478144,
      "step": 745
    },
    {
      "epoch": 0.39308176100628933,
      "grad_norm": 0.736110508441925,
      "learning_rate": 0.00019627882599580713,
      "loss": 0.4779,
      "num_input_tokens_seen": 481248,
      "step": 750
    },
    {
      "epoch": 0.39570230607966456,
      "grad_norm": 0.2421576827764511,
      "learning_rate": 0.00019758909853249477,
      "loss": 0.5261,
      "num_input_tokens_seen": 484576,
      "step": 755
    },
    {
      "epoch": 0.39832285115303984,
      "grad_norm": 0.293622761964798,
      "learning_rate": 0.0001988993710691824,
      "loss": 0.4491,
      "num_input_tokens_seen": 488288,
      "step": 760
    },
    {
      "epoch": 0.4009433962264151,
      "grad_norm": 0.38651540875434875,
      "learning_rate": 0.00020020964360587,
      "loss": 0.5117,
      "num_input_tokens_seen": 490688,
      "step": 765
    },
    {
      "epoch": 0.40356394129979034,
      "grad_norm": 0.19928225874900818,
      "learning_rate": 0.00020151991614255767,
      "loss": 0.4081,
      "num_input_tokens_seen": 493728,
      "step": 770
    },
    {
      "epoch": 0.4061844863731656,
      "grad_norm": 0.6080329418182373,
      "learning_rate": 0.0002028301886792453,
      "loss": 0.5085,
      "num_input_tokens_seen": 496512,
      "step": 775
    },
    {
      "epoch": 0.4088050314465409,
      "grad_norm": 0.27593928575515747,
      "learning_rate": 0.0002041404612159329,
      "loss": 0.5704,
      "num_input_tokens_seen": 499616,
      "step": 780
    },
    {
      "epoch": 0.4114255765199161,
      "grad_norm": 0.3525664210319519,
      "learning_rate": 0.00020545073375262055,
      "loss": 0.4546,
      "num_input_tokens_seen": 502080,
      "step": 785
    },
    {
      "epoch": 0.4140461215932914,
      "grad_norm": 0.17294271290302277,
      "learning_rate": 0.00020676100628930818,
      "loss": 0.5693,
      "num_input_tokens_seen": 505248,
      "step": 790
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.2689627408981323,
      "learning_rate": 0.00020807127882599581,
      "loss": 0.6454,
      "num_input_tokens_seen": 508128,
      "step": 795
    },
    {
      "epoch": 0.4192872117400419,
      "grad_norm": 0.3072209060192108,
      "learning_rate": 0.00020938155136268345,
      "loss": 0.4951,
      "num_input_tokens_seen": 511392,
      "step": 800
    },
    {
      "epoch": 0.4219077568134172,
      "grad_norm": 0.13742530345916748,
      "learning_rate": 0.00021069182389937108,
      "loss": 0.5554,
      "num_input_tokens_seen": 516288,
      "step": 805
    },
    {
      "epoch": 0.42452830188679247,
      "grad_norm": 0.32698220014572144,
      "learning_rate": 0.0002120020964360587,
      "loss": 0.5665,
      "num_input_tokens_seen": 519360,
      "step": 810
    },
    {
      "epoch": 0.4271488469601677,
      "grad_norm": 0.25676819682121277,
      "learning_rate": 0.00021331236897274632,
      "loss": 0.5155,
      "num_input_tokens_seen": 522368,
      "step": 815
    },
    {
      "epoch": 0.429769392033543,
      "grad_norm": 0.3690739572048187,
      "learning_rate": 0.00021462264150943399,
      "loss": 0.5453,
      "num_input_tokens_seen": 526336,
      "step": 820
    },
    {
      "epoch": 0.43238993710691825,
      "grad_norm": 0.35533440113067627,
      "learning_rate": 0.0002159329140461216,
      "loss": 0.4613,
      "num_input_tokens_seen": 529920,
      "step": 825
    },
    {
      "epoch": 0.4350104821802935,
      "grad_norm": 0.3926922380924225,
      "learning_rate": 0.00021724318658280923,
      "loss": 0.5785,
      "num_input_tokens_seen": 536256,
      "step": 830
    },
    {
      "epoch": 0.43763102725366876,
      "grad_norm": 0.34123459458351135,
      "learning_rate": 0.00021855345911949686,
      "loss": 0.5201,
      "num_input_tokens_seen": 539616,
      "step": 835
    },
    {
      "epoch": 0.44025157232704404,
      "grad_norm": 0.30857792496681213,
      "learning_rate": 0.00021986373165618447,
      "loss": 0.4274,
      "num_input_tokens_seen": 543168,
      "step": 840
    },
    {
      "epoch": 0.44287211740041926,
      "grad_norm": 0.30946189165115356,
      "learning_rate": 0.00022117400419287213,
      "loss": 0.5033,
      "num_input_tokens_seen": 546528,
      "step": 845
    },
    {
      "epoch": 0.44549266247379454,
      "grad_norm": 0.3103770911693573,
      "learning_rate": 0.00022248427672955977,
      "loss": 0.3967,
      "num_input_tokens_seen": 549216,
      "step": 850
    },
    {
      "epoch": 0.4481132075471698,
      "grad_norm": 0.3350469470024109,
      "learning_rate": 0.00022379454926624737,
      "loss": 0.5031,
      "num_input_tokens_seen": 552224,
      "step": 855
    },
    {
      "epoch": 0.45073375262054505,
      "grad_norm": 0.38782957196235657,
      "learning_rate": 0.000225104821802935,
      "loss": 0.4395,
      "num_input_tokens_seen": 555424,
      "step": 860
    },
    {
      "epoch": 0.4533542976939203,
      "grad_norm": 0.481056809425354,
      "learning_rate": 0.00022641509433962264,
      "loss": 0.5244,
      "num_input_tokens_seen": 557696,
      "step": 865
    },
    {
      "epoch": 0.4559748427672956,
      "grad_norm": 0.30641549825668335,
      "learning_rate": 0.00022772536687631028,
      "loss": 0.399,
      "num_input_tokens_seen": 560768,
      "step": 870
    },
    {
      "epoch": 0.4585953878406709,
      "grad_norm": 0.28984421491622925,
      "learning_rate": 0.0002290356394129979,
      "loss": 0.5774,
      "num_input_tokens_seen": 563616,
      "step": 875
    },
    {
      "epoch": 0.4612159329140461,
      "grad_norm": 0.18806475400924683,
      "learning_rate": 0.00023034591194968554,
      "loss": 0.5159,
      "num_input_tokens_seen": 567072,
      "step": 880
    },
    {
      "epoch": 0.4638364779874214,
      "grad_norm": 0.25262758135795593,
      "learning_rate": 0.00023165618448637318,
      "loss": 0.4253,
      "num_input_tokens_seen": 571232,
      "step": 885
    },
    {
      "epoch": 0.46645702306079667,
      "grad_norm": 0.32881754636764526,
      "learning_rate": 0.00023296645702306079,
      "loss": 0.4678,
      "num_input_tokens_seen": 575232,
      "step": 890
    },
    {
      "epoch": 0.4690775681341719,
      "grad_norm": 0.2759040296077728,
      "learning_rate": 0.00023427672955974845,
      "loss": 0.4616,
      "num_input_tokens_seen": 578784,
      "step": 895
    },
    {
      "epoch": 0.4716981132075472,
      "grad_norm": 0.43396326899528503,
      "learning_rate": 0.00023558700209643608,
      "loss": 0.4798,
      "num_input_tokens_seen": 582176,
      "step": 900
    },
    {
      "epoch": 0.47431865828092246,
      "grad_norm": 0.4820476472377777,
      "learning_rate": 0.0002368972746331237,
      "loss": 0.6254,
      "num_input_tokens_seen": 584512,
      "step": 905
    },
    {
      "epoch": 0.4769392033542977,
      "grad_norm": 0.24551132321357727,
      "learning_rate": 0.00023820754716981132,
      "loss": 0.4101,
      "num_input_tokens_seen": 587104,
      "step": 910
    },
    {
      "epoch": 0.47955974842767296,
      "grad_norm": 0.20838043093681335,
      "learning_rate": 0.00023951781970649896,
      "loss": 0.6966,
      "num_input_tokens_seen": 590848,
      "step": 915
    },
    {
      "epoch": 0.48218029350104824,
      "grad_norm": 0.29501405358314514,
      "learning_rate": 0.0002408280922431866,
      "loss": 0.6001,
      "num_input_tokens_seen": 593536,
      "step": 920
    },
    {
      "epoch": 0.48480083857442346,
      "grad_norm": 0.17546483874320984,
      "learning_rate": 0.00024213836477987423,
      "loss": 0.5113,
      "num_input_tokens_seen": 600256,
      "step": 925
    },
    {
      "epoch": 0.48742138364779874,
      "grad_norm": 0.3925832509994507,
      "learning_rate": 0.00024344863731656186,
      "loss": 0.4799,
      "num_input_tokens_seen": 604960,
      "step": 930
    },
    {
      "epoch": 0.490041928721174,
      "grad_norm": 0.1890038549900055,
      "learning_rate": 0.00024475890985324947,
      "loss": 0.5285,
      "num_input_tokens_seen": 607520,
      "step": 935
    },
    {
      "epoch": 0.49266247379454925,
      "grad_norm": 0.3018116354942322,
      "learning_rate": 0.0002460691823899371,
      "loss": 0.4235,
      "num_input_tokens_seen": 610368,
      "step": 940
    },
    {
      "epoch": 0.49528301886792453,
      "grad_norm": 0.22907356917858124,
      "learning_rate": 0.00024737945492662474,
      "loss": 0.4237,
      "num_input_tokens_seen": 614080,
      "step": 945
    },
    {
      "epoch": 0.4979035639412998,
      "grad_norm": 0.2951638102531433,
      "learning_rate": 0.00024868972746331237,
      "loss": 0.5323,
      "num_input_tokens_seen": 617056,
      "step": 950
    },
    {
      "epoch": 0.500524109014675,
      "grad_norm": 0.6312294006347656,
      "learning_rate": 0.00025,
      "loss": 0.6718,
      "num_input_tokens_seen": 620800,
      "step": 955
    },
    {
      "epoch": 0.5031446540880503,
      "grad_norm": 0.2965015470981598,
      "learning_rate": 0.00025131027253668764,
      "loss": 0.4947,
      "num_input_tokens_seen": 623872,
      "step": 960
    },
    {
      "epoch": 0.5057651991614256,
      "grad_norm": 2.9141125679016113,
      "learning_rate": 0.0002526205450733753,
      "loss": 0.5159,
      "num_input_tokens_seen": 626752,
      "step": 965
    },
    {
      "epoch": 0.5083857442348009,
      "grad_norm": 1.0222615003585815,
      "learning_rate": 0.0002539308176100629,
      "loss": 0.5225,
      "num_input_tokens_seen": 630304,
      "step": 970
    },
    {
      "epoch": 0.5110062893081762,
      "grad_norm": 0.9526856541633606,
      "learning_rate": 0.0002552410901467505,
      "loss": 0.5324,
      "num_input_tokens_seen": 634048,
      "step": 975
    },
    {
      "epoch": 0.5136268343815513,
      "grad_norm": 0.4708639085292816,
      "learning_rate": 0.0002565513626834381,
      "loss": 0.4594,
      "num_input_tokens_seen": 637728,
      "step": 980
    },
    {
      "epoch": 0.5162473794549266,
      "grad_norm": 0.254626601934433,
      "learning_rate": 0.0002578616352201258,
      "loss": 0.5598,
      "num_input_tokens_seen": 641024,
      "step": 985
    },
    {
      "epoch": 0.5188679245283019,
      "grad_norm": 0.14396820962429047,
      "learning_rate": 0.00025917190775681345,
      "loss": 0.5721,
      "num_input_tokens_seen": 643936,
      "step": 990
    },
    {
      "epoch": 0.5214884696016772,
      "grad_norm": 1.0792274475097656,
      "learning_rate": 0.0002604821802935011,
      "loss": 0.5992,
      "num_input_tokens_seen": 647744,
      "step": 995
    },
    {
      "epoch": 0.5241090146750524,
      "grad_norm": 0.7622068524360657,
      "learning_rate": 0.0002617924528301887,
      "loss": 0.5417,
      "num_input_tokens_seen": 650560,
      "step": 1000
    },
    {
      "epoch": 0.5267295597484277,
      "grad_norm": 0.36047035455703735,
      "learning_rate": 0.0002631027253668763,
      "loss": 0.4913,
      "num_input_tokens_seen": 652896,
      "step": 1005
    },
    {
      "epoch": 0.5293501048218029,
      "grad_norm": 0.35013872385025024,
      "learning_rate": 0.00026441299790356393,
      "loss": 0.485,
      "num_input_tokens_seen": 655456,
      "step": 1010
    },
    {
      "epoch": 0.5319706498951782,
      "grad_norm": 0.3738858699798584,
      "learning_rate": 0.00026572327044025156,
      "loss": 0.6168,
      "num_input_tokens_seen": 658912,
      "step": 1015
    },
    {
      "epoch": 0.5345911949685535,
      "grad_norm": 0.365668922662735,
      "learning_rate": 0.0002670335429769392,
      "loss": 0.5269,
      "num_input_tokens_seen": 661728,
      "step": 1020
    },
    {
      "epoch": 0.5372117400419287,
      "grad_norm": 0.37686678767204285,
      "learning_rate": 0.00026834381551362683,
      "loss": 0.5937,
      "num_input_tokens_seen": 665280,
      "step": 1025
    },
    {
      "epoch": 0.539832285115304,
      "grad_norm": 0.2670174241065979,
      "learning_rate": 0.0002696540880503145,
      "loss": 0.4813,
      "num_input_tokens_seen": 668512,
      "step": 1030
    },
    {
      "epoch": 0.5424528301886793,
      "grad_norm": 0.47992071509361267,
      "learning_rate": 0.0002709643605870021,
      "loss": 0.5371,
      "num_input_tokens_seen": 670400,
      "step": 1035
    },
    {
      "epoch": 0.5450733752620545,
      "grad_norm": 0.287168949842453,
      "learning_rate": 0.00027227463312368973,
      "loss": 0.5773,
      "num_input_tokens_seen": 672864,
      "step": 1040
    },
    {
      "epoch": 0.5476939203354297,
      "grad_norm": 0.19817134737968445,
      "learning_rate": 0.00027358490566037737,
      "loss": 0.5403,
      "num_input_tokens_seen": 676256,
      "step": 1045
    },
    {
      "epoch": 0.550314465408805,
      "grad_norm": 0.4051949977874756,
      "learning_rate": 0.000274895178197065,
      "loss": 0.6033,
      "num_input_tokens_seen": 678816,
      "step": 1050
    },
    {
      "epoch": 0.5529350104821803,
      "grad_norm": 0.19512571394443512,
      "learning_rate": 0.00027620545073375264,
      "loss": 0.653,
      "num_input_tokens_seen": 682560,
      "step": 1055
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.2038433849811554,
      "learning_rate": 0.00027751572327044027,
      "loss": 0.4803,
      "num_input_tokens_seen": 686592,
      "step": 1060
    },
    {
      "epoch": 0.5581761006289309,
      "grad_norm": 0.3568313717842102,
      "learning_rate": 0.00027882599580712785,
      "loss": 0.5118,
      "num_input_tokens_seen": 689248,
      "step": 1065
    },
    {
      "epoch": 0.560796645702306,
      "grad_norm": 0.25810250639915466,
      "learning_rate": 0.0002801362683438155,
      "loss": 0.4341,
      "num_input_tokens_seen": 692576,
      "step": 1070
    },
    {
      "epoch": 0.5634171907756813,
      "grad_norm": 0.5876114368438721,
      "learning_rate": 0.0002814465408805031,
      "loss": 0.4943,
      "num_input_tokens_seen": 695872,
      "step": 1075
    },
    {
      "epoch": 0.5660377358490566,
      "grad_norm": 0.4061664938926697,
      "learning_rate": 0.0002827568134171908,
      "loss": 0.6614,
      "num_input_tokens_seen": 699264,
      "step": 1080
    },
    {
      "epoch": 0.5686582809224319,
      "grad_norm": 0.2297416478395462,
      "learning_rate": 0.00028406708595387844,
      "loss": 0.5335,
      "num_input_tokens_seen": 702016,
      "step": 1085
    },
    {
      "epoch": 0.5712788259958071,
      "grad_norm": 0.1376192569732666,
      "learning_rate": 0.0002853773584905661,
      "loss": 0.4978,
      "num_input_tokens_seen": 706688,
      "step": 1090
    },
    {
      "epoch": 0.5738993710691824,
      "grad_norm": 0.21142646670341492,
      "learning_rate": 0.00028668763102725366,
      "loss": 0.5123,
      "num_input_tokens_seen": 709312,
      "step": 1095
    },
    {
      "epoch": 0.5765199161425576,
      "grad_norm": 0.43305009603500366,
      "learning_rate": 0.0002879979035639413,
      "loss": 0.357,
      "num_input_tokens_seen": 712032,
      "step": 1100
    },
    {
      "epoch": 0.5791404612159329,
      "grad_norm": 0.34681421518325806,
      "learning_rate": 0.00028930817610062893,
      "loss": 0.4274,
      "num_input_tokens_seen": 715040,
      "step": 1105
    },
    {
      "epoch": 0.5817610062893082,
      "grad_norm": 0.2118159979581833,
      "learning_rate": 0.00029061844863731656,
      "loss": 0.4685,
      "num_input_tokens_seen": 718752,
      "step": 1110
    },
    {
      "epoch": 0.5843815513626834,
      "grad_norm": 0.24880146980285645,
      "learning_rate": 0.0002919287211740042,
      "loss": 0.5162,
      "num_input_tokens_seen": 721984,
      "step": 1115
    },
    {
      "epoch": 0.5870020964360587,
      "grad_norm": 0.7877010107040405,
      "learning_rate": 0.00029323899371069183,
      "loss": 0.3947,
      "num_input_tokens_seen": 724128,
      "step": 1120
    },
    {
      "epoch": 0.589622641509434,
      "grad_norm": 0.4388100206851959,
      "learning_rate": 0.00029454926624737946,
      "loss": 0.6216,
      "num_input_tokens_seen": 726944,
      "step": 1125
    },
    {
      "epoch": 0.5922431865828093,
      "grad_norm": 0.13424058258533478,
      "learning_rate": 0.0002958595387840671,
      "loss": 0.4433,
      "num_input_tokens_seen": 730688,
      "step": 1130
    },
    {
      "epoch": 0.5948637316561844,
      "grad_norm": 0.20480212569236755,
      "learning_rate": 0.00029716981132075473,
      "loss": 0.56,
      "num_input_tokens_seen": 734464,
      "step": 1135
    },
    {
      "epoch": 0.5974842767295597,
      "grad_norm": 0.18517062067985535,
      "learning_rate": 0.00029848008385744237,
      "loss": 0.5668,
      "num_input_tokens_seen": 737856,
      "step": 1140
    },
    {
      "epoch": 0.600104821802935,
      "grad_norm": 0.1804182529449463,
      "learning_rate": 0.00029979035639413,
      "loss": 0.5991,
      "num_input_tokens_seen": 740832,
      "step": 1145
    },
    {
      "epoch": 0.6027253668763103,
      "grad_norm": 0.3874790668487549,
      "learning_rate": 0.00030110062893081764,
      "loss": 0.5841,
      "num_input_tokens_seen": 743712,
      "step": 1150
    },
    {
      "epoch": 0.6053459119496856,
      "grad_norm": 0.27030128240585327,
      "learning_rate": 0.00030241090146750527,
      "loss": 0.6239,
      "num_input_tokens_seen": 746144,
      "step": 1155
    },
    {
      "epoch": 0.6079664570230608,
      "grad_norm": 0.2920432388782501,
      "learning_rate": 0.00030372117400419285,
      "loss": 0.4724,
      "num_input_tokens_seen": 749312,
      "step": 1160
    },
    {
      "epoch": 0.610587002096436,
      "grad_norm": 0.1752508580684662,
      "learning_rate": 0.0003050314465408805,
      "loss": 0.5462,
      "num_input_tokens_seen": 752928,
      "step": 1165
    },
    {
      "epoch": 0.6132075471698113,
      "grad_norm": 0.25998392701148987,
      "learning_rate": 0.0003063417190775681,
      "loss": 0.4365,
      "num_input_tokens_seen": 755520,
      "step": 1170
    },
    {
      "epoch": 0.6158280922431866,
      "grad_norm": 0.3411930203437805,
      "learning_rate": 0.00030765199161425575,
      "loss": 0.4327,
      "num_input_tokens_seen": 758272,
      "step": 1175
    },
    {
      "epoch": 0.6184486373165619,
      "grad_norm": 0.18045300245285034,
      "learning_rate": 0.00030896226415094344,
      "loss": 0.4933,
      "num_input_tokens_seen": 761728,
      "step": 1180
    },
    {
      "epoch": 0.6210691823899371,
      "grad_norm": 0.20912091434001923,
      "learning_rate": 0.0003102725366876311,
      "loss": 0.52,
      "num_input_tokens_seen": 765344,
      "step": 1185
    },
    {
      "epoch": 0.6236897274633124,
      "grad_norm": 0.24104836583137512,
      "learning_rate": 0.00031158280922431866,
      "loss": 0.5459,
      "num_input_tokens_seen": 768352,
      "step": 1190
    },
    {
      "epoch": 0.6263102725366876,
      "grad_norm": 0.20664077997207642,
      "learning_rate": 0.0003128930817610063,
      "loss": 0.5663,
      "num_input_tokens_seen": 771424,
      "step": 1195
    },
    {
      "epoch": 0.6289308176100629,
      "grad_norm": 0.3528596758842468,
      "learning_rate": 0.0003142033542976939,
      "loss": 0.4583,
      "num_input_tokens_seen": 776000,
      "step": 1200
    },
    {
      "epoch": 0.6315513626834381,
      "grad_norm": 0.22892266511917114,
      "learning_rate": 0.00031551362683438156,
      "loss": 0.5609,
      "num_input_tokens_seen": 779264,
      "step": 1205
    },
    {
      "epoch": 0.6341719077568134,
      "grad_norm": 0.18198148906230927,
      "learning_rate": 0.0003168238993710692,
      "loss": 0.4032,
      "num_input_tokens_seen": 782656,
      "step": 1210
    },
    {
      "epoch": 0.6367924528301887,
      "grad_norm": 0.25832828879356384,
      "learning_rate": 0.00031813417190775683,
      "loss": 0.568,
      "num_input_tokens_seen": 786144,
      "step": 1215
    },
    {
      "epoch": 0.639412997903564,
      "grad_norm": 0.4418124854564667,
      "learning_rate": 0.0003194444444444444,
      "loss": 0.5208,
      "num_input_tokens_seen": 789856,
      "step": 1220
    },
    {
      "epoch": 0.6420335429769392,
      "grad_norm": 0.2482600212097168,
      "learning_rate": 0.00032075471698113204,
      "loss": 0.5359,
      "num_input_tokens_seen": 792768,
      "step": 1225
    },
    {
      "epoch": 0.6446540880503144,
      "grad_norm": 0.34687596559524536,
      "learning_rate": 0.00032206498951781973,
      "loss": 0.4708,
      "num_input_tokens_seen": 795456,
      "step": 1230
    },
    {
      "epoch": 0.6472746331236897,
      "grad_norm": 0.5014142990112305,
      "learning_rate": 0.00032337526205450737,
      "loss": 0.497,
      "num_input_tokens_seen": 799648,
      "step": 1235
    },
    {
      "epoch": 0.649895178197065,
      "grad_norm": 1.236668348312378,
      "learning_rate": 0.000324685534591195,
      "loss": 0.6042,
      "num_input_tokens_seen": 803776,
      "step": 1240
    },
    {
      "epoch": 0.6525157232704403,
      "grad_norm": 0.12318548560142517,
      "learning_rate": 0.00032599580712788263,
      "loss": 0.4342,
      "num_input_tokens_seen": 807296,
      "step": 1245
    },
    {
      "epoch": 0.6551362683438156,
      "grad_norm": 0.2008190155029297,
      "learning_rate": 0.0003273060796645702,
      "loss": 0.4669,
      "num_input_tokens_seen": 810176,
      "step": 1250
    },
    {
      "epoch": 0.6577568134171907,
      "grad_norm": 0.4234289526939392,
      "learning_rate": 0.00032861635220125785,
      "loss": 0.3828,
      "num_input_tokens_seen": 815680,
      "step": 1255
    },
    {
      "epoch": 0.660377358490566,
      "grad_norm": 0.18716788291931152,
      "learning_rate": 0.0003299266247379455,
      "loss": 0.4758,
      "num_input_tokens_seen": 818688,
      "step": 1260
    },
    {
      "epoch": 0.6629979035639413,
      "grad_norm": 0.1004939079284668,
      "learning_rate": 0.0003312368972746331,
      "loss": 0.5524,
      "num_input_tokens_seen": 823744,
      "step": 1265
    },
    {
      "epoch": 0.6656184486373166,
      "grad_norm": 0.2351849377155304,
      "learning_rate": 0.00033254716981132075,
      "loss": 0.3821,
      "num_input_tokens_seen": 826944,
      "step": 1270
    },
    {
      "epoch": 0.6682389937106918,
      "grad_norm": 0.18746492266654968,
      "learning_rate": 0.0003338574423480084,
      "loss": 0.4503,
      "num_input_tokens_seen": 830304,
      "step": 1275
    },
    {
      "epoch": 0.6708595387840671,
      "grad_norm": 0.17205092310905457,
      "learning_rate": 0.0003351677148846961,
      "loss": 0.5464,
      "num_input_tokens_seen": 833440,
      "step": 1280
    },
    {
      "epoch": 0.6734800838574424,
      "grad_norm": 0.45192697644233704,
      "learning_rate": 0.00033647798742138366,
      "loss": 0.5789,
      "num_input_tokens_seen": 835968,
      "step": 1285
    },
    {
      "epoch": 0.6761006289308176,
      "grad_norm": 0.2950741946697235,
      "learning_rate": 0.0003377882599580713,
      "loss": 0.5795,
      "num_input_tokens_seen": 838656,
      "step": 1290
    },
    {
      "epoch": 0.6787211740041929,
      "grad_norm": 0.17856323719024658,
      "learning_rate": 0.0003390985324947589,
      "loss": 0.4529,
      "num_input_tokens_seen": 841888,
      "step": 1295
    },
    {
      "epoch": 0.6813417190775681,
      "grad_norm": 0.11864610761404037,
      "learning_rate": 0.00034040880503144656,
      "loss": 0.4815,
      "num_input_tokens_seen": 847232,
      "step": 1300
    },
    {
      "epoch": 0.6839622641509434,
      "grad_norm": 0.2018032670021057,
      "learning_rate": 0.0003417190775681342,
      "loss": 0.5595,
      "num_input_tokens_seen": 850688,
      "step": 1305
    },
    {
      "epoch": 0.6865828092243187,
      "grad_norm": 0.25479766726493835,
      "learning_rate": 0.00034302935010482183,
      "loss": 0.5981,
      "num_input_tokens_seen": 853568,
      "step": 1310
    },
    {
      "epoch": 0.689203354297694,
      "grad_norm": 0.20833690464496613,
      "learning_rate": 0.0003443396226415094,
      "loss": 0.6001,
      "num_input_tokens_seen": 856832,
      "step": 1315
    },
    {
      "epoch": 0.6918238993710691,
      "grad_norm": 0.17737595736980438,
      "learning_rate": 0.00034564989517819704,
      "loss": 0.5306,
      "num_input_tokens_seen": 859744,
      "step": 1320
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 0.14864133298397064,
      "learning_rate": 0.0003469601677148847,
      "loss": 0.5355,
      "num_input_tokens_seen": 862432,
      "step": 1325
    },
    {
      "epoch": 0.6970649895178197,
      "grad_norm": 0.2773697078227997,
      "learning_rate": 0.00034827044025157236,
      "loss": 0.4299,
      "num_input_tokens_seen": 865632,
      "step": 1330
    },
    {
      "epoch": 0.699685534591195,
      "grad_norm": 0.49289050698280334,
      "learning_rate": 0.00034958071278826,
      "loss": 0.4734,
      "num_input_tokens_seen": 869248,
      "step": 1335
    },
    {
      "epoch": 0.7023060796645703,
      "grad_norm": 0.2744668126106262,
      "learning_rate": 0.00035089098532494763,
      "loss": 0.4913,
      "num_input_tokens_seen": 873504,
      "step": 1340
    },
    {
      "epoch": 0.7049266247379455,
      "grad_norm": 0.22680924832820892,
      "learning_rate": 0.0003522012578616352,
      "loss": 0.5471,
      "num_input_tokens_seen": 876032,
      "step": 1345
    },
    {
      "epoch": 0.7075471698113207,
      "grad_norm": 0.19807125627994537,
      "learning_rate": 0.00035351153039832285,
      "loss": 0.5688,
      "num_input_tokens_seen": 879616,
      "step": 1350
    },
    {
      "epoch": 0.710167714884696,
      "grad_norm": 0.25153541564941406,
      "learning_rate": 0.0003548218029350105,
      "loss": 0.5645,
      "num_input_tokens_seen": 881984,
      "step": 1355
    },
    {
      "epoch": 0.7127882599580713,
      "grad_norm": 0.23846761882305145,
      "learning_rate": 0.0003561320754716981,
      "loss": 0.555,
      "num_input_tokens_seen": 886016,
      "step": 1360
    },
    {
      "epoch": 0.7154088050314465,
      "grad_norm": 0.3043694794178009,
      "learning_rate": 0.00035744234800838575,
      "loss": 0.5405,
      "num_input_tokens_seen": 889024,
      "step": 1365
    },
    {
      "epoch": 0.7180293501048218,
      "grad_norm": 0.2008228451013565,
      "learning_rate": 0.0003587526205450734,
      "loss": 0.4757,
      "num_input_tokens_seen": 891776,
      "step": 1370
    },
    {
      "epoch": 0.7206498951781971,
      "grad_norm": 0.20510727167129517,
      "learning_rate": 0.00036006289308176097,
      "loss": 0.5279,
      "num_input_tokens_seen": 894624,
      "step": 1375
    },
    {
      "epoch": 0.7232704402515723,
      "grad_norm": 0.26939818263053894,
      "learning_rate": 0.00036137316561844865,
      "loss": 0.484,
      "num_input_tokens_seen": 897888,
      "step": 1380
    },
    {
      "epoch": 0.7258909853249476,
      "grad_norm": 0.15584389865398407,
      "learning_rate": 0.0003626834381551363,
      "loss": 0.5612,
      "num_input_tokens_seen": 903296,
      "step": 1385
    },
    {
      "epoch": 0.7285115303983228,
      "grad_norm": 0.379115492105484,
      "learning_rate": 0.0003639937106918239,
      "loss": 0.7126,
      "num_input_tokens_seen": 905696,
      "step": 1390
    },
    {
      "epoch": 0.7311320754716981,
      "grad_norm": 0.20865686237812042,
      "learning_rate": 0.00036530398322851156,
      "loss": 0.7649,
      "num_input_tokens_seen": 909088,
      "step": 1395
    },
    {
      "epoch": 0.7337526205450734,
      "grad_norm": 0.3466084897518158,
      "learning_rate": 0.0003666142557651992,
      "loss": 0.5325,
      "num_input_tokens_seen": 912096,
      "step": 1400
    },
    {
      "epoch": 0.7363731656184487,
      "grad_norm": 0.17232683300971985,
      "learning_rate": 0.00036792452830188677,
      "loss": 0.5138,
      "num_input_tokens_seen": 915328,
      "step": 1405
    },
    {
      "epoch": 0.7389937106918238,
      "grad_norm": 0.09651845693588257,
      "learning_rate": 0.0003692348008385744,
      "loss": 0.5106,
      "num_input_tokens_seen": 918080,
      "step": 1410
    },
    {
      "epoch": 0.7416142557651991,
      "grad_norm": 0.2237730771303177,
      "learning_rate": 0.00037054507337526204,
      "loss": 0.5619,
      "num_input_tokens_seen": 920928,
      "step": 1415
    },
    {
      "epoch": 0.7442348008385744,
      "grad_norm": 0.1245628222823143,
      "learning_rate": 0.0003718553459119497,
      "loss": 0.5037,
      "num_input_tokens_seen": 923808,
      "step": 1420
    },
    {
      "epoch": 0.7468553459119497,
      "grad_norm": 0.18393991887569427,
      "learning_rate": 0.0003731656184486373,
      "loss": 0.4992,
      "num_input_tokens_seen": 926720,
      "step": 1425
    },
    {
      "epoch": 0.749475890985325,
      "grad_norm": 0.40485429763793945,
      "learning_rate": 0.000374475890985325,
      "loss": 0.4869,
      "num_input_tokens_seen": 930432,
      "step": 1430
    },
    {
      "epoch": 0.7520964360587002,
      "grad_norm": 0.2490604668855667,
      "learning_rate": 0.00037578616352201263,
      "loss": 0.5017,
      "num_input_tokens_seen": 933504,
      "step": 1435
    },
    {
      "epoch": 0.7547169811320755,
      "grad_norm": 0.20183847844600677,
      "learning_rate": 0.0003770964360587002,
      "loss": 0.5279,
      "num_input_tokens_seen": 937120,
      "step": 1440
    },
    {
      "epoch": 0.7573375262054507,
      "grad_norm": 0.13784286379814148,
      "learning_rate": 0.00037840670859538785,
      "loss": 0.4682,
      "num_input_tokens_seen": 939776,
      "step": 1445
    },
    {
      "epoch": 0.759958071278826,
      "grad_norm": 0.1969575434923172,
      "learning_rate": 0.0003797169811320755,
      "loss": 0.5175,
      "num_input_tokens_seen": 945120,
      "step": 1450
    },
    {
      "epoch": 0.7625786163522013,
      "grad_norm": 0.11512542515993118,
      "learning_rate": 0.0003810272536687631,
      "loss": 0.4664,
      "num_input_tokens_seen": 948064,
      "step": 1455
    },
    {
      "epoch": 0.7651991614255765,
      "grad_norm": 0.1783124953508377,
      "learning_rate": 0.00038233752620545075,
      "loss": 0.4555,
      "num_input_tokens_seen": 951968,
      "step": 1460
    },
    {
      "epoch": 0.7678197064989518,
      "grad_norm": 0.1252572238445282,
      "learning_rate": 0.0003836477987421384,
      "loss": 0.4931,
      "num_input_tokens_seen": 955200,
      "step": 1465
    },
    {
      "epoch": 0.7704402515723271,
      "grad_norm": 0.22617574036121368,
      "learning_rate": 0.00038495807127882596,
      "loss": 0.4752,
      "num_input_tokens_seen": 958112,
      "step": 1470
    },
    {
      "epoch": 0.7730607966457023,
      "grad_norm": 0.2841304838657379,
      "learning_rate": 0.0003862683438155136,
      "loss": 0.6088,
      "num_input_tokens_seen": 960832,
      "step": 1475
    },
    {
      "epoch": 0.7756813417190775,
      "grad_norm": 0.20300409197807312,
      "learning_rate": 0.0003875786163522013,
      "loss": 0.4098,
      "num_input_tokens_seen": 964704,
      "step": 1480
    },
    {
      "epoch": 0.7783018867924528,
      "grad_norm": 0.19934283196926117,
      "learning_rate": 0.0003888888888888889,
      "loss": 0.5335,
      "num_input_tokens_seen": 967552,
      "step": 1485
    },
    {
      "epoch": 0.7809224318658281,
      "grad_norm": 0.2116823047399521,
      "learning_rate": 0.00039019916142557656,
      "loss": 0.5482,
      "num_input_tokens_seen": 970496,
      "step": 1490
    },
    {
      "epoch": 0.7835429769392034,
      "grad_norm": 0.22914054989814758,
      "learning_rate": 0.0003915094339622642,
      "loss": 0.4765,
      "num_input_tokens_seen": 973952,
      "step": 1495
    },
    {
      "epoch": 0.7861635220125787,
      "grad_norm": 0.17311415076255798,
      "learning_rate": 0.00039281970649895177,
      "loss": 0.4155,
      "num_input_tokens_seen": 981536,
      "step": 1500
    },
    {
      "epoch": 0.7887840670859538,
      "grad_norm": 0.2487545907497406,
      "learning_rate": 0.0003941299790356394,
      "loss": 0.4151,
      "num_input_tokens_seen": 985152,
      "step": 1505
    },
    {
      "epoch": 0.7914046121593291,
      "grad_norm": 0.11152375489473343,
      "learning_rate": 0.00039544025157232704,
      "loss": 0.4643,
      "num_input_tokens_seen": 988896,
      "step": 1510
    },
    {
      "epoch": 0.7940251572327044,
      "grad_norm": 0.1884164661169052,
      "learning_rate": 0.0003967505241090147,
      "loss": 0.4093,
      "num_input_tokens_seen": 991936,
      "step": 1515
    },
    {
      "epoch": 0.7966457023060797,
      "grad_norm": 0.1662874072790146,
      "learning_rate": 0.0003980607966457023,
      "loss": 0.5594,
      "num_input_tokens_seen": 995776,
      "step": 1520
    },
    {
      "epoch": 0.799266247379455,
      "grad_norm": 0.18109431862831116,
      "learning_rate": 0.00039937106918238994,
      "loss": 0.4639,
      "num_input_tokens_seen": 998336,
      "step": 1525
    },
    {
      "epoch": 0.8018867924528302,
      "grad_norm": 0.17125552892684937,
      "learning_rate": 0.0004006813417190776,
      "loss": 0.517,
      "num_input_tokens_seen": 1001248,
      "step": 1530
    },
    {
      "epoch": 0.8045073375262054,
      "grad_norm": 0.114505335688591,
      "learning_rate": 0.0004019916142557652,
      "loss": 0.456,
      "num_input_tokens_seen": 1005152,
      "step": 1535
    },
    {
      "epoch": 0.8071278825995807,
      "grad_norm": 0.1548919379711151,
      "learning_rate": 0.00040330188679245284,
      "loss": 0.4798,
      "num_input_tokens_seen": 1008736,
      "step": 1540
    },
    {
      "epoch": 0.809748427672956,
      "grad_norm": 0.1503567397594452,
      "learning_rate": 0.0004046121593291405,
      "loss": 0.4314,
      "num_input_tokens_seen": 1011520,
      "step": 1545
    },
    {
      "epoch": 0.8123689727463312,
      "grad_norm": 0.12204394489526749,
      "learning_rate": 0.0004059224318658281,
      "loss": 0.4275,
      "num_input_tokens_seen": 1014176,
      "step": 1550
    },
    {
      "epoch": 0.8149895178197065,
      "grad_norm": 0.37893855571746826,
      "learning_rate": 0.00040723270440251575,
      "loss": 0.9074,
      "num_input_tokens_seen": 1017408,
      "step": 1555
    },
    {
      "epoch": 0.8176100628930818,
      "grad_norm": 0.14498458802700043,
      "learning_rate": 0.00040854297693920333,
      "loss": 0.8752,
      "num_input_tokens_seen": 1019808,
      "step": 1560
    },
    {
      "epoch": 0.820230607966457,
      "grad_norm": 0.28425362706184387,
      "learning_rate": 0.00040985324947589096,
      "loss": 0.4806,
      "num_input_tokens_seen": 1022496,
      "step": 1565
    },
    {
      "epoch": 0.8228511530398323,
      "grad_norm": 0.19965124130249023,
      "learning_rate": 0.0004111635220125786,
      "loss": 0.5645,
      "num_input_tokens_seen": 1026272,
      "step": 1570
    },
    {
      "epoch": 0.8254716981132075,
      "grad_norm": 0.23535655438899994,
      "learning_rate": 0.00041247379454926623,
      "loss": 0.4989,
      "num_input_tokens_seen": 1029280,
      "step": 1575
    },
    {
      "epoch": 0.8280922431865828,
      "grad_norm": 0.19449740648269653,
      "learning_rate": 0.0004137840670859539,
      "loss": 0.4544,
      "num_input_tokens_seen": 1031488,
      "step": 1580
    },
    {
      "epoch": 0.8307127882599581,
      "grad_norm": 0.1644545942544937,
      "learning_rate": 0.00041509433962264155,
      "loss": 0.6847,
      "num_input_tokens_seen": 1034144,
      "step": 1585
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.19248482584953308,
      "learning_rate": 0.00041640461215932913,
      "loss": 0.4761,
      "num_input_tokens_seen": 1036960,
      "step": 1590
    },
    {
      "epoch": 0.8359538784067087,
      "grad_norm": 0.0969114750623703,
      "learning_rate": 0.00041771488469601677,
      "loss": 0.5792,
      "num_input_tokens_seen": 1041568,
      "step": 1595
    },
    {
      "epoch": 0.8385744234800838,
      "grad_norm": 0.2133045196533203,
      "learning_rate": 0.0004190251572327044,
      "loss": 0.5901,
      "num_input_tokens_seen": 1044768,
      "step": 1600
    },
    {
      "epoch": 0.8411949685534591,
      "grad_norm": 0.19632107019424438,
      "learning_rate": 0.00042033542976939204,
      "loss": 0.5646,
      "num_input_tokens_seen": 1048704,
      "step": 1605
    },
    {
      "epoch": 0.8438155136268344,
      "grad_norm": 0.10444007813930511,
      "learning_rate": 0.00042164570230607967,
      "loss": 0.2614,
      "num_input_tokens_seen": 1051424,
      "step": 1610
    },
    {
      "epoch": 0.8464360587002097,
      "grad_norm": 0.18710432946681976,
      "learning_rate": 0.0004229559748427673,
      "loss": 0.4949,
      "num_input_tokens_seen": 1054784,
      "step": 1615
    },
    {
      "epoch": 0.8490566037735849,
      "grad_norm": 0.2149704247713089,
      "learning_rate": 0.00042426624737945494,
      "loss": 0.4998,
      "num_input_tokens_seen": 1057568,
      "step": 1620
    },
    {
      "epoch": 0.8516771488469602,
      "grad_norm": 0.269991397857666,
      "learning_rate": 0.0004255765199161425,
      "loss": 0.4367,
      "num_input_tokens_seen": 1059936,
      "step": 1625
    },
    {
      "epoch": 0.8542976939203354,
      "grad_norm": 0.18444541096687317,
      "learning_rate": 0.0004268867924528302,
      "loss": 0.4725,
      "num_input_tokens_seen": 1063168,
      "step": 1630
    },
    {
      "epoch": 0.8569182389937107,
      "grad_norm": 0.7636419534683228,
      "learning_rate": 0.00042819706498951784,
      "loss": 0.4582,
      "num_input_tokens_seen": 1065664,
      "step": 1635
    },
    {
      "epoch": 0.859538784067086,
      "grad_norm": 0.18202021718025208,
      "learning_rate": 0.0004295073375262055,
      "loss": 0.6744,
      "num_input_tokens_seen": 1069376,
      "step": 1640
    },
    {
      "epoch": 0.8621593291404612,
      "grad_norm": 0.13624893128871918,
      "learning_rate": 0.0004308176100628931,
      "loss": 0.5194,
      "num_input_tokens_seen": 1072736,
      "step": 1645
    },
    {
      "epoch": 0.8647798742138365,
      "grad_norm": 0.19000239670276642,
      "learning_rate": 0.00043212788259958075,
      "loss": 0.4484,
      "num_input_tokens_seen": 1076608,
      "step": 1650
    },
    {
      "epoch": 0.8674004192872118,
      "grad_norm": 0.1105269342660904,
      "learning_rate": 0.0004334381551362683,
      "loss": 0.5655,
      "num_input_tokens_seen": 1080640,
      "step": 1655
    },
    {
      "epoch": 0.870020964360587,
      "grad_norm": 0.15851038694381714,
      "learning_rate": 0.00043474842767295596,
      "loss": 0.532,
      "num_input_tokens_seen": 1083808,
      "step": 1660
    },
    {
      "epoch": 0.8726415094339622,
      "grad_norm": 0.23407095670700073,
      "learning_rate": 0.0004360587002096436,
      "loss": 0.5494,
      "num_input_tokens_seen": 1086400,
      "step": 1665
    },
    {
      "epoch": 0.8752620545073375,
      "grad_norm": 0.1436706930398941,
      "learning_rate": 0.00043736897274633123,
      "loss": 0.5563,
      "num_input_tokens_seen": 1089504,
      "step": 1670
    },
    {
      "epoch": 0.8778825995807128,
      "grad_norm": 0.18433481454849243,
      "learning_rate": 0.00043867924528301886,
      "loss": 0.5117,
      "num_input_tokens_seen": 1092160,
      "step": 1675
    },
    {
      "epoch": 0.8805031446540881,
      "grad_norm": 0.13451316952705383,
      "learning_rate": 0.00043998951781970655,
      "loss": 0.371,
      "num_input_tokens_seen": 1095328,
      "step": 1680
    },
    {
      "epoch": 0.8831236897274634,
      "grad_norm": 0.18015797436237335,
      "learning_rate": 0.00044129979035639413,
      "loss": 0.619,
      "num_input_tokens_seen": 1098560,
      "step": 1685
    },
    {
      "epoch": 0.8857442348008385,
      "grad_norm": 0.323916494846344,
      "learning_rate": 0.00044261006289308177,
      "loss": 0.5096,
      "num_input_tokens_seen": 1101056,
      "step": 1690
    },
    {
      "epoch": 0.8883647798742138,
      "grad_norm": 0.1579904407262802,
      "learning_rate": 0.0004439203354297694,
      "loss": 0.5045,
      "num_input_tokens_seen": 1104160,
      "step": 1695
    },
    {
      "epoch": 0.8909853249475891,
      "grad_norm": 0.13304682075977325,
      "learning_rate": 0.00044523060796645704,
      "loss": 0.6557,
      "num_input_tokens_seen": 1107232,
      "step": 1700
    },
    {
      "epoch": 0.8936058700209644,
      "grad_norm": 0.383001446723938,
      "learning_rate": 0.00044654088050314467,
      "loss": 0.3884,
      "num_input_tokens_seen": 1112416,
      "step": 1705
    },
    {
      "epoch": 0.8962264150943396,
      "grad_norm": 0.16480793058872223,
      "learning_rate": 0.0004478511530398323,
      "loss": 0.5423,
      "num_input_tokens_seen": 1115296,
      "step": 1710
    },
    {
      "epoch": 0.8988469601677149,
      "grad_norm": 0.2094862163066864,
      "learning_rate": 0.0004491614255765199,
      "loss": 0.5236,
      "num_input_tokens_seen": 1119008,
      "step": 1715
    },
    {
      "epoch": 0.9014675052410901,
      "grad_norm": 0.4783245921134949,
      "learning_rate": 0.0004504716981132075,
      "loss": 0.5598,
      "num_input_tokens_seen": 1122592,
      "step": 1720
    },
    {
      "epoch": 0.9040880503144654,
      "grad_norm": 0.16067388653755188,
      "learning_rate": 0.00045178197064989515,
      "loss": 0.6169,
      "num_input_tokens_seen": 1127520,
      "step": 1725
    },
    {
      "epoch": 0.9067085953878407,
      "grad_norm": 0.12748870253562927,
      "learning_rate": 0.00045309224318658284,
      "loss": 0.4904,
      "num_input_tokens_seen": 1130592,
      "step": 1730
    },
    {
      "epoch": 0.9093291404612159,
      "grad_norm": 0.23688305914402008,
      "learning_rate": 0.0004544025157232705,
      "loss": 0.5064,
      "num_input_tokens_seen": 1134112,
      "step": 1735
    },
    {
      "epoch": 0.9119496855345912,
      "grad_norm": 0.2487812638282776,
      "learning_rate": 0.0004557127882599581,
      "loss": 0.5272,
      "num_input_tokens_seen": 1137856,
      "step": 1740
    },
    {
      "epoch": 0.9145702306079665,
      "grad_norm": 0.3374217450618744,
      "learning_rate": 0.0004570230607966457,
      "loss": 0.469,
      "num_input_tokens_seen": 1140032,
      "step": 1745
    },
    {
      "epoch": 0.9171907756813418,
      "grad_norm": 0.1276628077030182,
      "learning_rate": 0.0004583333333333333,
      "loss": 0.5526,
      "num_input_tokens_seen": 1143872,
      "step": 1750
    },
    {
      "epoch": 0.9198113207547169,
      "grad_norm": 0.20425939559936523,
      "learning_rate": 0.00045964360587002096,
      "loss": 0.6014,
      "num_input_tokens_seen": 1147232,
      "step": 1755
    },
    {
      "epoch": 0.9224318658280922,
      "grad_norm": 0.17453230917453766,
      "learning_rate": 0.0004609538784067086,
      "loss": 0.4524,
      "num_input_tokens_seen": 1149792,
      "step": 1760
    },
    {
      "epoch": 0.9250524109014675,
      "grad_norm": 0.3061560392379761,
      "learning_rate": 0.00046226415094339623,
      "loss": 0.7018,
      "num_input_tokens_seen": 1152832,
      "step": 1765
    },
    {
      "epoch": 0.9276729559748428,
      "grad_norm": 0.3255295157432556,
      "learning_rate": 0.00046357442348008386,
      "loss": 0.6395,
      "num_input_tokens_seen": 1155424,
      "step": 1770
    },
    {
      "epoch": 0.9302935010482181,
      "grad_norm": 0.2297382354736328,
      "learning_rate": 0.00046488469601677155,
      "loss": 0.4776,
      "num_input_tokens_seen": 1158656,
      "step": 1775
    },
    {
      "epoch": 0.9329140461215933,
      "grad_norm": 0.2393549531698227,
      "learning_rate": 0.00046619496855345913,
      "loss": 0.595,
      "num_input_tokens_seen": 1161504,
      "step": 1780
    },
    {
      "epoch": 0.9355345911949685,
      "grad_norm": 0.1133083701133728,
      "learning_rate": 0.00046750524109014677,
      "loss": 0.4994,
      "num_input_tokens_seen": 1164480,
      "step": 1785
    },
    {
      "epoch": 0.9381551362683438,
      "grad_norm": 0.16034747660160065,
      "learning_rate": 0.0004688155136268344,
      "loss": 0.4631,
      "num_input_tokens_seen": 1168128,
      "step": 1790
    },
    {
      "epoch": 0.9407756813417191,
      "grad_norm": 0.14175361394882202,
      "learning_rate": 0.00047012578616352203,
      "loss": 0.5428,
      "num_input_tokens_seen": 1171648,
      "step": 1795
    },
    {
      "epoch": 0.9433962264150944,
      "grad_norm": 0.10813498497009277,
      "learning_rate": 0.00047143605870020967,
      "loss": 0.5893,
      "num_input_tokens_seen": 1174656,
      "step": 1800
    },
    {
      "epoch": 0.9460167714884696,
      "grad_norm": 0.19311657547950745,
      "learning_rate": 0.0004727463312368973,
      "loss": 0.6753,
      "num_input_tokens_seen": 1177728,
      "step": 1805
    },
    {
      "epoch": 0.9486373165618449,
      "grad_norm": 0.0912519097328186,
      "learning_rate": 0.0004740566037735849,
      "loss": 0.5018,
      "num_input_tokens_seen": 1182208,
      "step": 1810
    },
    {
      "epoch": 0.9512578616352201,
      "grad_norm": 0.16167928278446198,
      "learning_rate": 0.0004753668763102725,
      "loss": 0.444,
      "num_input_tokens_seen": 1184832,
      "step": 1815
    },
    {
      "epoch": 0.9538784067085954,
      "grad_norm": 0.12159427255392075,
      "learning_rate": 0.00047667714884696015,
      "loss": 0.5334,
      "num_input_tokens_seen": 1187808,
      "step": 1820
    },
    {
      "epoch": 0.9564989517819706,
      "grad_norm": 0.18013976514339447,
      "learning_rate": 0.00047798742138364784,
      "loss": 0.5032,
      "num_input_tokens_seen": 1191136,
      "step": 1825
    },
    {
      "epoch": 0.9591194968553459,
      "grad_norm": 0.11134693771600723,
      "learning_rate": 0.0004792976939203355,
      "loss": 0.3957,
      "num_input_tokens_seen": 1194944,
      "step": 1830
    },
    {
      "epoch": 0.9617400419287212,
      "grad_norm": 0.2524474859237671,
      "learning_rate": 0.0004806079664570231,
      "loss": 0.4744,
      "num_input_tokens_seen": 1197504,
      "step": 1835
    },
    {
      "epoch": 0.9643605870020965,
      "grad_norm": 0.13069282472133636,
      "learning_rate": 0.0004819182389937107,
      "loss": 0.4717,
      "num_input_tokens_seen": 1201056,
      "step": 1840
    },
    {
      "epoch": 0.9669811320754716,
      "grad_norm": 0.09505967050790787,
      "learning_rate": 0.0004832285115303983,
      "loss": 0.4825,
      "num_input_tokens_seen": 1203968,
      "step": 1845
    },
    {
      "epoch": 0.9696016771488469,
      "grad_norm": 0.23619595170021057,
      "learning_rate": 0.00048453878406708596,
      "loss": 0.7019,
      "num_input_tokens_seen": 1207712,
      "step": 1850
    },
    {
      "epoch": 0.9722222222222222,
      "grad_norm": 0.1431325525045395,
      "learning_rate": 0.0004858490566037736,
      "loss": 0.448,
      "num_input_tokens_seen": 1210912,
      "step": 1855
    },
    {
      "epoch": 0.9748427672955975,
      "grad_norm": 0.3150079846382141,
      "learning_rate": 0.0004871593291404612,
      "loss": 0.5859,
      "num_input_tokens_seen": 1213408,
      "step": 1860
    },
    {
      "epoch": 0.9774633123689728,
      "grad_norm": 0.059951283037662506,
      "learning_rate": 0.0004884696016771489,
      "loss": 0.6857,
      "num_input_tokens_seen": 1217184,
      "step": 1865
    },
    {
      "epoch": 0.980083857442348,
      "grad_norm": 0.09074639528989792,
      "learning_rate": 0.0004897798742138365,
      "loss": 0.5911,
      "num_input_tokens_seen": 1220576,
      "step": 1870
    },
    {
      "epoch": 0.9827044025157232,
      "grad_norm": 0.6206029057502747,
      "learning_rate": 0.0004910901467505241,
      "loss": 0.5538,
      "num_input_tokens_seen": 1223552,
      "step": 1875
    },
    {
      "epoch": 0.9853249475890985,
      "grad_norm": 0.2341393381357193,
      "learning_rate": 0.0004924004192872118,
      "loss": 0.6359,
      "num_input_tokens_seen": 1226592,
      "step": 1880
    },
    {
      "epoch": 0.9879454926624738,
      "grad_norm": 0.11294152587652206,
      "learning_rate": 0.0004937106918238993,
      "loss": 0.5219,
      "num_input_tokens_seen": 1229504,
      "step": 1885
    },
    {
      "epoch": 0.9905660377358491,
      "grad_norm": 0.30291154980659485,
      "learning_rate": 0.000495020964360587,
      "loss": 0.532,
      "num_input_tokens_seen": 1232896,
      "step": 1890
    },
    {
      "epoch": 0.9931865828092243,
      "grad_norm": 0.16509628295898438,
      "learning_rate": 0.0004963312368972746,
      "loss": 0.4713,
      "num_input_tokens_seen": 1235840,
      "step": 1895
    },
    {
      "epoch": 0.9958071278825996,
      "grad_norm": 0.16311946511268616,
      "learning_rate": 0.0004976415094339623,
      "loss": 0.5129,
      "num_input_tokens_seen": 1239040,
      "step": 1900
    },
    {
      "epoch": 0.9984276729559748,
      "grad_norm": 0.14469346404075623,
      "learning_rate": 0.0004989517819706499,
      "loss": 0.5727,
      "num_input_tokens_seen": 1242112,
      "step": 1905
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.5040227770805359,
      "eval_runtime": 13.4826,
      "eval_samples_per_second": 62.896,
      "eval_steps_per_second": 15.724,
      "num_input_tokens_seen": 1246616,
      "step": 1908
    },
    {
      "epoch": 1.00104821802935,
      "grad_norm": 0.17826178669929504,
      "learning_rate": 0.0005002620545073376,
      "loss": 0.4372,
      "num_input_tokens_seen": 1248024,
      "step": 1910
    },
    {
      "epoch": 1.0036687631027255,
      "grad_norm": 0.18835002183914185,
      "learning_rate": 0.0005015723270440253,
      "loss": 0.3687,
      "num_input_tokens_seen": 1250232,
      "step": 1915
    },
    {
      "epoch": 1.0062893081761006,
      "grad_norm": 0.24495169520378113,
      "learning_rate": 0.0005028825995807128,
      "loss": 0.6919,
      "num_input_tokens_seen": 1253272,
      "step": 1920
    },
    {
      "epoch": 1.0089098532494758,
      "grad_norm": 0.23366257548332214,
      "learning_rate": 0.0005041928721174004,
      "loss": 0.4675,
      "num_input_tokens_seen": 1255928,
      "step": 1925
    },
    {
      "epoch": 1.0115303983228512,
      "grad_norm": 0.12796349823474884,
      "learning_rate": 0.0005055031446540881,
      "loss": 0.5124,
      "num_input_tokens_seen": 1260376,
      "step": 1930
    },
    {
      "epoch": 1.0141509433962264,
      "grad_norm": 0.12769728899002075,
      "learning_rate": 0.0005068134171907757,
      "loss": 0.6134,
      "num_input_tokens_seen": 1263864,
      "step": 1935
    },
    {
      "epoch": 1.0167714884696017,
      "grad_norm": 0.2491614669561386,
      "learning_rate": 0.0005081236897274634,
      "loss": 0.5718,
      "num_input_tokens_seen": 1267224,
      "step": 1940
    },
    {
      "epoch": 1.019392033542977,
      "grad_norm": 0.11016539484262466,
      "learning_rate": 0.000509433962264151,
      "loss": 0.5604,
      "num_input_tokens_seen": 1270520,
      "step": 1945
    },
    {
      "epoch": 1.0220125786163523,
      "grad_norm": 0.15659137070178986,
      "learning_rate": 0.0005107442348008385,
      "loss": 0.418,
      "num_input_tokens_seen": 1273144,
      "step": 1950
    },
    {
      "epoch": 1.0246331236897275,
      "grad_norm": 0.1528128683567047,
      "learning_rate": 0.0005120545073375262,
      "loss": 0.5722,
      "num_input_tokens_seen": 1275608,
      "step": 1955
    },
    {
      "epoch": 1.0272536687631026,
      "grad_norm": 0.1897365152835846,
      "learning_rate": 0.0005133647798742138,
      "loss": 0.5605,
      "num_input_tokens_seen": 1278360,
      "step": 1960
    },
    {
      "epoch": 1.029874213836478,
      "grad_norm": 0.08579931408166885,
      "learning_rate": 0.0005146750524109015,
      "loss": 0.483,
      "num_input_tokens_seen": 1281720,
      "step": 1965
    },
    {
      "epoch": 1.0324947589098532,
      "grad_norm": 0.08966394513845444,
      "learning_rate": 0.0005159853249475891,
      "loss": 0.578,
      "num_input_tokens_seen": 1284216,
      "step": 1970
    },
    {
      "epoch": 1.0351153039832286,
      "grad_norm": 0.10321154445409775,
      "learning_rate": 0.0005172955974842768,
      "loss": 0.4322,
      "num_input_tokens_seen": 1287576,
      "step": 1975
    },
    {
      "epoch": 1.0377358490566038,
      "grad_norm": 0.14919377863407135,
      "learning_rate": 0.0005186058700209643,
      "loss": 0.5265,
      "num_input_tokens_seen": 1290456,
      "step": 1980
    },
    {
      "epoch": 1.040356394129979,
      "grad_norm": 0.1328316479921341,
      "learning_rate": 0.0005199161425576519,
      "loss": 0.6073,
      "num_input_tokens_seen": 1293752,
      "step": 1985
    },
    {
      "epoch": 1.0429769392033543,
      "grad_norm": 0.18279185891151428,
      "learning_rate": 0.0005212264150943396,
      "loss": 0.4219,
      "num_input_tokens_seen": 1297368,
      "step": 1990
    },
    {
      "epoch": 1.0455974842767295,
      "grad_norm": 0.22645361721515656,
      "learning_rate": 0.0005225366876310272,
      "loss": 0.5212,
      "num_input_tokens_seen": 1300280,
      "step": 1995
    },
    {
      "epoch": 1.0482180293501049,
      "grad_norm": 0.2336324006319046,
      "learning_rate": 0.000523846960167715,
      "loss": 0.5605,
      "num_input_tokens_seen": 1304504,
      "step": 2000
    },
    {
      "epoch": 1.05083857442348,
      "grad_norm": 0.15394850075244904,
      "learning_rate": 0.0005251572327044026,
      "loss": 0.5351,
      "num_input_tokens_seen": 1308120,
      "step": 2005
    },
    {
      "epoch": 1.0534591194968554,
      "grad_norm": 0.10125048458576202,
      "learning_rate": 0.0005264675052410901,
      "loss": 0.5232,
      "num_input_tokens_seen": 1311160,
      "step": 2010
    },
    {
      "epoch": 1.0560796645702306,
      "grad_norm": 0.14382025599479675,
      "learning_rate": 0.0005277777777777778,
      "loss": 0.608,
      "num_input_tokens_seen": 1313784,
      "step": 2015
    },
    {
      "epoch": 1.0587002096436058,
      "grad_norm": 0.09766111522912979,
      "learning_rate": 0.0005290880503144654,
      "loss": 0.5698,
      "num_input_tokens_seen": 1317528,
      "step": 2020
    },
    {
      "epoch": 1.0613207547169812,
      "grad_norm": 0.109261155128479,
      "learning_rate": 0.0005303983228511531,
      "loss": 0.4022,
      "num_input_tokens_seen": 1321400,
      "step": 2025
    },
    {
      "epoch": 1.0639412997903563,
      "grad_norm": 0.11689919978380203,
      "learning_rate": 0.0005317085953878407,
      "loss": 0.5134,
      "num_input_tokens_seen": 1325304,
      "step": 2030
    },
    {
      "epoch": 1.0665618448637317,
      "grad_norm": 0.1263045072555542,
      "learning_rate": 0.0005330188679245284,
      "loss": 0.4849,
      "num_input_tokens_seen": 1327928,
      "step": 2035
    },
    {
      "epoch": 1.069182389937107,
      "grad_norm": 0.10939469933509827,
      "learning_rate": 0.000534329140461216,
      "loss": 0.4941,
      "num_input_tokens_seen": 1331224,
      "step": 2040
    },
    {
      "epoch": 1.0718029350104823,
      "grad_norm": 0.12898918986320496,
      "learning_rate": 0.0005356394129979035,
      "loss": 0.5016,
      "num_input_tokens_seen": 1334456,
      "step": 2045
    },
    {
      "epoch": 1.0744234800838575,
      "grad_norm": 0.15866024792194366,
      "learning_rate": 0.0005369496855345912,
      "loss": 0.5279,
      "num_input_tokens_seen": 1337592,
      "step": 2050
    },
    {
      "epoch": 1.0770440251572326,
      "grad_norm": 0.5991789102554321,
      "learning_rate": 0.0005382599580712788,
      "loss": 0.5412,
      "num_input_tokens_seen": 1339960,
      "step": 2055
    },
    {
      "epoch": 1.079664570230608,
      "grad_norm": 0.18349388241767883,
      "learning_rate": 0.0005395702306079665,
      "loss": 0.5829,
      "num_input_tokens_seen": 1343864,
      "step": 2060
    },
    {
      "epoch": 1.0822851153039832,
      "grad_norm": 0.08442366868257523,
      "learning_rate": 0.0005408805031446541,
      "loss": 0.4822,
      "num_input_tokens_seen": 1347032,
      "step": 2065
    },
    {
      "epoch": 1.0849056603773586,
      "grad_norm": 0.08965811878442764,
      "learning_rate": 0.0005421907756813418,
      "loss": 0.5264,
      "num_input_tokens_seen": 1350072,
      "step": 2070
    },
    {
      "epoch": 1.0875262054507338,
      "grad_norm": 0.19598565995693207,
      "learning_rate": 0.0005435010482180293,
      "loss": 0.517,
      "num_input_tokens_seen": 1353496,
      "step": 2075
    },
    {
      "epoch": 1.090146750524109,
      "grad_norm": 0.12793053686618805,
      "learning_rate": 0.0005448113207547169,
      "loss": 0.5186,
      "num_input_tokens_seen": 1355832,
      "step": 2080
    },
    {
      "epoch": 1.0927672955974843,
      "grad_norm": 0.10953683406114578,
      "learning_rate": 0.0005461215932914046,
      "loss": 0.3904,
      "num_input_tokens_seen": 1360312,
      "step": 2085
    },
    {
      "epoch": 1.0953878406708595,
      "grad_norm": 0.10585547983646393,
      "learning_rate": 0.0005474318658280922,
      "loss": 0.5003,
      "num_input_tokens_seen": 1363992,
      "step": 2090
    },
    {
      "epoch": 1.0980083857442349,
      "grad_norm": 0.18137575685977936,
      "learning_rate": 0.0005487421383647799,
      "loss": 0.383,
      "num_input_tokens_seen": 1367352,
      "step": 2095
    },
    {
      "epoch": 1.10062893081761,
      "grad_norm": 0.14031703770160675,
      "learning_rate": 0.0005500524109014676,
      "loss": 0.5784,
      "num_input_tokens_seen": 1370232,
      "step": 2100
    },
    {
      "epoch": 1.1032494758909852,
      "grad_norm": 0.103693887591362,
      "learning_rate": 0.0005513626834381551,
      "loss": 0.5588,
      "num_input_tokens_seen": 1375448,
      "step": 2105
    },
    {
      "epoch": 1.1058700209643606,
      "grad_norm": 0.16418716311454773,
      "learning_rate": 0.0005526729559748428,
      "loss": 0.4584,
      "num_input_tokens_seen": 1378840,
      "step": 2110
    },
    {
      "epoch": 1.1084905660377358,
      "grad_norm": 0.15512531995773315,
      "learning_rate": 0.0005539832285115304,
      "loss": 0.4946,
      "num_input_tokens_seen": 1382616,
      "step": 2115
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.2624320983886719,
      "learning_rate": 0.0005552935010482181,
      "loss": 0.4819,
      "num_input_tokens_seen": 1385016,
      "step": 2120
    },
    {
      "epoch": 1.1137316561844863,
      "grad_norm": 0.16033846139907837,
      "learning_rate": 0.0005566037735849057,
      "loss": 0.4808,
      "num_input_tokens_seen": 1389368,
      "step": 2125
    },
    {
      "epoch": 1.1163522012578617,
      "grad_norm": 0.10382865369319916,
      "learning_rate": 0.0005579140461215934,
      "loss": 0.4018,
      "num_input_tokens_seen": 1393176,
      "step": 2130
    },
    {
      "epoch": 1.118972746331237,
      "grad_norm": 0.14305002987384796,
      "learning_rate": 0.000559224318658281,
      "loss": 0.4732,
      "num_input_tokens_seen": 1396504,
      "step": 2135
    },
    {
      "epoch": 1.121593291404612,
      "grad_norm": 0.12934036552906036,
      "learning_rate": 0.0005605345911949685,
      "loss": 0.5338,
      "num_input_tokens_seen": 1400088,
      "step": 2140
    },
    {
      "epoch": 1.1242138364779874,
      "grad_norm": 0.18260468542575836,
      "learning_rate": 0.0005618448637316562,
      "loss": 0.4743,
      "num_input_tokens_seen": 1402456,
      "step": 2145
    },
    {
      "epoch": 1.1268343815513626,
      "grad_norm": 0.0982140451669693,
      "learning_rate": 0.0005631551362683438,
      "loss": 0.4324,
      "num_input_tokens_seen": 1405464,
      "step": 2150
    },
    {
      "epoch": 1.129454926624738,
      "grad_norm": 0.25393012166023254,
      "learning_rate": 0.0005644654088050315,
      "loss": 0.4604,
      "num_input_tokens_seen": 1407800,
      "step": 2155
    },
    {
      "epoch": 1.1320754716981132,
      "grad_norm": 0.1576124131679535,
      "learning_rate": 0.0005657756813417191,
      "loss": 0.4357,
      "num_input_tokens_seen": 1410520,
      "step": 2160
    },
    {
      "epoch": 1.1346960167714886,
      "grad_norm": 0.0898716077208519,
      "learning_rate": 0.0005670859538784067,
      "loss": 0.5178,
      "num_input_tokens_seen": 1414808,
      "step": 2165
    },
    {
      "epoch": 1.1373165618448637,
      "grad_norm": 0.23733405768871307,
      "learning_rate": 0.0005683962264150943,
      "loss": 0.4272,
      "num_input_tokens_seen": 1417944,
      "step": 2170
    },
    {
      "epoch": 1.139937106918239,
      "grad_norm": 0.13982728123664856,
      "learning_rate": 0.0005697064989517819,
      "loss": 0.379,
      "num_input_tokens_seen": 1421272,
      "step": 2175
    },
    {
      "epoch": 1.1425576519916143,
      "grad_norm": 0.15796303749084473,
      "learning_rate": 0.0005710167714884696,
      "loss": 0.5702,
      "num_input_tokens_seen": 1423704,
      "step": 2180
    },
    {
      "epoch": 1.1451781970649895,
      "grad_norm": 0.10576599836349487,
      "learning_rate": 0.0005723270440251572,
      "loss": 0.4426,
      "num_input_tokens_seen": 1427000,
      "step": 2185
    },
    {
      "epoch": 1.1477987421383649,
      "grad_norm": 0.1355457901954651,
      "learning_rate": 0.0005736373165618449,
      "loss": 0.5716,
      "num_input_tokens_seen": 1429688,
      "step": 2190
    },
    {
      "epoch": 1.15041928721174,
      "grad_norm": 0.1568254828453064,
      "learning_rate": 0.0005749475890985325,
      "loss": 0.4663,
      "num_input_tokens_seen": 1433496,
      "step": 2195
    },
    {
      "epoch": 1.1530398322851152,
      "grad_norm": 0.10043232142925262,
      "learning_rate": 0.0005762578616352201,
      "loss": 0.4173,
      "num_input_tokens_seen": 1436440,
      "step": 2200
    },
    {
      "epoch": 1.1556603773584906,
      "grad_norm": 0.1282239705324173,
      "learning_rate": 0.0005775681341719078,
      "loss": 0.4568,
      "num_input_tokens_seen": 1439064,
      "step": 2205
    },
    {
      "epoch": 1.1582809224318658,
      "grad_norm": 0.1719556599855423,
      "learning_rate": 0.0005788784067085954,
      "loss": 0.339,
      "num_input_tokens_seen": 1444600,
      "step": 2210
    },
    {
      "epoch": 1.1609014675052411,
      "grad_norm": 0.2562684416770935,
      "learning_rate": 0.0005801886792452831,
      "loss": 0.6089,
      "num_input_tokens_seen": 1447160,
      "step": 2215
    },
    {
      "epoch": 1.1635220125786163,
      "grad_norm": 0.12834873795509338,
      "learning_rate": 0.0005814989517819707,
      "loss": 0.5124,
      "num_input_tokens_seen": 1450840,
      "step": 2220
    },
    {
      "epoch": 1.1661425576519917,
      "grad_norm": 0.06092869117856026,
      "learning_rate": 0.0005828092243186583,
      "loss": 0.3915,
      "num_input_tokens_seen": 1454552,
      "step": 2225
    },
    {
      "epoch": 1.1687631027253669,
      "grad_norm": 0.18706683814525604,
      "learning_rate": 0.000584119496855346,
      "loss": 0.4071,
      "num_input_tokens_seen": 1457240,
      "step": 2230
    },
    {
      "epoch": 1.171383647798742,
      "grad_norm": 0.13678914308547974,
      "learning_rate": 0.0005854297693920335,
      "loss": 0.5481,
      "num_input_tokens_seen": 1460472,
      "step": 2235
    },
    {
      "epoch": 1.1740041928721174,
      "grad_norm": 0.10160420089960098,
      "learning_rate": 0.0005867400419287212,
      "loss": 0.4905,
      "num_input_tokens_seen": 1463832,
      "step": 2240
    },
    {
      "epoch": 1.1766247379454926,
      "grad_norm": 0.1811867654323578,
      "learning_rate": 0.0005880503144654088,
      "loss": 0.5303,
      "num_input_tokens_seen": 1466552,
      "step": 2245
    },
    {
      "epoch": 1.179245283018868,
      "grad_norm": 0.2200198769569397,
      "learning_rate": 0.0005893605870020965,
      "loss": 0.5757,
      "num_input_tokens_seen": 1469144,
      "step": 2250
    },
    {
      "epoch": 1.1818658280922432,
      "grad_norm": 0.23000358045101166,
      "learning_rate": 0.0005906708595387841,
      "loss": 0.3831,
      "num_input_tokens_seen": 1471992,
      "step": 2255
    },
    {
      "epoch": 1.1844863731656186,
      "grad_norm": 0.21189703047275543,
      "learning_rate": 0.0005919811320754716,
      "loss": 0.5355,
      "num_input_tokens_seen": 1475544,
      "step": 2260
    },
    {
      "epoch": 1.1871069182389937,
      "grad_norm": 0.20097999274730682,
      "learning_rate": 0.0005932914046121593,
      "loss": 0.4859,
      "num_input_tokens_seen": 1478456,
      "step": 2265
    },
    {
      "epoch": 1.189727463312369,
      "grad_norm": 0.11611683666706085,
      "learning_rate": 0.0005946016771488469,
      "loss": 0.411,
      "num_input_tokens_seen": 1481208,
      "step": 2270
    },
    {
      "epoch": 1.1923480083857443,
      "grad_norm": 0.08578239381313324,
      "learning_rate": 0.0005959119496855346,
      "loss": 0.4049,
      "num_input_tokens_seen": 1486776,
      "step": 2275
    },
    {
      "epoch": 1.1949685534591195,
      "grad_norm": 0.13955768942832947,
      "learning_rate": 0.0005972222222222222,
      "loss": 0.5164,
      "num_input_tokens_seen": 1489176,
      "step": 2280
    },
    {
      "epoch": 1.1975890985324948,
      "grad_norm": 0.15467453002929688,
      "learning_rate": 0.0005985324947589099,
      "loss": 0.4133,
      "num_input_tokens_seen": 1492312,
      "step": 2285
    },
    {
      "epoch": 1.20020964360587,
      "grad_norm": 0.10234300047159195,
      "learning_rate": 0.0005998427672955975,
      "loss": 0.4895,
      "num_input_tokens_seen": 1495576,
      "step": 2290
    },
    {
      "epoch": 1.2028301886792452,
      "grad_norm": 0.29489225149154663,
      "learning_rate": 0.000601153039832285,
      "loss": 0.4634,
      "num_input_tokens_seen": 1498680,
      "step": 2295
    },
    {
      "epoch": 1.2054507337526206,
      "grad_norm": 0.09894052147865295,
      "learning_rate": 0.0006024633123689728,
      "loss": 0.6864,
      "num_input_tokens_seen": 1501944,
      "step": 2300
    },
    {
      "epoch": 1.2080712788259957,
      "grad_norm": 0.22127248346805573,
      "learning_rate": 0.0006037735849056604,
      "loss": 0.5324,
      "num_input_tokens_seen": 1506104,
      "step": 2305
    },
    {
      "epoch": 1.2106918238993711,
      "grad_norm": 0.08433264493942261,
      "learning_rate": 0.0006050838574423481,
      "loss": 0.4556,
      "num_input_tokens_seen": 1509720,
      "step": 2310
    },
    {
      "epoch": 1.2133123689727463,
      "grad_norm": 0.22509245574474335,
      "learning_rate": 0.0006063941299790357,
      "loss": 0.4469,
      "num_input_tokens_seen": 1513592,
      "step": 2315
    },
    {
      "epoch": 1.2159329140461215,
      "grad_norm": 0.23372846841812134,
      "learning_rate": 0.0006077044025157233,
      "loss": 0.4585,
      "num_input_tokens_seen": 1516472,
      "step": 2320
    },
    {
      "epoch": 1.2185534591194969,
      "grad_norm": 0.061855606734752655,
      "learning_rate": 0.000609014675052411,
      "loss": 0.5432,
      "num_input_tokens_seen": 1520856,
      "step": 2325
    },
    {
      "epoch": 1.221174004192872,
      "grad_norm": 0.35385966300964355,
      "learning_rate": 0.0006103249475890985,
      "loss": 0.5362,
      "num_input_tokens_seen": 1524248,
      "step": 2330
    },
    {
      "epoch": 1.2237945492662474,
      "grad_norm": 0.2669358253479004,
      "learning_rate": 0.0006116352201257862,
      "loss": 0.5379,
      "num_input_tokens_seen": 1527224,
      "step": 2335
    },
    {
      "epoch": 1.2264150943396226,
      "grad_norm": 0.15814156830310822,
      "learning_rate": 0.0006129454926624738,
      "loss": 0.4686,
      "num_input_tokens_seen": 1530808,
      "step": 2340
    },
    {
      "epoch": 1.229035639412998,
      "grad_norm": 0.14727626740932465,
      "learning_rate": 0.0006142557651991615,
      "loss": 0.4702,
      "num_input_tokens_seen": 1533848,
      "step": 2345
    },
    {
      "epoch": 1.2316561844863732,
      "grad_norm": 0.08810952305793762,
      "learning_rate": 0.0006155660377358491,
      "loss": 0.4407,
      "num_input_tokens_seen": 1537016,
      "step": 2350
    },
    {
      "epoch": 1.2342767295597485,
      "grad_norm": 0.1250937432050705,
      "learning_rate": 0.0006168763102725366,
      "loss": 0.522,
      "num_input_tokens_seen": 1540472,
      "step": 2355
    },
    {
      "epoch": 1.2368972746331237,
      "grad_norm": 0.1053655818104744,
      "learning_rate": 0.0006181865828092243,
      "loss": 0.4746,
      "num_input_tokens_seen": 1544504,
      "step": 2360
    },
    {
      "epoch": 1.2395178197064989,
      "grad_norm": 0.12138131260871887,
      "learning_rate": 0.0006194968553459119,
      "loss": 0.4708,
      "num_input_tokens_seen": 1547608,
      "step": 2365
    },
    {
      "epoch": 1.2421383647798743,
      "grad_norm": 0.1325792670249939,
      "learning_rate": 0.0006208071278825996,
      "loss": 0.4643,
      "num_input_tokens_seen": 1550392,
      "step": 2370
    },
    {
      "epoch": 1.2447589098532494,
      "grad_norm": 0.23133470118045807,
      "learning_rate": 0.0006221174004192872,
      "loss": 0.5384,
      "num_input_tokens_seen": 1553048,
      "step": 2375
    },
    {
      "epoch": 1.2473794549266248,
      "grad_norm": 0.14807578921318054,
      "learning_rate": 0.0006234276729559748,
      "loss": 0.5275,
      "num_input_tokens_seen": 1556216,
      "step": 2380
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.09321712702512741,
      "learning_rate": 0.0006247379454926625,
      "loss": 0.5028,
      "num_input_tokens_seen": 1558872,
      "step": 2385
    },
    {
      "epoch": 1.2526205450733752,
      "grad_norm": 0.10608039796352386,
      "learning_rate": 0.00062604821802935,
      "loss": 0.5804,
      "num_input_tokens_seen": 1562040,
      "step": 2390
    },
    {
      "epoch": 1.2552410901467506,
      "grad_norm": 0.07113613933324814,
      "learning_rate": 0.0006273584905660377,
      "loss": 0.3967,
      "num_input_tokens_seen": 1564760,
      "step": 2395
    },
    {
      "epoch": 1.2578616352201257,
      "grad_norm": 0.09711049497127533,
      "learning_rate": 0.0006286687631027254,
      "loss": 0.5293,
      "num_input_tokens_seen": 1567416,
      "step": 2400
    },
    {
      "epoch": 1.2604821802935011,
      "grad_norm": 0.11298518627882004,
      "learning_rate": 0.0006299790356394131,
      "loss": 0.4004,
      "num_input_tokens_seen": 1571256,
      "step": 2405
    },
    {
      "epoch": 1.2631027253668763,
      "grad_norm": 0.11597222834825516,
      "learning_rate": 0.0006312893081761007,
      "loss": 0.5476,
      "num_input_tokens_seen": 1574488,
      "step": 2410
    },
    {
      "epoch": 1.2657232704402515,
      "grad_norm": 0.0897868275642395,
      "learning_rate": 0.0006325995807127883,
      "loss": 0.6002,
      "num_input_tokens_seen": 1578616,
      "step": 2415
    },
    {
      "epoch": 1.2683438155136268,
      "grad_norm": 0.11801367253065109,
      "learning_rate": 0.000633909853249476,
      "loss": 0.6126,
      "num_input_tokens_seen": 1581688,
      "step": 2420
    },
    {
      "epoch": 1.270964360587002,
      "grad_norm": 0.10734841227531433,
      "learning_rate": 0.0006352201257861635,
      "loss": 0.4206,
      "num_input_tokens_seen": 1584600,
      "step": 2425
    },
    {
      "epoch": 1.2735849056603774,
      "grad_norm": 0.07517950981855392,
      "learning_rate": 0.0006365303983228512,
      "loss": 0.4091,
      "num_input_tokens_seen": 1588600,
      "step": 2430
    },
    {
      "epoch": 1.2762054507337526,
      "grad_norm": 0.19788824021816254,
      "learning_rate": 0.0006378406708595388,
      "loss": 0.4592,
      "num_input_tokens_seen": 1591128,
      "step": 2435
    },
    {
      "epoch": 1.2788259958071277,
      "grad_norm": 0.17775270342826843,
      "learning_rate": 0.0006391509433962265,
      "loss": 0.453,
      "num_input_tokens_seen": 1594552,
      "step": 2440
    },
    {
      "epoch": 1.2814465408805031,
      "grad_norm": 0.19042648375034332,
      "learning_rate": 0.0006404612159329141,
      "loss": 0.5229,
      "num_input_tokens_seen": 1597496,
      "step": 2445
    },
    {
      "epoch": 1.2840670859538785,
      "grad_norm": 0.888150155544281,
      "learning_rate": 0.0006417714884696016,
      "loss": 0.49,
      "num_input_tokens_seen": 1600856,
      "step": 2450
    },
    {
      "epoch": 1.2866876310272537,
      "grad_norm": 0.15221811830997467,
      "learning_rate": 0.0006430817610062893,
      "loss": 0.4152,
      "num_input_tokens_seen": 1603896,
      "step": 2455
    },
    {
      "epoch": 1.2893081761006289,
      "grad_norm": 0.24361227452754974,
      "learning_rate": 0.0006443920335429769,
      "loss": 0.5426,
      "num_input_tokens_seen": 1606840,
      "step": 2460
    },
    {
      "epoch": 1.2919287211740043,
      "grad_norm": 0.16743071377277374,
      "learning_rate": 0.0006457023060796646,
      "loss": 0.5649,
      "num_input_tokens_seen": 1610392,
      "step": 2465
    },
    {
      "epoch": 1.2945492662473794,
      "grad_norm": 0.162899449467659,
      "learning_rate": 0.0006470125786163522,
      "loss": 0.5492,
      "num_input_tokens_seen": 1613976,
      "step": 2470
    },
    {
      "epoch": 1.2971698113207548,
      "grad_norm": 0.2528860867023468,
      "learning_rate": 0.0006483228511530398,
      "loss": 0.5926,
      "num_input_tokens_seen": 1617048,
      "step": 2475
    },
    {
      "epoch": 1.29979035639413,
      "grad_norm": 0.12885038554668427,
      "learning_rate": 0.0006496331236897275,
      "loss": 0.5626,
      "num_input_tokens_seen": 1620216,
      "step": 2480
    },
    {
      "epoch": 1.3024109014675052,
      "grad_norm": 0.12291240692138672,
      "learning_rate": 0.000650943396226415,
      "loss": 0.3188,
      "num_input_tokens_seen": 1623448,
      "step": 2485
    },
    {
      "epoch": 1.3050314465408805,
      "grad_norm": 0.13905832171440125,
      "learning_rate": 0.0006522536687631027,
      "loss": 0.8009,
      "num_input_tokens_seen": 1627160,
      "step": 2490
    },
    {
      "epoch": 1.3076519916142557,
      "grad_norm": 0.1555199921131134,
      "learning_rate": 0.0006535639412997903,
      "loss": 0.6356,
      "num_input_tokens_seen": 1630488,
      "step": 2495
    },
    {
      "epoch": 1.310272536687631,
      "grad_norm": 0.15258289873600006,
      "learning_rate": 0.0006548742138364781,
      "loss": 0.4199,
      "num_input_tokens_seen": 1633720,
      "step": 2500
    },
    {
      "epoch": 1.3128930817610063,
      "grad_norm": 0.3835292160511017,
      "learning_rate": 0.0006561844863731657,
      "loss": 0.5495,
      "num_input_tokens_seen": 1636824,
      "step": 2505
    },
    {
      "epoch": 1.3155136268343814,
      "grad_norm": 0.1354180872440338,
      "learning_rate": 0.0006574947589098533,
      "loss": 0.4808,
      "num_input_tokens_seen": 1640312,
      "step": 2510
    },
    {
      "epoch": 1.3181341719077568,
      "grad_norm": 0.1873759627342224,
      "learning_rate": 0.000658805031446541,
      "loss": 0.3648,
      "num_input_tokens_seen": 1642904,
      "step": 2515
    },
    {
      "epoch": 1.320754716981132,
      "grad_norm": 0.4994222819805145,
      "learning_rate": 0.0006601153039832285,
      "loss": 0.437,
      "num_input_tokens_seen": 1645624,
      "step": 2520
    },
    {
      "epoch": 1.3233752620545074,
      "grad_norm": 0.10950741916894913,
      "learning_rate": 0.0006614255765199162,
      "loss": 0.5841,
      "num_input_tokens_seen": 1649432,
      "step": 2525
    },
    {
      "epoch": 1.3259958071278826,
      "grad_norm": 0.1260656863451004,
      "learning_rate": 0.0006627358490566038,
      "loss": 0.6339,
      "num_input_tokens_seen": 1651864,
      "step": 2530
    },
    {
      "epoch": 1.3286163522012577,
      "grad_norm": 0.13058951497077942,
      "learning_rate": 0.0006640461215932914,
      "loss": 0.4102,
      "num_input_tokens_seen": 1654904,
      "step": 2535
    },
    {
      "epoch": 1.3312368972746331,
      "grad_norm": 0.1130731925368309,
      "learning_rate": 0.0006653563941299791,
      "loss": 0.5501,
      "num_input_tokens_seen": 1658488,
      "step": 2540
    },
    {
      "epoch": 1.3338574423480085,
      "grad_norm": 0.18476800620555878,
      "learning_rate": 0.0006666666666666666,
      "loss": 0.4737,
      "num_input_tokens_seen": 1661336,
      "step": 2545
    },
    {
      "epoch": 1.3364779874213837,
      "grad_norm": 0.1501084715127945,
      "learning_rate": 0.0006679769392033543,
      "loss": 0.4691,
      "num_input_tokens_seen": 1664024,
      "step": 2550
    },
    {
      "epoch": 1.3390985324947589,
      "grad_norm": 0.13992035388946533,
      "learning_rate": 0.0006692872117400419,
      "loss": 0.5741,
      "num_input_tokens_seen": 1666936,
      "step": 2555
    },
    {
      "epoch": 1.3417190775681342,
      "grad_norm": 0.1258610337972641,
      "learning_rate": 0.0006705974842767296,
      "loss": 0.3786,
      "num_input_tokens_seen": 1670648,
      "step": 2560
    },
    {
      "epoch": 1.3443396226415094,
      "grad_norm": 0.23042894899845123,
      "learning_rate": 0.0006719077568134172,
      "loss": 0.3894,
      "num_input_tokens_seen": 1673464,
      "step": 2565
    },
    {
      "epoch": 1.3469601677148848,
      "grad_norm": 0.14926941692829132,
      "learning_rate": 0.0006732180293501048,
      "loss": 0.5569,
      "num_input_tokens_seen": 1676024,
      "step": 2570
    },
    {
      "epoch": 1.34958071278826,
      "grad_norm": 0.17485257983207703,
      "learning_rate": 0.0006745283018867925,
      "loss": 0.5584,
      "num_input_tokens_seen": 1680024,
      "step": 2575
    },
    {
      "epoch": 1.3522012578616351,
      "grad_norm": 0.08174393326044083,
      "learning_rate": 0.00067583857442348,
      "loss": 0.4836,
      "num_input_tokens_seen": 1683384,
      "step": 2580
    },
    {
      "epoch": 1.3548218029350105,
      "grad_norm": 0.07810600847005844,
      "learning_rate": 0.0006771488469601677,
      "loss": 0.5726,
      "num_input_tokens_seen": 1686456,
      "step": 2585
    },
    {
      "epoch": 1.3574423480083857,
      "grad_norm": 0.11292443424463272,
      "learning_rate": 0.0006784591194968553,
      "loss": 0.3717,
      "num_input_tokens_seen": 1690072,
      "step": 2590
    },
    {
      "epoch": 1.360062893081761,
      "grad_norm": 0.1298510581254959,
      "learning_rate": 0.0006797693920335431,
      "loss": 0.4887,
      "num_input_tokens_seen": 1692664,
      "step": 2595
    },
    {
      "epoch": 1.3626834381551363,
      "grad_norm": 0.16673682630062103,
      "learning_rate": 0.0006810796645702307,
      "loss": 0.5358,
      "num_input_tokens_seen": 1695288,
      "step": 2600
    },
    {
      "epoch": 1.3653039832285114,
      "grad_norm": 0.14877131581306458,
      "learning_rate": 0.0006823899371069183,
      "loss": 0.4461,
      "num_input_tokens_seen": 1699768,
      "step": 2605
    },
    {
      "epoch": 1.3679245283018868,
      "grad_norm": 0.13236501812934875,
      "learning_rate": 0.0006837002096436059,
      "loss": 0.5479,
      "num_input_tokens_seen": 1702264,
      "step": 2610
    },
    {
      "epoch": 1.370545073375262,
      "grad_norm": 0.1961992383003235,
      "learning_rate": 0.0006850104821802935,
      "loss": 0.5284,
      "num_input_tokens_seen": 1704920,
      "step": 2615
    },
    {
      "epoch": 1.3731656184486374,
      "grad_norm": 0.09967350959777832,
      "learning_rate": 0.0006863207547169812,
      "loss": 0.4435,
      "num_input_tokens_seen": 1708024,
      "step": 2620
    },
    {
      "epoch": 1.3757861635220126,
      "grad_norm": 0.15577344596385956,
      "learning_rate": 0.0006876310272536688,
      "loss": 0.5957,
      "num_input_tokens_seen": 1709880,
      "step": 2625
    },
    {
      "epoch": 1.3784067085953877,
      "grad_norm": 0.09779732674360275,
      "learning_rate": 0.0006889412997903564,
      "loss": 0.5568,
      "num_input_tokens_seen": 1714040,
      "step": 2630
    },
    {
      "epoch": 1.381027253668763,
      "grad_norm": 0.07546328753232956,
      "learning_rate": 0.0006902515723270441,
      "loss": 0.6511,
      "num_input_tokens_seen": 1718712,
      "step": 2635
    },
    {
      "epoch": 1.3836477987421385,
      "grad_norm": 0.16982485353946686,
      "learning_rate": 0.0006915618448637316,
      "loss": 0.4835,
      "num_input_tokens_seen": 1721304,
      "step": 2640
    },
    {
      "epoch": 1.3862683438155137,
      "grad_norm": 0.11120270937681198,
      "learning_rate": 0.0006928721174004193,
      "loss": 0.5521,
      "num_input_tokens_seen": 1723896,
      "step": 2645
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 0.19885095953941345,
      "learning_rate": 0.0006941823899371069,
      "loss": 0.4371,
      "num_input_tokens_seen": 1727864,
      "step": 2650
    },
    {
      "epoch": 1.3915094339622642,
      "grad_norm": 0.08254969120025635,
      "learning_rate": 0.0006954926624737946,
      "loss": 0.4596,
      "num_input_tokens_seen": 1731064,
      "step": 2655
    },
    {
      "epoch": 1.3941299790356394,
      "grad_norm": 0.26519984006881714,
      "learning_rate": 0.0006968029350104822,
      "loss": 0.5902,
      "num_input_tokens_seen": 1733912,
      "step": 2660
    },
    {
      "epoch": 1.3967505241090148,
      "grad_norm": 0.08238005638122559,
      "learning_rate": 0.0006981132075471698,
      "loss": 0.4131,
      "num_input_tokens_seen": 1736952,
      "step": 2665
    },
    {
      "epoch": 1.39937106918239,
      "grad_norm": 0.11874612420797348,
      "learning_rate": 0.0006994234800838574,
      "loss": 0.4949,
      "num_input_tokens_seen": 1740120,
      "step": 2670
    },
    {
      "epoch": 1.4019916142557651,
      "grad_norm": 0.13238851726055145,
      "learning_rate": 0.000700733752620545,
      "loss": 0.4556,
      "num_input_tokens_seen": 1742712,
      "step": 2675
    },
    {
      "epoch": 1.4046121593291405,
      "grad_norm": 0.12921877205371857,
      "learning_rate": 0.0007020440251572327,
      "loss": 0.5714,
      "num_input_tokens_seen": 1745112,
      "step": 2680
    },
    {
      "epoch": 1.4072327044025157,
      "grad_norm": 0.06843063235282898,
      "learning_rate": 0.0007033542976939203,
      "loss": 0.4211,
      "num_input_tokens_seen": 1748856,
      "step": 2685
    },
    {
      "epoch": 1.409853249475891,
      "grad_norm": 0.11200115829706192,
      "learning_rate": 0.0007046645702306079,
      "loss": 0.4799,
      "num_input_tokens_seen": 1753656,
      "step": 2690
    },
    {
      "epoch": 1.4124737945492662,
      "grad_norm": 0.17857830226421356,
      "learning_rate": 0.0007059748427672957,
      "loss": 0.503,
      "num_input_tokens_seen": 1757336,
      "step": 2695
    },
    {
      "epoch": 1.4150943396226414,
      "grad_norm": 0.0772249773144722,
      "learning_rate": 0.0007072851153039833,
      "loss": 0.4545,
      "num_input_tokens_seen": 1761208,
      "step": 2700
    },
    {
      "epoch": 1.4177148846960168,
      "grad_norm": 0.09240937978029251,
      "learning_rate": 0.0007085953878406709,
      "loss": 0.5284,
      "num_input_tokens_seen": 1764792,
      "step": 2705
    },
    {
      "epoch": 1.420335429769392,
      "grad_norm": 0.07731664180755615,
      "learning_rate": 0.0007099056603773585,
      "loss": 0.4268,
      "num_input_tokens_seen": 1768888,
      "step": 2710
    },
    {
      "epoch": 1.4229559748427674,
      "grad_norm": 0.11023449152708054,
      "learning_rate": 0.0007112159329140462,
      "loss": 0.5403,
      "num_input_tokens_seen": 1771864,
      "step": 2715
    },
    {
      "epoch": 1.4255765199161425,
      "grad_norm": 0.19597932696342468,
      "learning_rate": 0.0007125262054507338,
      "loss": 0.4979,
      "num_input_tokens_seen": 1775128,
      "step": 2720
    },
    {
      "epoch": 1.4281970649895177,
      "grad_norm": 0.14643976092338562,
      "learning_rate": 0.0007138364779874214,
      "loss": 0.5113,
      "num_input_tokens_seen": 1777976,
      "step": 2725
    },
    {
      "epoch": 1.430817610062893,
      "grad_norm": 0.17418785393238068,
      "learning_rate": 0.0007151467505241091,
      "loss": 0.4099,
      "num_input_tokens_seen": 1780824,
      "step": 2730
    },
    {
      "epoch": 1.4334381551362683,
      "grad_norm": 0.2855716645717621,
      "learning_rate": 0.0007164570230607966,
      "loss": 0.5844,
      "num_input_tokens_seen": 1783896,
      "step": 2735
    },
    {
      "epoch": 1.4360587002096437,
      "grad_norm": 0.17095166444778442,
      "learning_rate": 0.0007177672955974843,
      "loss": 0.4499,
      "num_input_tokens_seen": 1787288,
      "step": 2740
    },
    {
      "epoch": 1.4386792452830188,
      "grad_norm": 0.11532840877771378,
      "learning_rate": 0.0007190775681341719,
      "loss": 0.6733,
      "num_input_tokens_seen": 1790904,
      "step": 2745
    },
    {
      "epoch": 1.441299790356394,
      "grad_norm": 0.09784500300884247,
      "learning_rate": 0.0007203878406708596,
      "loss": 0.4741,
      "num_input_tokens_seen": 1794392,
      "step": 2750
    },
    {
      "epoch": 1.4439203354297694,
      "grad_norm": 0.12003161013126373,
      "learning_rate": 0.0007216981132075472,
      "loss": 0.3826,
      "num_input_tokens_seen": 1797656,
      "step": 2755
    },
    {
      "epoch": 1.4465408805031448,
      "grad_norm": 0.1635994166135788,
      "learning_rate": 0.0007230083857442348,
      "loss": 0.5922,
      "num_input_tokens_seen": 1801944,
      "step": 2760
    },
    {
      "epoch": 1.44916142557652,
      "grad_norm": 0.056941960006952286,
      "learning_rate": 0.0007243186582809224,
      "loss": 0.4782,
      "num_input_tokens_seen": 1804888,
      "step": 2765
    },
    {
      "epoch": 1.4517819706498951,
      "grad_norm": 0.0884535014629364,
      "learning_rate": 0.00072562893081761,
      "loss": 0.4812,
      "num_input_tokens_seen": 1808120,
      "step": 2770
    },
    {
      "epoch": 1.4544025157232705,
      "grad_norm": 0.05545783415436745,
      "learning_rate": 0.0007269392033542977,
      "loss": 0.4576,
      "num_input_tokens_seen": 1812408,
      "step": 2775
    },
    {
      "epoch": 1.4570230607966457,
      "grad_norm": 0.12733913958072662,
      "learning_rate": 0.0007282494758909853,
      "loss": 0.4496,
      "num_input_tokens_seen": 1815352,
      "step": 2780
    },
    {
      "epoch": 1.459643605870021,
      "grad_norm": 0.14337825775146484,
      "learning_rate": 0.0007295597484276729,
      "loss": 0.5475,
      "num_input_tokens_seen": 1817720,
      "step": 2785
    },
    {
      "epoch": 1.4622641509433962,
      "grad_norm": 0.09297055751085281,
      "learning_rate": 0.0007308700209643606,
      "loss": 0.537,
      "num_input_tokens_seen": 1821400,
      "step": 2790
    },
    {
      "epoch": 1.4648846960167714,
      "grad_norm": 0.2093033492565155,
      "learning_rate": 0.0007321802935010483,
      "loss": 0.4823,
      "num_input_tokens_seen": 1824152,
      "step": 2795
    },
    {
      "epoch": 1.4675052410901468,
      "grad_norm": 0.11235311627388,
      "learning_rate": 0.0007334905660377359,
      "loss": 0.6479,
      "num_input_tokens_seen": 1827704,
      "step": 2800
    },
    {
      "epoch": 1.470125786163522,
      "grad_norm": 0.10882583260536194,
      "learning_rate": 0.0007348008385744235,
      "loss": 0.6023,
      "num_input_tokens_seen": 1830776,
      "step": 2805
    },
    {
      "epoch": 1.4727463312368974,
      "grad_norm": 0.08679690957069397,
      "learning_rate": 0.0007361111111111112,
      "loss": 0.3601,
      "num_input_tokens_seen": 1834136,
      "step": 2810
    },
    {
      "epoch": 1.4753668763102725,
      "grad_norm": 0.11956283450126648,
      "learning_rate": 0.0007374213836477988,
      "loss": 0.5738,
      "num_input_tokens_seen": 1837784,
      "step": 2815
    },
    {
      "epoch": 1.4779874213836477,
      "grad_norm": 0.17694081366062164,
      "learning_rate": 0.0007387316561844864,
      "loss": 0.5595,
      "num_input_tokens_seen": 1841656,
      "step": 2820
    },
    {
      "epoch": 1.480607966457023,
      "grad_norm": 0.09207034111022949,
      "learning_rate": 0.0007400419287211741,
      "loss": 0.5269,
      "num_input_tokens_seen": 1844792,
      "step": 2825
    },
    {
      "epoch": 1.4832285115303983,
      "grad_norm": 0.12265998870134354,
      "learning_rate": 0.0007413522012578616,
      "loss": 0.5869,
      "num_input_tokens_seen": 1848312,
      "step": 2830
    },
    {
      "epoch": 1.4858490566037736,
      "grad_norm": 0.12232116609811783,
      "learning_rate": 0.0007426624737945493,
      "loss": 0.5065,
      "num_input_tokens_seen": 1850968,
      "step": 2835
    },
    {
      "epoch": 1.4884696016771488,
      "grad_norm": 0.12757815420627594,
      "learning_rate": 0.0007439727463312369,
      "loss": 0.4772,
      "num_input_tokens_seen": 1853528,
      "step": 2840
    },
    {
      "epoch": 1.491090146750524,
      "grad_norm": 0.17429286241531372,
      "learning_rate": 0.0007452830188679245,
      "loss": 0.4811,
      "num_input_tokens_seen": 1856376,
      "step": 2845
    },
    {
      "epoch": 1.4937106918238994,
      "grad_norm": 0.248831108212471,
      "learning_rate": 0.0007465932914046122,
      "loss": 0.4985,
      "num_input_tokens_seen": 1859672,
      "step": 2850
    },
    {
      "epoch": 1.4963312368972748,
      "grad_norm": 0.08550028502941132,
      "learning_rate": 0.0007479035639412998,
      "loss": 0.3952,
      "num_input_tokens_seen": 1862680,
      "step": 2855
    },
    {
      "epoch": 1.49895178197065,
      "grad_norm": 0.20922251045703888,
      "learning_rate": 0.0007492138364779874,
      "loss": 0.5855,
      "num_input_tokens_seen": 1865304,
      "step": 2860
    },
    {
      "epoch": 1.501572327044025,
      "grad_norm": 0.12931197881698608,
      "learning_rate": 0.000750524109014675,
      "loss": 0.6818,
      "num_input_tokens_seen": 1868152,
      "step": 2865
    },
    {
      "epoch": 1.5041928721174003,
      "grad_norm": 0.16389892995357513,
      "learning_rate": 0.0007518343815513627,
      "loss": 0.6641,
      "num_input_tokens_seen": 1871192,
      "step": 2870
    },
    {
      "epoch": 1.5068134171907757,
      "grad_norm": 0.13782547414302826,
      "learning_rate": 0.0007531446540880503,
      "loss": 0.5769,
      "num_input_tokens_seen": 1874360,
      "step": 2875
    },
    {
      "epoch": 1.509433962264151,
      "grad_norm": 0.08819650113582611,
      "learning_rate": 0.0007544549266247379,
      "loss": 0.5407,
      "num_input_tokens_seen": 1877400,
      "step": 2880
    },
    {
      "epoch": 1.5120545073375262,
      "grad_norm": 0.1132657453417778,
      "learning_rate": 0.0007557651991614256,
      "loss": 0.5256,
      "num_input_tokens_seen": 1880440,
      "step": 2885
    },
    {
      "epoch": 1.5146750524109014,
      "grad_norm": 0.1617778241634369,
      "learning_rate": 0.0007570754716981131,
      "loss": 0.4852,
      "num_input_tokens_seen": 1883352,
      "step": 2890
    },
    {
      "epoch": 1.5172955974842768,
      "grad_norm": 0.20001231133937836,
      "learning_rate": 0.0007583857442348009,
      "loss": 0.4423,
      "num_input_tokens_seen": 1886264,
      "step": 2895
    },
    {
      "epoch": 1.519916142557652,
      "grad_norm": 0.09748061746358871,
      "learning_rate": 0.0007596960167714885,
      "loss": 0.4822,
      "num_input_tokens_seen": 1889144,
      "step": 2900
    },
    {
      "epoch": 1.5225366876310273,
      "grad_norm": 0.10844673961400986,
      "learning_rate": 0.0007610062893081762,
      "loss": 0.4407,
      "num_input_tokens_seen": 1894168,
      "step": 2905
    },
    {
      "epoch": 1.5251572327044025,
      "grad_norm": 0.10839062929153442,
      "learning_rate": 0.0007623165618448638,
      "loss": 0.4209,
      "num_input_tokens_seen": 1898072,
      "step": 2910
    },
    {
      "epoch": 1.5277777777777777,
      "grad_norm": 0.06781569868326187,
      "learning_rate": 0.0007636268343815514,
      "loss": 0.3965,
      "num_input_tokens_seen": 1901464,
      "step": 2915
    },
    {
      "epoch": 1.530398322851153,
      "grad_norm": 0.09401613473892212,
      "learning_rate": 0.0007649371069182391,
      "loss": 0.4202,
      "num_input_tokens_seen": 1904888,
      "step": 2920
    },
    {
      "epoch": 1.5330188679245285,
      "grad_norm": 0.10257834196090698,
      "learning_rate": 0.0007662473794549266,
      "loss": 0.5428,
      "num_input_tokens_seen": 1908088,
      "step": 2925
    },
    {
      "epoch": 1.5356394129979036,
      "grad_norm": 0.11650434136390686,
      "learning_rate": 0.0007675576519916143,
      "loss": 0.5865,
      "num_input_tokens_seen": 1911288,
      "step": 2930
    },
    {
      "epoch": 1.5382599580712788,
      "grad_norm": 0.07049784064292908,
      "learning_rate": 0.0007688679245283019,
      "loss": 0.4472,
      "num_input_tokens_seen": 1914264,
      "step": 2935
    },
    {
      "epoch": 1.540880503144654,
      "grad_norm": 0.06914050132036209,
      "learning_rate": 0.0007701781970649895,
      "loss": 0.4696,
      "num_input_tokens_seen": 1918296,
      "step": 2940
    },
    {
      "epoch": 1.5435010482180294,
      "grad_norm": 0.07699692249298096,
      "learning_rate": 0.0007714884696016772,
      "loss": 0.7485,
      "num_input_tokens_seen": 1922136,
      "step": 2945
    },
    {
      "epoch": 1.5461215932914047,
      "grad_norm": 0.15950071811676025,
      "learning_rate": 0.0007727987421383648,
      "loss": 0.5252,
      "num_input_tokens_seen": 1925240,
      "step": 2950
    },
    {
      "epoch": 1.54874213836478,
      "grad_norm": 0.08095932751893997,
      "learning_rate": 0.0007741090146750524,
      "loss": 0.4992,
      "num_input_tokens_seen": 1927864,
      "step": 2955
    },
    {
      "epoch": 1.551362683438155,
      "grad_norm": 0.0769193097949028,
      "learning_rate": 0.00077541928721174,
      "loss": 0.4634,
      "num_input_tokens_seen": 1930360,
      "step": 2960
    },
    {
      "epoch": 1.5539832285115303,
      "grad_norm": 0.11216556280851364,
      "learning_rate": 0.0007767295597484277,
      "loss": 0.588,
      "num_input_tokens_seen": 1933016,
      "step": 2965
    },
    {
      "epoch": 1.5566037735849056,
      "grad_norm": 0.10959866642951965,
      "learning_rate": 0.0007780398322851153,
      "loss": 0.4332,
      "num_input_tokens_seen": 1936184,
      "step": 2970
    },
    {
      "epoch": 1.559224318658281,
      "grad_norm": 0.11237390339374542,
      "learning_rate": 0.0007793501048218029,
      "loss": 0.4769,
      "num_input_tokens_seen": 1939480,
      "step": 2975
    },
    {
      "epoch": 1.5618448637316562,
      "grad_norm": 0.0867866799235344,
      "learning_rate": 0.0007806603773584906,
      "loss": 0.5564,
      "num_input_tokens_seen": 1943384,
      "step": 2980
    },
    {
      "epoch": 1.5644654088050314,
      "grad_norm": 0.18229880928993225,
      "learning_rate": 0.0007819706498951781,
      "loss": 0.6079,
      "num_input_tokens_seen": 1946264,
      "step": 2985
    },
    {
      "epoch": 1.5670859538784065,
      "grad_norm": 0.09114249050617218,
      "learning_rate": 0.0007832809224318658,
      "loss": 0.5355,
      "num_input_tokens_seen": 1949336,
      "step": 2990
    },
    {
      "epoch": 1.569706498951782,
      "grad_norm": 0.0844639465212822,
      "learning_rate": 0.0007845911949685535,
      "loss": 0.5024,
      "num_input_tokens_seen": 1951928,
      "step": 2995
    },
    {
      "epoch": 1.5723270440251573,
      "grad_norm": 0.10459636896848679,
      "learning_rate": 0.0007859014675052411,
      "loss": 0.4317,
      "num_input_tokens_seen": 1954680,
      "step": 3000
    },
    {
      "epoch": 1.5749475890985325,
      "grad_norm": 0.09089335799217224,
      "learning_rate": 0.0007872117400419288,
      "loss": 0.5514,
      "num_input_tokens_seen": 1957784,
      "step": 3005
    },
    {
      "epoch": 1.5775681341719077,
      "grad_norm": 0.11078208684921265,
      "learning_rate": 0.0007885220125786164,
      "loss": 0.4897,
      "num_input_tokens_seen": 1960984,
      "step": 3010
    },
    {
      "epoch": 1.580188679245283,
      "grad_norm": 0.0609598234295845,
      "learning_rate": 0.0007898322851153041,
      "loss": 0.3695,
      "num_input_tokens_seen": 1965240,
      "step": 3015
    },
    {
      "epoch": 1.5828092243186582,
      "grad_norm": 0.0496235191822052,
      "learning_rate": 0.0007911425576519916,
      "loss": 0.4402,
      "num_input_tokens_seen": 1969080,
      "step": 3020
    },
    {
      "epoch": 1.5854297693920336,
      "grad_norm": 0.08706606924533844,
      "learning_rate": 0.0007924528301886793,
      "loss": 0.6671,
      "num_input_tokens_seen": 1972952,
      "step": 3025
    },
    {
      "epoch": 1.5880503144654088,
      "grad_norm": 0.10628536343574524,
      "learning_rate": 0.0007937631027253669,
      "loss": 0.7757,
      "num_input_tokens_seen": 1975736,
      "step": 3030
    },
    {
      "epoch": 1.590670859538784,
      "grad_norm": 0.11529524624347687,
      "learning_rate": 0.0007950733752620545,
      "loss": 0.5158,
      "num_input_tokens_seen": 1979832,
      "step": 3035
    },
    {
      "epoch": 1.5932914046121593,
      "grad_norm": 0.16680853068828583,
      "learning_rate": 0.0007963836477987422,
      "loss": 0.4037,
      "num_input_tokens_seen": 1982104,
      "step": 3040
    },
    {
      "epoch": 1.5959119496855347,
      "grad_norm": 0.14834074676036835,
      "learning_rate": 0.0007976939203354298,
      "loss": 0.4751,
      "num_input_tokens_seen": 1984920,
      "step": 3045
    },
    {
      "epoch": 1.59853249475891,
      "grad_norm": 0.12021065503358841,
      "learning_rate": 0.0007990041928721174,
      "loss": 0.4875,
      "num_input_tokens_seen": 1987448,
      "step": 3050
    },
    {
      "epoch": 1.601153039832285,
      "grad_norm": 0.11208747327327728,
      "learning_rate": 0.000800314465408805,
      "loss": 0.7213,
      "num_input_tokens_seen": 1991960,
      "step": 3055
    },
    {
      "epoch": 1.6037735849056602,
      "grad_norm": 0.10432911664247513,
      "learning_rate": 0.0008016247379454927,
      "loss": 0.4592,
      "num_input_tokens_seen": 1995416,
      "step": 3060
    },
    {
      "epoch": 1.6063941299790356,
      "grad_norm": 0.13048328459262848,
      "learning_rate": 0.0008029350104821803,
      "loss": 0.4165,
      "num_input_tokens_seen": 1999064,
      "step": 3065
    },
    {
      "epoch": 1.609014675052411,
      "grad_norm": 0.08276617527008057,
      "learning_rate": 0.0008042452830188679,
      "loss": 0.4781,
      "num_input_tokens_seen": 2002328,
      "step": 3070
    },
    {
      "epoch": 1.6116352201257862,
      "grad_norm": 0.1120186597108841,
      "learning_rate": 0.0008055555555555556,
      "loss": 0.5302,
      "num_input_tokens_seen": 2005240,
      "step": 3075
    },
    {
      "epoch": 1.6142557651991614,
      "grad_norm": 0.16171836853027344,
      "learning_rate": 0.0008068658280922431,
      "loss": 0.5109,
      "num_input_tokens_seen": 2009592,
      "step": 3080
    },
    {
      "epoch": 1.6168763102725365,
      "grad_norm": 0.18962612748146057,
      "learning_rate": 0.0008081761006289308,
      "loss": 0.5443,
      "num_input_tokens_seen": 2012056,
      "step": 3085
    },
    {
      "epoch": 1.619496855345912,
      "grad_norm": 0.16403384506702423,
      "learning_rate": 0.0008094863731656184,
      "loss": 0.5468,
      "num_input_tokens_seen": 2015608,
      "step": 3090
    },
    {
      "epoch": 1.6221174004192873,
      "grad_norm": 0.16896283626556396,
      "learning_rate": 0.0008107966457023061,
      "loss": 0.5245,
      "num_input_tokens_seen": 2018456,
      "step": 3095
    },
    {
      "epoch": 1.6247379454926625,
      "grad_norm": 0.10220284759998322,
      "learning_rate": 0.0008121069182389938,
      "loss": 0.469,
      "num_input_tokens_seen": 2021720,
      "step": 3100
    },
    {
      "epoch": 1.6273584905660377,
      "grad_norm": 0.1377386748790741,
      "learning_rate": 0.0008134171907756814,
      "loss": 0.466,
      "num_input_tokens_seen": 2024376,
      "step": 3105
    },
    {
      "epoch": 1.629979035639413,
      "grad_norm": 0.14280423521995544,
      "learning_rate": 0.0008147274633123691,
      "loss": 0.6076,
      "num_input_tokens_seen": 2028440,
      "step": 3110
    },
    {
      "epoch": 1.6325995807127882,
      "grad_norm": 0.14445677399635315,
      "learning_rate": 0.0008160377358490566,
      "loss": 0.4959,
      "num_input_tokens_seen": 2031352,
      "step": 3115
    },
    {
      "epoch": 1.6352201257861636,
      "grad_norm": 0.09511952847242355,
      "learning_rate": 0.0008173480083857443,
      "loss": 0.5473,
      "num_input_tokens_seen": 2034680,
      "step": 3120
    },
    {
      "epoch": 1.6378406708595388,
      "grad_norm": 0.3077588379383087,
      "learning_rate": 0.0008186582809224319,
      "loss": 0.5583,
      "num_input_tokens_seen": 2038104,
      "step": 3125
    },
    {
      "epoch": 1.640461215932914,
      "grad_norm": 0.1106737032532692,
      "learning_rate": 0.0008199685534591195,
      "loss": 0.4707,
      "num_input_tokens_seen": 2041624,
      "step": 3130
    },
    {
      "epoch": 1.6430817610062893,
      "grad_norm": 0.058371517807245255,
      "learning_rate": 0.0008212788259958072,
      "loss": 0.642,
      "num_input_tokens_seen": 2048056,
      "step": 3135
    },
    {
      "epoch": 1.6457023060796647,
      "grad_norm": 0.1726372390985489,
      "learning_rate": 0.0008225890985324948,
      "loss": 0.4524,
      "num_input_tokens_seen": 2050968,
      "step": 3140
    },
    {
      "epoch": 1.64832285115304,
      "grad_norm": 0.10192376375198364,
      "learning_rate": 0.0008238993710691824,
      "loss": 0.5621,
      "num_input_tokens_seen": 2054008,
      "step": 3145
    },
    {
      "epoch": 1.650943396226415,
      "grad_norm": 0.040669169276952744,
      "learning_rate": 0.00082520964360587,
      "loss": 0.5145,
      "num_input_tokens_seen": 2057496,
      "step": 3150
    },
    {
      "epoch": 1.6535639412997902,
      "grad_norm": 0.10677466541528702,
      "learning_rate": 0.0008265199161425576,
      "loss": 0.5233,
      "num_input_tokens_seen": 2060984,
      "step": 3155
    },
    {
      "epoch": 1.6561844863731656,
      "grad_norm": 0.13600876927375793,
      "learning_rate": 0.0008278301886792453,
      "loss": 0.5134,
      "num_input_tokens_seen": 2064056,
      "step": 3160
    },
    {
      "epoch": 1.658805031446541,
      "grad_norm": 0.1033749058842659,
      "learning_rate": 0.0008291404612159329,
      "loss": 0.5088,
      "num_input_tokens_seen": 2067160,
      "step": 3165
    },
    {
      "epoch": 1.6614255765199162,
      "grad_norm": 0.10066742449998856,
      "learning_rate": 0.0008304507337526206,
      "loss": 0.5431,
      "num_input_tokens_seen": 2069656,
      "step": 3170
    },
    {
      "epoch": 1.6640461215932913,
      "grad_norm": 0.07026200741529465,
      "learning_rate": 0.0008317610062893081,
      "loss": 0.3829,
      "num_input_tokens_seen": 2074552,
      "step": 3175
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.12324205040931702,
      "learning_rate": 0.0008330712788259958,
      "loss": 0.5428,
      "num_input_tokens_seen": 2077176,
      "step": 3180
    },
    {
      "epoch": 1.669287211740042,
      "grad_norm": 0.05605407804250717,
      "learning_rate": 0.0008343815513626834,
      "loss": 0.3919,
      "num_input_tokens_seen": 2080728,
      "step": 3185
    },
    {
      "epoch": 1.6719077568134173,
      "grad_norm": 0.16465727984905243,
      "learning_rate": 0.000835691823899371,
      "loss": 0.3925,
      "num_input_tokens_seen": 2083672,
      "step": 3190
    },
    {
      "epoch": 1.6745283018867925,
      "grad_norm": 0.13679131865501404,
      "learning_rate": 0.0008370020964360588,
      "loss": 0.5874,
      "num_input_tokens_seen": 2086872,
      "step": 3195
    },
    {
      "epoch": 1.6771488469601676,
      "grad_norm": 0.11644243448972702,
      "learning_rate": 0.0008383123689727464,
      "loss": 0.447,
      "num_input_tokens_seen": 2090072,
      "step": 3200
    },
    {
      "epoch": 1.679769392033543,
      "grad_norm": 0.10782415419816971,
      "learning_rate": 0.000839622641509434,
      "loss": 0.4556,
      "num_input_tokens_seen": 2093112,
      "step": 3205
    },
    {
      "epoch": 1.6823899371069182,
      "grad_norm": 0.101634681224823,
      "learning_rate": 0.0008409329140461216,
      "loss": 0.5267,
      "num_input_tokens_seen": 2096408,
      "step": 3210
    },
    {
      "epoch": 1.6850104821802936,
      "grad_norm": 0.09968558698892593,
      "learning_rate": 0.0008422431865828093,
      "loss": 0.5725,
      "num_input_tokens_seen": 2099448,
      "step": 3215
    },
    {
      "epoch": 1.6876310272536688,
      "grad_norm": 0.18891656398773193,
      "learning_rate": 0.0008435534591194969,
      "loss": 0.4144,
      "num_input_tokens_seen": 2102520,
      "step": 3220
    },
    {
      "epoch": 1.690251572327044,
      "grad_norm": 0.1043565422296524,
      "learning_rate": 0.0008448637316561845,
      "loss": 0.4239,
      "num_input_tokens_seen": 2105496,
      "step": 3225
    },
    {
      "epoch": 1.6928721174004193,
      "grad_norm": 0.08536351472139359,
      "learning_rate": 0.0008461740041928722,
      "loss": 0.4253,
      "num_input_tokens_seen": 2108536,
      "step": 3230
    },
    {
      "epoch": 1.6954926624737947,
      "grad_norm": 0.06748656183481216,
      "learning_rate": 0.0008474842767295598,
      "loss": 0.4155,
      "num_input_tokens_seen": 2112248,
      "step": 3235
    },
    {
      "epoch": 1.6981132075471699,
      "grad_norm": 0.11229725182056427,
      "learning_rate": 0.0008487945492662474,
      "loss": 0.4893,
      "num_input_tokens_seen": 2114456,
      "step": 3240
    },
    {
      "epoch": 1.700733752620545,
      "grad_norm": 0.06810589879751205,
      "learning_rate": 0.000850104821802935,
      "loss": 0.4597,
      "num_input_tokens_seen": 2117592,
      "step": 3245
    },
    {
      "epoch": 1.7033542976939202,
      "grad_norm": 0.11648111790418625,
      "learning_rate": 0.0008514150943396226,
      "loss": 0.5316,
      "num_input_tokens_seen": 2120376,
      "step": 3250
    },
    {
      "epoch": 1.7059748427672956,
      "grad_norm": 0.099759541451931,
      "learning_rate": 0.0008527253668763103,
      "loss": 0.4321,
      "num_input_tokens_seen": 2124376,
      "step": 3255
    },
    {
      "epoch": 1.708595387840671,
      "grad_norm": 0.13780972361564636,
      "learning_rate": 0.0008540356394129979,
      "loss": 0.5192,
      "num_input_tokens_seen": 2127384,
      "step": 3260
    },
    {
      "epoch": 1.7112159329140462,
      "grad_norm": 0.10435772687196732,
      "learning_rate": 0.0008553459119496856,
      "loss": 0.5106,
      "num_input_tokens_seen": 2130616,
      "step": 3265
    },
    {
      "epoch": 1.7138364779874213,
      "grad_norm": 0.10644017159938812,
      "learning_rate": 0.0008566561844863731,
      "loss": 0.5467,
      "num_input_tokens_seen": 2134168,
      "step": 3270
    },
    {
      "epoch": 1.7164570230607965,
      "grad_norm": 0.08754643052816391,
      "learning_rate": 0.0008579664570230608,
      "loss": 0.5132,
      "num_input_tokens_seen": 2138360,
      "step": 3275
    },
    {
      "epoch": 1.719077568134172,
      "grad_norm": 0.11576347053050995,
      "learning_rate": 0.0008592767295597484,
      "loss": 0.4921,
      "num_input_tokens_seen": 2141016,
      "step": 3280
    },
    {
      "epoch": 1.7216981132075473,
      "grad_norm": 0.15155230462551117,
      "learning_rate": 0.000860587002096436,
      "loss": 0.5529,
      "num_input_tokens_seen": 2143448,
      "step": 3285
    },
    {
      "epoch": 1.7243186582809225,
      "grad_norm": 0.101688914000988,
      "learning_rate": 0.0008618972746331238,
      "loss": 0.3444,
      "num_input_tokens_seen": 2146552,
      "step": 3290
    },
    {
      "epoch": 1.7269392033542976,
      "grad_norm": 0.0890650823712349,
      "learning_rate": 0.0008632075471698114,
      "loss": 0.4875,
      "num_input_tokens_seen": 2150424,
      "step": 3295
    },
    {
      "epoch": 1.7295597484276728,
      "grad_norm": 0.07408636808395386,
      "learning_rate": 0.000864517819706499,
      "loss": 0.4089,
      "num_input_tokens_seen": 2153912,
      "step": 3300
    },
    {
      "epoch": 1.7321802935010482,
      "grad_norm": 0.09931820631027222,
      "learning_rate": 0.0008658280922431866,
      "loss": 0.5283,
      "num_input_tokens_seen": 2156920,
      "step": 3305
    },
    {
      "epoch": 1.7348008385744236,
      "grad_norm": 0.09189008176326752,
      "learning_rate": 0.0008671383647798742,
      "loss": 0.543,
      "num_input_tokens_seen": 2159704,
      "step": 3310
    },
    {
      "epoch": 1.7374213836477987,
      "grad_norm": 0.14909344911575317,
      "learning_rate": 0.0008684486373165619,
      "loss": 0.5157,
      "num_input_tokens_seen": 2162680,
      "step": 3315
    },
    {
      "epoch": 1.740041928721174,
      "grad_norm": 0.10405027121305466,
      "learning_rate": 0.0008697589098532495,
      "loss": 0.558,
      "num_input_tokens_seen": 2166488,
      "step": 3320
    },
    {
      "epoch": 1.7426624737945493,
      "grad_norm": 0.07866779714822769,
      "learning_rate": 0.0008710691823899372,
      "loss": 0.468,
      "num_input_tokens_seen": 2170360,
      "step": 3325
    },
    {
      "epoch": 1.7452830188679245,
      "grad_norm": 0.06876810640096664,
      "learning_rate": 0.0008723794549266247,
      "loss": 0.6032,
      "num_input_tokens_seen": 2173144,
      "step": 3330
    },
    {
      "epoch": 1.7479035639412999,
      "grad_norm": 0.07044921070337296,
      "learning_rate": 0.0008736897274633124,
      "loss": 0.524,
      "num_input_tokens_seen": 2176792,
      "step": 3335
    },
    {
      "epoch": 1.750524109014675,
      "grad_norm": 0.13357983529567719,
      "learning_rate": 0.000875,
      "loss": 0.4894,
      "num_input_tokens_seen": 2180408,
      "step": 3340
    },
    {
      "epoch": 1.7531446540880502,
      "grad_norm": 0.14299243688583374,
      "learning_rate": 0.0008763102725366876,
      "loss": 0.5329,
      "num_input_tokens_seen": 2183320,
      "step": 3345
    },
    {
      "epoch": 1.7557651991614256,
      "grad_norm": 0.15824709832668304,
      "learning_rate": 0.0008776205450733753,
      "loss": 0.5466,
      "num_input_tokens_seen": 2186040,
      "step": 3350
    },
    {
      "epoch": 1.758385744234801,
      "grad_norm": 0.2098657786846161,
      "learning_rate": 0.0008789308176100629,
      "loss": 0.5292,
      "num_input_tokens_seen": 2188632,
      "step": 3355
    },
    {
      "epoch": 1.7610062893081762,
      "grad_norm": 0.07689063996076584,
      "learning_rate": 0.0008802410901467506,
      "loss": 0.4771,
      "num_input_tokens_seen": 2192440,
      "step": 3360
    },
    {
      "epoch": 1.7636268343815513,
      "grad_norm": 0.0642235279083252,
      "learning_rate": 0.0008815513626834381,
      "loss": 0.3979,
      "num_input_tokens_seen": 2196536,
      "step": 3365
    },
    {
      "epoch": 1.7662473794549265,
      "grad_norm": 0.09195981174707413,
      "learning_rate": 0.0008828616352201258,
      "loss": 0.5337,
      "num_input_tokens_seen": 2202872,
      "step": 3370
    },
    {
      "epoch": 1.7688679245283019,
      "grad_norm": 0.1316150277853012,
      "learning_rate": 0.0008841719077568134,
      "loss": 0.5215,
      "num_input_tokens_seen": 2205464,
      "step": 3375
    },
    {
      "epoch": 1.7714884696016773,
      "grad_norm": 0.06473582237958908,
      "learning_rate": 0.000885482180293501,
      "loss": 0.4772,
      "num_input_tokens_seen": 2208888,
      "step": 3380
    },
    {
      "epoch": 1.7741090146750524,
      "grad_norm": 0.10507594794034958,
      "learning_rate": 0.0008867924528301887,
      "loss": 0.4682,
      "num_input_tokens_seen": 2212568,
      "step": 3385
    },
    {
      "epoch": 1.7767295597484276,
      "grad_norm": 0.06974077969789505,
      "learning_rate": 0.0008881027253668763,
      "loss": 0.4807,
      "num_input_tokens_seen": 2216152,
      "step": 3390
    },
    {
      "epoch": 1.7793501048218028,
      "grad_norm": 0.10025838017463684,
      "learning_rate": 0.000889412997903564,
      "loss": 0.4572,
      "num_input_tokens_seen": 2218712,
      "step": 3395
    },
    {
      "epoch": 1.7819706498951782,
      "grad_norm": 0.06638772785663605,
      "learning_rate": 0.0008907232704402516,
      "loss": 0.4631,
      "num_input_tokens_seen": 2222360,
      "step": 3400
    },
    {
      "epoch": 1.7845911949685536,
      "grad_norm": 0.2386389672756195,
      "learning_rate": 0.0008920335429769392,
      "loss": 0.4647,
      "num_input_tokens_seen": 2224664,
      "step": 3405
    },
    {
      "epoch": 1.7872117400419287,
      "grad_norm": 0.06979293376207352,
      "learning_rate": 0.0008933438155136269,
      "loss": 0.5447,
      "num_input_tokens_seen": 2227576,
      "step": 3410
    },
    {
      "epoch": 1.789832285115304,
      "grad_norm": 0.09807632863521576,
      "learning_rate": 0.0008946540880503145,
      "loss": 0.5618,
      "num_input_tokens_seen": 2230968,
      "step": 3415
    },
    {
      "epoch": 1.7924528301886793,
      "grad_norm": 0.09903322905302048,
      "learning_rate": 0.0008959643605870022,
      "loss": 0.4015,
      "num_input_tokens_seen": 2234584,
      "step": 3420
    },
    {
      "epoch": 1.7950733752620545,
      "grad_norm": 0.07310096174478531,
      "learning_rate": 0.0008972746331236897,
      "loss": 0.3614,
      "num_input_tokens_seen": 2237400,
      "step": 3425
    },
    {
      "epoch": 1.7976939203354299,
      "grad_norm": 0.1445760279893875,
      "learning_rate": 0.0008985849056603774,
      "loss": 0.5127,
      "num_input_tokens_seen": 2239960,
      "step": 3430
    },
    {
      "epoch": 1.800314465408805,
      "grad_norm": 0.10251035541296005,
      "learning_rate": 0.000899895178197065,
      "loss": 0.4609,
      "num_input_tokens_seen": 2243192,
      "step": 3435
    },
    {
      "epoch": 1.8029350104821802,
      "grad_norm": 0.09857601672410965,
      "learning_rate": 0.0009012054507337526,
      "loss": 0.392,
      "num_input_tokens_seen": 2246328,
      "step": 3440
    },
    {
      "epoch": 1.8055555555555556,
      "grad_norm": 0.06844604760408401,
      "learning_rate": 0.0009025157232704403,
      "loss": 0.4702,
      "num_input_tokens_seen": 2249432,
      "step": 3445
    },
    {
      "epoch": 1.808176100628931,
      "grad_norm": 0.08984775096178055,
      "learning_rate": 0.0009038259958071279,
      "loss": 0.3687,
      "num_input_tokens_seen": 2252184,
      "step": 3450
    },
    {
      "epoch": 1.8107966457023061,
      "grad_norm": 0.1905955821275711,
      "learning_rate": 0.0009051362683438156,
      "loss": 0.5155,
      "num_input_tokens_seen": 2254808,
      "step": 3455
    },
    {
      "epoch": 1.8134171907756813,
      "grad_norm": 0.09647628664970398,
      "learning_rate": 0.0009064465408805031,
      "loss": 0.4624,
      "num_input_tokens_seen": 2258552,
      "step": 3460
    },
    {
      "epoch": 1.8160377358490565,
      "grad_norm": 0.14658983051776886,
      "learning_rate": 0.0009077568134171907,
      "loss": 0.5959,
      "num_input_tokens_seen": 2261208,
      "step": 3465
    },
    {
      "epoch": 1.8186582809224319,
      "grad_norm": 0.12876613438129425,
      "learning_rate": 0.0009090670859538784,
      "loss": 0.5273,
      "num_input_tokens_seen": 2264280,
      "step": 3470
    },
    {
      "epoch": 1.8212788259958073,
      "grad_norm": 0.12397494167089462,
      "learning_rate": 0.000910377358490566,
      "loss": 0.6679,
      "num_input_tokens_seen": 2267672,
      "step": 3475
    },
    {
      "epoch": 1.8238993710691824,
      "grad_norm": 0.09372179955244064,
      "learning_rate": 0.0009116876310272537,
      "loss": 0.4997,
      "num_input_tokens_seen": 2270136,
      "step": 3480
    },
    {
      "epoch": 1.8265199161425576,
      "grad_norm": 0.13231408596038818,
      "learning_rate": 0.0009129979035639413,
      "loss": 0.5581,
      "num_input_tokens_seen": 2272888,
      "step": 3485
    },
    {
      "epoch": 1.8291404612159328,
      "grad_norm": 0.10713072121143341,
      "learning_rate": 0.000914308176100629,
      "loss": 0.3513,
      "num_input_tokens_seen": 2276600,
      "step": 3490
    },
    {
      "epoch": 1.8317610062893082,
      "grad_norm": 0.16981837153434753,
      "learning_rate": 0.0009156184486373166,
      "loss": 0.5735,
      "num_input_tokens_seen": 2279320,
      "step": 3495
    },
    {
      "epoch": 1.8343815513626835,
      "grad_norm": 0.1600726991891861,
      "learning_rate": 0.0009169287211740042,
      "loss": 0.5726,
      "num_input_tokens_seen": 2283512,
      "step": 3500
    },
    {
      "epoch": 1.8370020964360587,
      "grad_norm": 0.06576528400182724,
      "learning_rate": 0.0009182389937106919,
      "loss": 0.42,
      "num_input_tokens_seen": 2286072,
      "step": 3505
    },
    {
      "epoch": 1.8396226415094339,
      "grad_norm": 0.09465941786766052,
      "learning_rate": 0.0009195492662473795,
      "loss": 0.5763,
      "num_input_tokens_seen": 2288824,
      "step": 3510
    },
    {
      "epoch": 1.8422431865828093,
      "grad_norm": 0.06805164366960526,
      "learning_rate": 0.0009208595387840672,
      "loss": 0.452,
      "num_input_tokens_seen": 2291992,
      "step": 3515
    },
    {
      "epoch": 1.8448637316561844,
      "grad_norm": 0.13286465406417847,
      "learning_rate": 0.0009221698113207547,
      "loss": 0.6177,
      "num_input_tokens_seen": 2295192,
      "step": 3520
    },
    {
      "epoch": 1.8474842767295598,
      "grad_norm": 0.1022956594824791,
      "learning_rate": 0.0009234800838574424,
      "loss": 0.4535,
      "num_input_tokens_seen": 2298008,
      "step": 3525
    },
    {
      "epoch": 1.850104821802935,
      "grad_norm": 0.0655469000339508,
      "learning_rate": 0.00092479035639413,
      "loss": 0.5461,
      "num_input_tokens_seen": 2301432,
      "step": 3530
    },
    {
      "epoch": 1.8527253668763102,
      "grad_norm": 0.09190333634614944,
      "learning_rate": 0.0009261006289308176,
      "loss": 0.4555,
      "num_input_tokens_seen": 2304280,
      "step": 3535
    },
    {
      "epoch": 1.8553459119496856,
      "grad_norm": 0.04623930901288986,
      "learning_rate": 0.0009274109014675053,
      "loss": 0.5615,
      "num_input_tokens_seen": 2307864,
      "step": 3540
    },
    {
      "epoch": 1.857966457023061,
      "grad_norm": 0.14951756596565247,
      "learning_rate": 0.0009287211740041929,
      "loss": 0.4568,
      "num_input_tokens_seen": 2311352,
      "step": 3545
    },
    {
      "epoch": 1.8605870020964361,
      "grad_norm": 0.0809863954782486,
      "learning_rate": 0.0009300314465408806,
      "loss": 0.4915,
      "num_input_tokens_seen": 2315128,
      "step": 3550
    },
    {
      "epoch": 1.8632075471698113,
      "grad_norm": 0.07580704987049103,
      "learning_rate": 0.0009313417190775681,
      "loss": 0.5188,
      "num_input_tokens_seen": 2318968,
      "step": 3555
    },
    {
      "epoch": 1.8658280922431865,
      "grad_norm": 0.07513662427663803,
      "learning_rate": 0.0009326519916142557,
      "loss": 0.6106,
      "num_input_tokens_seen": 2321464,
      "step": 3560
    },
    {
      "epoch": 1.8684486373165619,
      "grad_norm": 0.07940556108951569,
      "learning_rate": 0.0009339622641509434,
      "loss": 0.3746,
      "num_input_tokens_seen": 2324312,
      "step": 3565
    },
    {
      "epoch": 1.8710691823899372,
      "grad_norm": 0.1978152096271515,
      "learning_rate": 0.000935272536687631,
      "loss": 0.3584,
      "num_input_tokens_seen": 2327384,
      "step": 3570
    },
    {
      "epoch": 1.8736897274633124,
      "grad_norm": 0.08844789117574692,
      "learning_rate": 0.0009365828092243187,
      "loss": 0.5127,
      "num_input_tokens_seen": 2330072,
      "step": 3575
    },
    {
      "epoch": 1.8763102725366876,
      "grad_norm": 0.15018557012081146,
      "learning_rate": 0.0009378930817610063,
      "loss": 0.5253,
      "num_input_tokens_seen": 2332920,
      "step": 3580
    },
    {
      "epoch": 1.8789308176100628,
      "grad_norm": 0.12738929688930511,
      "learning_rate": 0.0009392033542976939,
      "loss": 0.4186,
      "num_input_tokens_seen": 2335608,
      "step": 3585
    },
    {
      "epoch": 1.8815513626834381,
      "grad_norm": 0.10653700679540634,
      "learning_rate": 0.0009405136268343816,
      "loss": 0.3953,
      "num_input_tokens_seen": 2338360,
      "step": 3590
    },
    {
      "epoch": 1.8841719077568135,
      "grad_norm": 0.2899511456489563,
      "learning_rate": 0.0009418238993710692,
      "loss": 0.6013,
      "num_input_tokens_seen": 2341592,
      "step": 3595
    },
    {
      "epoch": 1.8867924528301887,
      "grad_norm": 0.0821024477481842,
      "learning_rate": 0.0009431341719077569,
      "loss": 0.2782,
      "num_input_tokens_seen": 2344504,
      "step": 3600
    },
    {
      "epoch": 1.8894129979035639,
      "grad_norm": 0.08080390840768814,
      "learning_rate": 0.0009444444444444445,
      "loss": 0.5288,
      "num_input_tokens_seen": 2347800,
      "step": 3605
    },
    {
      "epoch": 1.892033542976939,
      "grad_norm": 0.10653094947338104,
      "learning_rate": 0.0009457547169811322,
      "loss": 0.5218,
      "num_input_tokens_seen": 2351320,
      "step": 3610
    },
    {
      "epoch": 1.8946540880503144,
      "grad_norm": 0.16816018521785736,
      "learning_rate": 0.0009470649895178197,
      "loss": 0.5069,
      "num_input_tokens_seen": 2354296,
      "step": 3615
    },
    {
      "epoch": 1.8972746331236898,
      "grad_norm": 0.07413181662559509,
      "learning_rate": 0.0009483752620545073,
      "loss": 0.5265,
      "num_input_tokens_seen": 2357592,
      "step": 3620
    },
    {
      "epoch": 1.899895178197065,
      "grad_norm": 0.09529723227024078,
      "learning_rate": 0.000949685534591195,
      "loss": 0.5066,
      "num_input_tokens_seen": 2360824,
      "step": 3625
    },
    {
      "epoch": 1.9025157232704402,
      "grad_norm": 0.08594149351119995,
      "learning_rate": 0.0009509958071278826,
      "loss": 0.4515,
      "num_input_tokens_seen": 2364280,
      "step": 3630
    },
    {
      "epoch": 1.9051362683438156,
      "grad_norm": 0.09488385915756226,
      "learning_rate": 0.0009523060796645703,
      "loss": 0.5197,
      "num_input_tokens_seen": 2367032,
      "step": 3635
    },
    {
      "epoch": 1.9077568134171907,
      "grad_norm": 0.15756596624851227,
      "learning_rate": 0.0009536163522012579,
      "loss": 0.5134,
      "num_input_tokens_seen": 2369816,
      "step": 3640
    },
    {
      "epoch": 1.9103773584905661,
      "grad_norm": 0.05116698145866394,
      "learning_rate": 0.0009549266247379456,
      "loss": 0.6135,
      "num_input_tokens_seen": 2373272,
      "step": 3645
    },
    {
      "epoch": 1.9129979035639413,
      "grad_norm": 0.08024808019399643,
      "learning_rate": 0.0009562368972746331,
      "loss": 0.3964,
      "num_input_tokens_seen": 2376184,
      "step": 3650
    },
    {
      "epoch": 1.9156184486373165,
      "grad_norm": 0.12415369600057602,
      "learning_rate": 0.0009575471698113207,
      "loss": 0.532,
      "num_input_tokens_seen": 2379672,
      "step": 3655
    },
    {
      "epoch": 1.9182389937106918,
      "grad_norm": 0.06933091580867767,
      "learning_rate": 0.0009588574423480084,
      "loss": 0.6871,
      "num_input_tokens_seen": 2383032,
      "step": 3660
    },
    {
      "epoch": 1.9208595387840672,
      "grad_norm": 0.07972016930580139,
      "learning_rate": 0.000960167714884696,
      "loss": 0.5221,
      "num_input_tokens_seen": 2385592,
      "step": 3665
    },
    {
      "epoch": 1.9234800838574424,
      "grad_norm": 0.07098955661058426,
      "learning_rate": 0.0009614779874213837,
      "loss": 0.4164,
      "num_input_tokens_seen": 2389176,
      "step": 3670
    },
    {
      "epoch": 1.9261006289308176,
      "grad_norm": 0.21159832179546356,
      "learning_rate": 0.0009627882599580712,
      "loss": 0.4934,
      "num_input_tokens_seen": 2392216,
      "step": 3675
    },
    {
      "epoch": 1.9287211740041927,
      "grad_norm": 0.08630673587322235,
      "learning_rate": 0.0009640985324947589,
      "loss": 0.5966,
      "num_input_tokens_seen": 2395608,
      "step": 3680
    },
    {
      "epoch": 1.9313417190775681,
      "grad_norm": 0.17706497013568878,
      "learning_rate": 0.0009654088050314465,
      "loss": 0.6529,
      "num_input_tokens_seen": 2398744,
      "step": 3685
    },
    {
      "epoch": 1.9339622641509435,
      "grad_norm": 0.10249374061822891,
      "learning_rate": 0.0009667190775681342,
      "loss": 0.3669,
      "num_input_tokens_seen": 2401720,
      "step": 3690
    },
    {
      "epoch": 1.9365828092243187,
      "grad_norm": 0.14329980313777924,
      "learning_rate": 0.0009680293501048219,
      "loss": 0.3964,
      "num_input_tokens_seen": 2404760,
      "step": 3695
    },
    {
      "epoch": 1.9392033542976939,
      "grad_norm": 0.14524371922016144,
      "learning_rate": 0.0009693396226415095,
      "loss": 0.6577,
      "num_input_tokens_seen": 2408024,
      "step": 3700
    },
    {
      "epoch": 1.941823899371069,
      "grad_norm": 0.1533733457326889,
      "learning_rate": 0.0009706498951781972,
      "loss": 0.5775,
      "num_input_tokens_seen": 2411160,
      "step": 3705
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 0.1309734731912613,
      "learning_rate": 0.0009719601677148847,
      "loss": 0.5571,
      "num_input_tokens_seen": 2414296,
      "step": 3710
    },
    {
      "epoch": 1.9470649895178198,
      "grad_norm": 0.0873456746339798,
      "learning_rate": 0.0009732704402515723,
      "loss": 0.494,
      "num_input_tokens_seen": 2418456,
      "step": 3715
    },
    {
      "epoch": 1.949685534591195,
      "grad_norm": 0.1410975605249405,
      "learning_rate": 0.00097458071278826,
      "loss": 0.5374,
      "num_input_tokens_seen": 2420952,
      "step": 3720
    },
    {
      "epoch": 1.9523060796645701,
      "grad_norm": 0.10661415755748749,
      "learning_rate": 0.0009758909853249476,
      "loss": 0.4033,
      "num_input_tokens_seen": 2424472,
      "step": 3725
    },
    {
      "epoch": 1.9549266247379455,
      "grad_norm": 0.15663771331310272,
      "learning_rate": 0.0009772012578616353,
      "loss": 0.6384,
      "num_input_tokens_seen": 2427064,
      "step": 3730
    },
    {
      "epoch": 1.9575471698113207,
      "grad_norm": 0.164334237575531,
      "learning_rate": 0.0009785115303983228,
      "loss": 0.5341,
      "num_input_tokens_seen": 2430072,
      "step": 3735
    },
    {
      "epoch": 1.960167714884696,
      "grad_norm": 0.1564856916666031,
      "learning_rate": 0.0009798218029350107,
      "loss": 0.3823,
      "num_input_tokens_seen": 2433016,
      "step": 3740
    },
    {
      "epoch": 1.9627882599580713,
      "grad_norm": 0.06017053499817848,
      "learning_rate": 0.0009811320754716981,
      "loss": 0.553,
      "num_input_tokens_seen": 2436536,
      "step": 3745
    },
    {
      "epoch": 1.9654088050314464,
      "grad_norm": 0.07987046241760254,
      "learning_rate": 0.0009824423480083858,
      "loss": 0.4687,
      "num_input_tokens_seen": 2439736,
      "step": 3750
    },
    {
      "epoch": 1.9680293501048218,
      "grad_norm": 0.067244753241539,
      "learning_rate": 0.0009837526205450735,
      "loss": 0.5309,
      "num_input_tokens_seen": 2443576,
      "step": 3755
    },
    {
      "epoch": 1.9706498951781972,
      "grad_norm": 0.11208071559667587,
      "learning_rate": 0.000985062893081761,
      "loss": 0.4253,
      "num_input_tokens_seen": 2447128,
      "step": 3760
    },
    {
      "epoch": 1.9732704402515724,
      "grad_norm": 0.12474099546670914,
      "learning_rate": 0.0009863731656184487,
      "loss": 0.4684,
      "num_input_tokens_seen": 2449944,
      "step": 3765
    },
    {
      "epoch": 1.9758909853249476,
      "grad_norm": 0.035499051213264465,
      "learning_rate": 0.0009876834381551364,
      "loss": 0.4067,
      "num_input_tokens_seen": 2455384,
      "step": 3770
    },
    {
      "epoch": 1.9785115303983227,
      "grad_norm": 0.10778450965881348,
      "learning_rate": 0.0009889937106918238,
      "loss": 0.6753,
      "num_input_tokens_seen": 2459512,
      "step": 3775
    },
    {
      "epoch": 1.9811320754716981,
      "grad_norm": 0.06133003160357475,
      "learning_rate": 0.0009903039832285115,
      "loss": 0.6189,
      "num_input_tokens_seen": 2461688,
      "step": 3780
    },
    {
      "epoch": 1.9837526205450735,
      "grad_norm": 0.09529236704111099,
      "learning_rate": 0.0009916142557651992,
      "loss": 0.4772,
      "num_input_tokens_seen": 2468504,
      "step": 3785
    },
    {
      "epoch": 1.9863731656184487,
      "grad_norm": 0.055360447615385056,
      "learning_rate": 0.000992924528301887,
      "loss": 0.4366,
      "num_input_tokens_seen": 2471384,
      "step": 3790
    },
    {
      "epoch": 1.9889937106918238,
      "grad_norm": 0.08132624626159668,
      "learning_rate": 0.0009942348008385744,
      "loss": 0.4041,
      "num_input_tokens_seen": 2474168,
      "step": 3795
    },
    {
      "epoch": 1.991614255765199,
      "grad_norm": 0.06653928756713867,
      "learning_rate": 0.000995545073375262,
      "loss": 0.3895,
      "num_input_tokens_seen": 2481240,
      "step": 3800
    },
    {
      "epoch": 1.9942348008385744,
      "grad_norm": 0.08933381736278534,
      "learning_rate": 0.0009968553459119497,
      "loss": 0.5734,
      "num_input_tokens_seen": 2485048,
      "step": 3805
    },
    {
      "epoch": 1.9968553459119498,
      "grad_norm": 0.05474289506673813,
      "learning_rate": 0.0009981656184486372,
      "loss": 0.5139,
      "num_input_tokens_seen": 2487896,
      "step": 3810
    },
    {
      "epoch": 1.999475890985325,
      "grad_norm": 0.09102646261453629,
      "learning_rate": 0.000999475890985325,
      "loss": 0.4818,
      "num_input_tokens_seen": 2495960,
      "step": 3815
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.49110984802246094,
      "eval_runtime": 13.5963,
      "eval_samples_per_second": 62.37,
      "eval_steps_per_second": 15.592,
      "num_input_tokens_seen": 2496088,
      "step": 3816
    },
    {
      "epoch": 2.0020964360587,
      "grad_norm": 0.15402650833129883,
      "learning_rate": 0.0009999999811730266,
      "loss": 0.5138,
      "num_input_tokens_seen": 2498744,
      "step": 3820
    },
    {
      "epoch": 2.0047169811320753,
      "grad_norm": 0.18564355373382568,
      "learning_rate": 0.000999999866119305,
      "loss": 0.443,
      "num_input_tokens_seen": 2501560,
      "step": 3825
    },
    {
      "epoch": 2.007337526205451,
      "grad_norm": 0.09604350477457047,
      "learning_rate": 0.000999999646471316,
      "loss": 0.5072,
      "num_input_tokens_seen": 2505528,
      "step": 3830
    },
    {
      "epoch": 2.009958071278826,
      "grad_norm": 0.11587883532047272,
      "learning_rate": 0.0009999993222291053,
      "loss": 0.6539,
      "num_input_tokens_seen": 2507992,
      "step": 3835
    },
    {
      "epoch": 2.0125786163522013,
      "grad_norm": 0.07593758404254913,
      "learning_rate": 0.0009999988933927404,
      "loss": 0.5411,
      "num_input_tokens_seen": 2511416,
      "step": 3840
    },
    {
      "epoch": 2.0151991614255764,
      "grad_norm": 0.1101929247379303,
      "learning_rate": 0.0009999983599623115,
      "loss": 0.4212,
      "num_input_tokens_seen": 2514264,
      "step": 3845
    },
    {
      "epoch": 2.0178197064989516,
      "grad_norm": 0.1195835992693901,
      "learning_rate": 0.0009999977219379299,
      "loss": 0.5183,
      "num_input_tokens_seen": 2518424,
      "step": 3850
    },
    {
      "epoch": 2.020440251572327,
      "grad_norm": 0.10370364040136337,
      "learning_rate": 0.000999996979319729,
      "loss": 0.5166,
      "num_input_tokens_seen": 2521048,
      "step": 3855
    },
    {
      "epoch": 2.0230607966457024,
      "grad_norm": 0.17964483797550201,
      "learning_rate": 0.0009999961321078645,
      "loss": 0.5165,
      "num_input_tokens_seen": 2525176,
      "step": 3860
    },
    {
      "epoch": 2.0256813417190775,
      "grad_norm": 0.10364525765180588,
      "learning_rate": 0.0009999951803025134,
      "loss": 0.453,
      "num_input_tokens_seen": 2528568,
      "step": 3865
    },
    {
      "epoch": 2.0283018867924527,
      "grad_norm": 0.11001569032669067,
      "learning_rate": 0.0009999941239038747,
      "loss": 0.5154,
      "num_input_tokens_seen": 2531832,
      "step": 3870
    },
    {
      "epoch": 2.030922431865828,
      "grad_norm": 0.09602820873260498,
      "learning_rate": 0.0009999929629121696,
      "loss": 0.4529,
      "num_input_tokens_seen": 2535224,
      "step": 3875
    },
    {
      "epoch": 2.0335429769392035,
      "grad_norm": 0.08814221620559692,
      "learning_rate": 0.000999991697327641,
      "loss": 0.5201,
      "num_input_tokens_seen": 2538456,
      "step": 3880
    },
    {
      "epoch": 2.0361635220125787,
      "grad_norm": 0.07042692601680756,
      "learning_rate": 0.0009999903271505535,
      "loss": 0.5713,
      "num_input_tokens_seen": 2542040,
      "step": 3885
    },
    {
      "epoch": 2.038784067085954,
      "grad_norm": 0.06549818068742752,
      "learning_rate": 0.0009999888523811935,
      "loss": 0.4225,
      "num_input_tokens_seen": 2544920,
      "step": 3890
    },
    {
      "epoch": 2.041404612159329,
      "grad_norm": 0.06356630474328995,
      "learning_rate": 0.00099998727301987,
      "loss": 0.4983,
      "num_input_tokens_seen": 2548088,
      "step": 3895
    },
    {
      "epoch": 2.0440251572327046,
      "grad_norm": 0.07929395884275436,
      "learning_rate": 0.000999985589066913,
      "loss": 0.551,
      "num_input_tokens_seen": 2551704,
      "step": 3900
    },
    {
      "epoch": 2.04664570230608,
      "grad_norm": 0.08890054374933243,
      "learning_rate": 0.000999983800522675,
      "loss": 0.4835,
      "num_input_tokens_seen": 2555320,
      "step": 3905
    },
    {
      "epoch": 2.049266247379455,
      "grad_norm": 0.13632355630397797,
      "learning_rate": 0.00099998190738753,
      "loss": 0.5354,
      "num_input_tokens_seen": 2558808,
      "step": 3910
    },
    {
      "epoch": 2.05188679245283,
      "grad_norm": 0.34680354595184326,
      "learning_rate": 0.000999979909661874,
      "loss": 0.5528,
      "num_input_tokens_seen": 2561976,
      "step": 3915
    },
    {
      "epoch": 2.0545073375262053,
      "grad_norm": 0.15519091486930847,
      "learning_rate": 0.000999977807346125,
      "loss": 0.5285,
      "num_input_tokens_seen": 2564696,
      "step": 3920
    },
    {
      "epoch": 2.057127882599581,
      "grad_norm": 0.3291857838630676,
      "learning_rate": 0.000999975600440723,
      "loss": 0.4546,
      "num_input_tokens_seen": 2567160,
      "step": 3925
    },
    {
      "epoch": 2.059748427672956,
      "grad_norm": 0.10983995348215103,
      "learning_rate": 0.000999973288946129,
      "loss": 0.4114,
      "num_input_tokens_seen": 2570520,
      "step": 3930
    },
    {
      "epoch": 2.0623689727463312,
      "grad_norm": 0.1266445815563202,
      "learning_rate": 0.0009999708728628271,
      "loss": 0.3807,
      "num_input_tokens_seen": 2573528,
      "step": 3935
    },
    {
      "epoch": 2.0649895178197064,
      "grad_norm": 0.12070214003324509,
      "learning_rate": 0.0009999683521913227,
      "loss": 0.4666,
      "num_input_tokens_seen": 2575864,
      "step": 3940
    },
    {
      "epoch": 2.0676100628930816,
      "grad_norm": 0.10515657812356949,
      "learning_rate": 0.000999965726932143,
      "loss": 0.4531,
      "num_input_tokens_seen": 2578776,
      "step": 3945
    },
    {
      "epoch": 2.070230607966457,
      "grad_norm": 0.10403022170066833,
      "learning_rate": 0.0009999629970858371,
      "loss": 0.4605,
      "num_input_tokens_seen": 2581240,
      "step": 3950
    },
    {
      "epoch": 2.0728511530398324,
      "grad_norm": 0.10017449408769608,
      "learning_rate": 0.000999960162652976,
      "loss": 0.7155,
      "num_input_tokens_seen": 2584056,
      "step": 3955
    },
    {
      "epoch": 2.0754716981132075,
      "grad_norm": 0.12735430896282196,
      "learning_rate": 0.0009999572236341527,
      "loss": 0.5883,
      "num_input_tokens_seen": 2587032,
      "step": 3960
    },
    {
      "epoch": 2.0780922431865827,
      "grad_norm": 0.07333351671695709,
      "learning_rate": 0.000999954180029982,
      "loss": 0.4767,
      "num_input_tokens_seen": 2590424,
      "step": 3965
    },
    {
      "epoch": 2.080712788259958,
      "grad_norm": 0.1153181716799736,
      "learning_rate": 0.0009999510318411007,
      "loss": 0.6743,
      "num_input_tokens_seen": 2594040,
      "step": 3970
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.09537350386381149,
      "learning_rate": 0.0009999477790681673,
      "loss": 0.4899,
      "num_input_tokens_seen": 2596856,
      "step": 3975
    },
    {
      "epoch": 2.0859538784067087,
      "grad_norm": 0.2271127700805664,
      "learning_rate": 0.000999944421711862,
      "loss": 0.573,
      "num_input_tokens_seen": 2599736,
      "step": 3980
    },
    {
      "epoch": 2.088574423480084,
      "grad_norm": 0.06534940004348755,
      "learning_rate": 0.0009999409597728876,
      "loss": 0.3464,
      "num_input_tokens_seen": 2602392,
      "step": 3985
    },
    {
      "epoch": 2.091194968553459,
      "grad_norm": 0.11983191967010498,
      "learning_rate": 0.0009999373932519679,
      "loss": 0.4814,
      "num_input_tokens_seen": 2605592,
      "step": 3990
    },
    {
      "epoch": 2.0938155136268346,
      "grad_norm": 0.09365177899599075,
      "learning_rate": 0.0009999337221498492,
      "loss": 0.4396,
      "num_input_tokens_seen": 2608760,
      "step": 3995
    },
    {
      "epoch": 2.0964360587002098,
      "grad_norm": 0.08611613512039185,
      "learning_rate": 0.0009999299464672996,
      "loss": 0.5198,
      "num_input_tokens_seen": 2611672,
      "step": 4000
    },
    {
      "epoch": 2.099056603773585,
      "grad_norm": 0.13647453486919403,
      "learning_rate": 0.0009999260662051084,
      "loss": 0.509,
      "num_input_tokens_seen": 2616504,
      "step": 4005
    },
    {
      "epoch": 2.10167714884696,
      "grad_norm": 0.0982130840420723,
      "learning_rate": 0.0009999220813640877,
      "loss": 0.4279,
      "num_input_tokens_seen": 2619320,
      "step": 4010
    },
    {
      "epoch": 2.1042976939203353,
      "grad_norm": 0.17071546614170074,
      "learning_rate": 0.000999917991945071,
      "loss": 0.4749,
      "num_input_tokens_seen": 2621784,
      "step": 4015
    },
    {
      "epoch": 2.106918238993711,
      "grad_norm": 0.071220263838768,
      "learning_rate": 0.0009999137979489136,
      "loss": 0.5885,
      "num_input_tokens_seen": 2624792,
      "step": 4020
    },
    {
      "epoch": 2.109538784067086,
      "grad_norm": 0.10562766343355179,
      "learning_rate": 0.000999909499376493,
      "loss": 0.5029,
      "num_input_tokens_seen": 2628152,
      "step": 4025
    },
    {
      "epoch": 2.1121593291404612,
      "grad_norm": 0.12657935917377472,
      "learning_rate": 0.0009999050962287085,
      "loss": 0.5103,
      "num_input_tokens_seen": 2630648,
      "step": 4030
    },
    {
      "epoch": 2.1147798742138364,
      "grad_norm": 0.09630019962787628,
      "learning_rate": 0.0009999005885064811,
      "loss": 0.509,
      "num_input_tokens_seen": 2634040,
      "step": 4035
    },
    {
      "epoch": 2.1174004192872116,
      "grad_norm": 0.11798368394374847,
      "learning_rate": 0.0009998959762107537,
      "loss": 0.4626,
      "num_input_tokens_seen": 2637304,
      "step": 4040
    },
    {
      "epoch": 2.120020964360587,
      "grad_norm": 0.11642810702323914,
      "learning_rate": 0.0009998912593424914,
      "loss": 0.6283,
      "num_input_tokens_seen": 2640024,
      "step": 4045
    },
    {
      "epoch": 2.1226415094339623,
      "grad_norm": 0.08264951407909393,
      "learning_rate": 0.0009998864379026804,
      "loss": 0.4981,
      "num_input_tokens_seen": 2642968,
      "step": 4050
    },
    {
      "epoch": 2.1252620545073375,
      "grad_norm": 0.12408538162708282,
      "learning_rate": 0.00099988151189233,
      "loss": 0.4337,
      "num_input_tokens_seen": 2646584,
      "step": 4055
    },
    {
      "epoch": 2.1278825995807127,
      "grad_norm": 0.087428018450737,
      "learning_rate": 0.00099987648131247,
      "loss": 0.5769,
      "num_input_tokens_seen": 2649080,
      "step": 4060
    },
    {
      "epoch": 2.130503144654088,
      "grad_norm": 0.09092822670936584,
      "learning_rate": 0.000999871346164153,
      "loss": 0.5461,
      "num_input_tokens_seen": 2652600,
      "step": 4065
    },
    {
      "epoch": 2.1331236897274635,
      "grad_norm": 0.0999763011932373,
      "learning_rate": 0.0009998661064484532,
      "loss": 0.3997,
      "num_input_tokens_seen": 2659192,
      "step": 4070
    },
    {
      "epoch": 2.1357442348008386,
      "grad_norm": 0.12410322576761246,
      "learning_rate": 0.0009998607621664666,
      "loss": 0.5704,
      "num_input_tokens_seen": 2662968,
      "step": 4075
    },
    {
      "epoch": 2.138364779874214,
      "grad_norm": 0.13042405247688293,
      "learning_rate": 0.0009998553133193113,
      "loss": 0.6969,
      "num_input_tokens_seen": 2666776,
      "step": 4080
    },
    {
      "epoch": 2.140985324947589,
      "grad_norm": 0.2008342146873474,
      "learning_rate": 0.0009998497599081272,
      "loss": 0.4974,
      "num_input_tokens_seen": 2669656,
      "step": 4085
    },
    {
      "epoch": 2.1436058700209646,
      "grad_norm": 0.10470675677061081,
      "learning_rate": 0.0009998441019340761,
      "loss": 0.5333,
      "num_input_tokens_seen": 2672984,
      "step": 4090
    },
    {
      "epoch": 2.1462264150943398,
      "grad_norm": 0.12279827147722244,
      "learning_rate": 0.000999838339398341,
      "loss": 0.6137,
      "num_input_tokens_seen": 2676792,
      "step": 4095
    },
    {
      "epoch": 2.148846960167715,
      "grad_norm": 0.10685952007770538,
      "learning_rate": 0.000999832472302128,
      "loss": 0.4369,
      "num_input_tokens_seen": 2679640,
      "step": 4100
    },
    {
      "epoch": 2.15146750524109,
      "grad_norm": 0.0646611675620079,
      "learning_rate": 0.0009998265006466642,
      "loss": 0.5063,
      "num_input_tokens_seen": 2687448,
      "step": 4105
    },
    {
      "epoch": 2.1540880503144653,
      "grad_norm": 0.10824086517095566,
      "learning_rate": 0.0009998204244331987,
      "loss": 0.5717,
      "num_input_tokens_seen": 2690104,
      "step": 4110
    },
    {
      "epoch": 2.156708595387841,
      "grad_norm": 0.10666945576667786,
      "learning_rate": 0.0009998142436630027,
      "loss": 0.5233,
      "num_input_tokens_seen": 2693400,
      "step": 4115
    },
    {
      "epoch": 2.159329140461216,
      "grad_norm": 0.13666357100009918,
      "learning_rate": 0.0009998079583373692,
      "loss": 0.4023,
      "num_input_tokens_seen": 2696504,
      "step": 4120
    },
    {
      "epoch": 2.161949685534591,
      "grad_norm": 0.14457787573337555,
      "learning_rate": 0.0009998015684576128,
      "loss": 0.3822,
      "num_input_tokens_seen": 2699768,
      "step": 4125
    },
    {
      "epoch": 2.1645702306079664,
      "grad_norm": 0.0836787074804306,
      "learning_rate": 0.0009997950740250703,
      "loss": 0.5485,
      "num_input_tokens_seen": 2703320,
      "step": 4130
    },
    {
      "epoch": 2.1671907756813416,
      "grad_norm": 0.6329736113548279,
      "learning_rate": 0.0009997884750411004,
      "loss": 0.4918,
      "num_input_tokens_seen": 2706264,
      "step": 4135
    },
    {
      "epoch": 2.169811320754717,
      "grad_norm": 0.06454643607139587,
      "learning_rate": 0.0009997817715070832,
      "loss": 0.6303,
      "num_input_tokens_seen": 2713464,
      "step": 4140
    },
    {
      "epoch": 2.1724318658280923,
      "grad_norm": 0.0578746572136879,
      "learning_rate": 0.0009997749634244213,
      "loss": 0.5222,
      "num_input_tokens_seen": 2717912,
      "step": 4145
    },
    {
      "epoch": 2.1750524109014675,
      "grad_norm": 0.1264982521533966,
      "learning_rate": 0.000999768050794539,
      "loss": 0.4856,
      "num_input_tokens_seen": 2720504,
      "step": 4150
    },
    {
      "epoch": 2.1776729559748427,
      "grad_norm": 0.08300186693668365,
      "learning_rate": 0.0009997610336188818,
      "loss": 0.4293,
      "num_input_tokens_seen": 2723256,
      "step": 4155
    },
    {
      "epoch": 2.180293501048218,
      "grad_norm": 0.06148364767432213,
      "learning_rate": 0.0009997539118989183,
      "loss": 0.4054,
      "num_input_tokens_seen": 2726488,
      "step": 4160
    },
    {
      "epoch": 2.1829140461215935,
      "grad_norm": 0.07775657624006271,
      "learning_rate": 0.0009997466856361376,
      "loss": 0.5231,
      "num_input_tokens_seen": 2729880,
      "step": 4165
    },
    {
      "epoch": 2.1855345911949686,
      "grad_norm": 0.08365071564912796,
      "learning_rate": 0.000999739354832052,
      "loss": 0.5591,
      "num_input_tokens_seen": 2733080,
      "step": 4170
    },
    {
      "epoch": 2.188155136268344,
      "grad_norm": 0.0379410982131958,
      "learning_rate": 0.0009997319194881944,
      "loss": 0.4624,
      "num_input_tokens_seen": 2736792,
      "step": 4175
    },
    {
      "epoch": 2.190775681341719,
      "grad_norm": 0.0659746453166008,
      "learning_rate": 0.0009997243796061204,
      "loss": 0.6842,
      "num_input_tokens_seen": 2739480,
      "step": 4180
    },
    {
      "epoch": 2.1933962264150946,
      "grad_norm": 0.07908429950475693,
      "learning_rate": 0.0009997167351874076,
      "loss": 0.498,
      "num_input_tokens_seen": 2743512,
      "step": 4185
    },
    {
      "epoch": 2.1960167714884697,
      "grad_norm": 0.13442154228687286,
      "learning_rate": 0.0009997089862336548,
      "loss": 0.5017,
      "num_input_tokens_seen": 2746744,
      "step": 4190
    },
    {
      "epoch": 2.198637316561845,
      "grad_norm": 0.1017022579908371,
      "learning_rate": 0.000999701132746483,
      "loss": 0.4782,
      "num_input_tokens_seen": 2749496,
      "step": 4195
    },
    {
      "epoch": 2.20125786163522,
      "grad_norm": 0.08212389796972275,
      "learning_rate": 0.0009996931747275352,
      "loss": 0.7707,
      "num_input_tokens_seen": 2752792,
      "step": 4200
    },
    {
      "epoch": 2.2038784067085953,
      "grad_norm": 0.06382124871015549,
      "learning_rate": 0.000999685112178476,
      "loss": 0.5288,
      "num_input_tokens_seen": 2755832,
      "step": 4205
    },
    {
      "epoch": 2.2064989517819704,
      "grad_norm": 0.05357949435710907,
      "learning_rate": 0.0009996769451009922,
      "loss": 0.6021,
      "num_input_tokens_seen": 2758744,
      "step": 4210
    },
    {
      "epoch": 2.209119496855346,
      "grad_norm": 0.13627329468727112,
      "learning_rate": 0.000999668673496792,
      "loss": 0.4429,
      "num_input_tokens_seen": 2762104,
      "step": 4215
    },
    {
      "epoch": 2.211740041928721,
      "grad_norm": 0.06642858684062958,
      "learning_rate": 0.0009996602973676057,
      "loss": 0.4372,
      "num_input_tokens_seen": 2765144,
      "step": 4220
    },
    {
      "epoch": 2.2143605870020964,
      "grad_norm": 0.07271768152713776,
      "learning_rate": 0.0009996518167151858,
      "loss": 0.4734,
      "num_input_tokens_seen": 2768760,
      "step": 4225
    },
    {
      "epoch": 2.2169811320754715,
      "grad_norm": 0.08136157691478729,
      "learning_rate": 0.000999643231541306,
      "loss": 0.5039,
      "num_input_tokens_seen": 2772056,
      "step": 4230
    },
    {
      "epoch": 2.219601677148847,
      "grad_norm": 0.11789694428443909,
      "learning_rate": 0.0009996345418477625,
      "loss": 0.4832,
      "num_input_tokens_seen": 2775352,
      "step": 4235
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.061515506356954575,
      "learning_rate": 0.000999625747636373,
      "loss": 0.4618,
      "num_input_tokens_seen": 2778840,
      "step": 4240
    },
    {
      "epoch": 2.2248427672955975,
      "grad_norm": 0.11274693161249161,
      "learning_rate": 0.000999616848908977,
      "loss": 0.6119,
      "num_input_tokens_seen": 2781656,
      "step": 4245
    },
    {
      "epoch": 2.2274633123689727,
      "grad_norm": 0.252329021692276,
      "learning_rate": 0.0009996078456674363,
      "loss": 0.4331,
      "num_input_tokens_seen": 2784888,
      "step": 4250
    },
    {
      "epoch": 2.230083857442348,
      "grad_norm": 0.22602729499340057,
      "learning_rate": 0.000999598737913634,
      "loss": 0.5531,
      "num_input_tokens_seen": 2788024,
      "step": 4255
    },
    {
      "epoch": 2.2327044025157234,
      "grad_norm": 0.11318030208349228,
      "learning_rate": 0.0009995895256494755,
      "loss": 0.4487,
      "num_input_tokens_seen": 2791928,
      "step": 4260
    },
    {
      "epoch": 2.2353249475890986,
      "grad_norm": 0.2578224241733551,
      "learning_rate": 0.000999580208876888,
      "loss": 0.4613,
      "num_input_tokens_seen": 2794648,
      "step": 4265
    },
    {
      "epoch": 2.237945492662474,
      "grad_norm": 0.032860346138477325,
      "learning_rate": 0.0009995707875978198,
      "loss": 0.2453,
      "num_input_tokens_seen": 2798648,
      "step": 4270
    },
    {
      "epoch": 2.240566037735849,
      "grad_norm": 0.06807757914066315,
      "learning_rate": 0.0009995612618142428,
      "loss": 0.4406,
      "num_input_tokens_seen": 2803064,
      "step": 4275
    },
    {
      "epoch": 2.243186582809224,
      "grad_norm": 0.05352725833654404,
      "learning_rate": 0.000999551631528149,
      "loss": 0.4306,
      "num_input_tokens_seen": 2806200,
      "step": 4280
    },
    {
      "epoch": 2.2458071278825997,
      "grad_norm": 0.05694751814007759,
      "learning_rate": 0.000999541896741553,
      "loss": 0.6035,
      "num_input_tokens_seen": 2809816,
      "step": 4285
    },
    {
      "epoch": 2.248427672955975,
      "grad_norm": 0.10263691842556,
      "learning_rate": 0.0009995320574564912,
      "loss": 0.5136,
      "num_input_tokens_seen": 2812696,
      "step": 4290
    },
    {
      "epoch": 2.25104821802935,
      "grad_norm": 0.07971782982349396,
      "learning_rate": 0.000999522113675022,
      "loss": 0.4485,
      "num_input_tokens_seen": 2815992,
      "step": 4295
    },
    {
      "epoch": 2.2536687631027252,
      "grad_norm": 0.0791889950633049,
      "learning_rate": 0.0009995120653992255,
      "loss": 0.5039,
      "num_input_tokens_seen": 2818712,
      "step": 4300
    },
    {
      "epoch": 2.2562893081761004,
      "grad_norm": 0.08467638492584229,
      "learning_rate": 0.0009995019126312035,
      "loss": 0.4264,
      "num_input_tokens_seen": 2822008,
      "step": 4305
    },
    {
      "epoch": 2.258909853249476,
      "grad_norm": 0.2628744840621948,
      "learning_rate": 0.0009994916553730802,
      "loss": 0.5986,
      "num_input_tokens_seen": 2825176,
      "step": 4310
    },
    {
      "epoch": 2.261530398322851,
      "grad_norm": 0.09671159088611603,
      "learning_rate": 0.000999481293627001,
      "loss": 0.5548,
      "num_input_tokens_seen": 2827576,
      "step": 4315
    },
    {
      "epoch": 2.2641509433962264,
      "grad_norm": 0.25060445070266724,
      "learning_rate": 0.0009994708273951337,
      "loss": 0.4238,
      "num_input_tokens_seen": 2830872,
      "step": 4320
    },
    {
      "epoch": 2.2667714884696015,
      "grad_norm": 0.14385968446731567,
      "learning_rate": 0.0009994602566796673,
      "loss": 0.5095,
      "num_input_tokens_seen": 2834392,
      "step": 4325
    },
    {
      "epoch": 2.269392033542977,
      "grad_norm": 0.08846984803676605,
      "learning_rate": 0.0009994495814828136,
      "loss": 0.4575,
      "num_input_tokens_seen": 2838424,
      "step": 4330
    },
    {
      "epoch": 2.2720125786163523,
      "grad_norm": 0.09884006530046463,
      "learning_rate": 0.0009994388018068055,
      "loss": 0.5315,
      "num_input_tokens_seen": 2841144,
      "step": 4335
    },
    {
      "epoch": 2.2746331236897275,
      "grad_norm": 0.15186937153339386,
      "learning_rate": 0.0009994279176538977,
      "loss": 0.5327,
      "num_input_tokens_seen": 2843992,
      "step": 4340
    },
    {
      "epoch": 2.2772536687631026,
      "grad_norm": 0.15897820889949799,
      "learning_rate": 0.0009994169290263675,
      "loss": 0.5088,
      "num_input_tokens_seen": 2846200,
      "step": 4345
    },
    {
      "epoch": 2.279874213836478,
      "grad_norm": 0.0687909722328186,
      "learning_rate": 0.0009994058359265132,
      "loss": 0.6246,
      "num_input_tokens_seen": 2851736,
      "step": 4350
    },
    {
      "epoch": 2.2824947589098534,
      "grad_norm": 0.055101096630096436,
      "learning_rate": 0.0009993946383566558,
      "loss": 0.3896,
      "num_input_tokens_seen": 2855320,
      "step": 4355
    },
    {
      "epoch": 2.2851153039832286,
      "grad_norm": 0.05899811536073685,
      "learning_rate": 0.0009993833363191374,
      "loss": 0.4711,
      "num_input_tokens_seen": 2857976,
      "step": 4360
    },
    {
      "epoch": 2.2877358490566038,
      "grad_norm": 0.0886681079864502,
      "learning_rate": 0.0009993719298163222,
      "loss": 0.4096,
      "num_input_tokens_seen": 2860792,
      "step": 4365
    },
    {
      "epoch": 2.290356394129979,
      "grad_norm": 0.0819266065955162,
      "learning_rate": 0.0009993604188505965,
      "loss": 0.6287,
      "num_input_tokens_seen": 2864120,
      "step": 4370
    },
    {
      "epoch": 2.2929769392033545,
      "grad_norm": 0.05555632337927818,
      "learning_rate": 0.000999348803424368,
      "loss": 0.4188,
      "num_input_tokens_seen": 2871288,
      "step": 4375
    },
    {
      "epoch": 2.2955974842767297,
      "grad_norm": 0.03502091020345688,
      "learning_rate": 0.000999337083540067,
      "loss": 0.4171,
      "num_input_tokens_seen": 2876056,
      "step": 4380
    },
    {
      "epoch": 2.298218029350105,
      "grad_norm": 0.07962342351675034,
      "learning_rate": 0.0009993252592001448,
      "loss": 0.6476,
      "num_input_tokens_seen": 2879544,
      "step": 4385
    },
    {
      "epoch": 2.30083857442348,
      "grad_norm": 0.07178892940282822,
      "learning_rate": 0.0009993133304070747,
      "loss": 0.5309,
      "num_input_tokens_seen": 2883384,
      "step": 4390
    },
    {
      "epoch": 2.3034591194968552,
      "grad_norm": 0.10646098852157593,
      "learning_rate": 0.0009993012971633527,
      "loss": 0.5258,
      "num_input_tokens_seen": 2886360,
      "step": 4395
    },
    {
      "epoch": 2.3060796645702304,
      "grad_norm": 0.07221032679080963,
      "learning_rate": 0.0009992891594714952,
      "loss": 0.4981,
      "num_input_tokens_seen": 2889688,
      "step": 4400
    },
    {
      "epoch": 2.308700209643606,
      "grad_norm": 0.0696827843785286,
      "learning_rate": 0.0009992769173340422,
      "loss": 0.4835,
      "num_input_tokens_seen": 2892536,
      "step": 4405
    },
    {
      "epoch": 2.311320754716981,
      "grad_norm": 0.09281991422176361,
      "learning_rate": 0.000999264570753554,
      "loss": 0.3999,
      "num_input_tokens_seen": 2895928,
      "step": 4410
    },
    {
      "epoch": 2.3139412997903563,
      "grad_norm": 0.05907522886991501,
      "learning_rate": 0.0009992521197326135,
      "loss": 0.403,
      "num_input_tokens_seen": 2899640,
      "step": 4415
    },
    {
      "epoch": 2.3165618448637315,
      "grad_norm": 0.0663342997431755,
      "learning_rate": 0.0009992395642738252,
      "loss": 0.4218,
      "num_input_tokens_seen": 2902648,
      "step": 4420
    },
    {
      "epoch": 2.319182389937107,
      "grad_norm": 0.07388534396886826,
      "learning_rate": 0.0009992269043798158,
      "loss": 0.6867,
      "num_input_tokens_seen": 2905784,
      "step": 4425
    },
    {
      "epoch": 2.3218029350104823,
      "grad_norm": 0.0551777184009552,
      "learning_rate": 0.0009992141400532336,
      "loss": 0.4325,
      "num_input_tokens_seen": 2909560,
      "step": 4430
    },
    {
      "epoch": 2.3244234800838575,
      "grad_norm": 0.09835431724786758,
      "learning_rate": 0.0009992012712967484,
      "loss": 0.4385,
      "num_input_tokens_seen": 2911992,
      "step": 4435
    },
    {
      "epoch": 2.3270440251572326,
      "grad_norm": 0.08579426258802414,
      "learning_rate": 0.0009991882981130525,
      "loss": 0.4937,
      "num_input_tokens_seen": 2914744,
      "step": 4440
    },
    {
      "epoch": 2.329664570230608,
      "grad_norm": 0.07337561249732971,
      "learning_rate": 0.0009991752205048597,
      "loss": 0.4968,
      "num_input_tokens_seen": 2917272,
      "step": 4445
    },
    {
      "epoch": 2.3322851153039834,
      "grad_norm": 0.06478932499885559,
      "learning_rate": 0.0009991620384749058,
      "loss": 0.435,
      "num_input_tokens_seen": 2920280,
      "step": 4450
    },
    {
      "epoch": 2.3349056603773586,
      "grad_norm": 0.09142899513244629,
      "learning_rate": 0.0009991487520259479,
      "loss": 0.5595,
      "num_input_tokens_seen": 2922840,
      "step": 4455
    },
    {
      "epoch": 2.3375262054507338,
      "grad_norm": 0.08971516042947769,
      "learning_rate": 0.000999135361160766,
      "loss": 0.438,
      "num_input_tokens_seen": 2925720,
      "step": 4460
    },
    {
      "epoch": 2.340146750524109,
      "grad_norm": 0.058027591556310654,
      "learning_rate": 0.0009991218658821608,
      "loss": 0.7156,
      "num_input_tokens_seen": 2929656,
      "step": 4465
    },
    {
      "epoch": 2.342767295597484,
      "grad_norm": 0.04296446591615677,
      "learning_rate": 0.0009991082661929556,
      "loss": 0.3571,
      "num_input_tokens_seen": 2932568,
      "step": 4470
    },
    {
      "epoch": 2.3453878406708597,
      "grad_norm": 0.0823744535446167,
      "learning_rate": 0.000999094562095995,
      "loss": 0.4424,
      "num_input_tokens_seen": 2935384,
      "step": 4475
    },
    {
      "epoch": 2.348008385744235,
      "grad_norm": 0.10568108409643173,
      "learning_rate": 0.0009990807535941461,
      "loss": 0.5345,
      "num_input_tokens_seen": 2938712,
      "step": 4480
    },
    {
      "epoch": 2.35062893081761,
      "grad_norm": 0.03487418591976166,
      "learning_rate": 0.0009990668406902976,
      "loss": 0.5927,
      "num_input_tokens_seen": 2943960,
      "step": 4485
    },
    {
      "epoch": 2.353249475890985,
      "grad_norm": 0.09259394556283951,
      "learning_rate": 0.0009990528233873594,
      "loss": 0.4671,
      "num_input_tokens_seen": 2946840,
      "step": 4490
    },
    {
      "epoch": 2.3558700209643604,
      "grad_norm": 0.07436364144086838,
      "learning_rate": 0.0009990387016882642,
      "loss": 0.4912,
      "num_input_tokens_seen": 2950488,
      "step": 4495
    },
    {
      "epoch": 2.358490566037736,
      "grad_norm": 0.0533219650387764,
      "learning_rate": 0.000999024475595966,
      "loss": 0.5183,
      "num_input_tokens_seen": 2954072,
      "step": 4500
    },
    {
      "epoch": 2.361111111111111,
      "grad_norm": 0.07466922700405121,
      "learning_rate": 0.0009990101451134406,
      "loss": 0.6037,
      "num_input_tokens_seen": 2957048,
      "step": 4505
    },
    {
      "epoch": 2.3637316561844863,
      "grad_norm": 0.10960199683904648,
      "learning_rate": 0.0009989957102436858,
      "loss": 0.4981,
      "num_input_tokens_seen": 2960760,
      "step": 4510
    },
    {
      "epoch": 2.3663522012578615,
      "grad_norm": 0.0584590882062912,
      "learning_rate": 0.0009989811709897212,
      "loss": 0.4048,
      "num_input_tokens_seen": 2965368,
      "step": 4515
    },
    {
      "epoch": 2.368972746331237,
      "grad_norm": 0.06687167286872864,
      "learning_rate": 0.0009989665273545884,
      "loss": 0.4256,
      "num_input_tokens_seen": 2968728,
      "step": 4520
    },
    {
      "epoch": 2.3715932914046123,
      "grad_norm": 0.106605164706707,
      "learning_rate": 0.0009989517793413507,
      "loss": 0.4453,
      "num_input_tokens_seen": 2972312,
      "step": 4525
    },
    {
      "epoch": 2.3742138364779874,
      "grad_norm": 0.16065846383571625,
      "learning_rate": 0.000998936926953093,
      "loss": 0.381,
      "num_input_tokens_seen": 2975608,
      "step": 4530
    },
    {
      "epoch": 2.3768343815513626,
      "grad_norm": 0.19781394302845,
      "learning_rate": 0.0009989219701929224,
      "loss": 0.4594,
      "num_input_tokens_seen": 2978872,
      "step": 4535
    },
    {
      "epoch": 2.379454926624738,
      "grad_norm": 0.06829492002725601,
      "learning_rate": 0.0009989069090639675,
      "loss": 0.4136,
      "num_input_tokens_seen": 2982136,
      "step": 4540
    },
    {
      "epoch": 2.3820754716981134,
      "grad_norm": 0.08103431761264801,
      "learning_rate": 0.0009988917435693793,
      "loss": 0.5728,
      "num_input_tokens_seen": 2985624,
      "step": 4545
    },
    {
      "epoch": 2.3846960167714886,
      "grad_norm": 0.10603806376457214,
      "learning_rate": 0.0009988764737123297,
      "loss": 0.4884,
      "num_input_tokens_seen": 2988856,
      "step": 4550
    },
    {
      "epoch": 2.3873165618448637,
      "grad_norm": 0.10679223388433456,
      "learning_rate": 0.0009988610994960134,
      "loss": 0.4459,
      "num_input_tokens_seen": 2991608,
      "step": 4555
    },
    {
      "epoch": 2.389937106918239,
      "grad_norm": 0.0754600465297699,
      "learning_rate": 0.0009988456209236464,
      "loss": 0.5587,
      "num_input_tokens_seen": 2995064,
      "step": 4560
    },
    {
      "epoch": 2.392557651991614,
      "grad_norm": 0.06837209314107895,
      "learning_rate": 0.0009988300379984668,
      "loss": 0.6056,
      "num_input_tokens_seen": 2998488,
      "step": 4565
    },
    {
      "epoch": 2.3951781970649897,
      "grad_norm": 0.07751148194074631,
      "learning_rate": 0.0009988143507237341,
      "loss": 0.4346,
      "num_input_tokens_seen": 3001656,
      "step": 4570
    },
    {
      "epoch": 2.397798742138365,
      "grad_norm": 0.11121661216020584,
      "learning_rate": 0.00099879855910273,
      "loss": 0.6645,
      "num_input_tokens_seen": 3005688,
      "step": 4575
    },
    {
      "epoch": 2.40041928721174,
      "grad_norm": 0.08334652334451675,
      "learning_rate": 0.0009987826631387578,
      "loss": 0.526,
      "num_input_tokens_seen": 3009176,
      "step": 4580
    },
    {
      "epoch": 2.403039832285115,
      "grad_norm": 0.1174919530749321,
      "learning_rate": 0.000998766662835143,
      "loss": 0.5776,
      "num_input_tokens_seen": 3012344,
      "step": 4585
    },
    {
      "epoch": 2.4056603773584904,
      "grad_norm": 0.07945504784584045,
      "learning_rate": 0.0009987505581952325,
      "loss": 0.4371,
      "num_input_tokens_seen": 3015640,
      "step": 4590
    },
    {
      "epoch": 2.408280922431866,
      "grad_norm": 0.04701666906476021,
      "learning_rate": 0.0009987343492223954,
      "loss": 0.4985,
      "num_input_tokens_seen": 3019224,
      "step": 4595
    },
    {
      "epoch": 2.410901467505241,
      "grad_norm": 0.07277724146842957,
      "learning_rate": 0.0009987180359200222,
      "loss": 0.4516,
      "num_input_tokens_seen": 3021944,
      "step": 4600
    },
    {
      "epoch": 2.4135220125786163,
      "grad_norm": 0.06070190668106079,
      "learning_rate": 0.0009987016182915257,
      "loss": 0.5266,
      "num_input_tokens_seen": 3025368,
      "step": 4605
    },
    {
      "epoch": 2.4161425576519915,
      "grad_norm": 0.08250390738248825,
      "learning_rate": 0.0009986850963403398,
      "loss": 0.48,
      "num_input_tokens_seen": 3027928,
      "step": 4610
    },
    {
      "epoch": 2.418763102725367,
      "grad_norm": 0.04495885223150253,
      "learning_rate": 0.0009986684700699214,
      "loss": 0.5664,
      "num_input_tokens_seen": 3031928,
      "step": 4615
    },
    {
      "epoch": 2.4213836477987423,
      "grad_norm": 0.08910785615444183,
      "learning_rate": 0.000998651739483748,
      "loss": 0.4109,
      "num_input_tokens_seen": 3035288,
      "step": 4620
    },
    {
      "epoch": 2.4240041928721174,
      "grad_norm": 0.10176407545804977,
      "learning_rate": 0.0009986349045853196,
      "loss": 0.5201,
      "num_input_tokens_seen": 3038136,
      "step": 4625
    },
    {
      "epoch": 2.4266247379454926,
      "grad_norm": 0.0932689905166626,
      "learning_rate": 0.000998617965378158,
      "loss": 0.477,
      "num_input_tokens_seen": 3040600,
      "step": 4630
    },
    {
      "epoch": 2.4292452830188678,
      "grad_norm": 0.15173597633838654,
      "learning_rate": 0.0009986009218658064,
      "loss": 0.4973,
      "num_input_tokens_seen": 3044088,
      "step": 4635
    },
    {
      "epoch": 2.431865828092243,
      "grad_norm": 0.06318244338035583,
      "learning_rate": 0.0009985837740518306,
      "loss": 0.4142,
      "num_input_tokens_seen": 3047160,
      "step": 4640
    },
    {
      "epoch": 2.4344863731656186,
      "grad_norm": 0.06305726617574692,
      "learning_rate": 0.0009985665219398173,
      "loss": 0.4741,
      "num_input_tokens_seen": 3050616,
      "step": 4645
    },
    {
      "epoch": 2.4371069182389937,
      "grad_norm": 0.060903843492269516,
      "learning_rate": 0.0009985491655333755,
      "loss": 0.4501,
      "num_input_tokens_seen": 3054328,
      "step": 4650
    },
    {
      "epoch": 2.439727463312369,
      "grad_norm": 0.08326128125190735,
      "learning_rate": 0.000998531704836136,
      "loss": 0.4272,
      "num_input_tokens_seen": 3057336,
      "step": 4655
    },
    {
      "epoch": 2.442348008385744,
      "grad_norm": 0.08777597546577454,
      "learning_rate": 0.0009985141398517513,
      "loss": 0.5662,
      "num_input_tokens_seen": 3060824,
      "step": 4660
    },
    {
      "epoch": 2.4449685534591197,
      "grad_norm": 0.10032866895198822,
      "learning_rate": 0.000998496470583896,
      "loss": 0.4257,
      "num_input_tokens_seen": 3064152,
      "step": 4665
    },
    {
      "epoch": 2.447589098532495,
      "grad_norm": 0.07147829979658127,
      "learning_rate": 0.0009984786970362663,
      "loss": 0.4407,
      "num_input_tokens_seen": 3068504,
      "step": 4670
    },
    {
      "epoch": 2.45020964360587,
      "grad_norm": 0.07499127089977264,
      "learning_rate": 0.00099846081921258,
      "loss": 0.5843,
      "num_input_tokens_seen": 3071608,
      "step": 4675
    },
    {
      "epoch": 2.452830188679245,
      "grad_norm": 0.06307612359523773,
      "learning_rate": 0.000998442837116577,
      "loss": 0.4496,
      "num_input_tokens_seen": 3074264,
      "step": 4680
    },
    {
      "epoch": 2.4554507337526204,
      "grad_norm": 0.08046779036521912,
      "learning_rate": 0.0009984247507520193,
      "loss": 0.4056,
      "num_input_tokens_seen": 3076376,
      "step": 4685
    },
    {
      "epoch": 2.458071278825996,
      "grad_norm": 0.09395851194858551,
      "learning_rate": 0.0009984065601226896,
      "loss": 0.4411,
      "num_input_tokens_seen": 3079224,
      "step": 4690
    },
    {
      "epoch": 2.460691823899371,
      "grad_norm": 0.05631837621331215,
      "learning_rate": 0.0009983882652323942,
      "loss": 0.3309,
      "num_input_tokens_seen": 3082616,
      "step": 4695
    },
    {
      "epoch": 2.4633123689727463,
      "grad_norm": 0.07209470868110657,
      "learning_rate": 0.0009983698660849592,
      "loss": 0.4861,
      "num_input_tokens_seen": 3085784,
      "step": 4700
    },
    {
      "epoch": 2.4659329140461215,
      "grad_norm": 0.11406510323286057,
      "learning_rate": 0.0009983513626842342,
      "loss": 0.5503,
      "num_input_tokens_seen": 3089336,
      "step": 4705
    },
    {
      "epoch": 2.468553459119497,
      "grad_norm": 0.09443947672843933,
      "learning_rate": 0.0009983327550340893,
      "loss": 0.478,
      "num_input_tokens_seen": 3092152,
      "step": 4710
    },
    {
      "epoch": 2.4711740041928723,
      "grad_norm": 0.10304882377386093,
      "learning_rate": 0.0009983140431384177,
      "loss": 0.4987,
      "num_input_tokens_seen": 3095576,
      "step": 4715
    },
    {
      "epoch": 2.4737945492662474,
      "grad_norm": 0.0853232741355896,
      "learning_rate": 0.0009982952270011331,
      "loss": 0.3938,
      "num_input_tokens_seen": 3098680,
      "step": 4720
    },
    {
      "epoch": 2.4764150943396226,
      "grad_norm": 0.14632146060466766,
      "learning_rate": 0.000998276306626172,
      "loss": 0.3749,
      "num_input_tokens_seen": 3101560,
      "step": 4725
    },
    {
      "epoch": 2.4790356394129978,
      "grad_norm": 0.0903652012348175,
      "learning_rate": 0.000998257282017492,
      "loss": 0.4359,
      "num_input_tokens_seen": 3105240,
      "step": 4730
    },
    {
      "epoch": 2.481656184486373,
      "grad_norm": 0.07354481518268585,
      "learning_rate": 0.0009982381531790732,
      "loss": 0.4383,
      "num_input_tokens_seen": 3108376,
      "step": 4735
    },
    {
      "epoch": 2.4842767295597485,
      "grad_norm": 0.04486960917711258,
      "learning_rate": 0.0009982189201149167,
      "loss": 0.4956,
      "num_input_tokens_seen": 3111992,
      "step": 4740
    },
    {
      "epoch": 2.4868972746331237,
      "grad_norm": 0.022221634164452553,
      "learning_rate": 0.0009981995828290465,
      "loss": 0.3689,
      "num_input_tokens_seen": 3117496,
      "step": 4745
    },
    {
      "epoch": 2.489517819706499,
      "grad_norm": 0.08004062622785568,
      "learning_rate": 0.0009981801413255068,
      "loss": 0.3437,
      "num_input_tokens_seen": 3120568,
      "step": 4750
    },
    {
      "epoch": 2.492138364779874,
      "grad_norm": 0.17347963154315948,
      "learning_rate": 0.0009981605956083657,
      "loss": 0.5507,
      "num_input_tokens_seen": 3123320,
      "step": 4755
    },
    {
      "epoch": 2.4947589098532497,
      "grad_norm": 0.0842319056391716,
      "learning_rate": 0.000998140945681711,
      "loss": 0.4273,
      "num_input_tokens_seen": 3126072,
      "step": 4760
    },
    {
      "epoch": 2.497379454926625,
      "grad_norm": 0.06507685780525208,
      "learning_rate": 0.0009981211915496536,
      "loss": 0.4785,
      "num_input_tokens_seen": 3129528,
      "step": 4765
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.08993732929229736,
      "learning_rate": 0.0009981013332163256,
      "loss": 0.5668,
      "num_input_tokens_seen": 3132600,
      "step": 4770
    },
    {
      "epoch": 2.502620545073375,
      "grad_norm": 0.06565025448799133,
      "learning_rate": 0.0009980813706858816,
      "loss": 0.3845,
      "num_input_tokens_seen": 3135384,
      "step": 4775
    },
    {
      "epoch": 2.5052410901467503,
      "grad_norm": 0.09889847040176392,
      "learning_rate": 0.000998061303962497,
      "loss": 0.5018,
      "num_input_tokens_seen": 3139000,
      "step": 4780
    },
    {
      "epoch": 2.507861635220126,
      "grad_norm": 0.1271669566631317,
      "learning_rate": 0.00099804113305037,
      "loss": 0.5687,
      "num_input_tokens_seen": 3141368,
      "step": 4785
    },
    {
      "epoch": 2.510482180293501,
      "grad_norm": 0.05532209202647209,
      "learning_rate": 0.0009980208579537199,
      "loss": 0.4565,
      "num_input_tokens_seen": 3144888,
      "step": 4790
    },
    {
      "epoch": 2.5131027253668763,
      "grad_norm": 0.06985107809305191,
      "learning_rate": 0.000998000478676788,
      "loss": 0.5138,
      "num_input_tokens_seen": 3147704,
      "step": 4795
    },
    {
      "epoch": 2.5157232704402515,
      "grad_norm": 0.0738070011138916,
      "learning_rate": 0.0009979799952238373,
      "loss": 0.4782,
      "num_input_tokens_seen": 3150616,
      "step": 4800
    },
    {
      "epoch": 2.518343815513627,
      "grad_norm": 0.061272721737623215,
      "learning_rate": 0.000997959407599153,
      "loss": 0.5135,
      "num_input_tokens_seen": 3153240,
      "step": 4805
    },
    {
      "epoch": 2.5209643605870022,
      "grad_norm": 0.06528446823358536,
      "learning_rate": 0.000997938715807042,
      "loss": 0.4992,
      "num_input_tokens_seen": 3156216,
      "step": 4810
    },
    {
      "epoch": 2.5235849056603774,
      "grad_norm": 0.05708658695220947,
      "learning_rate": 0.000997917919851832,
      "loss": 0.4267,
      "num_input_tokens_seen": 3158936,
      "step": 4815
    },
    {
      "epoch": 2.5262054507337526,
      "grad_norm": 0.07476512342691422,
      "learning_rate": 0.0009978970197378736,
      "loss": 0.5518,
      "num_input_tokens_seen": 3162168,
      "step": 4820
    },
    {
      "epoch": 2.5288259958071277,
      "grad_norm": 0.0946349948644638,
      "learning_rate": 0.0009978760154695392,
      "loss": 0.4517,
      "num_input_tokens_seen": 3165560,
      "step": 4825
    },
    {
      "epoch": 2.531446540880503,
      "grad_norm": 0.05328841879963875,
      "learning_rate": 0.0009978549070512226,
      "loss": 0.5325,
      "num_input_tokens_seen": 3169400,
      "step": 4830
    },
    {
      "epoch": 2.5340670859538785,
      "grad_norm": 0.07433564215898514,
      "learning_rate": 0.000997833694487339,
      "loss": 0.4625,
      "num_input_tokens_seen": 3172696,
      "step": 4835
    },
    {
      "epoch": 2.5366876310272537,
      "grad_norm": 0.10542135685682297,
      "learning_rate": 0.0009978123777823263,
      "loss": 0.4676,
      "num_input_tokens_seen": 3175384,
      "step": 4840
    },
    {
      "epoch": 2.539308176100629,
      "grad_norm": 0.06375405192375183,
      "learning_rate": 0.0009977909569406434,
      "loss": 0.3884,
      "num_input_tokens_seen": 3178232,
      "step": 4845
    },
    {
      "epoch": 2.541928721174004,
      "grad_norm": 0.08490920066833496,
      "learning_rate": 0.0009977694319667713,
      "loss": 0.4437,
      "num_input_tokens_seen": 3181048,
      "step": 4850
    },
    {
      "epoch": 2.5445492662473796,
      "grad_norm": 0.07180770486593246,
      "learning_rate": 0.0009977478028652131,
      "loss": 0.4644,
      "num_input_tokens_seen": 3184504,
      "step": 4855
    },
    {
      "epoch": 2.547169811320755,
      "grad_norm": 0.07207843661308289,
      "learning_rate": 0.000997726069640493,
      "loss": 0.3955,
      "num_input_tokens_seen": 3187480,
      "step": 4860
    },
    {
      "epoch": 2.54979035639413,
      "grad_norm": 0.06397286057472229,
      "learning_rate": 0.0009977042322971577,
      "loss": 0.5123,
      "num_input_tokens_seen": 3191064,
      "step": 4865
    },
    {
      "epoch": 2.552410901467505,
      "grad_norm": 0.08673691004514694,
      "learning_rate": 0.000997682290839775,
      "loss": 0.4564,
      "num_input_tokens_seen": 3194296,
      "step": 4870
    },
    {
      "epoch": 2.5550314465408803,
      "grad_norm": 0.10122762620449066,
      "learning_rate": 0.0009976602452729348,
      "loss": 0.4568,
      "num_input_tokens_seen": 3197784,
      "step": 4875
    },
    {
      "epoch": 2.5576519916142555,
      "grad_norm": 0.0765107125043869,
      "learning_rate": 0.000997638095601249,
      "loss": 0.5233,
      "num_input_tokens_seen": 3200856,
      "step": 4880
    },
    {
      "epoch": 2.560272536687631,
      "grad_norm": 0.08880771696567535,
      "learning_rate": 0.000997615841829351,
      "loss": 0.3344,
      "num_input_tokens_seen": 3203192,
      "step": 4885
    },
    {
      "epoch": 2.5628930817610063,
      "grad_norm": 0.035704318434000015,
      "learning_rate": 0.000997593483961896,
      "loss": 0.5228,
      "num_input_tokens_seen": 3206712,
      "step": 4890
    },
    {
      "epoch": 2.5655136268343814,
      "grad_norm": 0.06291337311267853,
      "learning_rate": 0.0009975710220035607,
      "loss": 0.3346,
      "num_input_tokens_seen": 3210168,
      "step": 4895
    },
    {
      "epoch": 2.568134171907757,
      "grad_norm": 0.0800149068236351,
      "learning_rate": 0.0009975484559590444,
      "loss": 0.4933,
      "num_input_tokens_seen": 3213208,
      "step": 4900
    },
    {
      "epoch": 2.5707547169811322,
      "grad_norm": 0.07317911088466644,
      "learning_rate": 0.0009975257858330674,
      "loss": 0.3987,
      "num_input_tokens_seen": 3215608,
      "step": 4905
    },
    {
      "epoch": 2.5733752620545074,
      "grad_norm": 0.1198493093252182,
      "learning_rate": 0.0009975030116303723,
      "loss": 0.6431,
      "num_input_tokens_seen": 3218360,
      "step": 4910
    },
    {
      "epoch": 2.5759958071278826,
      "grad_norm": 0.09894371777772903,
      "learning_rate": 0.0009974801333557228,
      "loss": 0.4789,
      "num_input_tokens_seen": 3221656,
      "step": 4915
    },
    {
      "epoch": 2.5786163522012577,
      "grad_norm": 0.07997798174619675,
      "learning_rate": 0.000997457151013905,
      "loss": 0.3503,
      "num_input_tokens_seen": 3225464,
      "step": 4920
    },
    {
      "epoch": 2.581236897274633,
      "grad_norm": 0.1059151440858841,
      "learning_rate": 0.0009974340646097264,
      "loss": 0.5054,
      "num_input_tokens_seen": 3228824,
      "step": 4925
    },
    {
      "epoch": 2.5838574423480085,
      "grad_norm": 0.18926918506622314,
      "learning_rate": 0.0009974108741480166,
      "loss": 0.5062,
      "num_input_tokens_seen": 3231160,
      "step": 4930
    },
    {
      "epoch": 2.5864779874213837,
      "grad_norm": 0.06928366422653198,
      "learning_rate": 0.0009973875796336267,
      "loss": 0.5511,
      "num_input_tokens_seen": 3233912,
      "step": 4935
    },
    {
      "epoch": 2.589098532494759,
      "grad_norm": 0.057372838258743286,
      "learning_rate": 0.0009973641810714295,
      "loss": 0.4699,
      "num_input_tokens_seen": 3237144,
      "step": 4940
    },
    {
      "epoch": 2.591719077568134,
      "grad_norm": 0.1744246631860733,
      "learning_rate": 0.00099734067846632,
      "loss": 0.4707,
      "num_input_tokens_seen": 3239896,
      "step": 4945
    },
    {
      "epoch": 2.5943396226415096,
      "grad_norm": 0.07383153587579727,
      "learning_rate": 0.0009973170718232144,
      "loss": 0.4754,
      "num_input_tokens_seen": 3242744,
      "step": 4950
    },
    {
      "epoch": 2.596960167714885,
      "grad_norm": 0.06624679267406464,
      "learning_rate": 0.000997293361147051,
      "loss": 0.5534,
      "num_input_tokens_seen": 3246264,
      "step": 4955
    },
    {
      "epoch": 2.59958071278826,
      "grad_norm": 0.046276483684778214,
      "learning_rate": 0.0009972695464427904,
      "loss": 0.4221,
      "num_input_tokens_seen": 3250040,
      "step": 4960
    },
    {
      "epoch": 2.602201257861635,
      "grad_norm": 0.0833965465426445,
      "learning_rate": 0.0009972456277154134,
      "loss": 0.5382,
      "num_input_tokens_seen": 3252920,
      "step": 4965
    },
    {
      "epoch": 2.6048218029350103,
      "grad_norm": 0.06242142617702484,
      "learning_rate": 0.000997221604969924,
      "loss": 0.4921,
      "num_input_tokens_seen": 3256184,
      "step": 4970
    },
    {
      "epoch": 2.6074423480083855,
      "grad_norm": 0.16753153502941132,
      "learning_rate": 0.0009971974782113475,
      "loss": 0.4885,
      "num_input_tokens_seen": 3259416,
      "step": 4975
    },
    {
      "epoch": 2.610062893081761,
      "grad_norm": 0.06433124095201492,
      "learning_rate": 0.0009971732474447308,
      "loss": 0.4812,
      "num_input_tokens_seen": 3263224,
      "step": 4980
    },
    {
      "epoch": 2.6126834381551363,
      "grad_norm": 0.08681415021419525,
      "learning_rate": 0.0009971489126751427,
      "loss": 0.3978,
      "num_input_tokens_seen": 3265720,
      "step": 4985
    },
    {
      "epoch": 2.6153039832285114,
      "grad_norm": 0.06282131373882294,
      "learning_rate": 0.0009971244739076742,
      "loss": 0.3893,
      "num_input_tokens_seen": 3270936,
      "step": 4990
    },
    {
      "epoch": 2.617924528301887,
      "grad_norm": 0.05714217200875282,
      "learning_rate": 0.000997099931147437,
      "loss": 0.4387,
      "num_input_tokens_seen": 3274136,
      "step": 4995
    },
    {
      "epoch": 2.620545073375262,
      "grad_norm": 0.05786287784576416,
      "learning_rate": 0.0009970752843995654,
      "loss": 0.532,
      "num_input_tokens_seen": 3277784,
      "step": 5000
    },
    {
      "epoch": 2.6231656184486374,
      "grad_norm": 0.10353516787290573,
      "learning_rate": 0.0009970505336692153,
      "loss": 0.5721,
      "num_input_tokens_seen": 3280408,
      "step": 5005
    },
    {
      "epoch": 2.6257861635220126,
      "grad_norm": 0.10234186798334122,
      "learning_rate": 0.0009970256789615642,
      "loss": 0.484,
      "num_input_tokens_seen": 3283512,
      "step": 5010
    },
    {
      "epoch": 2.6284067085953877,
      "grad_norm": 0.04762265458703041,
      "learning_rate": 0.0009970007202818115,
      "loss": 0.5473,
      "num_input_tokens_seen": 3287096,
      "step": 5015
    },
    {
      "epoch": 2.631027253668763,
      "grad_norm": 0.0787281021475792,
      "learning_rate": 0.000996975657635178,
      "loss": 0.4534,
      "num_input_tokens_seen": 3290008,
      "step": 5020
    },
    {
      "epoch": 2.6336477987421385,
      "grad_norm": 0.04355286434292793,
      "learning_rate": 0.000996950491026907,
      "loss": 0.3912,
      "num_input_tokens_seen": 3293048,
      "step": 5025
    },
    {
      "epoch": 2.6362683438155137,
      "grad_norm": 0.07789290696382523,
      "learning_rate": 0.0009969252204622624,
      "loss": 0.3234,
      "num_input_tokens_seen": 3295928,
      "step": 5030
    },
    {
      "epoch": 2.638888888888889,
      "grad_norm": 0.06987834721803665,
      "learning_rate": 0.0009968998459465312,
      "loss": 0.4058,
      "num_input_tokens_seen": 3299480,
      "step": 5035
    },
    {
      "epoch": 2.641509433962264,
      "grad_norm": 0.06764904409646988,
      "learning_rate": 0.0009968743674850212,
      "loss": 0.3718,
      "num_input_tokens_seen": 3302008,
      "step": 5040
    },
    {
      "epoch": 2.6441299790356396,
      "grad_norm": 0.07163828611373901,
      "learning_rate": 0.0009968487850830622,
      "loss": 0.4357,
      "num_input_tokens_seen": 3304632,
      "step": 5045
    },
    {
      "epoch": 2.646750524109015,
      "grad_norm": 0.089820995926857,
      "learning_rate": 0.0009968230987460055,
      "loss": 0.3217,
      "num_input_tokens_seen": 3307576,
      "step": 5050
    },
    {
      "epoch": 2.64937106918239,
      "grad_norm": 0.13941529393196106,
      "learning_rate": 0.0009967973084792246,
      "loss": 0.4286,
      "num_input_tokens_seen": 3310136,
      "step": 5055
    },
    {
      "epoch": 2.651991614255765,
      "grad_norm": 0.09299145638942719,
      "learning_rate": 0.0009967714142881145,
      "loss": 0.7994,
      "num_input_tokens_seen": 3313080,
      "step": 5060
    },
    {
      "epoch": 2.6546121593291403,
      "grad_norm": 0.08821742981672287,
      "learning_rate": 0.0009967454161780923,
      "loss": 0.5226,
      "num_input_tokens_seen": 3315512,
      "step": 5065
    },
    {
      "epoch": 2.6572327044025155,
      "grad_norm": 0.08662079274654388,
      "learning_rate": 0.000996719314154596,
      "loss": 0.5424,
      "num_input_tokens_seen": 3318552,
      "step": 5070
    },
    {
      "epoch": 2.659853249475891,
      "grad_norm": 0.06142210587859154,
      "learning_rate": 0.0009966931082230862,
      "loss": 0.4244,
      "num_input_tokens_seen": 3321560,
      "step": 5075
    },
    {
      "epoch": 2.6624737945492662,
      "grad_norm": 0.056919973343610764,
      "learning_rate": 0.0009966667983890445,
      "loss": 0.4275,
      "num_input_tokens_seen": 3326136,
      "step": 5080
    },
    {
      "epoch": 2.6650943396226414,
      "grad_norm": 0.03475618362426758,
      "learning_rate": 0.000996640384657975,
      "loss": 0.4064,
      "num_input_tokens_seen": 3329816,
      "step": 5085
    },
    {
      "epoch": 2.667714884696017,
      "grad_norm": 0.1049969270825386,
      "learning_rate": 0.0009966138670354028,
      "loss": 0.4588,
      "num_input_tokens_seen": 3332600,
      "step": 5090
    },
    {
      "epoch": 2.670335429769392,
      "grad_norm": 0.09760793298482895,
      "learning_rate": 0.0009965872455268755,
      "loss": 0.5591,
      "num_input_tokens_seen": 3335832,
      "step": 5095
    },
    {
      "epoch": 2.6729559748427674,
      "grad_norm": 0.08280958980321884,
      "learning_rate": 0.0009965605201379616,
      "loss": 0.5023,
      "num_input_tokens_seen": 3338680,
      "step": 5100
    },
    {
      "epoch": 2.6755765199161425,
      "grad_norm": 0.09319570660591125,
      "learning_rate": 0.000996533690874252,
      "loss": 0.5546,
      "num_input_tokens_seen": 3341752,
      "step": 5105
    },
    {
      "epoch": 2.6781970649895177,
      "grad_norm": 0.07360333949327469,
      "learning_rate": 0.0009965067577413593,
      "loss": 0.5269,
      "num_input_tokens_seen": 3345016,
      "step": 5110
    },
    {
      "epoch": 2.680817610062893,
      "grad_norm": 0.06673707067966461,
      "learning_rate": 0.0009964797207449173,
      "loss": 0.5193,
      "num_input_tokens_seen": 3348056,
      "step": 5115
    },
    {
      "epoch": 2.6834381551362685,
      "grad_norm": 0.12509703636169434,
      "learning_rate": 0.0009964525798905816,
      "loss": 0.5534,
      "num_input_tokens_seen": 3350904,
      "step": 5120
    },
    {
      "epoch": 2.6860587002096437,
      "grad_norm": 0.0914495661854744,
      "learning_rate": 0.0009964253351840303,
      "loss": 0.3983,
      "num_input_tokens_seen": 3353816,
      "step": 5125
    },
    {
      "epoch": 2.688679245283019,
      "grad_norm": 0.0546063594520092,
      "learning_rate": 0.000996397986630962,
      "loss": 0.3899,
      "num_input_tokens_seen": 3357080,
      "step": 5130
    },
    {
      "epoch": 2.691299790356394,
      "grad_norm": 0.0645005851984024,
      "learning_rate": 0.0009963705342370982,
      "loss": 0.5254,
      "num_input_tokens_seen": 3360088,
      "step": 5135
    },
    {
      "epoch": 2.6939203354297696,
      "grad_norm": 0.1538410782814026,
      "learning_rate": 0.000996342978008182,
      "loss": 0.5394,
      "num_input_tokens_seen": 3362520,
      "step": 5140
    },
    {
      "epoch": 2.6965408805031448,
      "grad_norm": 0.0879325345158577,
      "learning_rate": 0.000996315317949977,
      "loss": 0.4455,
      "num_input_tokens_seen": 3365240,
      "step": 5145
    },
    {
      "epoch": 2.69916142557652,
      "grad_norm": 0.0801951140165329,
      "learning_rate": 0.0009962875540682696,
      "loss": 0.5535,
      "num_input_tokens_seen": 3369048,
      "step": 5150
    },
    {
      "epoch": 2.701781970649895,
      "grad_norm": 0.06626616418361664,
      "learning_rate": 0.0009962596863688682,
      "loss": 0.4581,
      "num_input_tokens_seen": 3371576,
      "step": 5155
    },
    {
      "epoch": 2.7044025157232703,
      "grad_norm": 0.10094393044710159,
      "learning_rate": 0.000996231714857602,
      "loss": 0.505,
      "num_input_tokens_seen": 3374648,
      "step": 5160
    },
    {
      "epoch": 2.7070230607966455,
      "grad_norm": 0.10265486687421799,
      "learning_rate": 0.000996203639540322,
      "loss": 0.466,
      "num_input_tokens_seen": 3377464,
      "step": 5165
    },
    {
      "epoch": 2.709643605870021,
      "grad_norm": 0.08488839864730835,
      "learning_rate": 0.0009961754604229018,
      "loss": 0.4125,
      "num_input_tokens_seen": 3380632,
      "step": 5170
    },
    {
      "epoch": 2.7122641509433962,
      "grad_norm": 0.08216340839862823,
      "learning_rate": 0.0009961471775112361,
      "loss": 0.4767,
      "num_input_tokens_seen": 3384216,
      "step": 5175
    },
    {
      "epoch": 2.7148846960167714,
      "grad_norm": 0.13850148022174835,
      "learning_rate": 0.000996118790811241,
      "loss": 0.4294,
      "num_input_tokens_seen": 3386520,
      "step": 5180
    },
    {
      "epoch": 2.717505241090147,
      "grad_norm": 0.09267240762710571,
      "learning_rate": 0.0009960903003288551,
      "loss": 0.4874,
      "num_input_tokens_seen": 3389560,
      "step": 5185
    },
    {
      "epoch": 2.720125786163522,
      "grad_norm": 0.08204372227191925,
      "learning_rate": 0.0009960617060700378,
      "loss": 0.6098,
      "num_input_tokens_seen": 3392408,
      "step": 5190
    },
    {
      "epoch": 2.7227463312368974,
      "grad_norm": 0.08196520805358887,
      "learning_rate": 0.000996033008040771,
      "loss": 0.3987,
      "num_input_tokens_seen": 3395672,
      "step": 5195
    },
    {
      "epoch": 2.7253668763102725,
      "grad_norm": 0.07848619669675827,
      "learning_rate": 0.0009960042062470583,
      "loss": 0.3766,
      "num_input_tokens_seen": 3399608,
      "step": 5200
    },
    {
      "epoch": 2.7279874213836477,
      "grad_norm": 0.057902853935956955,
      "learning_rate": 0.0009959753006949241,
      "loss": 0.5186,
      "num_input_tokens_seen": 3402776,
      "step": 5205
    },
    {
      "epoch": 2.730607966457023,
      "grad_norm": 0.09856119006872177,
      "learning_rate": 0.0009959462913904154,
      "loss": 0.542,
      "num_input_tokens_seen": 3405688,
      "step": 5210
    },
    {
      "epoch": 2.7332285115303985,
      "grad_norm": 0.04628444090485573,
      "learning_rate": 0.0009959171783396007,
      "loss": 0.597,
      "num_input_tokens_seen": 3409048,
      "step": 5215
    },
    {
      "epoch": 2.7358490566037736,
      "grad_norm": 0.08692343533039093,
      "learning_rate": 0.00099588796154857,
      "loss": 0.4837,
      "num_input_tokens_seen": 3411416,
      "step": 5220
    },
    {
      "epoch": 2.738469601677149,
      "grad_norm": 0.04066058620810509,
      "learning_rate": 0.000995858641023435,
      "loss": 0.4068,
      "num_input_tokens_seen": 3414392,
      "step": 5225
    },
    {
      "epoch": 2.741090146750524,
      "grad_norm": 0.09193156659603119,
      "learning_rate": 0.0009958292167703293,
      "loss": 0.3991,
      "num_input_tokens_seen": 3417048,
      "step": 5230
    },
    {
      "epoch": 2.7437106918238996,
      "grad_norm": 0.08808160573244095,
      "learning_rate": 0.0009957996887954082,
      "loss": 0.5925,
      "num_input_tokens_seen": 3419832,
      "step": 5235
    },
    {
      "epoch": 2.7463312368972748,
      "grad_norm": 0.07065403461456299,
      "learning_rate": 0.0009957700571048486,
      "loss": 0.4669,
      "num_input_tokens_seen": 3422840,
      "step": 5240
    },
    {
      "epoch": 2.74895178197065,
      "grad_norm": 0.08885817229747772,
      "learning_rate": 0.0009957403217048493,
      "loss": 0.5704,
      "num_input_tokens_seen": 3426136,
      "step": 5245
    },
    {
      "epoch": 2.751572327044025,
      "grad_norm": 0.1346512883901596,
      "learning_rate": 0.0009957104826016302,
      "loss": 0.5484,
      "num_input_tokens_seen": 3429848,
      "step": 5250
    },
    {
      "epoch": 2.7541928721174003,
      "grad_norm": 0.08400445431470871,
      "learning_rate": 0.0009956805398014337,
      "loss": 0.5124,
      "num_input_tokens_seen": 3432632,
      "step": 5255
    },
    {
      "epoch": 2.7568134171907754,
      "grad_norm": 0.06528075039386749,
      "learning_rate": 0.0009956504933105231,
      "loss": 0.48,
      "num_input_tokens_seen": 3435384,
      "step": 5260
    },
    {
      "epoch": 2.759433962264151,
      "grad_norm": 0.07368288934230804,
      "learning_rate": 0.000995620343135184,
      "loss": 0.4735,
      "num_input_tokens_seen": 3439608,
      "step": 5265
    },
    {
      "epoch": 2.762054507337526,
      "grad_norm": 0.042274508625268936,
      "learning_rate": 0.0009955900892817235,
      "loss": 0.4718,
      "num_input_tokens_seen": 3443192,
      "step": 5270
    },
    {
      "epoch": 2.7646750524109014,
      "grad_norm": 0.036553241312503815,
      "learning_rate": 0.0009955597317564703,
      "loss": 0.3921,
      "num_input_tokens_seen": 3447096,
      "step": 5275
    },
    {
      "epoch": 2.767295597484277,
      "grad_norm": 0.07251010835170746,
      "learning_rate": 0.0009955292705657749,
      "loss": 0.5565,
      "num_input_tokens_seen": 3450648,
      "step": 5280
    },
    {
      "epoch": 2.769916142557652,
      "grad_norm": 0.07376722246408463,
      "learning_rate": 0.0009954987057160093,
      "loss": 0.5574,
      "num_input_tokens_seen": 3453976,
      "step": 5285
    },
    {
      "epoch": 2.7725366876310273,
      "grad_norm": 0.08616939187049866,
      "learning_rate": 0.0009954680372135675,
      "loss": 0.4044,
      "num_input_tokens_seen": 3457080,
      "step": 5290
    },
    {
      "epoch": 2.7751572327044025,
      "grad_norm": 0.04649415239691734,
      "learning_rate": 0.000995437265064865,
      "loss": 0.5122,
      "num_input_tokens_seen": 3461784,
      "step": 5295
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 0.08649318665266037,
      "learning_rate": 0.0009954063892763387,
      "loss": 0.6668,
      "num_input_tokens_seen": 3465624,
      "step": 5300
    },
    {
      "epoch": 2.780398322851153,
      "grad_norm": 0.08532237261533737,
      "learning_rate": 0.0009953754098544479,
      "loss": 0.6174,
      "num_input_tokens_seen": 3468632,
      "step": 5305
    },
    {
      "epoch": 2.7830188679245285,
      "grad_norm": 0.10694276541471481,
      "learning_rate": 0.0009953443268056726,
      "loss": 0.4349,
      "num_input_tokens_seen": 3472376,
      "step": 5310
    },
    {
      "epoch": 2.7856394129979036,
      "grad_norm": 0.07359638065099716,
      "learning_rate": 0.0009953131401365155,
      "loss": 0.4453,
      "num_input_tokens_seen": 3475256,
      "step": 5315
    },
    {
      "epoch": 2.788259958071279,
      "grad_norm": 0.0864807739853859,
      "learning_rate": 0.0009952818498535003,
      "loss": 0.4077,
      "num_input_tokens_seen": 3478168,
      "step": 5320
    },
    {
      "epoch": 2.790880503144654,
      "grad_norm": 0.09360755234956741,
      "learning_rate": 0.0009952504559631726,
      "loss": 0.5705,
      "num_input_tokens_seen": 3482040,
      "step": 5325
    },
    {
      "epoch": 2.7935010482180296,
      "grad_norm": 0.07375113666057587,
      "learning_rate": 0.0009952189584720996,
      "loss": 0.5448,
      "num_input_tokens_seen": 3486168,
      "step": 5330
    },
    {
      "epoch": 2.7961215932914047,
      "grad_norm": 0.06692414730787277,
      "learning_rate": 0.0009951873573868701,
      "loss": 0.4442,
      "num_input_tokens_seen": 3490136,
      "step": 5335
    },
    {
      "epoch": 2.79874213836478,
      "grad_norm": 0.08370765298604965,
      "learning_rate": 0.000995155652714095,
      "loss": 0.6683,
      "num_input_tokens_seen": 3493368,
      "step": 5340
    },
    {
      "epoch": 2.801362683438155,
      "grad_norm": 0.0744447335600853,
      "learning_rate": 0.0009951238444604064,
      "loss": 0.43,
      "num_input_tokens_seen": 3497272,
      "step": 5345
    },
    {
      "epoch": 2.8039832285115303,
      "grad_norm": 0.06272637099027634,
      "learning_rate": 0.000995091932632458,
      "loss": 0.48,
      "num_input_tokens_seen": 3500152,
      "step": 5350
    },
    {
      "epoch": 2.8066037735849054,
      "grad_norm": 0.06508122384548187,
      "learning_rate": 0.000995059917236926,
      "loss": 0.4261,
      "num_input_tokens_seen": 3506328,
      "step": 5355
    },
    {
      "epoch": 2.809224318658281,
      "grad_norm": 0.09511120617389679,
      "learning_rate": 0.000995027798280507,
      "loss": 0.4746,
      "num_input_tokens_seen": 3508824,
      "step": 5360
    },
    {
      "epoch": 2.811844863731656,
      "grad_norm": 0.050547149032354355,
      "learning_rate": 0.00099499557576992,
      "loss": 0.45,
      "num_input_tokens_seen": 3512920,
      "step": 5365
    },
    {
      "epoch": 2.8144654088050314,
      "grad_norm": 0.04827956482768059,
      "learning_rate": 0.000994963249711906,
      "loss": 0.3597,
      "num_input_tokens_seen": 3516984,
      "step": 5370
    },
    {
      "epoch": 2.8170859538784065,
      "grad_norm": 0.1276324838399887,
      "learning_rate": 0.000994930820113227,
      "loss": 0.4602,
      "num_input_tokens_seen": 3520664,
      "step": 5375
    },
    {
      "epoch": 2.819706498951782,
      "grad_norm": 0.0663149282336235,
      "learning_rate": 0.0009948982869806668,
      "loss": 0.742,
      "num_input_tokens_seen": 3523864,
      "step": 5380
    },
    {
      "epoch": 2.8223270440251573,
      "grad_norm": 0.08189360797405243,
      "learning_rate": 0.0009948656503210311,
      "loss": 0.6469,
      "num_input_tokens_seen": 3526264,
      "step": 5385
    },
    {
      "epoch": 2.8249475890985325,
      "grad_norm": 0.06013292819261551,
      "learning_rate": 0.000994832910141147,
      "loss": 0.4341,
      "num_input_tokens_seen": 3528952,
      "step": 5390
    },
    {
      "epoch": 2.8275681341719077,
      "grad_norm": 0.07666392624378204,
      "learning_rate": 0.0009948000664478638,
      "loss": 0.6114,
      "num_input_tokens_seen": 3531384,
      "step": 5395
    },
    {
      "epoch": 2.830188679245283,
      "grad_norm": 0.07390159368515015,
      "learning_rate": 0.0009947671192480515,
      "loss": 0.3957,
      "num_input_tokens_seen": 3534488,
      "step": 5400
    },
    {
      "epoch": 2.832809224318658,
      "grad_norm": 0.09497922658920288,
      "learning_rate": 0.0009947340685486023,
      "loss": 0.5134,
      "num_input_tokens_seen": 3537880,
      "step": 5405
    },
    {
      "epoch": 2.8354297693920336,
      "grad_norm": 0.0790472999215126,
      "learning_rate": 0.0009947009143564303,
      "loss": 0.3716,
      "num_input_tokens_seen": 3541272,
      "step": 5410
    },
    {
      "epoch": 2.838050314465409,
      "grad_norm": 0.047067977488040924,
      "learning_rate": 0.0009946676566784708,
      "loss": 0.4175,
      "num_input_tokens_seen": 3544280,
      "step": 5415
    },
    {
      "epoch": 2.840670859538784,
      "grad_norm": 0.06224615499377251,
      "learning_rate": 0.000994634295521681,
      "loss": 0.5655,
      "num_input_tokens_seen": 3548024,
      "step": 5420
    },
    {
      "epoch": 2.8432914046121596,
      "grad_norm": 0.0730133131146431,
      "learning_rate": 0.0009946008308930397,
      "loss": 0.4719,
      "num_input_tokens_seen": 3550680,
      "step": 5425
    },
    {
      "epoch": 2.8459119496855347,
      "grad_norm": 0.056431446224451065,
      "learning_rate": 0.0009945672627995473,
      "loss": 0.501,
      "num_input_tokens_seen": 3553560,
      "step": 5430
    },
    {
      "epoch": 2.84853249475891,
      "grad_norm": 0.05711684003472328,
      "learning_rate": 0.0009945335912482256,
      "loss": 0.3782,
      "num_input_tokens_seen": 3556600,
      "step": 5435
    },
    {
      "epoch": 2.851153039832285,
      "grad_norm": 0.08640117198228836,
      "learning_rate": 0.000994499816246119,
      "loss": 0.4155,
      "num_input_tokens_seen": 3560184,
      "step": 5440
    },
    {
      "epoch": 2.8537735849056602,
      "grad_norm": 0.08274341374635696,
      "learning_rate": 0.000994465937800292,
      "loss": 0.5785,
      "num_input_tokens_seen": 3563928,
      "step": 5445
    },
    {
      "epoch": 2.8563941299790354,
      "grad_norm": 0.07248872518539429,
      "learning_rate": 0.0009944319559178321,
      "loss": 0.4434,
      "num_input_tokens_seen": 3568024,
      "step": 5450
    },
    {
      "epoch": 2.859014675052411,
      "grad_norm": 0.06638453155755997,
      "learning_rate": 0.0009943978706058478,
      "loss": 0.4469,
      "num_input_tokens_seen": 3570904,
      "step": 5455
    },
    {
      "epoch": 2.861635220125786,
      "grad_norm": 0.04119588062167168,
      "learning_rate": 0.0009943636818714695,
      "loss": 0.4745,
      "num_input_tokens_seen": 3574232,
      "step": 5460
    },
    {
      "epoch": 2.8642557651991614,
      "grad_norm": 0.21668489277362823,
      "learning_rate": 0.0009943293897218487,
      "loss": 0.5085,
      "num_input_tokens_seen": 3576856,
      "step": 5465
    },
    {
      "epoch": 2.8668763102725365,
      "grad_norm": 0.09156464040279388,
      "learning_rate": 0.0009942949941641594,
      "loss": 0.7651,
      "num_input_tokens_seen": 3580024,
      "step": 5470
    },
    {
      "epoch": 2.869496855345912,
      "grad_norm": 0.06452926993370056,
      "learning_rate": 0.0009942604952055964,
      "loss": 0.528,
      "num_input_tokens_seen": 3583352,
      "step": 5475
    },
    {
      "epoch": 2.8721174004192873,
      "grad_norm": 0.08278761804103851,
      "learning_rate": 0.0009942258928533768,
      "loss": 0.3969,
      "num_input_tokens_seen": 3586104,
      "step": 5480
    },
    {
      "epoch": 2.8747379454926625,
      "grad_norm": 0.07927137613296509,
      "learning_rate": 0.0009941911871147386,
      "loss": 0.3139,
      "num_input_tokens_seen": 3588984,
      "step": 5485
    },
    {
      "epoch": 2.8773584905660377,
      "grad_norm": 0.07512292265892029,
      "learning_rate": 0.000994156377996942,
      "loss": 0.4794,
      "num_input_tokens_seen": 3592312,
      "step": 5490
    },
    {
      "epoch": 2.879979035639413,
      "grad_norm": 0.06614170223474503,
      "learning_rate": 0.0009941214655072692,
      "loss": 0.3673,
      "num_input_tokens_seen": 3595256,
      "step": 5495
    },
    {
      "epoch": 2.882599580712788,
      "grad_norm": 0.1383771002292633,
      "learning_rate": 0.0009940864496530226,
      "loss": 0.5807,
      "num_input_tokens_seen": 3597784,
      "step": 5500
    },
    {
      "epoch": 2.8852201257861636,
      "grad_norm": 0.06817822903394699,
      "learning_rate": 0.000994051330441528,
      "loss": 0.3871,
      "num_input_tokens_seen": 3601464,
      "step": 5505
    },
    {
      "epoch": 2.8878406708595388,
      "grad_norm": 0.1192956194281578,
      "learning_rate": 0.0009940161078801312,
      "loss": 0.4732,
      "num_input_tokens_seen": 3604088,
      "step": 5510
    },
    {
      "epoch": 2.890461215932914,
      "grad_norm": 0.062273140996694565,
      "learning_rate": 0.0009939807819762008,
      "loss": 0.5709,
      "num_input_tokens_seen": 3607544,
      "step": 5515
    },
    {
      "epoch": 2.8930817610062896,
      "grad_norm": 0.0460839718580246,
      "learning_rate": 0.0009939453527371262,
      "loss": 0.4618,
      "num_input_tokens_seen": 3611480,
      "step": 5520
    },
    {
      "epoch": 2.8957023060796647,
      "grad_norm": 0.06253161281347275,
      "learning_rate": 0.0009939098201703193,
      "loss": 0.6631,
      "num_input_tokens_seen": 3614808,
      "step": 5525
    },
    {
      "epoch": 2.89832285115304,
      "grad_norm": 0.11712969094514847,
      "learning_rate": 0.0009938741842832129,
      "loss": 0.6055,
      "num_input_tokens_seen": 3617624,
      "step": 5530
    },
    {
      "epoch": 2.900943396226415,
      "grad_norm": 0.07643285393714905,
      "learning_rate": 0.0009938384450832614,
      "loss": 0.5135,
      "num_input_tokens_seen": 3620312,
      "step": 5535
    },
    {
      "epoch": 2.9035639412997902,
      "grad_norm": 0.06838556379079819,
      "learning_rate": 0.0009938026025779411,
      "loss": 0.4922,
      "num_input_tokens_seen": 3625272,
      "step": 5540
    },
    {
      "epoch": 2.9061844863731654,
      "grad_norm": 0.11138965934515,
      "learning_rate": 0.0009937666567747501,
      "loss": 0.4392,
      "num_input_tokens_seen": 3629208,
      "step": 5545
    },
    {
      "epoch": 2.908805031446541,
      "grad_norm": 0.05018198490142822,
      "learning_rate": 0.0009937306076812076,
      "loss": 0.4455,
      "num_input_tokens_seen": 3632696,
      "step": 5550
    },
    {
      "epoch": 2.911425576519916,
      "grad_norm": 0.07623448222875595,
      "learning_rate": 0.0009936944553048548,
      "loss": 0.4727,
      "num_input_tokens_seen": 3635640,
      "step": 5555
    },
    {
      "epoch": 2.9140461215932913,
      "grad_norm": 0.06470919400453568,
      "learning_rate": 0.0009936581996532543,
      "loss": 0.3532,
      "num_input_tokens_seen": 3639672,
      "step": 5560
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.06392356008291245,
      "learning_rate": 0.0009936218407339905,
      "loss": 0.4553,
      "num_input_tokens_seen": 3642264,
      "step": 5565
    },
    {
      "epoch": 2.919287211740042,
      "grad_norm": 0.08335283398628235,
      "learning_rate": 0.0009935853785546691,
      "loss": 0.5151,
      "num_input_tokens_seen": 3646200,
      "step": 5570
    },
    {
      "epoch": 2.9219077568134173,
      "grad_norm": 0.07777780294418335,
      "learning_rate": 0.0009935488131229177,
      "loss": 0.4352,
      "num_input_tokens_seen": 3649240,
      "step": 5575
    },
    {
      "epoch": 2.9245283018867925,
      "grad_norm": 0.07808424532413483,
      "learning_rate": 0.000993512144446385,
      "loss": 0.5886,
      "num_input_tokens_seen": 3653016,
      "step": 5580
    },
    {
      "epoch": 2.9271488469601676,
      "grad_norm": 0.04835397005081177,
      "learning_rate": 0.000993475372532742,
      "loss": 0.3874,
      "num_input_tokens_seen": 3656792,
      "step": 5585
    },
    {
      "epoch": 2.929769392033543,
      "grad_norm": 0.06889644265174866,
      "learning_rate": 0.0009934384973896812,
      "loss": 0.4087,
      "num_input_tokens_seen": 3659672,
      "step": 5590
    },
    {
      "epoch": 2.932389937106918,
      "grad_norm": 0.09314870834350586,
      "learning_rate": 0.0009934015190249162,
      "loss": 0.4063,
      "num_input_tokens_seen": 3663000,
      "step": 5595
    },
    {
      "epoch": 2.9350104821802936,
      "grad_norm": 0.054249655455350876,
      "learning_rate": 0.0009933644374461822,
      "loss": 0.4109,
      "num_input_tokens_seen": 3666040,
      "step": 5600
    },
    {
      "epoch": 2.9376310272536688,
      "grad_norm": 0.04051494970917702,
      "learning_rate": 0.0009933272526612366,
      "loss": 0.4852,
      "num_input_tokens_seen": 3670808,
      "step": 5605
    },
    {
      "epoch": 2.940251572327044,
      "grad_norm": 0.051703549921512604,
      "learning_rate": 0.0009932899646778578,
      "loss": 0.4448,
      "num_input_tokens_seen": 3676184,
      "step": 5610
    },
    {
      "epoch": 2.9428721174004195,
      "grad_norm": 0.04713669419288635,
      "learning_rate": 0.0009932525735038464,
      "loss": 0.5105,
      "num_input_tokens_seen": 3679768,
      "step": 5615
    },
    {
      "epoch": 2.9454926624737947,
      "grad_norm": 0.07141223549842834,
      "learning_rate": 0.0009932150791470238,
      "loss": 0.6551,
      "num_input_tokens_seen": 3683000,
      "step": 5620
    },
    {
      "epoch": 2.94811320754717,
      "grad_norm": 0.08853327482938766,
      "learning_rate": 0.0009931774816152334,
      "loss": 0.3299,
      "num_input_tokens_seen": 3686584,
      "step": 5625
    },
    {
      "epoch": 2.950733752620545,
      "grad_norm": 0.053257014602422714,
      "learning_rate": 0.0009931397809163406,
      "loss": 0.4022,
      "num_input_tokens_seen": 3689912,
      "step": 5630
    },
    {
      "epoch": 2.95335429769392,
      "grad_norm": 0.11110837757587433,
      "learning_rate": 0.0009931019770582316,
      "loss": 0.4898,
      "num_input_tokens_seen": 3692824,
      "step": 5635
    },
    {
      "epoch": 2.9559748427672954,
      "grad_norm": 0.06043852120637894,
      "learning_rate": 0.0009930640700488143,
      "loss": 0.4846,
      "num_input_tokens_seen": 3695736,
      "step": 5640
    },
    {
      "epoch": 2.958595387840671,
      "grad_norm": 0.05837888643145561,
      "learning_rate": 0.000993026059896019,
      "loss": 0.4851,
      "num_input_tokens_seen": 3698648,
      "step": 5645
    },
    {
      "epoch": 2.961215932914046,
      "grad_norm": 0.0909455344080925,
      "learning_rate": 0.0009929879466077968,
      "loss": 0.4331,
      "num_input_tokens_seen": 3701176,
      "step": 5650
    },
    {
      "epoch": 2.9638364779874213,
      "grad_norm": 0.0871657058596611,
      "learning_rate": 0.0009929497301921202,
      "loss": 0.6138,
      "num_input_tokens_seen": 3703960,
      "step": 5655
    },
    {
      "epoch": 2.9664570230607965,
      "grad_norm": 0.08486631512641907,
      "learning_rate": 0.000992911410656984,
      "loss": 0.439,
      "num_input_tokens_seen": 3707352,
      "step": 5660
    },
    {
      "epoch": 2.969077568134172,
      "grad_norm": 0.10330024361610413,
      "learning_rate": 0.000992872988010404,
      "loss": 0.6787,
      "num_input_tokens_seen": 3710264,
      "step": 5665
    },
    {
      "epoch": 2.9716981132075473,
      "grad_norm": 0.06550722569227219,
      "learning_rate": 0.0009928344622604183,
      "loss": 0.5945,
      "num_input_tokens_seen": 3713144,
      "step": 5670
    },
    {
      "epoch": 2.9743186582809225,
      "grad_norm": 0.08185234665870667,
      "learning_rate": 0.0009927958334150853,
      "loss": 0.3443,
      "num_input_tokens_seen": 3715640,
      "step": 5675
    },
    {
      "epoch": 2.9769392033542976,
      "grad_norm": 0.058056604117155075,
      "learning_rate": 0.0009927571014824862,
      "loss": 0.437,
      "num_input_tokens_seen": 3718616,
      "step": 5680
    },
    {
      "epoch": 2.979559748427673,
      "grad_norm": 0.06655094772577286,
      "learning_rate": 0.000992718266470723,
      "loss": 0.3465,
      "num_input_tokens_seen": 3721560,
      "step": 5685
    },
    {
      "epoch": 2.982180293501048,
      "grad_norm": 0.07333577424287796,
      "learning_rate": 0.00099267932838792,
      "loss": 0.427,
      "num_input_tokens_seen": 3724920,
      "step": 5690
    },
    {
      "epoch": 2.9848008385744236,
      "grad_norm": 0.05385417491197586,
      "learning_rate": 0.000992640287242222,
      "loss": 0.4075,
      "num_input_tokens_seen": 3727576,
      "step": 5695
    },
    {
      "epoch": 2.9874213836477987,
      "grad_norm": 0.0701708048582077,
      "learning_rate": 0.0009926011430417961,
      "loss": 0.5254,
      "num_input_tokens_seen": 3731224,
      "step": 5700
    },
    {
      "epoch": 2.990041928721174,
      "grad_norm": 0.0645204707980156,
      "learning_rate": 0.0009925618957948312,
      "loss": 0.4588,
      "num_input_tokens_seen": 3734392,
      "step": 5705
    },
    {
      "epoch": 2.9926624737945495,
      "grad_norm": 0.07141832262277603,
      "learning_rate": 0.0009925225455095373,
      "loss": 0.5686,
      "num_input_tokens_seen": 3737848,
      "step": 5710
    },
    {
      "epoch": 2.9952830188679247,
      "grad_norm": 0.046082042157649994,
      "learning_rate": 0.0009924830921941455,
      "loss": 0.3857,
      "num_input_tokens_seen": 3742264,
      "step": 5715
    },
    {
      "epoch": 2.9979035639413,
      "grad_norm": 0.053771600127220154,
      "learning_rate": 0.0009924435358569096,
      "loss": 0.4558,
      "num_input_tokens_seen": 3744792,
      "step": 5720
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.48487749695777893,
      "eval_runtime": 13.5895,
      "eval_samples_per_second": 62.401,
      "eval_steps_per_second": 15.6,
      "num_input_tokens_seen": 3746728,
      "step": 5724
    },
    {
      "epoch": 3.000524109014675,
      "grad_norm": 0.05625443533062935,
      "learning_rate": 0.000992403876506104,
      "loss": 0.4971,
      "num_input_tokens_seen": 3747560,
      "step": 5725
    },
    {
      "epoch": 3.00314465408805,
      "grad_norm": 0.23358117043972015,
      "learning_rate": 0.000992364114150025,
      "loss": 0.5006,
      "num_input_tokens_seen": 3750440,
      "step": 5730
    },
    {
      "epoch": 3.0057651991614254,
      "grad_norm": 0.10080236196517944,
      "learning_rate": 0.0009923242487969908,
      "loss": 0.5168,
      "num_input_tokens_seen": 3753544,
      "step": 5735
    },
    {
      "epoch": 3.008385744234801,
      "grad_norm": 0.057836513966321945,
      "learning_rate": 0.0009922842804553403,
      "loss": 0.5338,
      "num_input_tokens_seen": 3757768,
      "step": 5740
    },
    {
      "epoch": 3.011006289308176,
      "grad_norm": 0.061889324337244034,
      "learning_rate": 0.0009922442091334345,
      "loss": 0.5068,
      "num_input_tokens_seen": 3761032,
      "step": 5745
    },
    {
      "epoch": 3.0136268343815513,
      "grad_norm": 0.13120339810848236,
      "learning_rate": 0.0009922040348396561,
      "loss": 0.449,
      "num_input_tokens_seen": 3763560,
      "step": 5750
    },
    {
      "epoch": 3.0162473794549265,
      "grad_norm": 0.08457762002944946,
      "learning_rate": 0.000992163757582409,
      "loss": 0.5179,
      "num_input_tokens_seen": 3766376,
      "step": 5755
    },
    {
      "epoch": 3.018867924528302,
      "grad_norm": 0.08697982877492905,
      "learning_rate": 0.0009921233773701188,
      "loss": 0.7105,
      "num_input_tokens_seen": 3769544,
      "step": 5760
    },
    {
      "epoch": 3.0214884696016773,
      "grad_norm": 0.096160389482975,
      "learning_rate": 0.0009920828942112322,
      "loss": 0.4824,
      "num_input_tokens_seen": 3772616,
      "step": 5765
    },
    {
      "epoch": 3.0241090146750524,
      "grad_norm": 0.13496796786785126,
      "learning_rate": 0.0009920423081142184,
      "loss": 0.5471,
      "num_input_tokens_seen": 3776712,
      "step": 5770
    },
    {
      "epoch": 3.0267295597484276,
      "grad_norm": 0.06552892923355103,
      "learning_rate": 0.0009920016190875672,
      "loss": 0.5421,
      "num_input_tokens_seen": 3779560,
      "step": 5775
    },
    {
      "epoch": 3.029350104821803,
      "grad_norm": 0.062468837946653366,
      "learning_rate": 0.00099196082713979,
      "loss": 0.5983,
      "num_input_tokens_seen": 3782056,
      "step": 5780
    },
    {
      "epoch": 3.0319706498951784,
      "grad_norm": 0.06567496806383133,
      "learning_rate": 0.0009919199322794207,
      "loss": 0.5693,
      "num_input_tokens_seen": 3784616,
      "step": 5785
    },
    {
      "epoch": 3.0345911949685536,
      "grad_norm": 0.07072246819734573,
      "learning_rate": 0.0009918789345150136,
      "loss": 0.4177,
      "num_input_tokens_seen": 3787368,
      "step": 5790
    },
    {
      "epoch": 3.0372117400419287,
      "grad_norm": 0.06341083347797394,
      "learning_rate": 0.000991837833855145,
      "loss": 0.4592,
      "num_input_tokens_seen": 3790184,
      "step": 5795
    },
    {
      "epoch": 3.039832285115304,
      "grad_norm": 0.07653418183326721,
      "learning_rate": 0.000991796630308413,
      "loss": 0.4938,
      "num_input_tokens_seen": 3793256,
      "step": 5800
    },
    {
      "epoch": 3.042452830188679,
      "grad_norm": 0.09071893990039825,
      "learning_rate": 0.0009917553238834363,
      "loss": 0.5515,
      "num_input_tokens_seen": 3796360,
      "step": 5805
    },
    {
      "epoch": 3.0450733752620547,
      "grad_norm": 0.09180507063865662,
      "learning_rate": 0.0009917139145888562,
      "loss": 0.4796,
      "num_input_tokens_seen": 3799144,
      "step": 5810
    },
    {
      "epoch": 3.04769392033543,
      "grad_norm": 0.12928518652915955,
      "learning_rate": 0.000991672402433335,
      "loss": 0.4908,
      "num_input_tokens_seen": 3802280,
      "step": 5815
    },
    {
      "epoch": 3.050314465408805,
      "grad_norm": 0.061682745814323425,
      "learning_rate": 0.0009916307874255565,
      "loss": 0.3409,
      "num_input_tokens_seen": 3807144,
      "step": 5820
    },
    {
      "epoch": 3.05293501048218,
      "grad_norm": 0.09294388443231583,
      "learning_rate": 0.000991589069574226,
      "loss": 0.3969,
      "num_input_tokens_seen": 3810088,
      "step": 5825
    },
    {
      "epoch": 3.0555555555555554,
      "grad_norm": 0.07002359628677368,
      "learning_rate": 0.0009915472488880705,
      "loss": 0.4941,
      "num_input_tokens_seen": 3813000,
      "step": 5830
    },
    {
      "epoch": 3.058176100628931,
      "grad_norm": 0.08728687465190887,
      "learning_rate": 0.0009915053253758386,
      "loss": 0.4855,
      "num_input_tokens_seen": 3815976,
      "step": 5835
    },
    {
      "epoch": 3.060796645702306,
      "grad_norm": 0.08317224681377411,
      "learning_rate": 0.0009914632990462998,
      "loss": 0.5123,
      "num_input_tokens_seen": 3818824,
      "step": 5840
    },
    {
      "epoch": 3.0634171907756813,
      "grad_norm": 0.1049361452460289,
      "learning_rate": 0.0009914211699082458,
      "loss": 0.4945,
      "num_input_tokens_seen": 3823112,
      "step": 5845
    },
    {
      "epoch": 3.0660377358490565,
      "grad_norm": 0.07403790205717087,
      "learning_rate": 0.0009913789379704897,
      "loss": 0.6082,
      "num_input_tokens_seen": 3826984,
      "step": 5850
    },
    {
      "epoch": 3.068658280922432,
      "grad_norm": 0.1529066264629364,
      "learning_rate": 0.0009913366032418653,
      "loss": 0.4967,
      "num_input_tokens_seen": 3829384,
      "step": 5855
    },
    {
      "epoch": 3.0712788259958073,
      "grad_norm": 0.14012303948402405,
      "learning_rate": 0.0009912941657312293,
      "loss": 0.5736,
      "num_input_tokens_seen": 3831976,
      "step": 5860
    },
    {
      "epoch": 3.0738993710691824,
      "grad_norm": 0.08268045634031296,
      "learning_rate": 0.0009912516254474586,
      "loss": 0.4445,
      "num_input_tokens_seen": 3834728,
      "step": 5865
    },
    {
      "epoch": 3.0765199161425576,
      "grad_norm": 0.12700913846492767,
      "learning_rate": 0.0009912089823994525,
      "loss": 0.385,
      "num_input_tokens_seen": 3837064,
      "step": 5870
    },
    {
      "epoch": 3.0791404612159328,
      "grad_norm": 0.06963441520929337,
      "learning_rate": 0.0009911662365961313,
      "loss": 0.4391,
      "num_input_tokens_seen": 3840456,
      "step": 5875
    },
    {
      "epoch": 3.0817610062893084,
      "grad_norm": 0.0899207592010498,
      "learning_rate": 0.000991123388046437,
      "loss": 0.5658,
      "num_input_tokens_seen": 3843528,
      "step": 5880
    },
    {
      "epoch": 3.0843815513626835,
      "grad_norm": 0.10400547087192535,
      "learning_rate": 0.0009910804367593328,
      "loss": 0.3783,
      "num_input_tokens_seen": 3845960,
      "step": 5885
    },
    {
      "epoch": 3.0870020964360587,
      "grad_norm": 0.08528096228837967,
      "learning_rate": 0.0009910373827438038,
      "loss": 0.4715,
      "num_input_tokens_seen": 3851656,
      "step": 5890
    },
    {
      "epoch": 3.089622641509434,
      "grad_norm": 0.09293382614850998,
      "learning_rate": 0.0009909942260088562,
      "loss": 0.4168,
      "num_input_tokens_seen": 3855496,
      "step": 5895
    },
    {
      "epoch": 3.092243186582809,
      "grad_norm": 0.0623350590467453,
      "learning_rate": 0.0009909509665635184,
      "loss": 0.4747,
      "num_input_tokens_seen": 3858760,
      "step": 5900
    },
    {
      "epoch": 3.0948637316561847,
      "grad_norm": 0.06840641796588898,
      "learning_rate": 0.0009909076044168394,
      "loss": 0.5996,
      "num_input_tokens_seen": 3861640,
      "step": 5905
    },
    {
      "epoch": 3.09748427672956,
      "grad_norm": 0.12317615747451782,
      "learning_rate": 0.00099086413957789,
      "loss": 0.4216,
      "num_input_tokens_seen": 3864392,
      "step": 5910
    },
    {
      "epoch": 3.100104821802935,
      "grad_norm": 0.07631012052297592,
      "learning_rate": 0.0009908205720557627,
      "loss": 0.6173,
      "num_input_tokens_seen": 3867880,
      "step": 5915
    },
    {
      "epoch": 3.10272536687631,
      "grad_norm": 0.1221243143081665,
      "learning_rate": 0.0009907769018595713,
      "loss": 0.5943,
      "num_input_tokens_seen": 3871080,
      "step": 5920
    },
    {
      "epoch": 3.1053459119496853,
      "grad_norm": 0.11977633088827133,
      "learning_rate": 0.0009907331289984512,
      "loss": 0.5019,
      "num_input_tokens_seen": 3875112,
      "step": 5925
    },
    {
      "epoch": 3.107966457023061,
      "grad_norm": 0.07923432439565659,
      "learning_rate": 0.000990689253481559,
      "loss": 0.3699,
      "num_input_tokens_seen": 3877704,
      "step": 5930
    },
    {
      "epoch": 3.110587002096436,
      "grad_norm": 0.06317973136901855,
      "learning_rate": 0.000990645275318073,
      "loss": 0.5659,
      "num_input_tokens_seen": 3881064,
      "step": 5935
    },
    {
      "epoch": 3.1132075471698113,
      "grad_norm": 0.07327373325824738,
      "learning_rate": 0.000990601194517193,
      "loss": 0.667,
      "num_input_tokens_seen": 3883816,
      "step": 5940
    },
    {
      "epoch": 3.1158280922431865,
      "grad_norm": 0.06391473859548569,
      "learning_rate": 0.0009905570110881402,
      "loss": 0.4597,
      "num_input_tokens_seen": 3887720,
      "step": 5945
    },
    {
      "epoch": 3.1184486373165616,
      "grad_norm": 0.08759576082229614,
      "learning_rate": 0.0009905127250401573,
      "loss": 0.4018,
      "num_input_tokens_seen": 3890440,
      "step": 5950
    },
    {
      "epoch": 3.1210691823899372,
      "grad_norm": 0.07232438027858734,
      "learning_rate": 0.0009904683363825084,
      "loss": 0.4758,
      "num_input_tokens_seen": 3895784,
      "step": 5955
    },
    {
      "epoch": 3.1236897274633124,
      "grad_norm": 0.06367655098438263,
      "learning_rate": 0.0009904238451244791,
      "loss": 0.4563,
      "num_input_tokens_seen": 3900296,
      "step": 5960
    },
    {
      "epoch": 3.1263102725366876,
      "grad_norm": 0.11150014400482178,
      "learning_rate": 0.0009903792512753764,
      "loss": 0.3705,
      "num_input_tokens_seen": 3902952,
      "step": 5965
    },
    {
      "epoch": 3.1289308176100628,
      "grad_norm": 0.11967767030000687,
      "learning_rate": 0.0009903345548445289,
      "loss": 0.6621,
      "num_input_tokens_seen": 3905576,
      "step": 5970
    },
    {
      "epoch": 3.131551362683438,
      "grad_norm": 0.053340282291173935,
      "learning_rate": 0.0009902897558412864,
      "loss": 0.3794,
      "num_input_tokens_seen": 3911368,
      "step": 5975
    },
    {
      "epoch": 3.1341719077568135,
      "grad_norm": 0.04131844639778137,
      "learning_rate": 0.0009902448542750207,
      "loss": 0.5648,
      "num_input_tokens_seen": 3915560,
      "step": 5980
    },
    {
      "epoch": 3.1367924528301887,
      "grad_norm": 0.07275620102882385,
      "learning_rate": 0.0009901998501551245,
      "loss": 0.4967,
      "num_input_tokens_seen": 3918376,
      "step": 5985
    },
    {
      "epoch": 3.139412997903564,
      "grad_norm": 0.07185032218694687,
      "learning_rate": 0.000990154743491012,
      "loss": 0.4914,
      "num_input_tokens_seen": 3921608,
      "step": 5990
    },
    {
      "epoch": 3.142033542976939,
      "grad_norm": 0.08421728014945984,
      "learning_rate": 0.0009901095342921193,
      "loss": 0.4917,
      "num_input_tokens_seen": 3924072,
      "step": 5995
    },
    {
      "epoch": 3.1446540880503147,
      "grad_norm": 0.10612034797668457,
      "learning_rate": 0.0009900642225679035,
      "loss": 0.4939,
      "num_input_tokens_seen": 3927080,
      "step": 6000
    },
    {
      "epoch": 3.14727463312369,
      "grad_norm": 0.08952771872282028,
      "learning_rate": 0.000990018808327843,
      "loss": 0.5368,
      "num_input_tokens_seen": 3929768,
      "step": 6005
    },
    {
      "epoch": 3.149895178197065,
      "grad_norm": 0.07412732392549515,
      "learning_rate": 0.0009899732915814386,
      "loss": 0.5495,
      "num_input_tokens_seen": 3933512,
      "step": 6010
    },
    {
      "epoch": 3.15251572327044,
      "grad_norm": 0.06525605916976929,
      "learning_rate": 0.0009899276723382112,
      "loss": 0.5954,
      "num_input_tokens_seen": 3937032,
      "step": 6015
    },
    {
      "epoch": 3.1551362683438153,
      "grad_norm": 0.05086502060294151,
      "learning_rate": 0.0009898819506077043,
      "loss": 0.4692,
      "num_input_tokens_seen": 3940616,
      "step": 6020
    },
    {
      "epoch": 3.157756813417191,
      "grad_norm": 0.11147414892911911,
      "learning_rate": 0.0009898361263994823,
      "loss": 0.4693,
      "num_input_tokens_seen": 3944296,
      "step": 6025
    },
    {
      "epoch": 3.160377358490566,
      "grad_norm": 0.06202691048383713,
      "learning_rate": 0.0009897901997231308,
      "loss": 0.4353,
      "num_input_tokens_seen": 3946760,
      "step": 6030
    },
    {
      "epoch": 3.1629979035639413,
      "grad_norm": 0.0844084620475769,
      "learning_rate": 0.0009897441705882576,
      "loss": 0.4931,
      "num_input_tokens_seen": 3950984,
      "step": 6035
    },
    {
      "epoch": 3.1656184486373165,
      "grad_norm": 0.0757395476102829,
      "learning_rate": 0.0009896980390044908,
      "loss": 0.4636,
      "num_input_tokens_seen": 3953576,
      "step": 6040
    },
    {
      "epoch": 3.1682389937106916,
      "grad_norm": 0.06572762876749039,
      "learning_rate": 0.0009896518049814812,
      "loss": 0.3812,
      "num_input_tokens_seen": 3956552,
      "step": 6045
    },
    {
      "epoch": 3.1708595387840672,
      "grad_norm": 0.087638720870018,
      "learning_rate": 0.0009896054685289005,
      "loss": 0.556,
      "num_input_tokens_seen": 3960584,
      "step": 6050
    },
    {
      "epoch": 3.1734800838574424,
      "grad_norm": 0.05834607034921646,
      "learning_rate": 0.0009895590296564412,
      "loss": 0.4675,
      "num_input_tokens_seen": 3963496,
      "step": 6055
    },
    {
      "epoch": 3.1761006289308176,
      "grad_norm": 0.10762358456850052,
      "learning_rate": 0.000989512488373818,
      "loss": 0.4646,
      "num_input_tokens_seen": 3970312,
      "step": 6060
    },
    {
      "epoch": 3.1787211740041927,
      "grad_norm": 0.06819193810224533,
      "learning_rate": 0.0009894658446907671,
      "loss": 0.4477,
      "num_input_tokens_seen": 3973288,
      "step": 6065
    },
    {
      "epoch": 3.181341719077568,
      "grad_norm": 0.10332173854112625,
      "learning_rate": 0.0009894190986170458,
      "loss": 0.5323,
      "num_input_tokens_seen": 3976456,
      "step": 6070
    },
    {
      "epoch": 3.1839622641509435,
      "grad_norm": 0.06701085716485977,
      "learning_rate": 0.0009893722501624323,
      "loss": 0.4701,
      "num_input_tokens_seen": 3979528,
      "step": 6075
    },
    {
      "epoch": 3.1865828092243187,
      "grad_norm": 0.08539620041847229,
      "learning_rate": 0.0009893252993367272,
      "loss": 0.4898,
      "num_input_tokens_seen": 3982536,
      "step": 6080
    },
    {
      "epoch": 3.189203354297694,
      "grad_norm": 0.030836591497063637,
      "learning_rate": 0.000989278246149752,
      "loss": 0.4054,
      "num_input_tokens_seen": 3988904,
      "step": 6085
    },
    {
      "epoch": 3.191823899371069,
      "grad_norm": 0.06993334740400314,
      "learning_rate": 0.0009892310906113497,
      "loss": 0.4714,
      "num_input_tokens_seen": 3991944,
      "step": 6090
    },
    {
      "epoch": 3.1944444444444446,
      "grad_norm": 0.0756232738494873,
      "learning_rate": 0.0009891838327313847,
      "loss": 0.4716,
      "num_input_tokens_seen": 3995688,
      "step": 6095
    },
    {
      "epoch": 3.19706498951782,
      "grad_norm": 0.08141865581274033,
      "learning_rate": 0.000989136472519743,
      "loss": 0.4619,
      "num_input_tokens_seen": 3999016,
      "step": 6100
    },
    {
      "epoch": 3.199685534591195,
      "grad_norm": 0.07596243172883987,
      "learning_rate": 0.0009890890099863313,
      "loss": 0.4136,
      "num_input_tokens_seen": 4002120,
      "step": 6105
    },
    {
      "epoch": 3.20230607966457,
      "grad_norm": 0.06756184995174408,
      "learning_rate": 0.0009890414451410787,
      "loss": 0.5733,
      "num_input_tokens_seen": 4005640,
      "step": 6110
    },
    {
      "epoch": 3.2049266247379453,
      "grad_norm": 0.06927270442247391,
      "learning_rate": 0.0009889937779939348,
      "loss": 0.4545,
      "num_input_tokens_seen": 4008968,
      "step": 6115
    },
    {
      "epoch": 3.207547169811321,
      "grad_norm": 0.0509880892932415,
      "learning_rate": 0.0009889460085548715,
      "loss": 0.3133,
      "num_input_tokens_seen": 4011528,
      "step": 6120
    },
    {
      "epoch": 3.210167714884696,
      "grad_norm": 0.07568984478712082,
      "learning_rate": 0.0009888981368338815,
      "loss": 0.4794,
      "num_input_tokens_seen": 4014696,
      "step": 6125
    },
    {
      "epoch": 3.2127882599580713,
      "grad_norm": 0.0652550458908081,
      "learning_rate": 0.0009888501628409789,
      "loss": 0.3981,
      "num_input_tokens_seen": 4017384,
      "step": 6130
    },
    {
      "epoch": 3.2154088050314464,
      "grad_norm": 0.10242694616317749,
      "learning_rate": 0.0009888020865861991,
      "loss": 0.4405,
      "num_input_tokens_seen": 4020520,
      "step": 6135
    },
    {
      "epoch": 3.2180293501048216,
      "grad_norm": 0.10814347863197327,
      "learning_rate": 0.0009887539080795996,
      "loss": 0.5591,
      "num_input_tokens_seen": 4023624,
      "step": 6140
    },
    {
      "epoch": 3.220649895178197,
      "grad_norm": 0.06505949795246124,
      "learning_rate": 0.0009887056273312584,
      "loss": 0.5508,
      "num_input_tokens_seen": 4027304,
      "step": 6145
    },
    {
      "epoch": 3.2232704402515724,
      "grad_norm": 0.08424966782331467,
      "learning_rate": 0.0009886572443512753,
      "loss": 0.4354,
      "num_input_tokens_seen": 4030536,
      "step": 6150
    },
    {
      "epoch": 3.2258909853249476,
      "grad_norm": 0.11510040611028671,
      "learning_rate": 0.0009886087591497717,
      "loss": 0.438,
      "num_input_tokens_seen": 4033448,
      "step": 6155
    },
    {
      "epoch": 3.2285115303983227,
      "grad_norm": 0.06233469024300575,
      "learning_rate": 0.00098856017173689,
      "loss": 0.4433,
      "num_input_tokens_seen": 4036264,
      "step": 6160
    },
    {
      "epoch": 3.231132075471698,
      "grad_norm": 0.07153645902872086,
      "learning_rate": 0.0009885114821227942,
      "loss": 0.4411,
      "num_input_tokens_seen": 4040040,
      "step": 6165
    },
    {
      "epoch": 3.2337526205450735,
      "grad_norm": 0.09496071934700012,
      "learning_rate": 0.0009884626903176696,
      "loss": 0.4565,
      "num_input_tokens_seen": 4042856,
      "step": 6170
    },
    {
      "epoch": 3.2363731656184487,
      "grad_norm": 0.05077362805604935,
      "learning_rate": 0.0009884137963317228,
      "loss": 0.5019,
      "num_input_tokens_seen": 4046312,
      "step": 6175
    },
    {
      "epoch": 3.238993710691824,
      "grad_norm": 0.07615617662668228,
      "learning_rate": 0.000988364800175182,
      "loss": 0.474,
      "num_input_tokens_seen": 4049128,
      "step": 6180
    },
    {
      "epoch": 3.241614255765199,
      "grad_norm": 0.07385614514350891,
      "learning_rate": 0.0009883157018582966,
      "loss": 0.4094,
      "num_input_tokens_seen": 4052776,
      "step": 6185
    },
    {
      "epoch": 3.2442348008385746,
      "grad_norm": 0.0779833197593689,
      "learning_rate": 0.0009882665013913373,
      "loss": 0.532,
      "num_input_tokens_seen": 4055720,
      "step": 6190
    },
    {
      "epoch": 3.24685534591195,
      "grad_norm": 0.061612386256456375,
      "learning_rate": 0.0009882171987845962,
      "loss": 0.4058,
      "num_input_tokens_seen": 4060968,
      "step": 6195
    },
    {
      "epoch": 3.249475890985325,
      "grad_norm": 0.05997142195701599,
      "learning_rate": 0.000988167794048387,
      "loss": 0.4733,
      "num_input_tokens_seen": 4063784,
      "step": 6200
    },
    {
      "epoch": 3.2520964360587,
      "grad_norm": 0.06133655458688736,
      "learning_rate": 0.0009881182871930448,
      "loss": 0.5391,
      "num_input_tokens_seen": 4066728,
      "step": 6205
    },
    {
      "epoch": 3.2547169811320753,
      "grad_norm": 0.09138252586126328,
      "learning_rate": 0.0009880686782289256,
      "loss": 0.3564,
      "num_input_tokens_seen": 4071368,
      "step": 6210
    },
    {
      "epoch": 3.257337526205451,
      "grad_norm": 0.06890397518873215,
      "learning_rate": 0.000988018967166407,
      "loss": 0.6179,
      "num_input_tokens_seen": 4074152,
      "step": 6215
    },
    {
      "epoch": 3.259958071278826,
      "grad_norm": 0.056180644780397415,
      "learning_rate": 0.0009879691540158884,
      "loss": 0.4211,
      "num_input_tokens_seen": 4077672,
      "step": 6220
    },
    {
      "epoch": 3.2625786163522013,
      "grad_norm": 0.07969371229410172,
      "learning_rate": 0.0009879192387877895,
      "loss": 0.6705,
      "num_input_tokens_seen": 4081128,
      "step": 6225
    },
    {
      "epoch": 3.2651991614255764,
      "grad_norm": 0.13328917324543,
      "learning_rate": 0.0009878692214925523,
      "loss": 0.436,
      "num_input_tokens_seen": 4083976,
      "step": 6230
    },
    {
      "epoch": 3.2678197064989516,
      "grad_norm": 0.08724553138017654,
      "learning_rate": 0.00098781910214064,
      "loss": 0.518,
      "num_input_tokens_seen": 4087432,
      "step": 6235
    },
    {
      "epoch": 3.270440251572327,
      "grad_norm": 0.052868012338876724,
      "learning_rate": 0.0009877688807425368,
      "loss": 0.4874,
      "num_input_tokens_seen": 4093096,
      "step": 6240
    },
    {
      "epoch": 3.2730607966457024,
      "grad_norm": 0.14217859506607056,
      "learning_rate": 0.0009877185573087487,
      "loss": 0.501,
      "num_input_tokens_seen": 4096424,
      "step": 6245
    },
    {
      "epoch": 3.2756813417190775,
      "grad_norm": 0.06444407999515533,
      "learning_rate": 0.0009876681318498025,
      "loss": 0.5164,
      "num_input_tokens_seen": 4099944,
      "step": 6250
    },
    {
      "epoch": 3.2783018867924527,
      "grad_norm": 0.060991112142801285,
      "learning_rate": 0.0009876176043762466,
      "loss": 0.4317,
      "num_input_tokens_seen": 4103368,
      "step": 6255
    },
    {
      "epoch": 3.280922431865828,
      "grad_norm": 0.10412288457155228,
      "learning_rate": 0.000987566974898651,
      "loss": 0.4268,
      "num_input_tokens_seen": 4106248,
      "step": 6260
    },
    {
      "epoch": 3.2835429769392035,
      "grad_norm": 0.07747304439544678,
      "learning_rate": 0.0009875162434276065,
      "loss": 0.3727,
      "num_input_tokens_seen": 4109128,
      "step": 6265
    },
    {
      "epoch": 3.2861635220125787,
      "grad_norm": 0.08698359876871109,
      "learning_rate": 0.000987465409973726,
      "loss": 0.488,
      "num_input_tokens_seen": 4111880,
      "step": 6270
    },
    {
      "epoch": 3.288784067085954,
      "grad_norm": 0.08895139396190643,
      "learning_rate": 0.0009874144745476432,
      "loss": 0.4297,
      "num_input_tokens_seen": 4115208,
      "step": 6275
    },
    {
      "epoch": 3.291404612159329,
      "grad_norm": 0.07986751198768616,
      "learning_rate": 0.0009873634371600126,
      "loss": 0.6257,
      "num_input_tokens_seen": 4118440,
      "step": 6280
    },
    {
      "epoch": 3.2940251572327046,
      "grad_norm": 0.16183999180793762,
      "learning_rate": 0.0009873122978215115,
      "loss": 0.4895,
      "num_input_tokens_seen": 4121608,
      "step": 6285
    },
    {
      "epoch": 3.29664570230608,
      "grad_norm": 0.07387447357177734,
      "learning_rate": 0.000987261056542837,
      "loss": 0.5824,
      "num_input_tokens_seen": 4124648,
      "step": 6290
    },
    {
      "epoch": 3.299266247379455,
      "grad_norm": 0.05923561751842499,
      "learning_rate": 0.0009872097133347085,
      "loss": 0.4908,
      "num_input_tokens_seen": 4127688,
      "step": 6295
    },
    {
      "epoch": 3.30188679245283,
      "grad_norm": 0.08405646681785583,
      "learning_rate": 0.0009871582682078664,
      "loss": 0.4371,
      "num_input_tokens_seen": 4131528,
      "step": 6300
    },
    {
      "epoch": 3.3045073375262053,
      "grad_norm": 0.07406314462423325,
      "learning_rate": 0.0009871067211730722,
      "loss": 0.4621,
      "num_input_tokens_seen": 4134216,
      "step": 6305
    },
    {
      "epoch": 3.307127882599581,
      "grad_norm": 0.12486305832862854,
      "learning_rate": 0.0009870550722411093,
      "loss": 0.4301,
      "num_input_tokens_seen": 4137544,
      "step": 6310
    },
    {
      "epoch": 3.309748427672956,
      "grad_norm": 0.047478120774030685,
      "learning_rate": 0.000987003321422782,
      "loss": 0.5593,
      "num_input_tokens_seen": 4140424,
      "step": 6315
    },
    {
      "epoch": 3.3123689727463312,
      "grad_norm": 0.0939304456114769,
      "learning_rate": 0.0009869514687289155,
      "loss": 0.5122,
      "num_input_tokens_seen": 4142984,
      "step": 6320
    },
    {
      "epoch": 3.3149895178197064,
      "grad_norm": 0.1426440179347992,
      "learning_rate": 0.0009868995141703576,
      "loss": 0.4419,
      "num_input_tokens_seen": 4145768,
      "step": 6325
    },
    {
      "epoch": 3.3176100628930816,
      "grad_norm": 0.06612152606248856,
      "learning_rate": 0.000986847457757976,
      "loss": 0.3746,
      "num_input_tokens_seen": 4148840,
      "step": 6330
    },
    {
      "epoch": 3.320230607966457,
      "grad_norm": 0.04302424564957619,
      "learning_rate": 0.0009867952995026605,
      "loss": 0.4152,
      "num_input_tokens_seen": 4152840,
      "step": 6335
    },
    {
      "epoch": 3.3228511530398324,
      "grad_norm": 0.06909281760454178,
      "learning_rate": 0.0009867430394153221,
      "loss": 0.5836,
      "num_input_tokens_seen": 4155400,
      "step": 6340
    },
    {
      "epoch": 3.3254716981132075,
      "grad_norm": 0.07476352900266647,
      "learning_rate": 0.0009866906775068927,
      "loss": 0.456,
      "num_input_tokens_seen": 4158312,
      "step": 6345
    },
    {
      "epoch": 3.3280922431865827,
      "grad_norm": 0.07481618970632553,
      "learning_rate": 0.0009866382137883262,
      "loss": 0.4817,
      "num_input_tokens_seen": 4161096,
      "step": 6350
    },
    {
      "epoch": 3.330712788259958,
      "grad_norm": 0.06060292571783066,
      "learning_rate": 0.0009865856482705973,
      "loss": 0.3962,
      "num_input_tokens_seen": 4164520,
      "step": 6355
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.08262043446302414,
      "learning_rate": 0.0009865329809647019,
      "loss": 0.5699,
      "num_input_tokens_seen": 4168264,
      "step": 6360
    },
    {
      "epoch": 3.3359538784067087,
      "grad_norm": 0.05644796043634415,
      "learning_rate": 0.0009864802118816575,
      "loss": 0.4396,
      "num_input_tokens_seen": 4171112,
      "step": 6365
    },
    {
      "epoch": 3.338574423480084,
      "grad_norm": 0.09500281512737274,
      "learning_rate": 0.0009864273410325028,
      "loss": 0.5217,
      "num_input_tokens_seen": 4174120,
      "step": 6370
    },
    {
      "epoch": 3.341194968553459,
      "grad_norm": 0.09150055795907974,
      "learning_rate": 0.000986374368428298,
      "loss": 0.619,
      "num_input_tokens_seen": 4177096,
      "step": 6375
    },
    {
      "epoch": 3.3438155136268346,
      "grad_norm": 0.08630561083555222,
      "learning_rate": 0.000986321294080124,
      "loss": 0.508,
      "num_input_tokens_seen": 4180104,
      "step": 6380
    },
    {
      "epoch": 3.3464360587002098,
      "grad_norm": 0.07184220105409622,
      "learning_rate": 0.0009862681179990838,
      "loss": 0.5217,
      "num_input_tokens_seen": 4184008,
      "step": 6385
    },
    {
      "epoch": 3.349056603773585,
      "grad_norm": 0.0616319514811039,
      "learning_rate": 0.0009862148401963008,
      "loss": 0.4084,
      "num_input_tokens_seen": 4186984,
      "step": 6390
    },
    {
      "epoch": 3.35167714884696,
      "grad_norm": 0.04839509725570679,
      "learning_rate": 0.0009861614606829201,
      "loss": 0.3876,
      "num_input_tokens_seen": 4190216,
      "step": 6395
    },
    {
      "epoch": 3.3542976939203353,
      "grad_norm": 0.06639538705348969,
      "learning_rate": 0.0009861079794701085,
      "loss": 0.5225,
      "num_input_tokens_seen": 4193256,
      "step": 6400
    },
    {
      "epoch": 3.3569182389937104,
      "grad_norm": 0.05828440934419632,
      "learning_rate": 0.000986054396569053,
      "loss": 0.5445,
      "num_input_tokens_seen": 4197256,
      "step": 6405
    },
    {
      "epoch": 3.359538784067086,
      "grad_norm": 0.07753302901983261,
      "learning_rate": 0.0009860007119909635,
      "loss": 0.43,
      "num_input_tokens_seen": 4200168,
      "step": 6410
    },
    {
      "epoch": 3.3621593291404612,
      "grad_norm": 0.06118810921907425,
      "learning_rate": 0.0009859469257470692,
      "loss": 0.3545,
      "num_input_tokens_seen": 4203848,
      "step": 6415
    },
    {
      "epoch": 3.3647798742138364,
      "grad_norm": 0.06370923668146133,
      "learning_rate": 0.0009858930378486223,
      "loss": 0.433,
      "num_input_tokens_seen": 4207592,
      "step": 6420
    },
    {
      "epoch": 3.3674004192872116,
      "grad_norm": 0.06991159170866013,
      "learning_rate": 0.000985839048306895,
      "loss": 0.485,
      "num_input_tokens_seen": 4211912,
      "step": 6425
    },
    {
      "epoch": 3.370020964360587,
      "grad_norm": 0.05271972715854645,
      "learning_rate": 0.000985784957133182,
      "loss": 0.5563,
      "num_input_tokens_seen": 4214408,
      "step": 6430
    },
    {
      "epoch": 3.3726415094339623,
      "grad_norm": 0.10162008553743362,
      "learning_rate": 0.0009857307643387975,
      "loss": 0.4903,
      "num_input_tokens_seen": 4216712,
      "step": 6435
    },
    {
      "epoch": 3.3752620545073375,
      "grad_norm": 0.08330491185188293,
      "learning_rate": 0.000985676469935079,
      "loss": 0.4559,
      "num_input_tokens_seen": 4220168,
      "step": 6440
    },
    {
      "epoch": 3.3778825995807127,
      "grad_norm": 0.09720054268836975,
      "learning_rate": 0.0009856220739333837,
      "loss": 0.6557,
      "num_input_tokens_seen": 4223208,
      "step": 6445
    },
    {
      "epoch": 3.380503144654088,
      "grad_norm": 0.07787051796913147,
      "learning_rate": 0.000985567576345091,
      "loss": 0.4065,
      "num_input_tokens_seen": 4226760,
      "step": 6450
    },
    {
      "epoch": 3.3831236897274635,
      "grad_norm": 0.07245686650276184,
      "learning_rate": 0.0009855129771816006,
      "loss": 0.4883,
      "num_input_tokens_seen": 4230152,
      "step": 6455
    },
    {
      "epoch": 3.3857442348008386,
      "grad_norm": 0.057797569781541824,
      "learning_rate": 0.0009854582764543347,
      "loss": 0.4394,
      "num_input_tokens_seen": 4233416,
      "step": 6460
    },
    {
      "epoch": 3.388364779874214,
      "grad_norm": 0.06868944317102432,
      "learning_rate": 0.0009854034741747356,
      "loss": 0.5204,
      "num_input_tokens_seen": 4236328,
      "step": 6465
    },
    {
      "epoch": 3.390985324947589,
      "grad_norm": 0.09586832672357559,
      "learning_rate": 0.0009853485703542675,
      "loss": 0.439,
      "num_input_tokens_seen": 4238760,
      "step": 6470
    },
    {
      "epoch": 3.3936058700209646,
      "grad_norm": 0.11293400079011917,
      "learning_rate": 0.0009852935650044158,
      "loss": 0.4201,
      "num_input_tokens_seen": 4241992,
      "step": 6475
    },
    {
      "epoch": 3.3962264150943398,
      "grad_norm": 0.10765296965837479,
      "learning_rate": 0.0009852384581366866,
      "loss": 0.4565,
      "num_input_tokens_seen": 4244584,
      "step": 6480
    },
    {
      "epoch": 3.398846960167715,
      "grad_norm": 0.10063119977712631,
      "learning_rate": 0.000985183249762608,
      "loss": 0.3762,
      "num_input_tokens_seen": 4247496,
      "step": 6485
    },
    {
      "epoch": 3.40146750524109,
      "grad_norm": 0.10209022462368011,
      "learning_rate": 0.000985127939893729,
      "loss": 0.3989,
      "num_input_tokens_seen": 4250760,
      "step": 6490
    },
    {
      "epoch": 3.4040880503144653,
      "grad_norm": 0.09317957609891891,
      "learning_rate": 0.0009850725285416194,
      "loss": 0.4462,
      "num_input_tokens_seen": 4253256,
      "step": 6495
    },
    {
      "epoch": 3.4067085953878404,
      "grad_norm": 0.1010652631521225,
      "learning_rate": 0.0009850170157178707,
      "loss": 0.4541,
      "num_input_tokens_seen": 4257320,
      "step": 6500
    },
    {
      "epoch": 3.409329140461216,
      "grad_norm": 0.03991963714361191,
      "learning_rate": 0.000984961401434096,
      "loss": 0.6338,
      "num_input_tokens_seen": 4261864,
      "step": 6505
    },
    {
      "epoch": 3.411949685534591,
      "grad_norm": 0.09683812409639359,
      "learning_rate": 0.0009849056857019285,
      "loss": 0.4056,
      "num_input_tokens_seen": 4264744,
      "step": 6510
    },
    {
      "epoch": 3.4145702306079664,
      "grad_norm": 0.08795708417892456,
      "learning_rate": 0.0009848498685330238,
      "loss": 0.3927,
      "num_input_tokens_seen": 4267080,
      "step": 6515
    },
    {
      "epoch": 3.4171907756813416,
      "grad_norm": 0.12585927546024323,
      "learning_rate": 0.000984793949939058,
      "loss": 0.5159,
      "num_input_tokens_seen": 4269928,
      "step": 6520
    },
    {
      "epoch": 3.419811320754717,
      "grad_norm": 0.0781804546713829,
      "learning_rate": 0.0009847379299317287,
      "loss": 0.3708,
      "num_input_tokens_seen": 4272872,
      "step": 6525
    },
    {
      "epoch": 3.4224318658280923,
      "grad_norm": 0.11176694929599762,
      "learning_rate": 0.0009846818085227549,
      "loss": 0.4918,
      "num_input_tokens_seen": 4275912,
      "step": 6530
    },
    {
      "epoch": 3.4250524109014675,
      "grad_norm": 0.07626771181821823,
      "learning_rate": 0.000984625585723876,
      "loss": 0.5121,
      "num_input_tokens_seen": 4280104,
      "step": 6535
    },
    {
      "epoch": 3.4276729559748427,
      "grad_norm": 0.06759349256753922,
      "learning_rate": 0.0009845692615468536,
      "loss": 0.3636,
      "num_input_tokens_seen": 4283080,
      "step": 6540
    },
    {
      "epoch": 3.430293501048218,
      "grad_norm": 0.08282721787691116,
      "learning_rate": 0.00098451283600347,
      "loss": 0.4425,
      "num_input_tokens_seen": 4286024,
      "step": 6545
    },
    {
      "epoch": 3.4329140461215935,
      "grad_norm": 0.06031566113233566,
      "learning_rate": 0.0009844563091055286,
      "loss": 0.5384,
      "num_input_tokens_seen": 4289672,
      "step": 6550
    },
    {
      "epoch": 3.4355345911949686,
      "grad_norm": 0.09258397668600082,
      "learning_rate": 0.0009843996808648542,
      "loss": 0.3953,
      "num_input_tokens_seen": 4292840,
      "step": 6555
    },
    {
      "epoch": 3.438155136268344,
      "grad_norm": 0.05115162208676338,
      "learning_rate": 0.000984342951293293,
      "loss": 0.4069,
      "num_input_tokens_seen": 4296072,
      "step": 6560
    },
    {
      "epoch": 3.440775681341719,
      "grad_norm": 0.08513681590557098,
      "learning_rate": 0.0009842861204027121,
      "loss": 0.4927,
      "num_input_tokens_seen": 4299720,
      "step": 6565
    },
    {
      "epoch": 3.4433962264150946,
      "grad_norm": 0.10546734929084778,
      "learning_rate": 0.0009842291882049999,
      "loss": 0.4647,
      "num_input_tokens_seen": 4302856,
      "step": 6570
    },
    {
      "epoch": 3.4460167714884697,
      "grad_norm": 0.05155853554606438,
      "learning_rate": 0.0009841721547120658,
      "loss": 0.4503,
      "num_input_tokens_seen": 4305864,
      "step": 6575
    },
    {
      "epoch": 3.448637316561845,
      "grad_norm": 0.06813638657331467,
      "learning_rate": 0.0009841150199358408,
      "loss": 0.3743,
      "num_input_tokens_seen": 4309352,
      "step": 6580
    },
    {
      "epoch": 3.45125786163522,
      "grad_norm": 0.0528760626912117,
      "learning_rate": 0.0009840577838882765,
      "loss": 0.3607,
      "num_input_tokens_seen": 4313192,
      "step": 6585
    },
    {
      "epoch": 3.4538784067085953,
      "grad_norm": 0.08873386681079865,
      "learning_rate": 0.0009840004465813464,
      "loss": 0.5075,
      "num_input_tokens_seen": 4315976,
      "step": 6590
    },
    {
      "epoch": 3.4564989517819704,
      "grad_norm": 0.0685470700263977,
      "learning_rate": 0.0009839430080270445,
      "loss": 0.4858,
      "num_input_tokens_seen": 4319176,
      "step": 6595
    },
    {
      "epoch": 3.459119496855346,
      "grad_norm": 0.07532606273889542,
      "learning_rate": 0.0009838854682373865,
      "loss": 0.7049,
      "num_input_tokens_seen": 4321960,
      "step": 6600
    },
    {
      "epoch": 3.461740041928721,
      "grad_norm": 0.12052720040082932,
      "learning_rate": 0.000983827827224409,
      "loss": 0.4206,
      "num_input_tokens_seen": 4324488,
      "step": 6605
    },
    {
      "epoch": 3.4643605870020964,
      "grad_norm": 0.04913078621029854,
      "learning_rate": 0.0009837700850001698,
      "loss": 0.5307,
      "num_input_tokens_seen": 4328264,
      "step": 6610
    },
    {
      "epoch": 3.4669811320754715,
      "grad_norm": 0.07626257836818695,
      "learning_rate": 0.000983712241576748,
      "loss": 0.437,
      "num_input_tokens_seen": 4335528,
      "step": 6615
    },
    {
      "epoch": 3.469601677148847,
      "grad_norm": 0.10751171410083771,
      "learning_rate": 0.000983654296966244,
      "loss": 0.5991,
      "num_input_tokens_seen": 4338408,
      "step": 6620
    },
    {
      "epoch": 3.4722222222222223,
      "grad_norm": 0.09011755883693695,
      "learning_rate": 0.0009835962511807786,
      "loss": 0.7391,
      "num_input_tokens_seen": 4341512,
      "step": 6625
    },
    {
      "epoch": 3.4748427672955975,
      "grad_norm": 0.0675930604338646,
      "learning_rate": 0.0009835381042324948,
      "loss": 0.5857,
      "num_input_tokens_seen": 4345960,
      "step": 6630
    },
    {
      "epoch": 3.4774633123689727,
      "grad_norm": 0.06031211465597153,
      "learning_rate": 0.0009834798561335558,
      "loss": 0.4751,
      "num_input_tokens_seen": 4349384,
      "step": 6635
    },
    {
      "epoch": 3.480083857442348,
      "grad_norm": 0.04869748279452324,
      "learning_rate": 0.000983421506896147,
      "loss": 0.4118,
      "num_input_tokens_seen": 4352712,
      "step": 6640
    },
    {
      "epoch": 3.4827044025157234,
      "grad_norm": 0.05669552460312843,
      "learning_rate": 0.000983363056532474,
      "loss": 0.4819,
      "num_input_tokens_seen": 4356680,
      "step": 6645
    },
    {
      "epoch": 3.4853249475890986,
      "grad_norm": 0.05913551151752472,
      "learning_rate": 0.000983304505054764,
      "loss": 0.4818,
      "num_input_tokens_seen": 4360040,
      "step": 6650
    },
    {
      "epoch": 3.487945492662474,
      "grad_norm": 0.11158125847578049,
      "learning_rate": 0.0009832458524752655,
      "loss": 0.5022,
      "num_input_tokens_seen": 4362504,
      "step": 6655
    },
    {
      "epoch": 3.490566037735849,
      "grad_norm": 0.06544095277786255,
      "learning_rate": 0.0009831870988062476,
      "loss": 0.5424,
      "num_input_tokens_seen": 4366280,
      "step": 6660
    },
    {
      "epoch": 3.4931865828092246,
      "grad_norm": 0.07022150605916977,
      "learning_rate": 0.0009831282440600014,
      "loss": 0.3688,
      "num_input_tokens_seen": 4369320,
      "step": 6665
    },
    {
      "epoch": 3.4958071278825997,
      "grad_norm": 0.07170326262712479,
      "learning_rate": 0.0009830692882488383,
      "loss": 0.3452,
      "num_input_tokens_seen": 4372776,
      "step": 6670
    },
    {
      "epoch": 3.498427672955975,
      "grad_norm": 0.06701762229204178,
      "learning_rate": 0.000983010231385091,
      "loss": 0.5365,
      "num_input_tokens_seen": 4375048,
      "step": 6675
    },
    {
      "epoch": 3.50104821802935,
      "grad_norm": 0.054559703916311264,
      "learning_rate": 0.000982951073481114,
      "loss": 0.5464,
      "num_input_tokens_seen": 4378248,
      "step": 6680
    },
    {
      "epoch": 3.5036687631027252,
      "grad_norm": 0.11934638768434525,
      "learning_rate": 0.0009828918145492823,
      "loss": 0.62,
      "num_input_tokens_seen": 4381352,
      "step": 6685
    },
    {
      "epoch": 3.5062893081761004,
      "grad_norm": 0.0997074544429779,
      "learning_rate": 0.000982832454601992,
      "loss": 0.4566,
      "num_input_tokens_seen": 4384424,
      "step": 6690
    },
    {
      "epoch": 3.508909853249476,
      "grad_norm": 0.06509384512901306,
      "learning_rate": 0.0009827729936516605,
      "loss": 0.6877,
      "num_input_tokens_seen": 4387592,
      "step": 6695
    },
    {
      "epoch": 3.511530398322851,
      "grad_norm": 0.07935556769371033,
      "learning_rate": 0.0009827134317107267,
      "loss": 0.5546,
      "num_input_tokens_seen": 4390504,
      "step": 6700
    },
    {
      "epoch": 3.5141509433962264,
      "grad_norm": 0.09797122329473495,
      "learning_rate": 0.0009826537687916501,
      "loss": 0.438,
      "num_input_tokens_seen": 4393864,
      "step": 6705
    },
    {
      "epoch": 3.5167714884696015,
      "grad_norm": 0.07660028338432312,
      "learning_rate": 0.0009825940049069113,
      "loss": 0.4043,
      "num_input_tokens_seen": 4396488,
      "step": 6710
    },
    {
      "epoch": 3.519392033542977,
      "grad_norm": 0.05034397542476654,
      "learning_rate": 0.0009825341400690126,
      "loss": 0.4343,
      "num_input_tokens_seen": 4399624,
      "step": 6715
    },
    {
      "epoch": 3.5220125786163523,
      "grad_norm": 0.12380354851484299,
      "learning_rate": 0.0009824741742904767,
      "loss": 0.5986,
      "num_input_tokens_seen": 4403528,
      "step": 6720
    },
    {
      "epoch": 3.5246331236897275,
      "grad_norm": 0.06256473064422607,
      "learning_rate": 0.000982414107583848,
      "loss": 0.3928,
      "num_input_tokens_seen": 4406184,
      "step": 6725
    },
    {
      "epoch": 3.5272536687631026,
      "grad_norm": 0.0617670938372612,
      "learning_rate": 0.0009823539399616914,
      "loss": 0.3859,
      "num_input_tokens_seen": 4409640,
      "step": 6730
    },
    {
      "epoch": 3.529874213836478,
      "grad_norm": 0.07300770282745361,
      "learning_rate": 0.0009822936714365938,
      "loss": 0.3388,
      "num_input_tokens_seen": 4412680,
      "step": 6735
    },
    {
      "epoch": 3.532494758909853,
      "grad_norm": 0.07789293676614761,
      "learning_rate": 0.0009822333020211623,
      "loss": 0.4388,
      "num_input_tokens_seen": 4415880,
      "step": 6740
    },
    {
      "epoch": 3.5351153039832286,
      "grad_norm": 0.09086417406797409,
      "learning_rate": 0.0009821728317280256,
      "loss": 0.4439,
      "num_input_tokens_seen": 4418376,
      "step": 6745
    },
    {
      "epoch": 3.5377358490566038,
      "grad_norm": 0.10193346440792084,
      "learning_rate": 0.0009821122605698336,
      "loss": 0.4708,
      "num_input_tokens_seen": 4420936,
      "step": 6750
    },
    {
      "epoch": 3.540356394129979,
      "grad_norm": 0.08003757894039154,
      "learning_rate": 0.0009820515885592567,
      "loss": 0.5336,
      "num_input_tokens_seen": 4424616,
      "step": 6755
    },
    {
      "epoch": 3.5429769392033545,
      "grad_norm": 0.05878442898392677,
      "learning_rate": 0.0009819908157089872,
      "loss": 0.4394,
      "num_input_tokens_seen": 4427816,
      "step": 6760
    },
    {
      "epoch": 3.5455974842767297,
      "grad_norm": 0.0503225140273571,
      "learning_rate": 0.0009819299420317379,
      "loss": 0.37,
      "num_input_tokens_seen": 4431112,
      "step": 6765
    },
    {
      "epoch": 3.548218029350105,
      "grad_norm": 0.06577195227146149,
      "learning_rate": 0.0009818689675402427,
      "loss": 0.4881,
      "num_input_tokens_seen": 4434056,
      "step": 6770
    },
    {
      "epoch": 3.55083857442348,
      "grad_norm": 0.10351145267486572,
      "learning_rate": 0.000981807892247257,
      "loss": 0.4727,
      "num_input_tokens_seen": 4437480,
      "step": 6775
    },
    {
      "epoch": 3.5534591194968552,
      "grad_norm": 0.057373449206352234,
      "learning_rate": 0.0009817467161655571,
      "loss": 0.4465,
      "num_input_tokens_seen": 4441224,
      "step": 6780
    },
    {
      "epoch": 3.5560796645702304,
      "grad_norm": 0.07721395045518875,
      "learning_rate": 0.0009816854393079402,
      "loss": 0.4712,
      "num_input_tokens_seen": 4444200,
      "step": 6785
    },
    {
      "epoch": 3.558700209643606,
      "grad_norm": 0.09680572152137756,
      "learning_rate": 0.0009816240616872247,
      "loss": 0.682,
      "num_input_tokens_seen": 4446920,
      "step": 6790
    },
    {
      "epoch": 3.561320754716981,
      "grad_norm": 0.06613153219223022,
      "learning_rate": 0.0009815625833162502,
      "loss": 0.5633,
      "num_input_tokens_seen": 4450536,
      "step": 6795
    },
    {
      "epoch": 3.5639412997903563,
      "grad_norm": 0.0696701779961586,
      "learning_rate": 0.0009815010042078772,
      "loss": 0.4866,
      "num_input_tokens_seen": 4453608,
      "step": 6800
    },
    {
      "epoch": 3.5665618448637315,
      "grad_norm": 0.06761307269334793,
      "learning_rate": 0.0009814393243749873,
      "loss": 0.4484,
      "num_input_tokens_seen": 4456520,
      "step": 6805
    },
    {
      "epoch": 3.569182389937107,
      "grad_norm": 0.04768587276339531,
      "learning_rate": 0.0009813775438304835,
      "loss": 0.6402,
      "num_input_tokens_seen": 4460008,
      "step": 6810
    },
    {
      "epoch": 3.5718029350104823,
      "grad_norm": 0.17173540592193604,
      "learning_rate": 0.0009813156625872893,
      "loss": 0.3713,
      "num_input_tokens_seen": 4462344,
      "step": 6815
    },
    {
      "epoch": 3.5744234800838575,
      "grad_norm": 0.07938302308320999,
      "learning_rate": 0.0009812536806583494,
      "loss": 0.6377,
      "num_input_tokens_seen": 4466568,
      "step": 6820
    },
    {
      "epoch": 3.5770440251572326,
      "grad_norm": 0.06659923493862152,
      "learning_rate": 0.0009811915980566302,
      "loss": 0.441,
      "num_input_tokens_seen": 4470056,
      "step": 6825
    },
    {
      "epoch": 3.579664570230608,
      "grad_norm": 0.06687258929014206,
      "learning_rate": 0.0009811294147951182,
      "loss": 0.453,
      "num_input_tokens_seen": 4472712,
      "step": 6830
    },
    {
      "epoch": 3.582285115303983,
      "grad_norm": 0.10379361361265182,
      "learning_rate": 0.000981067130886822,
      "loss": 0.4678,
      "num_input_tokens_seen": 4476456,
      "step": 6835
    },
    {
      "epoch": 3.5849056603773586,
      "grad_norm": 0.12215417623519897,
      "learning_rate": 0.00098100474634477,
      "loss": 0.5764,
      "num_input_tokens_seen": 4479816,
      "step": 6840
    },
    {
      "epoch": 3.5875262054507338,
      "grad_norm": 0.06443475186824799,
      "learning_rate": 0.0009809422611820127,
      "loss": 0.4159,
      "num_input_tokens_seen": 4484200,
      "step": 6845
    },
    {
      "epoch": 3.590146750524109,
      "grad_norm": 0.11666624993085861,
      "learning_rate": 0.0009808796754116212,
      "loss": 0.5435,
      "num_input_tokens_seen": 4486984,
      "step": 6850
    },
    {
      "epoch": 3.5927672955974845,
      "grad_norm": 0.0538615919649601,
      "learning_rate": 0.0009808169890466879,
      "loss": 0.4545,
      "num_input_tokens_seen": 4490472,
      "step": 6855
    },
    {
      "epoch": 3.5953878406708597,
      "grad_norm": 0.06845663487911224,
      "learning_rate": 0.000980754202100326,
      "loss": 0.4084,
      "num_input_tokens_seen": 4493608,
      "step": 6860
    },
    {
      "epoch": 3.598008385744235,
      "grad_norm": 0.21818508207798004,
      "learning_rate": 0.0009806913145856695,
      "loss": 0.4975,
      "num_input_tokens_seen": 4496840,
      "step": 6865
    },
    {
      "epoch": 3.60062893081761,
      "grad_norm": 0.07145436108112335,
      "learning_rate": 0.0009806283265158741,
      "loss": 0.7665,
      "num_input_tokens_seen": 4499976,
      "step": 6870
    },
    {
      "epoch": 3.603249475890985,
      "grad_norm": 0.06010042876005173,
      "learning_rate": 0.0009805652379041162,
      "loss": 0.4314,
      "num_input_tokens_seen": 4503592,
      "step": 6875
    },
    {
      "epoch": 3.6058700209643604,
      "grad_norm": 0.06968069076538086,
      "learning_rate": 0.000980502048763593,
      "loss": 0.3187,
      "num_input_tokens_seen": 4506824,
      "step": 6880
    },
    {
      "epoch": 3.608490566037736,
      "grad_norm": 0.18141154944896698,
      "learning_rate": 0.0009804387591075233,
      "loss": 0.6574,
      "num_input_tokens_seen": 4509096,
      "step": 6885
    },
    {
      "epoch": 3.611111111111111,
      "grad_norm": 0.051028721034526825,
      "learning_rate": 0.000980375368949146,
      "loss": 0.4079,
      "num_input_tokens_seen": 4512136,
      "step": 6890
    },
    {
      "epoch": 3.6137316561844863,
      "grad_norm": 0.051473185420036316,
      "learning_rate": 0.0009803118783017221,
      "loss": 0.4723,
      "num_input_tokens_seen": 4516392,
      "step": 6895
    },
    {
      "epoch": 3.6163522012578615,
      "grad_norm": 0.163263201713562,
      "learning_rate": 0.0009802482871785329,
      "loss": 0.4678,
      "num_input_tokens_seen": 4518984,
      "step": 6900
    },
    {
      "epoch": 3.618972746331237,
      "grad_norm": 0.074943907558918,
      "learning_rate": 0.000980184595592881,
      "loss": 0.4594,
      "num_input_tokens_seen": 4522664,
      "step": 6905
    },
    {
      "epoch": 3.6215932914046123,
      "grad_norm": 0.08150868117809296,
      "learning_rate": 0.00098012080355809,
      "loss": 0.4776,
      "num_input_tokens_seen": 4526152,
      "step": 6910
    },
    {
      "epoch": 3.6242138364779874,
      "grad_norm": 0.08625093102455139,
      "learning_rate": 0.0009800569110875043,
      "loss": 0.5012,
      "num_input_tokens_seen": 4528904,
      "step": 6915
    },
    {
      "epoch": 3.6268343815513626,
      "grad_norm": 0.07791678607463837,
      "learning_rate": 0.0009799929181944895,
      "loss": 0.5061,
      "num_input_tokens_seen": 4532424,
      "step": 6920
    },
    {
      "epoch": 3.629454926624738,
      "grad_norm": 0.08116382360458374,
      "learning_rate": 0.0009799288248924325,
      "loss": 0.3231,
      "num_input_tokens_seen": 4538088,
      "step": 6925
    },
    {
      "epoch": 3.632075471698113,
      "grad_norm": 0.051104187965393066,
      "learning_rate": 0.0009798646311947404,
      "loss": 0.4975,
      "num_input_tokens_seen": 4541480,
      "step": 6930
    },
    {
      "epoch": 3.6346960167714886,
      "grad_norm": 0.1306873857975006,
      "learning_rate": 0.0009798003371148422,
      "loss": 0.4259,
      "num_input_tokens_seen": 4544936,
      "step": 6935
    },
    {
      "epoch": 3.6373165618448637,
      "grad_norm": 0.05951893702149391,
      "learning_rate": 0.0009797359426661873,
      "loss": 0.4206,
      "num_input_tokens_seen": 4549608,
      "step": 6940
    },
    {
      "epoch": 3.639937106918239,
      "grad_norm": 0.07989103347063065,
      "learning_rate": 0.0009796714478622463,
      "loss": 0.4836,
      "num_input_tokens_seen": 4552168,
      "step": 6945
    },
    {
      "epoch": 3.6425576519916145,
      "grad_norm": 0.07138822972774506,
      "learning_rate": 0.0009796068527165107,
      "loss": 0.4912,
      "num_input_tokens_seen": 4554536,
      "step": 6950
    },
    {
      "epoch": 3.6451781970649897,
      "grad_norm": 0.11470775306224823,
      "learning_rate": 0.0009795421572424935,
      "loss": 0.4151,
      "num_input_tokens_seen": 4557352,
      "step": 6955
    },
    {
      "epoch": 3.647798742138365,
      "grad_norm": 0.07839404791593552,
      "learning_rate": 0.0009794773614537275,
      "loss": 0.4411,
      "num_input_tokens_seen": 4560168,
      "step": 6960
    },
    {
      "epoch": 3.65041928721174,
      "grad_norm": 0.06328881531953812,
      "learning_rate": 0.0009794124653637677,
      "loss": 0.4265,
      "num_input_tokens_seen": 4563336,
      "step": 6965
    },
    {
      "epoch": 3.653039832285115,
      "grad_norm": 0.04971717670559883,
      "learning_rate": 0.00097934746898619,
      "loss": 0.5917,
      "num_input_tokens_seen": 4567528,
      "step": 6970
    },
    {
      "epoch": 3.6556603773584904,
      "grad_norm": 0.05936307832598686,
      "learning_rate": 0.00097928237233459,
      "loss": 0.4175,
      "num_input_tokens_seen": 4571176,
      "step": 6975
    },
    {
      "epoch": 3.658280922431866,
      "grad_norm": 0.076982282102108,
      "learning_rate": 0.0009792171754225859,
      "loss": 0.5042,
      "num_input_tokens_seen": 4574152,
      "step": 6980
    },
    {
      "epoch": 3.660901467505241,
      "grad_norm": 0.037727076560258865,
      "learning_rate": 0.0009791518782638158,
      "loss": 0.3227,
      "num_input_tokens_seen": 4577576,
      "step": 6985
    },
    {
      "epoch": 3.6635220125786163,
      "grad_norm": 0.1134251058101654,
      "learning_rate": 0.0009790864808719392,
      "loss": 0.5116,
      "num_input_tokens_seen": 4580936,
      "step": 6990
    },
    {
      "epoch": 3.6661425576519915,
      "grad_norm": 0.08806139975786209,
      "learning_rate": 0.0009790209832606365,
      "loss": 0.3178,
      "num_input_tokens_seen": 4583720,
      "step": 6995
    },
    {
      "epoch": 3.668763102725367,
      "grad_norm": 0.11300700902938843,
      "learning_rate": 0.000978955385443609,
      "loss": 0.46,
      "num_input_tokens_seen": 4586856,
      "step": 7000
    },
    {
      "epoch": 3.6713836477987423,
      "grad_norm": 0.12246081233024597,
      "learning_rate": 0.0009788896874345792,
      "loss": 0.8061,
      "num_input_tokens_seen": 4589160,
      "step": 7005
    },
    {
      "epoch": 3.6740041928721174,
      "grad_norm": 0.05408616364002228,
      "learning_rate": 0.0009788238892472904,
      "loss": 0.4094,
      "num_input_tokens_seen": 4592008,
      "step": 7010
    },
    {
      "epoch": 3.6766247379454926,
      "grad_norm": 0.09022297710180283,
      "learning_rate": 0.0009787579908955063,
      "loss": 0.4957,
      "num_input_tokens_seen": 4595336,
      "step": 7015
    },
    {
      "epoch": 3.6792452830188678,
      "grad_norm": 0.10893981158733368,
      "learning_rate": 0.0009786919923930127,
      "loss": 0.4939,
      "num_input_tokens_seen": 4599016,
      "step": 7020
    },
    {
      "epoch": 3.681865828092243,
      "grad_norm": 0.08984995633363724,
      "learning_rate": 0.0009786258937536155,
      "loss": 0.5421,
      "num_input_tokens_seen": 4602888,
      "step": 7025
    },
    {
      "epoch": 3.6844863731656186,
      "grad_norm": 0.06589774787425995,
      "learning_rate": 0.0009785596949911418,
      "loss": 0.5175,
      "num_input_tokens_seen": 4606024,
      "step": 7030
    },
    {
      "epoch": 3.6871069182389937,
      "grad_norm": 0.047793399542570114,
      "learning_rate": 0.0009784933961194395,
      "loss": 0.5126,
      "num_input_tokens_seen": 4609288,
      "step": 7035
    },
    {
      "epoch": 3.689727463312369,
      "grad_norm": 0.07657137513160706,
      "learning_rate": 0.0009784269971523777,
      "loss": 0.4567,
      "num_input_tokens_seen": 4613352,
      "step": 7040
    },
    {
      "epoch": 3.6923480083857445,
      "grad_norm": 0.055508293211460114,
      "learning_rate": 0.0009783604981038463,
      "loss": 0.5614,
      "num_input_tokens_seen": 4616488,
      "step": 7045
    },
    {
      "epoch": 3.6949685534591197,
      "grad_norm": 0.07002074271440506,
      "learning_rate": 0.000978293898987756,
      "loss": 0.5223,
      "num_input_tokens_seen": 4620040,
      "step": 7050
    },
    {
      "epoch": 3.697589098532495,
      "grad_norm": 0.053096599876880646,
      "learning_rate": 0.000978227199818039,
      "loss": 0.3979,
      "num_input_tokens_seen": 4623464,
      "step": 7055
    },
    {
      "epoch": 3.70020964360587,
      "grad_norm": 0.09663040935993195,
      "learning_rate": 0.0009781604006086474,
      "loss": 0.7233,
      "num_input_tokens_seen": 4626472,
      "step": 7060
    },
    {
      "epoch": 3.702830188679245,
      "grad_norm": 0.06456649303436279,
      "learning_rate": 0.0009780935013735553,
      "loss": 0.447,
      "num_input_tokens_seen": 4629864,
      "step": 7065
    },
    {
      "epoch": 3.7054507337526204,
      "grad_norm": 0.0904911458492279,
      "learning_rate": 0.0009780265021267572,
      "loss": 0.561,
      "num_input_tokens_seen": 4633032,
      "step": 7070
    },
    {
      "epoch": 3.708071278825996,
      "grad_norm": 0.07091499865055084,
      "learning_rate": 0.0009779594028822682,
      "loss": 0.5595,
      "num_input_tokens_seen": 4636392,
      "step": 7075
    },
    {
      "epoch": 3.710691823899371,
      "grad_norm": 0.22518214583396912,
      "learning_rate": 0.0009778922036541252,
      "loss": 0.5492,
      "num_input_tokens_seen": 4639848,
      "step": 7080
    },
    {
      "epoch": 3.7133123689727463,
      "grad_norm": 0.08022791892290115,
      "learning_rate": 0.0009778249044563852,
      "loss": 0.5031,
      "num_input_tokens_seen": 4642920,
      "step": 7085
    },
    {
      "epoch": 3.7159329140461215,
      "grad_norm": 0.0954054668545723,
      "learning_rate": 0.0009777575053031263,
      "loss": 0.4142,
      "num_input_tokens_seen": 4646536,
      "step": 7090
    },
    {
      "epoch": 3.718553459119497,
      "grad_norm": 0.06497704982757568,
      "learning_rate": 0.000977690006208448,
      "loss": 0.5735,
      "num_input_tokens_seen": 4649416,
      "step": 7095
    },
    {
      "epoch": 3.7211740041928723,
      "grad_norm": 0.06851309537887573,
      "learning_rate": 0.0009776224071864703,
      "loss": 0.5012,
      "num_input_tokens_seen": 4653064,
      "step": 7100
    },
    {
      "epoch": 3.7237945492662474,
      "grad_norm": 0.09577393531799316,
      "learning_rate": 0.000977554708251334,
      "loss": 0.5395,
      "num_input_tokens_seen": 4655752,
      "step": 7105
    },
    {
      "epoch": 3.7264150943396226,
      "grad_norm": 0.07896992564201355,
      "learning_rate": 0.0009774869094172007,
      "loss": 0.4815,
      "num_input_tokens_seen": 4658248,
      "step": 7110
    },
    {
      "epoch": 3.7290356394129978,
      "grad_norm": 0.059554990381002426,
      "learning_rate": 0.0009774190106982537,
      "loss": 0.4724,
      "num_input_tokens_seen": 4662056,
      "step": 7115
    },
    {
      "epoch": 3.731656184486373,
      "grad_norm": 0.09112086147069931,
      "learning_rate": 0.0009773510121086962,
      "loss": 0.3778,
      "num_input_tokens_seen": 4664968,
      "step": 7120
    },
    {
      "epoch": 3.7342767295597485,
      "grad_norm": 0.07704435288906097,
      "learning_rate": 0.0009772829136627528,
      "loss": 0.4532,
      "num_input_tokens_seen": 4667560,
      "step": 7125
    },
    {
      "epoch": 3.7368972746331237,
      "grad_norm": 0.08473141491413116,
      "learning_rate": 0.0009772147153746691,
      "loss": 0.4377,
      "num_input_tokens_seen": 4669864,
      "step": 7130
    },
    {
      "epoch": 3.739517819706499,
      "grad_norm": 0.10232405364513397,
      "learning_rate": 0.0009771464172587112,
      "loss": 0.5079,
      "num_input_tokens_seen": 4673128,
      "step": 7135
    },
    {
      "epoch": 3.742138364779874,
      "grad_norm": 0.06390458345413208,
      "learning_rate": 0.0009770780193291667,
      "loss": 0.4962,
      "num_input_tokens_seen": 4676968,
      "step": 7140
    },
    {
      "epoch": 3.7447589098532497,
      "grad_norm": 0.11598857492208481,
      "learning_rate": 0.000977009521600343,
      "loss": 0.4378,
      "num_input_tokens_seen": 4679624,
      "step": 7145
    },
    {
      "epoch": 3.747379454926625,
      "grad_norm": 0.06527456641197205,
      "learning_rate": 0.0009769409240865696,
      "loss": 0.4739,
      "num_input_tokens_seen": 4682344,
      "step": 7150
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.05087624490261078,
      "learning_rate": 0.0009768722268021959,
      "loss": 0.4786,
      "num_input_tokens_seen": 4687048,
      "step": 7155
    },
    {
      "epoch": 3.752620545073375,
      "grad_norm": 0.07407531142234802,
      "learning_rate": 0.000976803429761593,
      "loss": 0.4802,
      "num_input_tokens_seen": 4689768,
      "step": 7160
    },
    {
      "epoch": 3.7552410901467503,
      "grad_norm": 0.08361150324344635,
      "learning_rate": 0.000976734532979152,
      "loss": 0.4303,
      "num_input_tokens_seen": 4692936,
      "step": 7165
    },
    {
      "epoch": 3.757861635220126,
      "grad_norm": 0.09330400824546814,
      "learning_rate": 0.000976665536469286,
      "loss": 0.4319,
      "num_input_tokens_seen": 4695784,
      "step": 7170
    },
    {
      "epoch": 3.760482180293501,
      "grad_norm": 0.08792354166507721,
      "learning_rate": 0.0009765964402464276,
      "loss": 0.5686,
      "num_input_tokens_seen": 4698760,
      "step": 7175
    },
    {
      "epoch": 3.7631027253668763,
      "grad_norm": 0.04894666001200676,
      "learning_rate": 0.0009765272443250312,
      "loss": 0.3868,
      "num_input_tokens_seen": 4701640,
      "step": 7180
    },
    {
      "epoch": 3.7657232704402515,
      "grad_norm": 0.05037541687488556,
      "learning_rate": 0.0009764579487195717,
      "loss": 0.5018,
      "num_input_tokens_seen": 4704232,
      "step": 7185
    },
    {
      "epoch": 3.768343815513627,
      "grad_norm": 0.0830765813589096,
      "learning_rate": 0.0009763885534445452,
      "loss": 0.4915,
      "num_input_tokens_seen": 4707048,
      "step": 7190
    },
    {
      "epoch": 3.7709643605870022,
      "grad_norm": 0.0680273100733757,
      "learning_rate": 0.0009763190585144682,
      "loss": 0.5511,
      "num_input_tokens_seen": 4710184,
      "step": 7195
    },
    {
      "epoch": 3.7735849056603774,
      "grad_norm": 0.10959071666002274,
      "learning_rate": 0.0009762494639438783,
      "loss": 0.5191,
      "num_input_tokens_seen": 4713000,
      "step": 7200
    },
    {
      "epoch": 3.7762054507337526,
      "grad_norm": 0.06840217113494873,
      "learning_rate": 0.0009761797697473339,
      "loss": 0.5926,
      "num_input_tokens_seen": 4717224,
      "step": 7205
    },
    {
      "epoch": 3.7788259958071277,
      "grad_norm": 0.10082854330539703,
      "learning_rate": 0.0009761099759394142,
      "loss": 0.4991,
      "num_input_tokens_seen": 4720488,
      "step": 7210
    },
    {
      "epoch": 3.781446540880503,
      "grad_norm": 0.05702006444334984,
      "learning_rate": 0.0009760400825347194,
      "loss": 0.5078,
      "num_input_tokens_seen": 4724104,
      "step": 7215
    },
    {
      "epoch": 3.7840670859538785,
      "grad_norm": 0.038154035806655884,
      "learning_rate": 0.00097597008954787,
      "loss": 0.5335,
      "num_input_tokens_seen": 4728104,
      "step": 7220
    },
    {
      "epoch": 3.7866876310272537,
      "grad_norm": 0.09113766998052597,
      "learning_rate": 0.0009758999969935083,
      "loss": 0.4742,
      "num_input_tokens_seen": 4732008,
      "step": 7225
    },
    {
      "epoch": 3.789308176100629,
      "grad_norm": 0.051652196794748306,
      "learning_rate": 0.0009758298048862965,
      "loss": 0.44,
      "num_input_tokens_seen": 4735528,
      "step": 7230
    },
    {
      "epoch": 3.791928721174004,
      "grad_norm": 0.06288105249404907,
      "learning_rate": 0.0009757595132409181,
      "loss": 0.4844,
      "num_input_tokens_seen": 4738728,
      "step": 7235
    },
    {
      "epoch": 3.7945492662473796,
      "grad_norm": 0.07811732590198517,
      "learning_rate": 0.0009756891220720771,
      "loss": 0.521,
      "num_input_tokens_seen": 4742760,
      "step": 7240
    },
    {
      "epoch": 3.797169811320755,
      "grad_norm": 0.09274616092443466,
      "learning_rate": 0.0009756186313944988,
      "loss": 0.5937,
      "num_input_tokens_seen": 4745544,
      "step": 7245
    },
    {
      "epoch": 3.79979035639413,
      "grad_norm": 0.08247458934783936,
      "learning_rate": 0.0009755480412229291,
      "loss": 0.5385,
      "num_input_tokens_seen": 4749096,
      "step": 7250
    },
    {
      "epoch": 3.802410901467505,
      "grad_norm": 0.05605960637331009,
      "learning_rate": 0.0009754773515721343,
      "loss": 0.4403,
      "num_input_tokens_seen": 4752168,
      "step": 7255
    },
    {
      "epoch": 3.8050314465408803,
      "grad_norm": 0.11058135330677032,
      "learning_rate": 0.0009754065624569022,
      "loss": 0.3661,
      "num_input_tokens_seen": 4756424,
      "step": 7260
    },
    {
      "epoch": 3.8076519916142555,
      "grad_norm": 0.10334902256727219,
      "learning_rate": 0.000975335673892041,
      "loss": 0.4177,
      "num_input_tokens_seen": 4759560,
      "step": 7265
    },
    {
      "epoch": 3.810272536687631,
      "grad_norm": 0.03805715590715408,
      "learning_rate": 0.0009752646858923797,
      "loss": 0.3511,
      "num_input_tokens_seen": 4764392,
      "step": 7270
    },
    {
      "epoch": 3.8128930817610063,
      "grad_norm": 0.08764944225549698,
      "learning_rate": 0.0009751935984727683,
      "loss": 0.5046,
      "num_input_tokens_seen": 4767592,
      "step": 7275
    },
    {
      "epoch": 3.8155136268343814,
      "grad_norm": 0.08453989028930664,
      "learning_rate": 0.0009751224116480772,
      "loss": 0.4771,
      "num_input_tokens_seen": 4770920,
      "step": 7280
    },
    {
      "epoch": 3.818134171907757,
      "grad_norm": 0.0910688117146492,
      "learning_rate": 0.0009750511254331982,
      "loss": 0.6155,
      "num_input_tokens_seen": 4773736,
      "step": 7285
    },
    {
      "epoch": 3.8207547169811322,
      "grad_norm": 0.06648916751146317,
      "learning_rate": 0.0009749797398430433,
      "loss": 0.4676,
      "num_input_tokens_seen": 4777480,
      "step": 7290
    },
    {
      "epoch": 3.8233752620545074,
      "grad_norm": 0.09093731641769409,
      "learning_rate": 0.0009749082548925459,
      "loss": 0.64,
      "num_input_tokens_seen": 4779976,
      "step": 7295
    },
    {
      "epoch": 3.8259958071278826,
      "grad_norm": 0.12125270068645477,
      "learning_rate": 0.0009748366705966593,
      "loss": 0.3852,
      "num_input_tokens_seen": 4782824,
      "step": 7300
    },
    {
      "epoch": 3.8286163522012577,
      "grad_norm": 0.05239470675587654,
      "learning_rate": 0.0009747649869703588,
      "loss": 0.4839,
      "num_input_tokens_seen": 4785800,
      "step": 7305
    },
    {
      "epoch": 3.831236897274633,
      "grad_norm": 0.065278060734272,
      "learning_rate": 0.0009746932040286391,
      "loss": 0.552,
      "num_input_tokens_seen": 4789576,
      "step": 7310
    },
    {
      "epoch": 3.8338574423480085,
      "grad_norm": 0.07698676735162735,
      "learning_rate": 0.000974621321786517,
      "loss": 0.5647,
      "num_input_tokens_seen": 4792360,
      "step": 7315
    },
    {
      "epoch": 3.8364779874213837,
      "grad_norm": 0.06714066863059998,
      "learning_rate": 0.000974549340259029,
      "loss": 0.3496,
      "num_input_tokens_seen": 4795112,
      "step": 7320
    },
    {
      "epoch": 3.839098532494759,
      "grad_norm": 0.0920344814658165,
      "learning_rate": 0.000974477259461233,
      "loss": 0.4587,
      "num_input_tokens_seen": 4798248,
      "step": 7325
    },
    {
      "epoch": 3.841719077568134,
      "grad_norm": 0.08792677521705627,
      "learning_rate": 0.0009744050794082074,
      "loss": 0.3661,
      "num_input_tokens_seen": 4801512,
      "step": 7330
    },
    {
      "epoch": 3.8443396226415096,
      "grad_norm": 0.040919069200754166,
      "learning_rate": 0.0009743328001150515,
      "loss": 0.4627,
      "num_input_tokens_seen": 4805064,
      "step": 7335
    },
    {
      "epoch": 3.846960167714885,
      "grad_norm": 0.3130396008491516,
      "learning_rate": 0.0009742604215968853,
      "loss": 0.4829,
      "num_input_tokens_seen": 4807400,
      "step": 7340
    },
    {
      "epoch": 3.84958071278826,
      "grad_norm": 0.10683422535657883,
      "learning_rate": 0.0009741879438688495,
      "loss": 0.6857,
      "num_input_tokens_seen": 4810760,
      "step": 7345
    },
    {
      "epoch": 3.852201257861635,
      "grad_norm": 0.06444719433784485,
      "learning_rate": 0.0009741153669461058,
      "loss": 0.6039,
      "num_input_tokens_seen": 4813992,
      "step": 7350
    },
    {
      "epoch": 3.8548218029350103,
      "grad_norm": 0.09736055135726929,
      "learning_rate": 0.0009740426908438362,
      "loss": 0.4511,
      "num_input_tokens_seen": 4816968,
      "step": 7355
    },
    {
      "epoch": 3.8574423480083855,
      "grad_norm": 0.10721245408058167,
      "learning_rate": 0.0009739699155772439,
      "loss": 0.4652,
      "num_input_tokens_seen": 4819304,
      "step": 7360
    },
    {
      "epoch": 3.860062893081761,
      "grad_norm": 0.06463419646024704,
      "learning_rate": 0.0009738970411615525,
      "loss": 0.4002,
      "num_input_tokens_seen": 4822888,
      "step": 7365
    },
    {
      "epoch": 3.8626834381551363,
      "grad_norm": 0.08240348845720291,
      "learning_rate": 0.0009738240676120067,
      "loss": 0.4469,
      "num_input_tokens_seen": 4825544,
      "step": 7370
    },
    {
      "epoch": 3.8653039832285114,
      "grad_norm": 0.10803517699241638,
      "learning_rate": 0.0009737509949438717,
      "loss": 0.636,
      "num_input_tokens_seen": 4829160,
      "step": 7375
    },
    {
      "epoch": 3.867924528301887,
      "grad_norm": 0.06274474412202835,
      "learning_rate": 0.0009736778231724333,
      "loss": 0.527,
      "num_input_tokens_seen": 4831624,
      "step": 7380
    },
    {
      "epoch": 3.870545073375262,
      "grad_norm": 0.04512522369623184,
      "learning_rate": 0.0009736045523129982,
      "loss": 0.3757,
      "num_input_tokens_seen": 4835336,
      "step": 7385
    },
    {
      "epoch": 3.8731656184486374,
      "grad_norm": 0.05704570934176445,
      "learning_rate": 0.0009735311823808938,
      "loss": 0.3825,
      "num_input_tokens_seen": 4838184,
      "step": 7390
    },
    {
      "epoch": 3.8757861635220126,
      "grad_norm": 0.06125452741980553,
      "learning_rate": 0.0009734577133914687,
      "loss": 0.553,
      "num_input_tokens_seen": 4840776,
      "step": 7395
    },
    {
      "epoch": 3.8784067085953877,
      "grad_norm": 0.06543920934200287,
      "learning_rate": 0.0009733841453600914,
      "loss": 0.3667,
      "num_input_tokens_seen": 4844456,
      "step": 7400
    },
    {
      "epoch": 3.881027253668763,
      "grad_norm": 0.10087919235229492,
      "learning_rate": 0.0009733104783021515,
      "loss": 0.3943,
      "num_input_tokens_seen": 4849832,
      "step": 7405
    },
    {
      "epoch": 3.8836477987421385,
      "grad_norm": 0.04251303896307945,
      "learning_rate": 0.0009732367122330593,
      "loss": 0.5332,
      "num_input_tokens_seen": 4852936,
      "step": 7410
    },
    {
      "epoch": 3.8862683438155137,
      "grad_norm": 0.05246490612626076,
      "learning_rate": 0.0009731628471682459,
      "loss": 0.6535,
      "num_input_tokens_seen": 4857256,
      "step": 7415
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 0.039394311606884,
      "learning_rate": 0.000973088883123163,
      "loss": 0.5538,
      "num_input_tokens_seen": 4861704,
      "step": 7420
    },
    {
      "epoch": 3.891509433962264,
      "grad_norm": 0.09624793380498886,
      "learning_rate": 0.0009730148201132829,
      "loss": 0.4602,
      "num_input_tokens_seen": 4865416,
      "step": 7425
    },
    {
      "epoch": 3.8941299790356396,
      "grad_norm": 0.0908195972442627,
      "learning_rate": 0.0009729406581540991,
      "loss": 0.5409,
      "num_input_tokens_seen": 4868584,
      "step": 7430
    },
    {
      "epoch": 3.896750524109015,
      "grad_norm": 0.05373894050717354,
      "learning_rate": 0.0009728663972611251,
      "loss": 0.4661,
      "num_input_tokens_seen": 4871944,
      "step": 7435
    },
    {
      "epoch": 3.89937106918239,
      "grad_norm": 0.10420883446931839,
      "learning_rate": 0.0009727920374498955,
      "loss": 0.5432,
      "num_input_tokens_seen": 4875208,
      "step": 7440
    },
    {
      "epoch": 3.901991614255765,
      "grad_norm": 0.11834685504436493,
      "learning_rate": 0.0009727175787359656,
      "loss": 0.5098,
      "num_input_tokens_seen": 4877608,
      "step": 7445
    },
    {
      "epoch": 3.9046121593291403,
      "grad_norm": 0.10887433588504791,
      "learning_rate": 0.0009726430211349113,
      "loss": 0.4704,
      "num_input_tokens_seen": 4881480,
      "step": 7450
    },
    {
      "epoch": 3.9072327044025155,
      "grad_norm": 0.09871502220630646,
      "learning_rate": 0.0009725683646623291,
      "loss": 0.5033,
      "num_input_tokens_seen": 4883880,
      "step": 7455
    },
    {
      "epoch": 3.909853249475891,
      "grad_norm": 0.07375930994749069,
      "learning_rate": 0.0009724936093338365,
      "loss": 0.5148,
      "num_input_tokens_seen": 4886920,
      "step": 7460
    },
    {
      "epoch": 3.9124737945492662,
      "grad_norm": 0.0846519023180008,
      "learning_rate": 0.0009724187551650712,
      "loss": 0.5588,
      "num_input_tokens_seen": 4890088,
      "step": 7465
    },
    {
      "epoch": 3.9150943396226414,
      "grad_norm": 0.04557691514492035,
      "learning_rate": 0.0009723438021716919,
      "loss": 0.3689,
      "num_input_tokens_seen": 4894056,
      "step": 7470
    },
    {
      "epoch": 3.917714884696017,
      "grad_norm": 0.07305265218019485,
      "learning_rate": 0.0009722687503693782,
      "loss": 0.3927,
      "num_input_tokens_seen": 4897864,
      "step": 7475
    },
    {
      "epoch": 3.920335429769392,
      "grad_norm": 0.07105828076601028,
      "learning_rate": 0.0009721935997738296,
      "loss": 0.3663,
      "num_input_tokens_seen": 4901512,
      "step": 7480
    },
    {
      "epoch": 3.9229559748427674,
      "grad_norm": 0.07698854058980942,
      "learning_rate": 0.0009721183504007671,
      "loss": 0.3931,
      "num_input_tokens_seen": 4904456,
      "step": 7485
    },
    {
      "epoch": 3.9255765199161425,
      "grad_norm": 0.05789344012737274,
      "learning_rate": 0.0009720430022659319,
      "loss": 0.3925,
      "num_input_tokens_seen": 4907688,
      "step": 7490
    },
    {
      "epoch": 3.9281970649895177,
      "grad_norm": 0.04920206591486931,
      "learning_rate": 0.000971967555385086,
      "loss": 0.6748,
      "num_input_tokens_seen": 4911336,
      "step": 7495
    },
    {
      "epoch": 3.930817610062893,
      "grad_norm": 0.0733214020729065,
      "learning_rate": 0.000971892009774012,
      "loss": 0.3677,
      "num_input_tokens_seen": 4914600,
      "step": 7500
    },
    {
      "epoch": 3.9334381551362685,
      "grad_norm": 0.07190199196338654,
      "learning_rate": 0.0009718163654485133,
      "loss": 0.4839,
      "num_input_tokens_seen": 4918312,
      "step": 7505
    },
    {
      "epoch": 3.9360587002096437,
      "grad_norm": 0.06285214424133301,
      "learning_rate": 0.0009717406224244136,
      "loss": 0.4668,
      "num_input_tokens_seen": 4921320,
      "step": 7510
    },
    {
      "epoch": 3.938679245283019,
      "grad_norm": 0.08404706418514252,
      "learning_rate": 0.0009716647807175575,
      "loss": 0.3966,
      "num_input_tokens_seen": 4924168,
      "step": 7515
    },
    {
      "epoch": 3.941299790356394,
      "grad_norm": 0.14890840649604797,
      "learning_rate": 0.0009715888403438105,
      "loss": 0.5111,
      "num_input_tokens_seen": 4926888,
      "step": 7520
    },
    {
      "epoch": 3.9439203354297696,
      "grad_norm": 0.11330201476812363,
      "learning_rate": 0.0009715128013190581,
      "loss": 0.3842,
      "num_input_tokens_seen": 4930536,
      "step": 7525
    },
    {
      "epoch": 3.9465408805031448,
      "grad_norm": 0.10478480905294418,
      "learning_rate": 0.0009714366636592069,
      "loss": 0.4862,
      "num_input_tokens_seen": 4934120,
      "step": 7530
    },
    {
      "epoch": 3.94916142557652,
      "grad_norm": 0.0888601690530777,
      "learning_rate": 0.0009713604273801844,
      "loss": 0.5165,
      "num_input_tokens_seen": 4936776,
      "step": 7535
    },
    {
      "epoch": 3.951781970649895,
      "grad_norm": 0.1337369829416275,
      "learning_rate": 0.0009712840924979378,
      "loss": 0.4935,
      "num_input_tokens_seen": 4939688,
      "step": 7540
    },
    {
      "epoch": 3.9544025157232703,
      "grad_norm": 0.13971014320850372,
      "learning_rate": 0.0009712076590284357,
      "loss": 0.4024,
      "num_input_tokens_seen": 4942952,
      "step": 7545
    },
    {
      "epoch": 3.9570230607966455,
      "grad_norm": 0.06269943714141846,
      "learning_rate": 0.0009711311269876674,
      "loss": 0.3942,
      "num_input_tokens_seen": 4946504,
      "step": 7550
    },
    {
      "epoch": 3.959643605870021,
      "grad_norm": 0.08498913794755936,
      "learning_rate": 0.0009710544963916421,
      "loss": 0.3839,
      "num_input_tokens_seen": 4949384,
      "step": 7555
    },
    {
      "epoch": 3.9622641509433962,
      "grad_norm": 0.05938252434134483,
      "learning_rate": 0.0009709777672563903,
      "loss": 0.4078,
      "num_input_tokens_seen": 4953000,
      "step": 7560
    },
    {
      "epoch": 3.9648846960167714,
      "grad_norm": 0.06304784119129181,
      "learning_rate": 0.0009709009395979628,
      "loss": 0.4489,
      "num_input_tokens_seen": 4956392,
      "step": 7565
    },
    {
      "epoch": 3.967505241090147,
      "grad_norm": 0.07403638958930969,
      "learning_rate": 0.0009708240134324311,
      "loss": 0.4961,
      "num_input_tokens_seen": 4959656,
      "step": 7570
    },
    {
      "epoch": 3.970125786163522,
      "grad_norm": 0.05598241090774536,
      "learning_rate": 0.0009707469887758871,
      "loss": 0.4541,
      "num_input_tokens_seen": 4963144,
      "step": 7575
    },
    {
      "epoch": 3.9727463312368974,
      "grad_norm": 0.12173142284154892,
      "learning_rate": 0.0009706698656444437,
      "loss": 0.4158,
      "num_input_tokens_seen": 4965704,
      "step": 7580
    },
    {
      "epoch": 3.9753668763102725,
      "grad_norm": 0.08382441848516464,
      "learning_rate": 0.000970592644054234,
      "loss": 0.4552,
      "num_input_tokens_seen": 4968584,
      "step": 7585
    },
    {
      "epoch": 3.9779874213836477,
      "grad_norm": 0.054337017238140106,
      "learning_rate": 0.000970515324021412,
      "loss": 0.4048,
      "num_input_tokens_seen": 4971624,
      "step": 7590
    },
    {
      "epoch": 3.980607966457023,
      "grad_norm": 0.12276989221572876,
      "learning_rate": 0.0009704379055621523,
      "loss": 0.5468,
      "num_input_tokens_seen": 4974248,
      "step": 7595
    },
    {
      "epoch": 3.9832285115303985,
      "grad_norm": 0.045242149382829666,
      "learning_rate": 0.0009703603886926497,
      "loss": 0.6882,
      "num_input_tokens_seen": 4977480,
      "step": 7600
    },
    {
      "epoch": 3.9858490566037736,
      "grad_norm": 0.06794719398021698,
      "learning_rate": 0.0009702827734291198,
      "loss": 0.5284,
      "num_input_tokens_seen": 4980616,
      "step": 7605
    },
    {
      "epoch": 3.988469601677149,
      "grad_norm": 0.035057712346315384,
      "learning_rate": 0.0009702050597877992,
      "loss": 0.5466,
      "num_input_tokens_seen": 4985512,
      "step": 7610
    },
    {
      "epoch": 3.991090146750524,
      "grad_norm": 0.09448084980249405,
      "learning_rate": 0.0009701272477849444,
      "loss": 0.4634,
      "num_input_tokens_seen": 4988904,
      "step": 7615
    },
    {
      "epoch": 3.9937106918238996,
      "grad_norm": 0.08776992559432983,
      "learning_rate": 0.0009700493374368327,
      "loss": 0.384,
      "num_input_tokens_seen": 4993032,
      "step": 7620
    },
    {
      "epoch": 3.9963312368972748,
      "grad_norm": 0.0908856987953186,
      "learning_rate": 0.0009699713287597624,
      "loss": 0.3244,
      "num_input_tokens_seen": 4995656,
      "step": 7625
    },
    {
      "epoch": 3.99895178197065,
      "grad_norm": 0.07293631136417389,
      "learning_rate": 0.0009698932217700518,
      "loss": 0.587,
      "num_input_tokens_seen": 4999112,
      "step": 7630
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.48011884093284607,
      "eval_runtime": 13.5704,
      "eval_samples_per_second": 62.489,
      "eval_steps_per_second": 15.622,
      "num_input_tokens_seen": 4999712,
      "step": 7632
    },
    {
      "epoch": 4.001572327044025,
      "grad_norm": 0.06473720073699951,
      "learning_rate": 0.0009698150164840399,
      "loss": 0.4259,
      "num_input_tokens_seen": 5001888,
      "step": 7635
    },
    {
      "epoch": 4.0041928721174,
      "grad_norm": 0.07854577153921127,
      "learning_rate": 0.0009697367129180866,
      "loss": 0.431,
      "num_input_tokens_seen": 5005248,
      "step": 7640
    },
    {
      "epoch": 4.006813417190775,
      "grad_norm": 0.0845184177160263,
      "learning_rate": 0.000969658311088572,
      "loss": 0.4652,
      "num_input_tokens_seen": 5007648,
      "step": 7645
    },
    {
      "epoch": 4.009433962264151,
      "grad_norm": 0.1180976927280426,
      "learning_rate": 0.0009695798110118969,
      "loss": 0.5146,
      "num_input_tokens_seen": 5010368,
      "step": 7650
    },
    {
      "epoch": 4.012054507337526,
      "grad_norm": 0.08542857319116592,
      "learning_rate": 0.0009695012127044824,
      "loss": 0.4524,
      "num_input_tokens_seen": 5013056,
      "step": 7655
    },
    {
      "epoch": 4.014675052410902,
      "grad_norm": 0.04486476629972458,
      "learning_rate": 0.0009694225161827707,
      "loss": 0.548,
      "num_input_tokens_seen": 5016608,
      "step": 7660
    },
    {
      "epoch": 4.017295597484277,
      "grad_norm": 0.08633295446634293,
      "learning_rate": 0.0009693437214632241,
      "loss": 0.3998,
      "num_input_tokens_seen": 5019456,
      "step": 7665
    },
    {
      "epoch": 4.019916142557652,
      "grad_norm": 0.10401785373687744,
      "learning_rate": 0.0009692648285623256,
      "loss": 0.4651,
      "num_input_tokens_seen": 5022336,
      "step": 7670
    },
    {
      "epoch": 4.022536687631027,
      "grad_norm": 0.08054208010435104,
      "learning_rate": 0.0009691858374965784,
      "loss": 0.4294,
      "num_input_tokens_seen": 5025888,
      "step": 7675
    },
    {
      "epoch": 4.0251572327044025,
      "grad_norm": 0.0979328379034996,
      "learning_rate": 0.0009691067482825069,
      "loss": 0.4629,
      "num_input_tokens_seen": 5029216,
      "step": 7680
    },
    {
      "epoch": 4.027777777777778,
      "grad_norm": 0.07688255608081818,
      "learning_rate": 0.0009690275609366554,
      "loss": 0.3088,
      "num_input_tokens_seen": 5033280,
      "step": 7685
    },
    {
      "epoch": 4.030398322851153,
      "grad_norm": 0.08116715401411057,
      "learning_rate": 0.0009689482754755891,
      "loss": 0.3776,
      "num_input_tokens_seen": 5036224,
      "step": 7690
    },
    {
      "epoch": 4.033018867924528,
      "grad_norm": 0.06790066510438919,
      "learning_rate": 0.0009688688919158938,
      "loss": 0.4629,
      "num_input_tokens_seen": 5039168,
      "step": 7695
    },
    {
      "epoch": 4.035639412997903,
      "grad_norm": 0.0671447142958641,
      "learning_rate": 0.0009687894102741754,
      "loss": 0.6599,
      "num_input_tokens_seen": 5042944,
      "step": 7700
    },
    {
      "epoch": 4.038259958071279,
      "grad_norm": 0.06753642112016678,
      "learning_rate": 0.0009687098305670605,
      "loss": 0.5379,
      "num_input_tokens_seen": 5046240,
      "step": 7705
    },
    {
      "epoch": 4.040880503144654,
      "grad_norm": 0.048881035298109055,
      "learning_rate": 0.0009686301528111964,
      "loss": 0.7089,
      "num_input_tokens_seen": 5049728,
      "step": 7710
    },
    {
      "epoch": 4.04350104821803,
      "grad_norm": 0.10088110715150833,
      "learning_rate": 0.0009685503770232507,
      "loss": 0.4694,
      "num_input_tokens_seen": 5052384,
      "step": 7715
    },
    {
      "epoch": 4.046121593291405,
      "grad_norm": 0.0820276215672493,
      "learning_rate": 0.0009684705032199117,
      "loss": 0.4834,
      "num_input_tokens_seen": 5055872,
      "step": 7720
    },
    {
      "epoch": 4.04874213836478,
      "grad_norm": 0.07357759773731232,
      "learning_rate": 0.0009683905314178881,
      "loss": 0.4236,
      "num_input_tokens_seen": 5059328,
      "step": 7725
    },
    {
      "epoch": 4.051362683438155,
      "grad_norm": 0.1283550262451172,
      "learning_rate": 0.000968310461633909,
      "loss": 0.431,
      "num_input_tokens_seen": 5061728,
      "step": 7730
    },
    {
      "epoch": 4.05398322851153,
      "grad_norm": 0.07367478311061859,
      "learning_rate": 0.0009682302938847238,
      "loss": 0.4915,
      "num_input_tokens_seen": 5064608,
      "step": 7735
    },
    {
      "epoch": 4.056603773584905,
      "grad_norm": 0.09542441368103027,
      "learning_rate": 0.0009681500281871031,
      "loss": 0.5475,
      "num_input_tokens_seen": 5067840,
      "step": 7740
    },
    {
      "epoch": 4.059224318658281,
      "grad_norm": 0.05737495422363281,
      "learning_rate": 0.0009680696645578377,
      "loss": 0.4301,
      "num_input_tokens_seen": 5071328,
      "step": 7745
    },
    {
      "epoch": 4.061844863731656,
      "grad_norm": 0.21860957145690918,
      "learning_rate": 0.0009679892030137382,
      "loss": 0.4981,
      "num_input_tokens_seen": 5074208,
      "step": 7750
    },
    {
      "epoch": 4.064465408805032,
      "grad_norm": 0.050797510892152786,
      "learning_rate": 0.0009679086435716368,
      "loss": 0.5367,
      "num_input_tokens_seen": 5078304,
      "step": 7755
    },
    {
      "epoch": 4.067085953878407,
      "grad_norm": 0.10311169177293777,
      "learning_rate": 0.0009678279862483852,
      "loss": 0.4584,
      "num_input_tokens_seen": 5081856,
      "step": 7760
    },
    {
      "epoch": 4.069706498951782,
      "grad_norm": 0.12945674359798431,
      "learning_rate": 0.0009677472310608561,
      "loss": 0.488,
      "num_input_tokens_seen": 5085504,
      "step": 7765
    },
    {
      "epoch": 4.072327044025157,
      "grad_norm": 0.14328967034816742,
      "learning_rate": 0.0009676663780259427,
      "loss": 0.3191,
      "num_input_tokens_seen": 5089664,
      "step": 7770
    },
    {
      "epoch": 4.0749475890985325,
      "grad_norm": 0.09756248444318771,
      "learning_rate": 0.0009675854271605583,
      "loss": 0.4167,
      "num_input_tokens_seen": 5092256,
      "step": 7775
    },
    {
      "epoch": 4.077568134171908,
      "grad_norm": 0.10174097120761871,
      "learning_rate": 0.0009675043784816371,
      "loss": 0.4565,
      "num_input_tokens_seen": 5095456,
      "step": 7780
    },
    {
      "epoch": 4.080188679245283,
      "grad_norm": 0.07045937329530716,
      "learning_rate": 0.0009674232320061336,
      "loss": 0.4395,
      "num_input_tokens_seen": 5098432,
      "step": 7785
    },
    {
      "epoch": 4.082809224318658,
      "grad_norm": 0.1042831540107727,
      "learning_rate": 0.0009673419877510226,
      "loss": 0.7246,
      "num_input_tokens_seen": 5102528,
      "step": 7790
    },
    {
      "epoch": 4.085429769392033,
      "grad_norm": 0.08186552673578262,
      "learning_rate": 0.0009672606457332994,
      "loss": 0.4656,
      "num_input_tokens_seen": 5106080,
      "step": 7795
    },
    {
      "epoch": 4.088050314465409,
      "grad_norm": 0.2607558071613312,
      "learning_rate": 0.0009671792059699798,
      "loss": 0.4404,
      "num_input_tokens_seen": 5108416,
      "step": 7800
    },
    {
      "epoch": 4.090670859538784,
      "grad_norm": 0.10294042527675629,
      "learning_rate": 0.0009670976684781003,
      "loss": 0.3731,
      "num_input_tokens_seen": 5111584,
      "step": 7805
    },
    {
      "epoch": 4.09329140461216,
      "grad_norm": 0.08875158429145813,
      "learning_rate": 0.0009670160332747174,
      "loss": 0.4811,
      "num_input_tokens_seen": 5114176,
      "step": 7810
    },
    {
      "epoch": 4.095911949685535,
      "grad_norm": 0.09331910312175751,
      "learning_rate": 0.0009669343003769085,
      "loss": 0.3697,
      "num_input_tokens_seen": 5116768,
      "step": 7815
    },
    {
      "epoch": 4.09853249475891,
      "grad_norm": 0.12535671889781952,
      "learning_rate": 0.0009668524698017709,
      "loss": 0.3805,
      "num_input_tokens_seen": 5120992,
      "step": 7820
    },
    {
      "epoch": 4.101153039832285,
      "grad_norm": 0.05610768869519234,
      "learning_rate": 0.0009667705415664227,
      "loss": 0.5318,
      "num_input_tokens_seen": 5124448,
      "step": 7825
    },
    {
      "epoch": 4.10377358490566,
      "grad_norm": 0.0612371526658535,
      "learning_rate": 0.0009666885156880026,
      "loss": 0.4899,
      "num_input_tokens_seen": 5127648,
      "step": 7830
    },
    {
      "epoch": 4.106394129979035,
      "grad_norm": 0.07058986276388168,
      "learning_rate": 0.0009666063921836692,
      "loss": 0.4425,
      "num_input_tokens_seen": 5130688,
      "step": 7835
    },
    {
      "epoch": 4.109014675052411,
      "grad_norm": 0.059227149933576584,
      "learning_rate": 0.0009665241710706019,
      "loss": 0.5683,
      "num_input_tokens_seen": 5133664,
      "step": 7840
    },
    {
      "epoch": 4.111635220125786,
      "grad_norm": 0.07319189608097076,
      "learning_rate": 0.0009664418523660003,
      "loss": 0.3722,
      "num_input_tokens_seen": 5136512,
      "step": 7845
    },
    {
      "epoch": 4.114255765199162,
      "grad_norm": 0.0776183232665062,
      "learning_rate": 0.0009663594360870847,
      "loss": 0.5097,
      "num_input_tokens_seen": 5140480,
      "step": 7850
    },
    {
      "epoch": 4.116876310272537,
      "grad_norm": 0.06240535527467728,
      "learning_rate": 0.0009662769222510955,
      "loss": 0.3935,
      "num_input_tokens_seen": 5144704,
      "step": 7855
    },
    {
      "epoch": 4.119496855345912,
      "grad_norm": 0.07893102616071701,
      "learning_rate": 0.0009661943108752939,
      "loss": 0.4581,
      "num_input_tokens_seen": 5148256,
      "step": 7860
    },
    {
      "epoch": 4.122117400419287,
      "grad_norm": 0.09563475102186203,
      "learning_rate": 0.0009661116019769609,
      "loss": 0.4922,
      "num_input_tokens_seen": 5151136,
      "step": 7865
    },
    {
      "epoch": 4.1247379454926625,
      "grad_norm": 0.047044117003679276,
      "learning_rate": 0.0009660287955733986,
      "loss": 0.6421,
      "num_input_tokens_seen": 5154368,
      "step": 7870
    },
    {
      "epoch": 4.127358490566038,
      "grad_norm": 0.09386299550533295,
      "learning_rate": 0.0009659458916819289,
      "loss": 0.4871,
      "num_input_tokens_seen": 5157216,
      "step": 7875
    },
    {
      "epoch": 4.129979035639413,
      "grad_norm": 0.06083476543426514,
      "learning_rate": 0.0009658628903198945,
      "loss": 0.4186,
      "num_input_tokens_seen": 5160608,
      "step": 7880
    },
    {
      "epoch": 4.132599580712788,
      "grad_norm": 0.08815933763980865,
      "learning_rate": 0.0009657797915046583,
      "loss": 0.5125,
      "num_input_tokens_seen": 5163552,
      "step": 7885
    },
    {
      "epoch": 4.135220125786163,
      "grad_norm": 0.07650590687990189,
      "learning_rate": 0.0009656965952536036,
      "loss": 0.4732,
      "num_input_tokens_seen": 5166496,
      "step": 7890
    },
    {
      "epoch": 4.137840670859539,
      "grad_norm": 0.10300004482269287,
      "learning_rate": 0.0009656133015841342,
      "loss": 0.4314,
      "num_input_tokens_seen": 5169088,
      "step": 7895
    },
    {
      "epoch": 4.140461215932914,
      "grad_norm": 0.053729914128780365,
      "learning_rate": 0.000965529910513674,
      "loss": 0.3477,
      "num_input_tokens_seen": 5171456,
      "step": 7900
    },
    {
      "epoch": 4.1430817610062896,
      "grad_norm": 0.08538035303354263,
      "learning_rate": 0.0009654464220596676,
      "loss": 0.4725,
      "num_input_tokens_seen": 5175360,
      "step": 7905
    },
    {
      "epoch": 4.145702306079665,
      "grad_norm": 0.09698211401700974,
      "learning_rate": 0.0009653628362395799,
      "loss": 0.4267,
      "num_input_tokens_seen": 5177760,
      "step": 7910
    },
    {
      "epoch": 4.14832285115304,
      "grad_norm": 0.08013446629047394,
      "learning_rate": 0.0009652791530708958,
      "loss": 0.4286,
      "num_input_tokens_seen": 5180128,
      "step": 7915
    },
    {
      "epoch": 4.150943396226415,
      "grad_norm": 0.0686776265501976,
      "learning_rate": 0.0009651953725711212,
      "loss": 0.581,
      "num_input_tokens_seen": 5183296,
      "step": 7920
    },
    {
      "epoch": 4.15356394129979,
      "grad_norm": 0.1411251574754715,
      "learning_rate": 0.0009651114947577818,
      "loss": 0.4863,
      "num_input_tokens_seen": 5185632,
      "step": 7925
    },
    {
      "epoch": 4.156184486373165,
      "grad_norm": 0.06984885036945343,
      "learning_rate": 0.0009650275196484239,
      "loss": 0.5557,
      "num_input_tokens_seen": 5188640,
      "step": 7930
    },
    {
      "epoch": 4.158805031446541,
      "grad_norm": 0.08573698997497559,
      "learning_rate": 0.0009649434472606144,
      "loss": 0.4801,
      "num_input_tokens_seen": 5191808,
      "step": 7935
    },
    {
      "epoch": 4.161425576519916,
      "grad_norm": 0.0935693234205246,
      "learning_rate": 0.00096485927761194,
      "loss": 0.5632,
      "num_input_tokens_seen": 5194560,
      "step": 7940
    },
    {
      "epoch": 4.164046121593292,
      "grad_norm": 0.05395280569791794,
      "learning_rate": 0.0009647750107200082,
      "loss": 0.5255,
      "num_input_tokens_seen": 5197472,
      "step": 7945
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.0732124075293541,
      "learning_rate": 0.0009646906466024465,
      "loss": 0.5063,
      "num_input_tokens_seen": 5201152,
      "step": 7950
    },
    {
      "epoch": 4.169287211740042,
      "grad_norm": 0.20707939565181732,
      "learning_rate": 0.000964606185276903,
      "loss": 0.4057,
      "num_input_tokens_seen": 5205920,
      "step": 7955
    },
    {
      "epoch": 4.171907756813417,
      "grad_norm": 0.09886214882135391,
      "learning_rate": 0.0009645216267610461,
      "loss": 0.6434,
      "num_input_tokens_seen": 5208768,
      "step": 7960
    },
    {
      "epoch": 4.1745283018867925,
      "grad_norm": 0.05962574854493141,
      "learning_rate": 0.0009644369710725644,
      "loss": 0.4495,
      "num_input_tokens_seen": 5212064,
      "step": 7965
    },
    {
      "epoch": 4.177148846960168,
      "grad_norm": 0.061960477381944656,
      "learning_rate": 0.0009643522182291669,
      "loss": 0.5672,
      "num_input_tokens_seen": 5215712,
      "step": 7970
    },
    {
      "epoch": 4.179769392033543,
      "grad_norm": 0.10007854551076889,
      "learning_rate": 0.000964267368248583,
      "loss": 0.4103,
      "num_input_tokens_seen": 5218944,
      "step": 7975
    },
    {
      "epoch": 4.182389937106918,
      "grad_norm": 0.050409842282533646,
      "learning_rate": 0.0009641824211485623,
      "loss": 0.5856,
      "num_input_tokens_seen": 5222080,
      "step": 7980
    },
    {
      "epoch": 4.185010482180293,
      "grad_norm": 0.07485257089138031,
      "learning_rate": 0.0009640973769468747,
      "loss": 0.4826,
      "num_input_tokens_seen": 5224896,
      "step": 7985
    },
    {
      "epoch": 4.187631027253669,
      "grad_norm": 0.08367077261209488,
      "learning_rate": 0.0009640122356613105,
      "loss": 0.4633,
      "num_input_tokens_seen": 5228160,
      "step": 7990
    },
    {
      "epoch": 4.190251572327044,
      "grad_norm": 0.08400285243988037,
      "learning_rate": 0.0009639269973096805,
      "loss": 0.4022,
      "num_input_tokens_seen": 5231232,
      "step": 7995
    },
    {
      "epoch": 4.1928721174004195,
      "grad_norm": 0.05369479954242706,
      "learning_rate": 0.0009638416619098154,
      "loss": 0.4205,
      "num_input_tokens_seen": 5234432,
      "step": 8000
    },
    {
      "epoch": 4.195492662473795,
      "grad_norm": 0.12511610984802246,
      "learning_rate": 0.0009637562294795663,
      "loss": 0.3028,
      "num_input_tokens_seen": 5237728,
      "step": 8005
    },
    {
      "epoch": 4.19811320754717,
      "grad_norm": 0.14642037451267242,
      "learning_rate": 0.0009636707000368049,
      "loss": 0.3985,
      "num_input_tokens_seen": 5240480,
      "step": 8010
    },
    {
      "epoch": 4.200733752620545,
      "grad_norm": 0.0829785019159317,
      "learning_rate": 0.000963585073599423,
      "loss": 0.428,
      "num_input_tokens_seen": 5244384,
      "step": 8015
    },
    {
      "epoch": 4.20335429769392,
      "grad_norm": 0.15244035422801971,
      "learning_rate": 0.0009634993501853323,
      "loss": 0.3458,
      "num_input_tokens_seen": 5246752,
      "step": 8020
    },
    {
      "epoch": 4.205974842767295,
      "grad_norm": 0.05348272994160652,
      "learning_rate": 0.0009634135298124656,
      "loss": 0.5069,
      "num_input_tokens_seen": 5249760,
      "step": 8025
    },
    {
      "epoch": 4.2085953878406706,
      "grad_norm": 0.05469844117760658,
      "learning_rate": 0.0009633276124987752,
      "loss": 0.4566,
      "num_input_tokens_seen": 5252608,
      "step": 8030
    },
    {
      "epoch": 4.211215932914046,
      "grad_norm": 0.09970659017562866,
      "learning_rate": 0.0009632415982622342,
      "loss": 0.4284,
      "num_input_tokens_seen": 5256288,
      "step": 8035
    },
    {
      "epoch": 4.213836477987422,
      "grad_norm": 0.07920583337545395,
      "learning_rate": 0.0009631554871208359,
      "loss": 0.3686,
      "num_input_tokens_seen": 5259840,
      "step": 8040
    },
    {
      "epoch": 4.216457023060797,
      "grad_norm": 0.06314519047737122,
      "learning_rate": 0.0009630692790925936,
      "loss": 0.4539,
      "num_input_tokens_seen": 5263808,
      "step": 8045
    },
    {
      "epoch": 4.219077568134172,
      "grad_norm": 0.09871691465377808,
      "learning_rate": 0.0009629829741955411,
      "loss": 0.5219,
      "num_input_tokens_seen": 5266816,
      "step": 8050
    },
    {
      "epoch": 4.221698113207547,
      "grad_norm": 0.10800984501838684,
      "learning_rate": 0.0009628965724477325,
      "loss": 0.4541,
      "num_input_tokens_seen": 5270528,
      "step": 8055
    },
    {
      "epoch": 4.2243186582809225,
      "grad_norm": 0.054027874022722244,
      "learning_rate": 0.0009628100738672419,
      "loss": 0.4602,
      "num_input_tokens_seen": 5273856,
      "step": 8060
    },
    {
      "epoch": 4.226939203354298,
      "grad_norm": 0.07782477885484695,
      "learning_rate": 0.0009627234784721637,
      "loss": 0.5913,
      "num_input_tokens_seen": 5276288,
      "step": 8065
    },
    {
      "epoch": 4.229559748427673,
      "grad_norm": 0.0560162290930748,
      "learning_rate": 0.0009626367862806129,
      "loss": 0.6117,
      "num_input_tokens_seen": 5279808,
      "step": 8070
    },
    {
      "epoch": 4.232180293501048,
      "grad_norm": 0.11525411903858185,
      "learning_rate": 0.0009625499973107246,
      "loss": 0.4531,
      "num_input_tokens_seen": 5282528,
      "step": 8075
    },
    {
      "epoch": 4.234800838574423,
      "grad_norm": 0.09247244894504547,
      "learning_rate": 0.0009624631115806537,
      "loss": 0.4666,
      "num_input_tokens_seen": 5285824,
      "step": 8080
    },
    {
      "epoch": 4.237421383647799,
      "grad_norm": 0.08868736773729324,
      "learning_rate": 0.0009623761291085761,
      "loss": 0.4484,
      "num_input_tokens_seen": 5288672,
      "step": 8085
    },
    {
      "epoch": 4.240041928721174,
      "grad_norm": 0.1198030635714531,
      "learning_rate": 0.0009622890499126873,
      "loss": 0.4795,
      "num_input_tokens_seen": 5291808,
      "step": 8090
    },
    {
      "epoch": 4.2426624737945495,
      "grad_norm": 0.06318851560354233,
      "learning_rate": 0.0009622018740112032,
      "loss": 0.4366,
      "num_input_tokens_seen": 5295840,
      "step": 8095
    },
    {
      "epoch": 4.245283018867925,
      "grad_norm": 0.09980351477861404,
      "learning_rate": 0.0009621146014223603,
      "loss": 0.446,
      "num_input_tokens_seen": 5298720,
      "step": 8100
    },
    {
      "epoch": 4.2479035639413,
      "grad_norm": 0.12017674744129181,
      "learning_rate": 0.0009620272321644148,
      "loss": 0.5183,
      "num_input_tokens_seen": 5302048,
      "step": 8105
    },
    {
      "epoch": 4.250524109014675,
      "grad_norm": 0.05320219695568085,
      "learning_rate": 0.0009619397662556434,
      "loss": 0.3658,
      "num_input_tokens_seen": 5305568,
      "step": 8110
    },
    {
      "epoch": 4.25314465408805,
      "grad_norm": 0.1015544906258583,
      "learning_rate": 0.000961852203714343,
      "loss": 0.4711,
      "num_input_tokens_seen": 5308192,
      "step": 8115
    },
    {
      "epoch": 4.255765199161425,
      "grad_norm": 0.09946728497743607,
      "learning_rate": 0.0009617645445588307,
      "loss": 0.414,
      "num_input_tokens_seen": 5311200,
      "step": 8120
    },
    {
      "epoch": 4.2583857442348005,
      "grad_norm": 0.07700316607952118,
      "learning_rate": 0.0009616767888074438,
      "loss": 0.5387,
      "num_input_tokens_seen": 5314560,
      "step": 8125
    },
    {
      "epoch": 4.261006289308176,
      "grad_norm": 0.06334739178419113,
      "learning_rate": 0.0009615889364785397,
      "loss": 0.5386,
      "num_input_tokens_seen": 5318240,
      "step": 8130
    },
    {
      "epoch": 4.263626834381552,
      "grad_norm": 0.08183756470680237,
      "learning_rate": 0.000961500987590496,
      "loss": 0.4932,
      "num_input_tokens_seen": 5321376,
      "step": 8135
    },
    {
      "epoch": 4.266247379454927,
      "grad_norm": 0.08188365399837494,
      "learning_rate": 0.0009614129421617111,
      "loss": 0.4764,
      "num_input_tokens_seen": 5325248,
      "step": 8140
    },
    {
      "epoch": 4.268867924528302,
      "grad_norm": 0.08481661975383759,
      "learning_rate": 0.0009613248002106027,
      "loss": 0.4607,
      "num_input_tokens_seen": 5328256,
      "step": 8145
    },
    {
      "epoch": 4.271488469601677,
      "grad_norm": 0.09453936666250229,
      "learning_rate": 0.000961236561755609,
      "loss": 0.4981,
      "num_input_tokens_seen": 5331392,
      "step": 8150
    },
    {
      "epoch": 4.274109014675052,
      "grad_norm": 0.07048411667346954,
      "learning_rate": 0.0009611482268151888,
      "loss": 0.4485,
      "num_input_tokens_seen": 5335328,
      "step": 8155
    },
    {
      "epoch": 4.276729559748428,
      "grad_norm": 0.05861567333340645,
      "learning_rate": 0.0009610597954078206,
      "loss": 0.4225,
      "num_input_tokens_seen": 5340288,
      "step": 8160
    },
    {
      "epoch": 4.279350104821803,
      "grad_norm": 0.0750923827290535,
      "learning_rate": 0.0009609712675520031,
      "loss": 0.359,
      "num_input_tokens_seen": 5343360,
      "step": 8165
    },
    {
      "epoch": 4.281970649895178,
      "grad_norm": 0.09046083688735962,
      "learning_rate": 0.0009608826432662556,
      "loss": 0.5495,
      "num_input_tokens_seen": 5346112,
      "step": 8170
    },
    {
      "epoch": 4.284591194968553,
      "grad_norm": 0.09419422596693039,
      "learning_rate": 0.0009607939225691172,
      "loss": 0.4075,
      "num_input_tokens_seen": 5348544,
      "step": 8175
    },
    {
      "epoch": 4.287211740041929,
      "grad_norm": 0.13790316879749298,
      "learning_rate": 0.0009607051054791472,
      "loss": 0.3633,
      "num_input_tokens_seen": 5351648,
      "step": 8180
    },
    {
      "epoch": 4.289832285115304,
      "grad_norm": 0.07738663256168365,
      "learning_rate": 0.000960616192014925,
      "loss": 0.4251,
      "num_input_tokens_seen": 5354976,
      "step": 8185
    },
    {
      "epoch": 4.2924528301886795,
      "grad_norm": 0.09233133494853973,
      "learning_rate": 0.0009605271821950506,
      "loss": 0.3832,
      "num_input_tokens_seen": 5357984,
      "step": 8190
    },
    {
      "epoch": 4.295073375262055,
      "grad_norm": 0.06512682884931564,
      "learning_rate": 0.0009604380760381434,
      "loss": 0.487,
      "num_input_tokens_seen": 5361728,
      "step": 8195
    },
    {
      "epoch": 4.29769392033543,
      "grad_norm": 0.08295904099941254,
      "learning_rate": 0.0009603488735628439,
      "loss": 0.486,
      "num_input_tokens_seen": 5364512,
      "step": 8200
    },
    {
      "epoch": 4.300314465408805,
      "grad_norm": 0.11714273691177368,
      "learning_rate": 0.0009602595747878118,
      "loss": 0.495,
      "num_input_tokens_seen": 5366656,
      "step": 8205
    },
    {
      "epoch": 4.30293501048218,
      "grad_norm": 0.12126171588897705,
      "learning_rate": 0.0009601701797317278,
      "loss": 0.4052,
      "num_input_tokens_seen": 5369440,
      "step": 8210
    },
    {
      "epoch": 4.305555555555555,
      "grad_norm": 0.07223348319530487,
      "learning_rate": 0.0009600806884132917,
      "loss": 0.4007,
      "num_input_tokens_seen": 5373408,
      "step": 8215
    },
    {
      "epoch": 4.3081761006289305,
      "grad_norm": 0.08472540229558945,
      "learning_rate": 0.0009599911008512248,
      "loss": 0.4289,
      "num_input_tokens_seen": 5376224,
      "step": 8220
    },
    {
      "epoch": 4.310796645702306,
      "grad_norm": 0.09076297283172607,
      "learning_rate": 0.0009599014170642674,
      "loss": 0.4994,
      "num_input_tokens_seen": 5378720,
      "step": 8225
    },
    {
      "epoch": 4.313417190775682,
      "grad_norm": 0.07872948795557022,
      "learning_rate": 0.0009598116370711805,
      "loss": 0.3348,
      "num_input_tokens_seen": 5382848,
      "step": 8230
    },
    {
      "epoch": 4.316037735849057,
      "grad_norm": 0.1210574135184288,
      "learning_rate": 0.0009597217608907447,
      "loss": 0.5655,
      "num_input_tokens_seen": 5387456,
      "step": 8235
    },
    {
      "epoch": 4.318658280922432,
      "grad_norm": 0.06037226319313049,
      "learning_rate": 0.0009596317885417614,
      "loss": 0.3954,
      "num_input_tokens_seen": 5390592,
      "step": 8240
    },
    {
      "epoch": 4.321278825995807,
      "grad_norm": 0.08847928792238235,
      "learning_rate": 0.0009595417200430516,
      "loss": 0.4077,
      "num_input_tokens_seen": 5393760,
      "step": 8245
    },
    {
      "epoch": 4.323899371069182,
      "grad_norm": 0.10253480821847916,
      "learning_rate": 0.0009594515554134568,
      "loss": 0.5562,
      "num_input_tokens_seen": 5396320,
      "step": 8250
    },
    {
      "epoch": 4.326519916142558,
      "grad_norm": 0.06295636296272278,
      "learning_rate": 0.0009593612946718384,
      "loss": 0.3971,
      "num_input_tokens_seen": 5399360,
      "step": 8255
    },
    {
      "epoch": 4.329140461215933,
      "grad_norm": 0.08088499307632446,
      "learning_rate": 0.0009592709378370778,
      "loss": 0.4472,
      "num_input_tokens_seen": 5401824,
      "step": 8260
    },
    {
      "epoch": 4.331761006289308,
      "grad_norm": 0.08351512253284454,
      "learning_rate": 0.0009591804849280766,
      "loss": 0.5622,
      "num_input_tokens_seen": 5405088,
      "step": 8265
    },
    {
      "epoch": 4.334381551362683,
      "grad_norm": 0.07525446265935898,
      "learning_rate": 0.0009590899359637564,
      "loss": 0.4346,
      "num_input_tokens_seen": 5408032,
      "step": 8270
    },
    {
      "epoch": 4.337002096436059,
      "grad_norm": 0.06214683875441551,
      "learning_rate": 0.0009589992909630594,
      "loss": 0.4726,
      "num_input_tokens_seen": 5411328,
      "step": 8275
    },
    {
      "epoch": 4.339622641509434,
      "grad_norm": 0.06553884595632553,
      "learning_rate": 0.0009589085499449471,
      "loss": 0.4208,
      "num_input_tokens_seen": 5415648,
      "step": 8280
    },
    {
      "epoch": 4.3422431865828095,
      "grad_norm": 0.062027476727962494,
      "learning_rate": 0.0009588177129284017,
      "loss": 0.4153,
      "num_input_tokens_seen": 5418784,
      "step": 8285
    },
    {
      "epoch": 4.344863731656185,
      "grad_norm": 0.09523193538188934,
      "learning_rate": 0.0009587267799324253,
      "loss": 0.5152,
      "num_input_tokens_seen": 5422272,
      "step": 8290
    },
    {
      "epoch": 4.34748427672956,
      "grad_norm": 0.09107336401939392,
      "learning_rate": 0.0009586357509760399,
      "loss": 0.4268,
      "num_input_tokens_seen": 5425984,
      "step": 8295
    },
    {
      "epoch": 4.350104821802935,
      "grad_norm": 0.11413200199604034,
      "learning_rate": 0.0009585446260782878,
      "loss": 0.5767,
      "num_input_tokens_seen": 5428832,
      "step": 8300
    },
    {
      "epoch": 4.35272536687631,
      "grad_norm": 0.060405079275369644,
      "learning_rate": 0.0009584534052582313,
      "loss": 0.4739,
      "num_input_tokens_seen": 5431648,
      "step": 8305
    },
    {
      "epoch": 4.355345911949685,
      "grad_norm": 0.07762506604194641,
      "learning_rate": 0.0009583620885349527,
      "loss": 0.4573,
      "num_input_tokens_seen": 5435136,
      "step": 8310
    },
    {
      "epoch": 4.3579664570230605,
      "grad_norm": 0.10176526010036469,
      "learning_rate": 0.0009582706759275546,
      "loss": 0.5183,
      "num_input_tokens_seen": 5438368,
      "step": 8315
    },
    {
      "epoch": 4.360587002096436,
      "grad_norm": 0.08661997318267822,
      "learning_rate": 0.0009581791674551592,
      "loss": 0.3475,
      "num_input_tokens_seen": 5441664,
      "step": 8320
    },
    {
      "epoch": 4.363207547169811,
      "grad_norm": 0.14256487786769867,
      "learning_rate": 0.000958087563136909,
      "loss": 0.4779,
      "num_input_tokens_seen": 5444672,
      "step": 8325
    },
    {
      "epoch": 4.365828092243187,
      "grad_norm": 0.08134563267230988,
      "learning_rate": 0.000957995862991967,
      "loss": 0.4549,
      "num_input_tokens_seen": 5448032,
      "step": 8330
    },
    {
      "epoch": 4.368448637316562,
      "grad_norm": 0.06727418303489685,
      "learning_rate": 0.0009579040670395154,
      "loss": 0.474,
      "num_input_tokens_seen": 5450656,
      "step": 8335
    },
    {
      "epoch": 4.371069182389937,
      "grad_norm": 0.08799273520708084,
      "learning_rate": 0.000957812175298757,
      "loss": 0.4481,
      "num_input_tokens_seen": 5453696,
      "step": 8340
    },
    {
      "epoch": 4.373689727463312,
      "grad_norm": 0.13014192879199982,
      "learning_rate": 0.0009577201877889145,
      "loss": 0.4739,
      "num_input_tokens_seen": 5456288,
      "step": 8345
    },
    {
      "epoch": 4.376310272536688,
      "grad_norm": 0.0889720469713211,
      "learning_rate": 0.0009576281045292308,
      "loss": 0.5289,
      "num_input_tokens_seen": 5459648,
      "step": 8350
    },
    {
      "epoch": 4.378930817610063,
      "grad_norm": 0.12408503890037537,
      "learning_rate": 0.0009575359255389686,
      "loss": 0.4452,
      "num_input_tokens_seen": 5463040,
      "step": 8355
    },
    {
      "epoch": 4.381551362683438,
      "grad_norm": 0.08686048537492752,
      "learning_rate": 0.0009574436508374104,
      "loss": 0.395,
      "num_input_tokens_seen": 5465728,
      "step": 8360
    },
    {
      "epoch": 4.384171907756813,
      "grad_norm": 0.06860338896512985,
      "learning_rate": 0.0009573512804438594,
      "loss": 0.5408,
      "num_input_tokens_seen": 5469536,
      "step": 8365
    },
    {
      "epoch": 4.386792452830189,
      "grad_norm": 0.060507770627737045,
      "learning_rate": 0.0009572588143776381,
      "loss": 0.4005,
      "num_input_tokens_seen": 5473024,
      "step": 8370
    },
    {
      "epoch": 4.389412997903564,
      "grad_norm": 0.08369038254022598,
      "learning_rate": 0.0009571662526580897,
      "loss": 0.3991,
      "num_input_tokens_seen": 5476704,
      "step": 8375
    },
    {
      "epoch": 4.3920335429769395,
      "grad_norm": 0.07727070152759552,
      "learning_rate": 0.0009570735953045768,
      "loss": 0.4805,
      "num_input_tokens_seen": 5480160,
      "step": 8380
    },
    {
      "epoch": 4.394654088050315,
      "grad_norm": 0.10305004566907883,
      "learning_rate": 0.0009569808423364823,
      "loss": 0.4455,
      "num_input_tokens_seen": 5483008,
      "step": 8385
    },
    {
      "epoch": 4.39727463312369,
      "grad_norm": 0.08088531345129013,
      "learning_rate": 0.0009568879937732091,
      "loss": 0.4963,
      "num_input_tokens_seen": 5487392,
      "step": 8390
    },
    {
      "epoch": 4.399895178197065,
      "grad_norm": 0.06371129304170609,
      "learning_rate": 0.0009567950496341802,
      "loss": 0.6308,
      "num_input_tokens_seen": 5490432,
      "step": 8395
    },
    {
      "epoch": 4.40251572327044,
      "grad_norm": 0.074150450527668,
      "learning_rate": 0.0009567020099388382,
      "loss": 0.5023,
      "num_input_tokens_seen": 5494976,
      "step": 8400
    },
    {
      "epoch": 4.405136268343815,
      "grad_norm": 0.05210402235388756,
      "learning_rate": 0.0009566088747066459,
      "loss": 0.431,
      "num_input_tokens_seen": 5498400,
      "step": 8405
    },
    {
      "epoch": 4.4077568134171905,
      "grad_norm": 0.09027697890996933,
      "learning_rate": 0.0009565156439570866,
      "loss": 0.4238,
      "num_input_tokens_seen": 5502368,
      "step": 8410
    },
    {
      "epoch": 4.410377358490566,
      "grad_norm": 0.07261090725660324,
      "learning_rate": 0.0009564223177096625,
      "loss": 0.4471,
      "num_input_tokens_seen": 5505408,
      "step": 8415
    },
    {
      "epoch": 4.412997903563941,
      "grad_norm": 0.06196514889597893,
      "learning_rate": 0.0009563288959838969,
      "loss": 0.5004,
      "num_input_tokens_seen": 5508480,
      "step": 8420
    },
    {
      "epoch": 4.415618448637317,
      "grad_norm": 0.09231660515069962,
      "learning_rate": 0.0009562353787993321,
      "loss": 0.5783,
      "num_input_tokens_seen": 5512128,
      "step": 8425
    },
    {
      "epoch": 4.418238993710692,
      "grad_norm": 0.05694097653031349,
      "learning_rate": 0.0009561417661755312,
      "loss": 0.4511,
      "num_input_tokens_seen": 5515744,
      "step": 8430
    },
    {
      "epoch": 4.420859538784067,
      "grad_norm": 0.10427422821521759,
      "learning_rate": 0.0009560480581320768,
      "loss": 0.5226,
      "num_input_tokens_seen": 5519616,
      "step": 8435
    },
    {
      "epoch": 4.423480083857442,
      "grad_norm": 0.07498318701982498,
      "learning_rate": 0.0009559542546885714,
      "loss": 0.5092,
      "num_input_tokens_seen": 5522400,
      "step": 8440
    },
    {
      "epoch": 4.426100628930818,
      "grad_norm": 0.08611647039651871,
      "learning_rate": 0.0009558603558646378,
      "loss": 0.3593,
      "num_input_tokens_seen": 5524992,
      "step": 8445
    },
    {
      "epoch": 4.428721174004193,
      "grad_norm": 0.038464099168777466,
      "learning_rate": 0.0009557663616799185,
      "loss": 0.3717,
      "num_input_tokens_seen": 5528256,
      "step": 8450
    },
    {
      "epoch": 4.431341719077568,
      "grad_norm": 0.08789526671171188,
      "learning_rate": 0.0009556722721540759,
      "loss": 0.4195,
      "num_input_tokens_seen": 5531200,
      "step": 8455
    },
    {
      "epoch": 4.433962264150943,
      "grad_norm": 0.07947895675897598,
      "learning_rate": 0.0009555780873067927,
      "loss": 0.4723,
      "num_input_tokens_seen": 5533984,
      "step": 8460
    },
    {
      "epoch": 4.436582809224318,
      "grad_norm": 0.07611609250307083,
      "learning_rate": 0.000955483807157771,
      "loss": 0.4806,
      "num_input_tokens_seen": 5537184,
      "step": 8465
    },
    {
      "epoch": 4.439203354297694,
      "grad_norm": 0.046135302633047104,
      "learning_rate": 0.0009553894317267333,
      "loss": 0.3598,
      "num_input_tokens_seen": 5539776,
      "step": 8470
    },
    {
      "epoch": 4.4418238993710695,
      "grad_norm": 0.0674045979976654,
      "learning_rate": 0.0009552949610334219,
      "loss": 0.4328,
      "num_input_tokens_seen": 5542816,
      "step": 8475
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 0.135859876871109,
      "learning_rate": 0.000955200395097599,
      "loss": 0.4891,
      "num_input_tokens_seen": 5545824,
      "step": 8480
    },
    {
      "epoch": 4.44706498951782,
      "grad_norm": 0.04850626736879349,
      "learning_rate": 0.0009551057339390464,
      "loss": 0.4852,
      "num_input_tokens_seen": 5548992,
      "step": 8485
    },
    {
      "epoch": 4.449685534591195,
      "grad_norm": 0.089805006980896,
      "learning_rate": 0.0009550109775775666,
      "loss": 0.4353,
      "num_input_tokens_seen": 5552384,
      "step": 8490
    },
    {
      "epoch": 4.45230607966457,
      "grad_norm": 0.08399437367916107,
      "learning_rate": 0.0009549161260329811,
      "loss": 0.589,
      "num_input_tokens_seen": 5555744,
      "step": 8495
    },
    {
      "epoch": 4.454926624737945,
      "grad_norm": 0.07891696691513062,
      "learning_rate": 0.0009548211793251322,
      "loss": 0.4394,
      "num_input_tokens_seen": 5559328,
      "step": 8500
    },
    {
      "epoch": 4.4575471698113205,
      "grad_norm": 0.05659589171409607,
      "learning_rate": 0.0009547261374738814,
      "loss": 0.6117,
      "num_input_tokens_seen": 5563200,
      "step": 8505
    },
    {
      "epoch": 4.460167714884696,
      "grad_norm": 0.10845832526683807,
      "learning_rate": 0.0009546310004991105,
      "loss": 0.585,
      "num_input_tokens_seen": 5566752,
      "step": 8510
    },
    {
      "epoch": 4.462788259958071,
      "grad_norm": 0.06689852476119995,
      "learning_rate": 0.000954535768420721,
      "loss": 0.404,
      "num_input_tokens_seen": 5570176,
      "step": 8515
    },
    {
      "epoch": 4.465408805031447,
      "grad_norm": 0.07713783532381058,
      "learning_rate": 0.0009544404412586343,
      "loss": 0.4377,
      "num_input_tokens_seen": 5573504,
      "step": 8520
    },
    {
      "epoch": 4.468029350104822,
      "grad_norm": 0.05502225458621979,
      "learning_rate": 0.0009543450190327917,
      "loss": 0.3607,
      "num_input_tokens_seen": 5580128,
      "step": 8525
    },
    {
      "epoch": 4.470649895178197,
      "grad_norm": 0.07719505578279495,
      "learning_rate": 0.0009542495017631547,
      "loss": 0.6207,
      "num_input_tokens_seen": 5583680,
      "step": 8530
    },
    {
      "epoch": 4.473270440251572,
      "grad_norm": 0.06944821774959564,
      "learning_rate": 0.0009541538894697043,
      "loss": 0.4813,
      "num_input_tokens_seen": 5587072,
      "step": 8535
    },
    {
      "epoch": 4.475890985324948,
      "grad_norm": 0.05580923706293106,
      "learning_rate": 0.0009540581821724414,
      "loss": 0.5009,
      "num_input_tokens_seen": 5591072,
      "step": 8540
    },
    {
      "epoch": 4.478511530398323,
      "grad_norm": 0.04700108617544174,
      "learning_rate": 0.000953962379891387,
      "loss": 0.5127,
      "num_input_tokens_seen": 5594528,
      "step": 8545
    },
    {
      "epoch": 4.481132075471698,
      "grad_norm": 0.1655266284942627,
      "learning_rate": 0.0009538664826465818,
      "loss": 0.5497,
      "num_input_tokens_seen": 5597184,
      "step": 8550
    },
    {
      "epoch": 4.483752620545073,
      "grad_norm": 0.060921017080545425,
      "learning_rate": 0.0009537704904580864,
      "loss": 0.5387,
      "num_input_tokens_seen": 5600512,
      "step": 8555
    },
    {
      "epoch": 4.486373165618448,
      "grad_norm": 0.07835941761732101,
      "learning_rate": 0.0009536744033459815,
      "loss": 0.5761,
      "num_input_tokens_seen": 5603072,
      "step": 8560
    },
    {
      "epoch": 4.488993710691824,
      "grad_norm": 0.049108099192380905,
      "learning_rate": 0.0009535782213303669,
      "loss": 0.4111,
      "num_input_tokens_seen": 5607040,
      "step": 8565
    },
    {
      "epoch": 4.4916142557651995,
      "grad_norm": 0.06812549382448196,
      "learning_rate": 0.0009534819444313631,
      "loss": 0.5577,
      "num_input_tokens_seen": 5611136,
      "step": 8570
    },
    {
      "epoch": 4.494234800838575,
      "grad_norm": 0.09319401532411575,
      "learning_rate": 0.0009533855726691103,
      "loss": 0.4695,
      "num_input_tokens_seen": 5613504,
      "step": 8575
    },
    {
      "epoch": 4.49685534591195,
      "grad_norm": 0.07088926434516907,
      "learning_rate": 0.0009532891060637681,
      "loss": 0.548,
      "num_input_tokens_seen": 5617056,
      "step": 8580
    },
    {
      "epoch": 4.499475890985325,
      "grad_norm": 0.11414048820734024,
      "learning_rate": 0.0009531925446355163,
      "loss": 0.5403,
      "num_input_tokens_seen": 5620800,
      "step": 8585
    },
    {
      "epoch": 4.5020964360587,
      "grad_norm": 0.06207415461540222,
      "learning_rate": 0.0009530958884045545,
      "loss": 0.4778,
      "num_input_tokens_seen": 5624864,
      "step": 8590
    },
    {
      "epoch": 4.504716981132075,
      "grad_norm": 0.14086274802684784,
      "learning_rate": 0.000952999137391102,
      "loss": 0.6131,
      "num_input_tokens_seen": 5627552,
      "step": 8595
    },
    {
      "epoch": 4.5073375262054505,
      "grad_norm": 0.10920359939336777,
      "learning_rate": 0.0009529022916153982,
      "loss": 0.5098,
      "num_input_tokens_seen": 5629888,
      "step": 8600
    },
    {
      "epoch": 4.509958071278826,
      "grad_norm": 0.10490488260984421,
      "learning_rate": 0.0009528053510977017,
      "loss": 0.4681,
      "num_input_tokens_seen": 5632512,
      "step": 8605
    },
    {
      "epoch": 4.512578616352201,
      "grad_norm": 0.0888812467455864,
      "learning_rate": 0.0009527083158582919,
      "loss": 0.6025,
      "num_input_tokens_seen": 5638880,
      "step": 8610
    },
    {
      "epoch": 4.515199161425577,
      "grad_norm": 0.09067772328853607,
      "learning_rate": 0.0009526111859174671,
      "loss": 0.3827,
      "num_input_tokens_seen": 5641856,
      "step": 8615
    },
    {
      "epoch": 4.517819706498952,
      "grad_norm": 0.08438818901777267,
      "learning_rate": 0.0009525139612955458,
      "loss": 0.5467,
      "num_input_tokens_seen": 5644256,
      "step": 8620
    },
    {
      "epoch": 4.520440251572327,
      "grad_norm": 0.08851317316293716,
      "learning_rate": 0.0009524166420128664,
      "loss": 0.4189,
      "num_input_tokens_seen": 5647008,
      "step": 8625
    },
    {
      "epoch": 4.523060796645702,
      "grad_norm": 0.07751534134149551,
      "learning_rate": 0.0009523192280897867,
      "loss": 0.5868,
      "num_input_tokens_seen": 5650208,
      "step": 8630
    },
    {
      "epoch": 4.5256813417190775,
      "grad_norm": 0.11584281176328659,
      "learning_rate": 0.0009522217195466851,
      "loss": 0.4805,
      "num_input_tokens_seen": 5652640,
      "step": 8635
    },
    {
      "epoch": 4.528301886792453,
      "grad_norm": 0.08565863966941833,
      "learning_rate": 0.0009521241164039589,
      "loss": 0.5861,
      "num_input_tokens_seen": 5656896,
      "step": 8640
    },
    {
      "epoch": 4.530922431865828,
      "grad_norm": 0.0850723460316658,
      "learning_rate": 0.0009520264186820258,
      "loss": 0.3591,
      "num_input_tokens_seen": 5660576,
      "step": 8645
    },
    {
      "epoch": 4.533542976939203,
      "grad_norm": 0.056029800325632095,
      "learning_rate": 0.0009519286264013227,
      "loss": 0.4282,
      "num_input_tokens_seen": 5663456,
      "step": 8650
    },
    {
      "epoch": 4.536163522012579,
      "grad_norm": 0.05866794288158417,
      "learning_rate": 0.0009518307395823069,
      "loss": 0.2723,
      "num_input_tokens_seen": 5666752,
      "step": 8655
    },
    {
      "epoch": 4.538784067085954,
      "grad_norm": 0.06997649371623993,
      "learning_rate": 0.0009517327582454551,
      "loss": 0.4332,
      "num_input_tokens_seen": 5670272,
      "step": 8660
    },
    {
      "epoch": 4.5414046121593294,
      "grad_norm": 0.06342130899429321,
      "learning_rate": 0.000951634682411264,
      "loss": 0.6891,
      "num_input_tokens_seen": 5673120,
      "step": 8665
    },
    {
      "epoch": 4.544025157232705,
      "grad_norm": 0.09548739343881607,
      "learning_rate": 0.0009515365121002498,
      "loss": 0.3727,
      "num_input_tokens_seen": 5676032,
      "step": 8670
    },
    {
      "epoch": 4.54664570230608,
      "grad_norm": 0.09927414357662201,
      "learning_rate": 0.0009514382473329487,
      "loss": 0.3961,
      "num_input_tokens_seen": 5678784,
      "step": 8675
    },
    {
      "epoch": 4.549266247379455,
      "grad_norm": 0.07608123868703842,
      "learning_rate": 0.0009513398881299164,
      "loss": 0.4883,
      "num_input_tokens_seen": 5682976,
      "step": 8680
    },
    {
      "epoch": 4.55188679245283,
      "grad_norm": 0.046417783945798874,
      "learning_rate": 0.0009512414345117289,
      "loss": 0.4776,
      "num_input_tokens_seen": 5686752,
      "step": 8685
    },
    {
      "epoch": 4.554507337526205,
      "grad_norm": 0.046187229454517365,
      "learning_rate": 0.0009511428864989813,
      "loss": 0.3903,
      "num_input_tokens_seen": 5690432,
      "step": 8690
    },
    {
      "epoch": 4.5571278825995805,
      "grad_norm": 0.07850299775600433,
      "learning_rate": 0.0009510442441122886,
      "loss": 0.5042,
      "num_input_tokens_seen": 5694112,
      "step": 8695
    },
    {
      "epoch": 4.559748427672956,
      "grad_norm": 0.07842200994491577,
      "learning_rate": 0.0009509455073722859,
      "loss": 0.5314,
      "num_input_tokens_seen": 5696800,
      "step": 8700
    },
    {
      "epoch": 4.562368972746331,
      "grad_norm": 0.15309403836727142,
      "learning_rate": 0.0009508466762996277,
      "loss": 0.3963,
      "num_input_tokens_seen": 5699328,
      "step": 8705
    },
    {
      "epoch": 4.564989517819707,
      "grad_norm": 0.0800139531493187,
      "learning_rate": 0.0009507477509149883,
      "loss": 0.4362,
      "num_input_tokens_seen": 5702400,
      "step": 8710
    },
    {
      "epoch": 4.567610062893082,
      "grad_norm": 0.0884770080447197,
      "learning_rate": 0.0009506487312390619,
      "loss": 0.474,
      "num_input_tokens_seen": 5706496,
      "step": 8715
    },
    {
      "epoch": 4.570230607966457,
      "grad_norm": 0.11690004169940948,
      "learning_rate": 0.0009505496172925622,
      "loss": 0.5456,
      "num_input_tokens_seen": 5711680,
      "step": 8720
    },
    {
      "epoch": 4.572851153039832,
      "grad_norm": 0.12280114740133286,
      "learning_rate": 0.0009504504090962226,
      "loss": 0.5863,
      "num_input_tokens_seen": 5714560,
      "step": 8725
    },
    {
      "epoch": 4.5754716981132075,
      "grad_norm": 0.0869058221578598,
      "learning_rate": 0.0009503511066707966,
      "loss": 0.3837,
      "num_input_tokens_seen": 5717632,
      "step": 8730
    },
    {
      "epoch": 4.578092243186583,
      "grad_norm": 0.04704656824469566,
      "learning_rate": 0.0009502517100370568,
      "loss": 0.396,
      "num_input_tokens_seen": 5720928,
      "step": 8735
    },
    {
      "epoch": 4.580712788259958,
      "grad_norm": 0.06372047960758209,
      "learning_rate": 0.0009501522192157961,
      "loss": 0.4556,
      "num_input_tokens_seen": 5723840,
      "step": 8740
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.056009337306022644,
      "learning_rate": 0.0009500526342278266,
      "loss": 0.3623,
      "num_input_tokens_seen": 5729408,
      "step": 8745
    },
    {
      "epoch": 4.585953878406709,
      "grad_norm": 0.05373707786202431,
      "learning_rate": 0.0009499529550939807,
      "loss": 0.4681,
      "num_input_tokens_seen": 5731840,
      "step": 8750
    },
    {
      "epoch": 4.588574423480084,
      "grad_norm": 0.08964604884386063,
      "learning_rate": 0.0009498531818351098,
      "loss": 0.35,
      "num_input_tokens_seen": 5739008,
      "step": 8755
    },
    {
      "epoch": 4.591194968553459,
      "grad_norm": 0.09543798863887787,
      "learning_rate": 0.0009497533144720854,
      "loss": 0.3975,
      "num_input_tokens_seen": 5742784,
      "step": 8760
    },
    {
      "epoch": 4.593815513626835,
      "grad_norm": 0.06956002116203308,
      "learning_rate": 0.0009496533530257988,
      "loss": 0.4621,
      "num_input_tokens_seen": 5745184,
      "step": 8765
    },
    {
      "epoch": 4.59643605870021,
      "grad_norm": 0.06975162774324417,
      "learning_rate": 0.0009495532975171605,
      "loss": 0.3694,
      "num_input_tokens_seen": 5748256,
      "step": 8770
    },
    {
      "epoch": 4.599056603773585,
      "grad_norm": 0.08475513756275177,
      "learning_rate": 0.0009494531479671014,
      "loss": 0.5192,
      "num_input_tokens_seen": 5752032,
      "step": 8775
    },
    {
      "epoch": 4.60167714884696,
      "grad_norm": 0.12908300757408142,
      "learning_rate": 0.0009493529043965712,
      "loss": 0.4599,
      "num_input_tokens_seen": 5754592,
      "step": 8780
    },
    {
      "epoch": 4.604297693920335,
      "grad_norm": 0.08105060458183289,
      "learning_rate": 0.00094925256682654,
      "loss": 0.5463,
      "num_input_tokens_seen": 5757184,
      "step": 8785
    },
    {
      "epoch": 4.6069182389937104,
      "grad_norm": 0.08698903024196625,
      "learning_rate": 0.000949152135277997,
      "loss": 0.426,
      "num_input_tokens_seen": 5761024,
      "step": 8790
    },
    {
      "epoch": 4.609538784067086,
      "grad_norm": 0.12151499837636948,
      "learning_rate": 0.0009490516097719515,
      "loss": 0.4912,
      "num_input_tokens_seen": 5763776,
      "step": 8795
    },
    {
      "epoch": 4.612159329140461,
      "grad_norm": 0.10267521440982819,
      "learning_rate": 0.0009489509903294324,
      "loss": 0.4011,
      "num_input_tokens_seen": 5766336,
      "step": 8800
    },
    {
      "epoch": 4.614779874213837,
      "grad_norm": 0.07346533238887787,
      "learning_rate": 0.000948850276971488,
      "loss": 0.4678,
      "num_input_tokens_seen": 5769184,
      "step": 8805
    },
    {
      "epoch": 4.617400419287212,
      "grad_norm": 0.06011602282524109,
      "learning_rate": 0.0009487494697191864,
      "loss": 0.4601,
      "num_input_tokens_seen": 5772416,
      "step": 8810
    },
    {
      "epoch": 4.620020964360587,
      "grad_norm": 0.0807894915342331,
      "learning_rate": 0.0009486485685936154,
      "loss": 0.4698,
      "num_input_tokens_seen": 5776192,
      "step": 8815
    },
    {
      "epoch": 4.622641509433962,
      "grad_norm": 0.0594986192882061,
      "learning_rate": 0.0009485475736158822,
      "loss": 0.4535,
      "num_input_tokens_seen": 5780160,
      "step": 8820
    },
    {
      "epoch": 4.6252620545073375,
      "grad_norm": 0.08653516322374344,
      "learning_rate": 0.000948446484807114,
      "loss": 0.4511,
      "num_input_tokens_seen": 5783040,
      "step": 8825
    },
    {
      "epoch": 4.627882599580713,
      "grad_norm": 0.23480552434921265,
      "learning_rate": 0.0009483453021884572,
      "loss": 0.4558,
      "num_input_tokens_seen": 5785952,
      "step": 8830
    },
    {
      "epoch": 4.630503144654088,
      "grad_norm": 0.0653844028711319,
      "learning_rate": 0.0009482440257810782,
      "loss": 0.4499,
      "num_input_tokens_seen": 5789536,
      "step": 8835
    },
    {
      "epoch": 4.633123689727463,
      "grad_norm": 0.1363530457019806,
      "learning_rate": 0.000948142655606163,
      "loss": 0.4476,
      "num_input_tokens_seen": 5792672,
      "step": 8840
    },
    {
      "epoch": 4.635744234800838,
      "grad_norm": 0.03137991949915886,
      "learning_rate": 0.0009480411916849168,
      "loss": 0.4554,
      "num_input_tokens_seen": 5797152,
      "step": 8845
    },
    {
      "epoch": 4.638364779874214,
      "grad_norm": 0.055222608149051666,
      "learning_rate": 0.0009479396340385649,
      "loss": 0.428,
      "num_input_tokens_seen": 5800032,
      "step": 8850
    },
    {
      "epoch": 4.640985324947589,
      "grad_norm": 0.0802898034453392,
      "learning_rate": 0.0009478379826883519,
      "loss": 0.5319,
      "num_input_tokens_seen": 5802848,
      "step": 8855
    },
    {
      "epoch": 4.643605870020965,
      "grad_norm": 0.13184751570224762,
      "learning_rate": 0.0009477362376555421,
      "loss": 0.6342,
      "num_input_tokens_seen": 5805472,
      "step": 8860
    },
    {
      "epoch": 4.64622641509434,
      "grad_norm": 0.0593063049018383,
      "learning_rate": 0.0009476343989614194,
      "loss": 0.4037,
      "num_input_tokens_seen": 5808512,
      "step": 8865
    },
    {
      "epoch": 4.648846960167715,
      "grad_norm": 0.07748178392648697,
      "learning_rate": 0.0009475324666272873,
      "loss": 0.3821,
      "num_input_tokens_seen": 5811488,
      "step": 8870
    },
    {
      "epoch": 4.65146750524109,
      "grad_norm": 0.15546895563602448,
      "learning_rate": 0.0009474304406744689,
      "loss": 0.5914,
      "num_input_tokens_seen": 5814208,
      "step": 8875
    },
    {
      "epoch": 4.654088050314465,
      "grad_norm": 0.09428589046001434,
      "learning_rate": 0.0009473283211243069,
      "loss": 0.4727,
      "num_input_tokens_seen": 5816992,
      "step": 8880
    },
    {
      "epoch": 4.65670859538784,
      "grad_norm": 0.07524100691080093,
      "learning_rate": 0.0009472261079981637,
      "loss": 0.5038,
      "num_input_tokens_seen": 5819840,
      "step": 8885
    },
    {
      "epoch": 4.659329140461216,
      "grad_norm": 0.08006191998720169,
      "learning_rate": 0.0009471238013174206,
      "loss": 0.4864,
      "num_input_tokens_seen": 5822880,
      "step": 8890
    },
    {
      "epoch": 4.661949685534591,
      "grad_norm": 0.10257237404584885,
      "learning_rate": 0.0009470214011034795,
      "loss": 0.4768,
      "num_input_tokens_seen": 5826080,
      "step": 8895
    },
    {
      "epoch": 4.664570230607967,
      "grad_norm": 0.09955257922410965,
      "learning_rate": 0.0009469189073777612,
      "loss": 0.8857,
      "num_input_tokens_seen": 5829280,
      "step": 8900
    },
    {
      "epoch": 4.667190775681342,
      "grad_norm": 0.07238538563251495,
      "learning_rate": 0.0009468163201617061,
      "loss": 0.6106,
      "num_input_tokens_seen": 5832320,
      "step": 8905
    },
    {
      "epoch": 4.669811320754717,
      "grad_norm": 0.06988021731376648,
      "learning_rate": 0.0009467136394767744,
      "loss": 0.4107,
      "num_input_tokens_seen": 5835488,
      "step": 8910
    },
    {
      "epoch": 4.672431865828092,
      "grad_norm": 0.057642869651317596,
      "learning_rate": 0.0009466108653444458,
      "loss": 0.3687,
      "num_input_tokens_seen": 5838208,
      "step": 8915
    },
    {
      "epoch": 4.6750524109014675,
      "grad_norm": 0.05494258925318718,
      "learning_rate": 0.0009465079977862193,
      "loss": 0.4309,
      "num_input_tokens_seen": 5841792,
      "step": 8920
    },
    {
      "epoch": 4.677672955974843,
      "grad_norm": 0.09096633642911911,
      "learning_rate": 0.0009464050368236137,
      "loss": 0.5074,
      "num_input_tokens_seen": 5845344,
      "step": 8925
    },
    {
      "epoch": 4.680293501048218,
      "grad_norm": 0.08471353352069855,
      "learning_rate": 0.0009463019824781674,
      "loss": 0.6208,
      "num_input_tokens_seen": 5847712,
      "step": 8930
    },
    {
      "epoch": 4.682914046121593,
      "grad_norm": 0.0629163309931755,
      "learning_rate": 0.0009461988347714377,
      "loss": 0.5014,
      "num_input_tokens_seen": 5850720,
      "step": 8935
    },
    {
      "epoch": 4.685534591194968,
      "grad_norm": 0.09096112847328186,
      "learning_rate": 0.0009460955937250025,
      "loss": 0.6124,
      "num_input_tokens_seen": 5853760,
      "step": 8940
    },
    {
      "epoch": 4.688155136268344,
      "grad_norm": 0.07351294904947281,
      "learning_rate": 0.0009459922593604584,
      "loss": 0.5992,
      "num_input_tokens_seen": 5857856,
      "step": 8945
    },
    {
      "epoch": 4.690775681341719,
      "grad_norm": 0.12826141715049744,
      "learning_rate": 0.0009458888316994219,
      "loss": 0.6263,
      "num_input_tokens_seen": 5860800,
      "step": 8950
    },
    {
      "epoch": 4.693396226415095,
      "grad_norm": 0.05789679288864136,
      "learning_rate": 0.0009457853107635286,
      "loss": 0.4229,
      "num_input_tokens_seen": 5865184,
      "step": 8955
    },
    {
      "epoch": 4.69601677148847,
      "grad_norm": 0.12410415709018707,
      "learning_rate": 0.0009456816965744342,
      "loss": 0.461,
      "num_input_tokens_seen": 5868704,
      "step": 8960
    },
    {
      "epoch": 4.698637316561845,
      "grad_norm": 0.04199216514825821,
      "learning_rate": 0.0009455779891538134,
      "loss": 0.5201,
      "num_input_tokens_seen": 5872896,
      "step": 8965
    },
    {
      "epoch": 4.70125786163522,
      "grad_norm": 0.11935748904943466,
      "learning_rate": 0.0009454741885233606,
      "loss": 0.5381,
      "num_input_tokens_seen": 5875776,
      "step": 8970
    },
    {
      "epoch": 4.703878406708595,
      "grad_norm": 0.06519373506307602,
      "learning_rate": 0.0009453702947047899,
      "loss": 0.4603,
      "num_input_tokens_seen": 5878656,
      "step": 8975
    },
    {
      "epoch": 4.70649895178197,
      "grad_norm": 0.05841456726193428,
      "learning_rate": 0.0009452663077198347,
      "loss": 0.5727,
      "num_input_tokens_seen": 5882400,
      "step": 8980
    },
    {
      "epoch": 4.709119496855346,
      "grad_norm": 0.07829061150550842,
      "learning_rate": 0.0009451622275902477,
      "loss": 0.5407,
      "num_input_tokens_seen": 5885664,
      "step": 8985
    },
    {
      "epoch": 4.711740041928721,
      "grad_norm": 0.11830104887485504,
      "learning_rate": 0.0009450580543378013,
      "loss": 0.4172,
      "num_input_tokens_seen": 5888576,
      "step": 8990
    },
    {
      "epoch": 4.714360587002097,
      "grad_norm": 0.0926518514752388,
      "learning_rate": 0.0009449537879842875,
      "loss": 0.4469,
      "num_input_tokens_seen": 5891552,
      "step": 8995
    },
    {
      "epoch": 4.716981132075472,
      "grad_norm": 0.07397115230560303,
      "learning_rate": 0.0009448494285515177,
      "loss": 0.5746,
      "num_input_tokens_seen": 5894560,
      "step": 9000
    },
    {
      "epoch": 4.719601677148847,
      "grad_norm": 0.07520755380392075,
      "learning_rate": 0.0009447449760613222,
      "loss": 0.468,
      "num_input_tokens_seen": 5897088,
      "step": 9005
    },
    {
      "epoch": 4.722222222222222,
      "grad_norm": 0.0728331133723259,
      "learning_rate": 0.0009446404305355519,
      "loss": 0.4528,
      "num_input_tokens_seen": 5901664,
      "step": 9010
    },
    {
      "epoch": 4.7248427672955975,
      "grad_norm": 0.06913495063781738,
      "learning_rate": 0.0009445357919960762,
      "loss": 0.485,
      "num_input_tokens_seen": 5905472,
      "step": 9015
    },
    {
      "epoch": 4.727463312368973,
      "grad_norm": 0.07813383638858795,
      "learning_rate": 0.0009444310604647844,
      "loss": 0.3625,
      "num_input_tokens_seen": 5908416,
      "step": 9020
    },
    {
      "epoch": 4.730083857442348,
      "grad_norm": 0.05095122009515762,
      "learning_rate": 0.000944326235963585,
      "loss": 0.4249,
      "num_input_tokens_seen": 5911552,
      "step": 9025
    },
    {
      "epoch": 4.732704402515723,
      "grad_norm": 0.10431152582168579,
      "learning_rate": 0.0009442213185144062,
      "loss": 0.503,
      "num_input_tokens_seen": 5914752,
      "step": 9030
    },
    {
      "epoch": 4.735324947589098,
      "grad_norm": 0.07168017327785492,
      "learning_rate": 0.0009441163081391954,
      "loss": 0.4551,
      "num_input_tokens_seen": 5917312,
      "step": 9035
    },
    {
      "epoch": 4.737945492662474,
      "grad_norm": 0.05015971139073372,
      "learning_rate": 0.00094401120485992,
      "loss": 0.5026,
      "num_input_tokens_seen": 5921088,
      "step": 9040
    },
    {
      "epoch": 4.740566037735849,
      "grad_norm": 0.08599201589822769,
      "learning_rate": 0.0009439060086985658,
      "loss": 0.5214,
      "num_input_tokens_seen": 5924032,
      "step": 9045
    },
    {
      "epoch": 4.743186582809225,
      "grad_norm": 0.0657627210021019,
      "learning_rate": 0.000943800719677139,
      "loss": 0.4488,
      "num_input_tokens_seen": 5928192,
      "step": 9050
    },
    {
      "epoch": 4.7458071278826,
      "grad_norm": 0.10498690605163574,
      "learning_rate": 0.0009436953378176649,
      "loss": 0.4798,
      "num_input_tokens_seen": 5931200,
      "step": 9055
    },
    {
      "epoch": 4.748427672955975,
      "grad_norm": 0.07189715653657913,
      "learning_rate": 0.0009435898631421879,
      "loss": 0.4979,
      "num_input_tokens_seen": 5934944,
      "step": 9060
    },
    {
      "epoch": 4.75104821802935,
      "grad_norm": 0.06423681229352951,
      "learning_rate": 0.0009434842956727724,
      "loss": 0.4107,
      "num_input_tokens_seen": 5938688,
      "step": 9065
    },
    {
      "epoch": 4.753668763102725,
      "grad_norm": 0.0833233892917633,
      "learning_rate": 0.0009433786354315017,
      "loss": 0.4232,
      "num_input_tokens_seen": 5941248,
      "step": 9070
    },
    {
      "epoch": 4.7562893081761,
      "grad_norm": 0.09063573181629181,
      "learning_rate": 0.0009432728824404789,
      "loss": 0.538,
      "num_input_tokens_seen": 5944064,
      "step": 9075
    },
    {
      "epoch": 4.758909853249476,
      "grad_norm": 0.0762372687458992,
      "learning_rate": 0.0009431670367218262,
      "loss": 0.431,
      "num_input_tokens_seen": 5947232,
      "step": 9080
    },
    {
      "epoch": 4.761530398322851,
      "grad_norm": 0.07624069601297379,
      "learning_rate": 0.0009430610982976852,
      "loss": 0.592,
      "num_input_tokens_seen": 5950784,
      "step": 9085
    },
    {
      "epoch": 4.764150943396227,
      "grad_norm": 0.09880772233009338,
      "learning_rate": 0.0009429550671902171,
      "loss": 0.5731,
      "num_input_tokens_seen": 5954016,
      "step": 9090
    },
    {
      "epoch": 4.766771488469602,
      "grad_norm": 0.0793762356042862,
      "learning_rate": 0.0009428489434216028,
      "loss": 0.3938,
      "num_input_tokens_seen": 5957056,
      "step": 9095
    },
    {
      "epoch": 4.769392033542977,
      "grad_norm": 0.07546183466911316,
      "learning_rate": 0.0009427427270140415,
      "loss": 0.5055,
      "num_input_tokens_seen": 5960352,
      "step": 9100
    },
    {
      "epoch": 4.772012578616352,
      "grad_norm": 0.03152661398053169,
      "learning_rate": 0.0009426364179897529,
      "loss": 0.3712,
      "num_input_tokens_seen": 5963808,
      "step": 9105
    },
    {
      "epoch": 4.7746331236897275,
      "grad_norm": 0.06149483472108841,
      "learning_rate": 0.0009425300163709756,
      "loss": 0.4971,
      "num_input_tokens_seen": 5967648,
      "step": 9110
    },
    {
      "epoch": 4.777253668763103,
      "grad_norm": 0.28165140748023987,
      "learning_rate": 0.0009424235221799673,
      "loss": 0.4932,
      "num_input_tokens_seen": 5969696,
      "step": 9115
    },
    {
      "epoch": 4.779874213836478,
      "grad_norm": 0.07764595746994019,
      "learning_rate": 0.0009423169354390058,
      "loss": 0.5374,
      "num_input_tokens_seen": 5972864,
      "step": 9120
    },
    {
      "epoch": 4.782494758909853,
      "grad_norm": 0.07823393493890762,
      "learning_rate": 0.0009422102561703875,
      "loss": 0.4696,
      "num_input_tokens_seen": 5975488,
      "step": 9125
    },
    {
      "epoch": 4.785115303983228,
      "grad_norm": 0.09989962726831436,
      "learning_rate": 0.0009421034843964287,
      "loss": 0.6649,
      "num_input_tokens_seen": 5978368,
      "step": 9130
    },
    {
      "epoch": 4.787735849056604,
      "grad_norm": 0.06032392010092735,
      "learning_rate": 0.0009419966201394646,
      "loss": 0.4041,
      "num_input_tokens_seen": 5981792,
      "step": 9135
    },
    {
      "epoch": 4.790356394129979,
      "grad_norm": 0.3009721636772156,
      "learning_rate": 0.0009418896634218503,
      "loss": 0.5091,
      "num_input_tokens_seen": 5984384,
      "step": 9140
    },
    {
      "epoch": 4.7929769392033545,
      "grad_norm": 0.10739646852016449,
      "learning_rate": 0.0009417826142659596,
      "loss": 0.6098,
      "num_input_tokens_seen": 5986624,
      "step": 9145
    },
    {
      "epoch": 4.79559748427673,
      "grad_norm": 0.06447937339544296,
      "learning_rate": 0.0009416754726941863,
      "loss": 0.4465,
      "num_input_tokens_seen": 5989856,
      "step": 9150
    },
    {
      "epoch": 4.798218029350105,
      "grad_norm": 0.11628711223602295,
      "learning_rate": 0.0009415682387289428,
      "loss": 0.4598,
      "num_input_tokens_seen": 5992608,
      "step": 9155
    },
    {
      "epoch": 4.80083857442348,
      "grad_norm": 0.1353752166032791,
      "learning_rate": 0.0009414609123926616,
      "loss": 0.6912,
      "num_input_tokens_seen": 5994976,
      "step": 9160
    },
    {
      "epoch": 4.803459119496855,
      "grad_norm": 0.1135483980178833,
      "learning_rate": 0.000941353493707794,
      "loss": 0.3839,
      "num_input_tokens_seen": 5997792,
      "step": 9165
    },
    {
      "epoch": 4.80607966457023,
      "grad_norm": 0.04974541813135147,
      "learning_rate": 0.0009412459826968107,
      "loss": 0.4392,
      "num_input_tokens_seen": 6001472,
      "step": 9170
    },
    {
      "epoch": 4.808700209643606,
      "grad_norm": 0.12455592304468155,
      "learning_rate": 0.0009411383793822017,
      "loss": 0.5272,
      "num_input_tokens_seen": 6004448,
      "step": 9175
    },
    {
      "epoch": 4.811320754716981,
      "grad_norm": 0.13116344809532166,
      "learning_rate": 0.0009410306837864766,
      "loss": 0.4181,
      "num_input_tokens_seen": 6007776,
      "step": 9180
    },
    {
      "epoch": 4.813941299790356,
      "grad_norm": 0.0828227698802948,
      "learning_rate": 0.000940922895932164,
      "loss": 0.5527,
      "num_input_tokens_seen": 6011360,
      "step": 9185
    },
    {
      "epoch": 4.816561844863732,
      "grad_norm": 0.12052631378173828,
      "learning_rate": 0.0009408150158418119,
      "loss": 0.5604,
      "num_input_tokens_seen": 6014464,
      "step": 9190
    },
    {
      "epoch": 4.819182389937107,
      "grad_norm": 0.07653579115867615,
      "learning_rate": 0.0009407070435379876,
      "loss": 0.4909,
      "num_input_tokens_seen": 6017088,
      "step": 9195
    },
    {
      "epoch": 4.821802935010482,
      "grad_norm": 0.051480673253536224,
      "learning_rate": 0.0009405989790432776,
      "loss": 0.5321,
      "num_input_tokens_seen": 6020256,
      "step": 9200
    },
    {
      "epoch": 4.8244234800838575,
      "grad_norm": 0.07102520018815994,
      "learning_rate": 0.0009404908223802877,
      "loss": 0.4113,
      "num_input_tokens_seen": 6022592,
      "step": 9205
    },
    {
      "epoch": 4.827044025157233,
      "grad_norm": 0.0944618508219719,
      "learning_rate": 0.0009403825735716433,
      "loss": 0.4251,
      "num_input_tokens_seen": 6025344,
      "step": 9210
    },
    {
      "epoch": 4.829664570230608,
      "grad_norm": 0.12679386138916016,
      "learning_rate": 0.0009402742326399887,
      "loss": 0.4408,
      "num_input_tokens_seen": 6028128,
      "step": 9215
    },
    {
      "epoch": 4.832285115303983,
      "grad_norm": 0.08091757446527481,
      "learning_rate": 0.0009401657996079873,
      "loss": 0.425,
      "num_input_tokens_seen": 6032256,
      "step": 9220
    },
    {
      "epoch": 4.834905660377358,
      "grad_norm": 0.08803225308656693,
      "learning_rate": 0.0009400572744983224,
      "loss": 0.5067,
      "num_input_tokens_seen": 6035200,
      "step": 9225
    },
    {
      "epoch": 4.837526205450734,
      "grad_norm": 0.06713518500328064,
      "learning_rate": 0.0009399486573336963,
      "loss": 0.5442,
      "num_input_tokens_seen": 6037536,
      "step": 9230
    },
    {
      "epoch": 4.840146750524109,
      "grad_norm": 0.059523459523916245,
      "learning_rate": 0.00093983994813683,
      "loss": 0.4411,
      "num_input_tokens_seen": 6040736,
      "step": 9235
    },
    {
      "epoch": 4.8427672955974845,
      "grad_norm": 0.09126146137714386,
      "learning_rate": 0.0009397311469304648,
      "loss": 0.4237,
      "num_input_tokens_seen": 6043904,
      "step": 9240
    },
    {
      "epoch": 4.84538784067086,
      "grad_norm": 0.08453914523124695,
      "learning_rate": 0.0009396222537373602,
      "loss": 0.482,
      "num_input_tokens_seen": 6046336,
      "step": 9245
    },
    {
      "epoch": 4.848008385744235,
      "grad_norm": 0.04187308996915817,
      "learning_rate": 0.0009395132685802956,
      "loss": 0.5095,
      "num_input_tokens_seen": 6049824,
      "step": 9250
    },
    {
      "epoch": 4.85062893081761,
      "grad_norm": 0.07664808630943298,
      "learning_rate": 0.0009394041914820695,
      "loss": 0.3731,
      "num_input_tokens_seen": 6053600,
      "step": 9255
    },
    {
      "epoch": 4.853249475890985,
      "grad_norm": 0.07627420872449875,
      "learning_rate": 0.0009392950224654994,
      "loss": 0.4221,
      "num_input_tokens_seen": 6056192,
      "step": 9260
    },
    {
      "epoch": 4.85587002096436,
      "grad_norm": 0.06658325344324112,
      "learning_rate": 0.0009391857615534225,
      "loss": 0.5088,
      "num_input_tokens_seen": 6060352,
      "step": 9265
    },
    {
      "epoch": 4.8584905660377355,
      "grad_norm": 0.11707723885774612,
      "learning_rate": 0.0009390764087686948,
      "loss": 0.3701,
      "num_input_tokens_seen": 6063488,
      "step": 9270
    },
    {
      "epoch": 4.861111111111111,
      "grad_norm": 0.06871239095926285,
      "learning_rate": 0.0009389669641341916,
      "loss": 0.47,
      "num_input_tokens_seen": 6066112,
      "step": 9275
    },
    {
      "epoch": 4.863731656184486,
      "grad_norm": 0.09059375524520874,
      "learning_rate": 0.0009388574276728075,
      "loss": 0.4224,
      "num_input_tokens_seen": 6068928,
      "step": 9280
    },
    {
      "epoch": 4.866352201257862,
      "grad_norm": 0.06592908501625061,
      "learning_rate": 0.0009387477994074562,
      "loss": 0.4101,
      "num_input_tokens_seen": 6072256,
      "step": 9285
    },
    {
      "epoch": 4.868972746331237,
      "grad_norm": 0.06335263699293137,
      "learning_rate": 0.0009386380793610707,
      "loss": 0.431,
      "num_input_tokens_seen": 6076640,
      "step": 9290
    },
    {
      "epoch": 4.871593291404612,
      "grad_norm": 0.09636694937944412,
      "learning_rate": 0.0009385282675566034,
      "loss": 0.4401,
      "num_input_tokens_seen": 6081504,
      "step": 9295
    },
    {
      "epoch": 4.8742138364779874,
      "grad_norm": 0.08562522381544113,
      "learning_rate": 0.0009384183640170255,
      "loss": 0.4416,
      "num_input_tokens_seen": 6084224,
      "step": 9300
    },
    {
      "epoch": 4.876834381551363,
      "grad_norm": 0.11527242511510849,
      "learning_rate": 0.0009383083687653275,
      "loss": 0.4154,
      "num_input_tokens_seen": 6087040,
      "step": 9305
    },
    {
      "epoch": 4.879454926624738,
      "grad_norm": 0.0720294788479805,
      "learning_rate": 0.0009381982818245193,
      "loss": 0.4842,
      "num_input_tokens_seen": 6089664,
      "step": 9310
    },
    {
      "epoch": 4.882075471698113,
      "grad_norm": 0.08473621308803558,
      "learning_rate": 0.0009380881032176299,
      "loss": 0.5376,
      "num_input_tokens_seen": 6092352,
      "step": 9315
    },
    {
      "epoch": 4.884696016771488,
      "grad_norm": 0.09440726041793823,
      "learning_rate": 0.0009379778329677071,
      "loss": 0.5749,
      "num_input_tokens_seen": 6096000,
      "step": 9320
    },
    {
      "epoch": 4.887316561844864,
      "grad_norm": 0.12148938328027725,
      "learning_rate": 0.0009378674710978184,
      "loss": 0.3888,
      "num_input_tokens_seen": 6101920,
      "step": 9325
    },
    {
      "epoch": 4.889937106918239,
      "grad_norm": 0.08797760307788849,
      "learning_rate": 0.0009377570176310503,
      "loss": 0.3253,
      "num_input_tokens_seen": 6104128,
      "step": 9330
    },
    {
      "epoch": 4.8925576519916145,
      "grad_norm": 0.13058499991893768,
      "learning_rate": 0.0009376464725905082,
      "loss": 0.659,
      "num_input_tokens_seen": 6108096,
      "step": 9335
    },
    {
      "epoch": 4.89517819706499,
      "grad_norm": 0.044252123683691025,
      "learning_rate": 0.000937535835999317,
      "loss": 0.4558,
      "num_input_tokens_seen": 6112704,
      "step": 9340
    },
    {
      "epoch": 4.897798742138365,
      "grad_norm": 0.08540652692317963,
      "learning_rate": 0.0009374251078806206,
      "loss": 0.4429,
      "num_input_tokens_seen": 6118816,
      "step": 9345
    },
    {
      "epoch": 4.90041928721174,
      "grad_norm": 0.08007670193910599,
      "learning_rate": 0.000937314288257582,
      "loss": 0.4711,
      "num_input_tokens_seen": 6122304,
      "step": 9350
    },
    {
      "epoch": 4.903039832285115,
      "grad_norm": 0.12190324813127518,
      "learning_rate": 0.0009372033771533835,
      "loss": 0.4045,
      "num_input_tokens_seen": 6125888,
      "step": 9355
    },
    {
      "epoch": 4.90566037735849,
      "grad_norm": 0.07656805962324142,
      "learning_rate": 0.0009370923745912264,
      "loss": 0.4491,
      "num_input_tokens_seen": 6129056,
      "step": 9360
    },
    {
      "epoch": 4.9082809224318655,
      "grad_norm": 0.07070504128932953,
      "learning_rate": 0.000936981280594331,
      "loss": 0.4865,
      "num_input_tokens_seen": 6132672,
      "step": 9365
    },
    {
      "epoch": 4.910901467505241,
      "grad_norm": 0.09382405132055283,
      "learning_rate": 0.0009368700951859371,
      "loss": 0.527,
      "num_input_tokens_seen": 6135168,
      "step": 9370
    },
    {
      "epoch": 4.913522012578616,
      "grad_norm": 0.07423699647188187,
      "learning_rate": 0.0009367588183893035,
      "loss": 0.6013,
      "num_input_tokens_seen": 6139296,
      "step": 9375
    },
    {
      "epoch": 4.916142557651992,
      "grad_norm": 0.061614181846380234,
      "learning_rate": 0.0009366474502277076,
      "loss": 0.5699,
      "num_input_tokens_seen": 6141824,
      "step": 9380
    },
    {
      "epoch": 4.918763102725367,
      "grad_norm": 0.0734340250492096,
      "learning_rate": 0.0009365359907244469,
      "loss": 0.4577,
      "num_input_tokens_seen": 6145248,
      "step": 9385
    },
    {
      "epoch": 4.921383647798742,
      "grad_norm": 0.09375607222318649,
      "learning_rate": 0.0009364244399028372,
      "loss": 0.4436,
      "num_input_tokens_seen": 6148000,
      "step": 9390
    },
    {
      "epoch": 4.924004192872117,
      "grad_norm": 0.06106198579072952,
      "learning_rate": 0.0009363127977862136,
      "loss": 0.3931,
      "num_input_tokens_seen": 6151392,
      "step": 9395
    },
    {
      "epoch": 4.926624737945493,
      "grad_norm": 0.09551655501127243,
      "learning_rate": 0.0009362010643979304,
      "loss": 0.524,
      "num_input_tokens_seen": 6155360,
      "step": 9400
    },
    {
      "epoch": 4.929245283018868,
      "grad_norm": 0.10383836179971695,
      "learning_rate": 0.000936089239761361,
      "loss": 0.4238,
      "num_input_tokens_seen": 6159168,
      "step": 9405
    },
    {
      "epoch": 4.931865828092243,
      "grad_norm": 0.09092683345079422,
      "learning_rate": 0.0009359773238998978,
      "loss": 0.5944,
      "num_input_tokens_seen": 6162752,
      "step": 9410
    },
    {
      "epoch": 4.934486373165618,
      "grad_norm": 0.11438024789094925,
      "learning_rate": 0.0009358653168369524,
      "loss": 0.4806,
      "num_input_tokens_seen": 6165536,
      "step": 9415
    },
    {
      "epoch": 4.937106918238994,
      "grad_norm": 0.06199885532259941,
      "learning_rate": 0.0009357532185959554,
      "loss": 0.4994,
      "num_input_tokens_seen": 6168768,
      "step": 9420
    },
    {
      "epoch": 4.939727463312369,
      "grad_norm": 0.04876631125807762,
      "learning_rate": 0.0009356410292003562,
      "loss": 0.4021,
      "num_input_tokens_seen": 6171584,
      "step": 9425
    },
    {
      "epoch": 4.9423480083857445,
      "grad_norm": 0.12005473673343658,
      "learning_rate": 0.0009355287486736239,
      "loss": 0.4836,
      "num_input_tokens_seen": 6174944,
      "step": 9430
    },
    {
      "epoch": 4.94496855345912,
      "grad_norm": 0.0823294147849083,
      "learning_rate": 0.0009354163770392461,
      "loss": 0.3938,
      "num_input_tokens_seen": 6177536,
      "step": 9435
    },
    {
      "epoch": 4.947589098532495,
      "grad_norm": 0.07313192635774612,
      "learning_rate": 0.0009353039143207295,
      "loss": 0.579,
      "num_input_tokens_seen": 6181280,
      "step": 9440
    },
    {
      "epoch": 4.95020964360587,
      "grad_norm": 0.06893400102853775,
      "learning_rate": 0.0009351913605416007,
      "loss": 0.5406,
      "num_input_tokens_seen": 6184576,
      "step": 9445
    },
    {
      "epoch": 4.952830188679245,
      "grad_norm": 0.06283878535032272,
      "learning_rate": 0.000935078715725404,
      "loss": 0.3994,
      "num_input_tokens_seen": 6188288,
      "step": 9450
    },
    {
      "epoch": 4.95545073375262,
      "grad_norm": 0.06514982879161835,
      "learning_rate": 0.0009349659798957034,
      "loss": 0.4177,
      "num_input_tokens_seen": 6191680,
      "step": 9455
    },
    {
      "epoch": 4.9580712788259955,
      "grad_norm": 0.0955248475074768,
      "learning_rate": 0.0009348531530760823,
      "loss": 0.4798,
      "num_input_tokens_seen": 6194624,
      "step": 9460
    },
    {
      "epoch": 4.960691823899371,
      "grad_norm": 0.06955672055482864,
      "learning_rate": 0.0009347402352901426,
      "loss": 0.4589,
      "num_input_tokens_seen": 6198528,
      "step": 9465
    },
    {
      "epoch": 4.963312368972746,
      "grad_norm": 0.06674160063266754,
      "learning_rate": 0.0009346272265615057,
      "loss": 0.4041,
      "num_input_tokens_seen": 6202720,
      "step": 9470
    },
    {
      "epoch": 4.965932914046122,
      "grad_norm": 0.06125057116150856,
      "learning_rate": 0.0009345141269138112,
      "loss": 0.4999,
      "num_input_tokens_seen": 6205280,
      "step": 9475
    },
    {
      "epoch": 4.968553459119497,
      "grad_norm": 0.08589265495538712,
      "learning_rate": 0.0009344009363707186,
      "loss": 0.4829,
      "num_input_tokens_seen": 6208032,
      "step": 9480
    },
    {
      "epoch": 4.971174004192872,
      "grad_norm": 0.05367955192923546,
      "learning_rate": 0.000934287654955906,
      "loss": 0.4405,
      "num_input_tokens_seen": 6211552,
      "step": 9485
    },
    {
      "epoch": 4.973794549266247,
      "grad_norm": 0.05473305657505989,
      "learning_rate": 0.0009341742826930708,
      "loss": 0.4397,
      "num_input_tokens_seen": 6214560,
      "step": 9490
    },
    {
      "epoch": 4.976415094339623,
      "grad_norm": 0.07795390486717224,
      "learning_rate": 0.0009340608196059289,
      "loss": 0.5698,
      "num_input_tokens_seen": 6217344,
      "step": 9495
    },
    {
      "epoch": 4.979035639412998,
      "grad_norm": 0.06397412717342377,
      "learning_rate": 0.0009339472657182155,
      "loss": 0.4826,
      "num_input_tokens_seen": 6221152,
      "step": 9500
    },
    {
      "epoch": 4.981656184486373,
      "grad_norm": 0.12124823033809662,
      "learning_rate": 0.0009338336210536848,
      "loss": 0.5631,
      "num_input_tokens_seen": 6223680,
      "step": 9505
    },
    {
      "epoch": 4.984276729559748,
      "grad_norm": 0.05561792477965355,
      "learning_rate": 0.0009337198856361102,
      "loss": 0.5276,
      "num_input_tokens_seen": 6226688,
      "step": 9510
    },
    {
      "epoch": 4.986897274633124,
      "grad_norm": 0.09881913661956787,
      "learning_rate": 0.0009336060594892834,
      "loss": 0.6578,
      "num_input_tokens_seen": 6230016,
      "step": 9515
    },
    {
      "epoch": 4.989517819706499,
      "grad_norm": 0.0801129937171936,
      "learning_rate": 0.000933492142637016,
      "loss": 0.5383,
      "num_input_tokens_seen": 6233376,
      "step": 9520
    },
    {
      "epoch": 4.9921383647798745,
      "grad_norm": 0.0556536540389061,
      "learning_rate": 0.0009333781351031379,
      "loss": 0.3939,
      "num_input_tokens_seen": 6236832,
      "step": 9525
    },
    {
      "epoch": 4.99475890985325,
      "grad_norm": 0.0685850977897644,
      "learning_rate": 0.0009332640369114981,
      "loss": 0.5019,
      "num_input_tokens_seen": 6239840,
      "step": 9530
    },
    {
      "epoch": 4.997379454926625,
      "grad_norm": 0.09456389397382736,
      "learning_rate": 0.0009331498480859647,
      "loss": 0.5273,
      "num_input_tokens_seen": 6243008,
      "step": 9535
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.0872599259018898,
      "learning_rate": 0.0009330355686504247,
      "loss": 0.4584,
      "num_input_tokens_seen": 6245072,
      "step": 9540
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.47739171981811523,
      "eval_runtime": 13.6396,
      "eval_samples_per_second": 62.172,
      "eval_steps_per_second": 15.543,
      "num_input_tokens_seen": 6245072,
      "step": 9540
    },
    {
      "epoch": 5.002620545073375,
      "grad_norm": 0.07384322583675385,
      "learning_rate": 0.0009329211986287842,
      "loss": 0.5046,
      "num_input_tokens_seen": 6249424,
      "step": 9545
    },
    {
      "epoch": 5.00524109014675,
      "grad_norm": 0.07965493202209473,
      "learning_rate": 0.0009328067380449678,
      "loss": 0.4736,
      "num_input_tokens_seen": 6251952,
      "step": 9550
    },
    {
      "epoch": 5.0078616352201255,
      "grad_norm": 0.07176535576581955,
      "learning_rate": 0.0009326921869229197,
      "loss": 0.5097,
      "num_input_tokens_seen": 6254928,
      "step": 9555
    },
    {
      "epoch": 5.010482180293501,
      "grad_norm": 0.06735744327306747,
      "learning_rate": 0.0009325775452866023,
      "loss": 0.4713,
      "num_input_tokens_seen": 6258000,
      "step": 9560
    },
    {
      "epoch": 5.013102725366877,
      "grad_norm": 0.048120565712451935,
      "learning_rate": 0.0009324628131599977,
      "loss": 0.362,
      "num_input_tokens_seen": 6261200,
      "step": 9565
    },
    {
      "epoch": 5.015723270440252,
      "grad_norm": 0.0754157155752182,
      "learning_rate": 0.0009323479905671064,
      "loss": 0.442,
      "num_input_tokens_seen": 6264112,
      "step": 9570
    },
    {
      "epoch": 5.018343815513627,
      "grad_norm": 0.07879474014043808,
      "learning_rate": 0.0009322330775319479,
      "loss": 0.4009,
      "num_input_tokens_seen": 6268784,
      "step": 9575
    },
    {
      "epoch": 5.020964360587002,
      "grad_norm": 0.08628490567207336,
      "learning_rate": 0.0009321180740785607,
      "loss": 0.601,
      "num_input_tokens_seen": 6271984,
      "step": 9580
    },
    {
      "epoch": 5.023584905660377,
      "grad_norm": 0.057293735444545746,
      "learning_rate": 0.0009320029802310023,
      "loss": 0.4353,
      "num_input_tokens_seen": 6275568,
      "step": 9585
    },
    {
      "epoch": 5.026205450733753,
      "grad_norm": 0.058522600680589676,
      "learning_rate": 0.0009318877960133489,
      "loss": 0.4859,
      "num_input_tokens_seen": 6278448,
      "step": 9590
    },
    {
      "epoch": 5.028825995807128,
      "grad_norm": 0.07866407930850983,
      "learning_rate": 0.0009317725214496959,
      "loss": 0.6322,
      "num_input_tokens_seen": 6281104,
      "step": 9595
    },
    {
      "epoch": 5.031446540880503,
      "grad_norm": 0.07026032358407974,
      "learning_rate": 0.0009316571565641574,
      "loss": 0.538,
      "num_input_tokens_seen": 6284752,
      "step": 9600
    },
    {
      "epoch": 5.034067085953878,
      "grad_norm": 0.07437311112880707,
      "learning_rate": 0.0009315417013808663,
      "loss": 0.4491,
      "num_input_tokens_seen": 6288048,
      "step": 9605
    },
    {
      "epoch": 5.036687631027253,
      "grad_norm": 0.09923266619443893,
      "learning_rate": 0.0009314261559239745,
      "loss": 0.5495,
      "num_input_tokens_seen": 6291088,
      "step": 9610
    },
    {
      "epoch": 5.039308176100629,
      "grad_norm": 0.06737459450960159,
      "learning_rate": 0.000931310520217653,
      "loss": 0.6434,
      "num_input_tokens_seen": 6294224,
      "step": 9615
    },
    {
      "epoch": 5.0419287211740045,
      "grad_norm": 0.09271103888750076,
      "learning_rate": 0.0009311947942860912,
      "loss": 0.4866,
      "num_input_tokens_seen": 6297328,
      "step": 9620
    },
    {
      "epoch": 5.04454926624738,
      "grad_norm": 0.06044696271419525,
      "learning_rate": 0.0009310789781534979,
      "loss": 0.4107,
      "num_input_tokens_seen": 6300208,
      "step": 9625
    },
    {
      "epoch": 5.047169811320755,
      "grad_norm": 0.08658157289028168,
      "learning_rate": 0.0009309630718441003,
      "loss": 0.3119,
      "num_input_tokens_seen": 6303856,
      "step": 9630
    },
    {
      "epoch": 5.04979035639413,
      "grad_norm": 0.1228364109992981,
      "learning_rate": 0.0009308470753821445,
      "loss": 0.4851,
      "num_input_tokens_seen": 6306960,
      "step": 9635
    },
    {
      "epoch": 5.052410901467505,
      "grad_norm": 0.0721525028347969,
      "learning_rate": 0.0009307309887918962,
      "loss": 0.6749,
      "num_input_tokens_seen": 6310736,
      "step": 9640
    },
    {
      "epoch": 5.05503144654088,
      "grad_norm": 0.13515602052211761,
      "learning_rate": 0.000930614812097639,
      "loss": 0.5511,
      "num_input_tokens_seen": 6313776,
      "step": 9645
    },
    {
      "epoch": 5.0576519916142555,
      "grad_norm": 0.09057695418596268,
      "learning_rate": 0.0009304985453236758,
      "loss": 0.3474,
      "num_input_tokens_seen": 6316848,
      "step": 9650
    },
    {
      "epoch": 5.060272536687631,
      "grad_norm": 0.049098748713731766,
      "learning_rate": 0.0009303821884943284,
      "loss": 0.5269,
      "num_input_tokens_seen": 6321584,
      "step": 9655
    },
    {
      "epoch": 5.062893081761007,
      "grad_norm": 0.10440582782030106,
      "learning_rate": 0.0009302657416339371,
      "loss": 0.4643,
      "num_input_tokens_seen": 6325040,
      "step": 9660
    },
    {
      "epoch": 5.065513626834382,
      "grad_norm": 0.102892205119133,
      "learning_rate": 0.0009301492047668615,
      "loss": 0.4887,
      "num_input_tokens_seen": 6327984,
      "step": 9665
    },
    {
      "epoch": 5.068134171907757,
      "grad_norm": 0.10216555744409561,
      "learning_rate": 0.0009300325779174796,
      "loss": 0.6196,
      "num_input_tokens_seen": 6330800,
      "step": 9670
    },
    {
      "epoch": 5.070754716981132,
      "grad_norm": 0.07052811235189438,
      "learning_rate": 0.0009299158611101885,
      "loss": 0.3606,
      "num_input_tokens_seen": 6333776,
      "step": 9675
    },
    {
      "epoch": 5.073375262054507,
      "grad_norm": 0.1325557380914688,
      "learning_rate": 0.000929799054369404,
      "loss": 0.4709,
      "num_input_tokens_seen": 6336816,
      "step": 9680
    },
    {
      "epoch": 5.075995807127883,
      "grad_norm": 0.09540499001741409,
      "learning_rate": 0.0009296821577195606,
      "loss": 0.4692,
      "num_input_tokens_seen": 6339280,
      "step": 9685
    },
    {
      "epoch": 5.078616352201258,
      "grad_norm": 0.07633014768362045,
      "learning_rate": 0.000929565171185112,
      "loss": 0.3973,
      "num_input_tokens_seen": 6342544,
      "step": 9690
    },
    {
      "epoch": 5.081236897274633,
      "grad_norm": 0.10910215228796005,
      "learning_rate": 0.0009294480947905304,
      "loss": 0.388,
      "num_input_tokens_seen": 6345072,
      "step": 9695
    },
    {
      "epoch": 5.083857442348008,
      "grad_norm": 0.07485704123973846,
      "learning_rate": 0.0009293309285603067,
      "loss": 0.4188,
      "num_input_tokens_seen": 6348496,
      "step": 9700
    },
    {
      "epoch": 5.086477987421383,
      "grad_norm": 0.07455815374851227,
      "learning_rate": 0.0009292136725189506,
      "loss": 0.4895,
      "num_input_tokens_seen": 6352560,
      "step": 9705
    },
    {
      "epoch": 5.089098532494759,
      "grad_norm": 0.0646292120218277,
      "learning_rate": 0.0009290963266909912,
      "loss": 0.6247,
      "num_input_tokens_seen": 6356400,
      "step": 9710
    },
    {
      "epoch": 5.0917190775681345,
      "grad_norm": 0.08950202912092209,
      "learning_rate": 0.0009289788911009756,
      "loss": 0.5029,
      "num_input_tokens_seen": 6359312,
      "step": 9715
    },
    {
      "epoch": 5.09433962264151,
      "grad_norm": 0.08213088661432266,
      "learning_rate": 0.0009288613657734699,
      "loss": 0.4412,
      "num_input_tokens_seen": 6362480,
      "step": 9720
    },
    {
      "epoch": 5.096960167714885,
      "grad_norm": 0.0641026422381401,
      "learning_rate": 0.0009287437507330594,
      "loss": 0.4301,
      "num_input_tokens_seen": 6365584,
      "step": 9725
    },
    {
      "epoch": 5.09958071278826,
      "grad_norm": 0.1076706200838089,
      "learning_rate": 0.0009286260460043475,
      "loss": 0.493,
      "num_input_tokens_seen": 6370384,
      "step": 9730
    },
    {
      "epoch": 5.102201257861635,
      "grad_norm": 0.12718833982944489,
      "learning_rate": 0.0009285082516119567,
      "loss": 0.5702,
      "num_input_tokens_seen": 6373104,
      "step": 9735
    },
    {
      "epoch": 5.10482180293501,
      "grad_norm": 0.08229811489582062,
      "learning_rate": 0.0009283903675805285,
      "loss": 0.4785,
      "num_input_tokens_seen": 6376848,
      "step": 9740
    },
    {
      "epoch": 5.1074423480083855,
      "grad_norm": 0.08461752533912659,
      "learning_rate": 0.0009282723939347227,
      "loss": 0.4828,
      "num_input_tokens_seen": 6381232,
      "step": 9745
    },
    {
      "epoch": 5.110062893081761,
      "grad_norm": 0.13133488595485687,
      "learning_rate": 0.0009281543306992181,
      "loss": 0.4668,
      "num_input_tokens_seen": 6383760,
      "step": 9750
    },
    {
      "epoch": 5.112683438155136,
      "grad_norm": 0.07574184983968735,
      "learning_rate": 0.0009280361778987121,
      "loss": 0.5745,
      "num_input_tokens_seen": 6386864,
      "step": 9755
    },
    {
      "epoch": 5.115303983228512,
      "grad_norm": 0.07026420533657074,
      "learning_rate": 0.0009279179355579211,
      "loss": 0.4617,
      "num_input_tokens_seen": 6389264,
      "step": 9760
    },
    {
      "epoch": 5.117924528301887,
      "grad_norm": 0.06429406255483627,
      "learning_rate": 0.0009277996037015798,
      "loss": 0.4567,
      "num_input_tokens_seen": 6393104,
      "step": 9765
    },
    {
      "epoch": 5.120545073375262,
      "grad_norm": 0.08376332372426987,
      "learning_rate": 0.000927681182354442,
      "loss": 0.477,
      "num_input_tokens_seen": 6397040,
      "step": 9770
    },
    {
      "epoch": 5.123165618448637,
      "grad_norm": 0.10999549180269241,
      "learning_rate": 0.0009275626715412802,
      "loss": 0.3048,
      "num_input_tokens_seen": 6400848,
      "step": 9775
    },
    {
      "epoch": 5.1257861635220126,
      "grad_norm": 0.0633430927991867,
      "learning_rate": 0.0009274440712868853,
      "loss": 0.3698,
      "num_input_tokens_seen": 6404272,
      "step": 9780
    },
    {
      "epoch": 5.128406708595388,
      "grad_norm": 0.0677749514579773,
      "learning_rate": 0.0009273253816160673,
      "loss": 0.4842,
      "num_input_tokens_seen": 6408304,
      "step": 9785
    },
    {
      "epoch": 5.131027253668763,
      "grad_norm": 0.08905627578496933,
      "learning_rate": 0.0009272066025536545,
      "loss": 0.449,
      "num_input_tokens_seen": 6410896,
      "step": 9790
    },
    {
      "epoch": 5.133647798742138,
      "grad_norm": 0.08288765698671341,
      "learning_rate": 0.0009270877341244945,
      "loss": 0.56,
      "num_input_tokens_seen": 6413968,
      "step": 9795
    },
    {
      "epoch": 5.136268343815513,
      "grad_norm": 0.08264337480068207,
      "learning_rate": 0.0009269687763534529,
      "loss": 0.3737,
      "num_input_tokens_seen": 6416432,
      "step": 9800
    },
    {
      "epoch": 5.138888888888889,
      "grad_norm": 0.0840444564819336,
      "learning_rate": 0.0009268497292654143,
      "loss": 0.5632,
      "num_input_tokens_seen": 6419664,
      "step": 9805
    },
    {
      "epoch": 5.1415094339622645,
      "grad_norm": 0.0672801062464714,
      "learning_rate": 0.0009267305928852823,
      "loss": 0.4568,
      "num_input_tokens_seen": 6422192,
      "step": 9810
    },
    {
      "epoch": 5.14412997903564,
      "grad_norm": 0.08198047429323196,
      "learning_rate": 0.0009266113672379786,
      "loss": 0.4159,
      "num_input_tokens_seen": 6425360,
      "step": 9815
    },
    {
      "epoch": 5.146750524109015,
      "grad_norm": 0.054193250834941864,
      "learning_rate": 0.0009264920523484437,
      "loss": 0.4557,
      "num_input_tokens_seen": 6428720,
      "step": 9820
    },
    {
      "epoch": 5.14937106918239,
      "grad_norm": 0.08994466066360474,
      "learning_rate": 0.0009263726482416374,
      "loss": 0.3655,
      "num_input_tokens_seen": 6431728,
      "step": 9825
    },
    {
      "epoch": 5.151991614255765,
      "grad_norm": 0.10576679557561874,
      "learning_rate": 0.0009262531549425372,
      "loss": 0.5325,
      "num_input_tokens_seen": 6434864,
      "step": 9830
    },
    {
      "epoch": 5.15461215932914,
      "grad_norm": 0.07495472580194473,
      "learning_rate": 0.0009261335724761402,
      "loss": 0.4489,
      "num_input_tokens_seen": 6437904,
      "step": 9835
    },
    {
      "epoch": 5.1572327044025155,
      "grad_norm": 0.08725779503583908,
      "learning_rate": 0.0009260139008674612,
      "loss": 0.387,
      "num_input_tokens_seen": 6440816,
      "step": 9840
    },
    {
      "epoch": 5.159853249475891,
      "grad_norm": 0.0674721971154213,
      "learning_rate": 0.0009258941401415344,
      "loss": 0.5843,
      "num_input_tokens_seen": 6443856,
      "step": 9845
    },
    {
      "epoch": 5.162473794549266,
      "grad_norm": 0.048084355890750885,
      "learning_rate": 0.0009257742903234123,
      "loss": 0.3825,
      "num_input_tokens_seen": 6450064,
      "step": 9850
    },
    {
      "epoch": 5.165094339622642,
      "grad_norm": 0.11516205221414566,
      "learning_rate": 0.0009256543514381664,
      "loss": 0.3601,
      "num_input_tokens_seen": 6452688,
      "step": 9855
    },
    {
      "epoch": 5.167714884696017,
      "grad_norm": 0.08296088874340057,
      "learning_rate": 0.0009255343235108859,
      "loss": 0.5097,
      "num_input_tokens_seen": 6455216,
      "step": 9860
    },
    {
      "epoch": 5.170335429769392,
      "grad_norm": 0.05646813288331032,
      "learning_rate": 0.00092541420656668,
      "loss": 0.5625,
      "num_input_tokens_seen": 6459472,
      "step": 9865
    },
    {
      "epoch": 5.172955974842767,
      "grad_norm": 0.08044741302728653,
      "learning_rate": 0.0009252940006306753,
      "loss": 0.5523,
      "num_input_tokens_seen": 6465232,
      "step": 9870
    },
    {
      "epoch": 5.1755765199161425,
      "grad_norm": 0.20326203107833862,
      "learning_rate": 0.0009251737057280179,
      "loss": 0.4519,
      "num_input_tokens_seen": 6468016,
      "step": 9875
    },
    {
      "epoch": 5.178197064989518,
      "grad_norm": 0.07100039720535278,
      "learning_rate": 0.0009250533218838717,
      "loss": 0.4853,
      "num_input_tokens_seen": 6472144,
      "step": 9880
    },
    {
      "epoch": 5.180817610062893,
      "grad_norm": 0.09054125100374222,
      "learning_rate": 0.0009249328491234199,
      "loss": 0.5022,
      "num_input_tokens_seen": 6475184,
      "step": 9885
    },
    {
      "epoch": 5.183438155136268,
      "grad_norm": 0.08849695324897766,
      "learning_rate": 0.0009248122874718638,
      "loss": 0.4632,
      "num_input_tokens_seen": 6479248,
      "step": 9890
    },
    {
      "epoch": 5.186058700209643,
      "grad_norm": 0.10239517688751221,
      "learning_rate": 0.0009246916369544238,
      "loss": 0.4788,
      "num_input_tokens_seen": 6482320,
      "step": 9895
    },
    {
      "epoch": 5.188679245283019,
      "grad_norm": 0.04841960594058037,
      "learning_rate": 0.0009245708975963386,
      "loss": 0.3644,
      "num_input_tokens_seen": 6485680,
      "step": 9900
    },
    {
      "epoch": 5.191299790356394,
      "grad_norm": 0.08321306109428406,
      "learning_rate": 0.0009244500694228653,
      "loss": 0.4618,
      "num_input_tokens_seen": 6489648,
      "step": 9905
    },
    {
      "epoch": 5.19392033542977,
      "grad_norm": 0.06629043817520142,
      "learning_rate": 0.0009243291524592799,
      "loss": 0.4722,
      "num_input_tokens_seen": 6493520,
      "step": 9910
    },
    {
      "epoch": 5.196540880503145,
      "grad_norm": 0.05054963752627373,
      "learning_rate": 0.0009242081467308766,
      "loss": 0.4735,
      "num_input_tokens_seen": 6496752,
      "step": 9915
    },
    {
      "epoch": 5.19916142557652,
      "grad_norm": 0.05847002565860748,
      "learning_rate": 0.0009240870522629688,
      "loss": 0.4135,
      "num_input_tokens_seen": 6499920,
      "step": 9920
    },
    {
      "epoch": 5.201781970649895,
      "grad_norm": 0.0770597830414772,
      "learning_rate": 0.0009239658690808879,
      "loss": 0.4207,
      "num_input_tokens_seen": 6502352,
      "step": 9925
    },
    {
      "epoch": 5.20440251572327,
      "grad_norm": 0.07569599896669388,
      "learning_rate": 0.000923844597209984,
      "loss": 0.4989,
      "num_input_tokens_seen": 6505008,
      "step": 9930
    },
    {
      "epoch": 5.2070230607966455,
      "grad_norm": 0.06667512655258179,
      "learning_rate": 0.0009237232366756258,
      "loss": 0.4184,
      "num_input_tokens_seen": 6507568,
      "step": 9935
    },
    {
      "epoch": 5.209643605870021,
      "grad_norm": 0.07396409660577774,
      "learning_rate": 0.0009236017875032007,
      "loss": 0.4089,
      "num_input_tokens_seen": 6510864,
      "step": 9940
    },
    {
      "epoch": 5.212264150943396,
      "grad_norm": 0.12464697659015656,
      "learning_rate": 0.0009234802497181143,
      "loss": 0.3674,
      "num_input_tokens_seen": 6514544,
      "step": 9945
    },
    {
      "epoch": 5.214884696016772,
      "grad_norm": 0.09041226655244827,
      "learning_rate": 0.0009233586233457909,
      "loss": 0.5535,
      "num_input_tokens_seen": 6517648,
      "step": 9950
    },
    {
      "epoch": 5.217505241090147,
      "grad_norm": 0.04645795747637749,
      "learning_rate": 0.0009232369084116736,
      "loss": 0.5235,
      "num_input_tokens_seen": 6521360,
      "step": 9955
    },
    {
      "epoch": 5.220125786163522,
      "grad_norm": 0.11880920827388763,
      "learning_rate": 0.0009231151049412234,
      "loss": 0.6742,
      "num_input_tokens_seen": 6524560,
      "step": 9960
    },
    {
      "epoch": 5.222746331236897,
      "grad_norm": 0.055446039885282516,
      "learning_rate": 0.0009229932129599205,
      "loss": 0.5488,
      "num_input_tokens_seen": 6529232,
      "step": 9965
    },
    {
      "epoch": 5.2253668763102725,
      "grad_norm": 0.09312140941619873,
      "learning_rate": 0.0009228712324932634,
      "loss": 0.5454,
      "num_input_tokens_seen": 6532016,
      "step": 9970
    },
    {
      "epoch": 5.227987421383648,
      "grad_norm": 0.08638214319944382,
      "learning_rate": 0.0009227491635667685,
      "loss": 0.4698,
      "num_input_tokens_seen": 6534960,
      "step": 9975
    },
    {
      "epoch": 5.230607966457023,
      "grad_norm": 0.10471934825181961,
      "learning_rate": 0.0009226270062059717,
      "loss": 0.4939,
      "num_input_tokens_seen": 6538032,
      "step": 9980
    },
    {
      "epoch": 5.233228511530398,
      "grad_norm": 0.06544959545135498,
      "learning_rate": 0.0009225047604364267,
      "loss": 0.4711,
      "num_input_tokens_seen": 6541168,
      "step": 9985
    },
    {
      "epoch": 5.235849056603773,
      "grad_norm": 0.08775705099105835,
      "learning_rate": 0.0009223824262837062,
      "loss": 0.4469,
      "num_input_tokens_seen": 6543888,
      "step": 9990
    },
    {
      "epoch": 5.238469601677149,
      "grad_norm": 0.10146734118461609,
      "learning_rate": 0.0009222600037734008,
      "loss": 0.5107,
      "num_input_tokens_seen": 6547440,
      "step": 9995
    },
    {
      "epoch": 5.241090146750524,
      "grad_norm": 0.07292340695858002,
      "learning_rate": 0.00092213749293112,
      "loss": 0.4675,
      "num_input_tokens_seen": 6550864,
      "step": 10000
    },
    {
      "epoch": 5.2437106918239,
      "grad_norm": 0.1329551339149475,
      "learning_rate": 0.0009220148937824917,
      "loss": 0.3721,
      "num_input_tokens_seen": 6553872,
      "step": 10005
    },
    {
      "epoch": 5.246331236897275,
      "grad_norm": 0.06543080508708954,
      "learning_rate": 0.0009218922063531623,
      "loss": 0.4015,
      "num_input_tokens_seen": 6557456,
      "step": 10010
    },
    {
      "epoch": 5.24895178197065,
      "grad_norm": 0.0771055594086647,
      "learning_rate": 0.0009217694306687963,
      "loss": 0.4535,
      "num_input_tokens_seen": 6560592,
      "step": 10015
    },
    {
      "epoch": 5.251572327044025,
      "grad_norm": 0.10960708558559418,
      "learning_rate": 0.0009216465667550774,
      "loss": 0.5187,
      "num_input_tokens_seen": 6564016,
      "step": 10020
    },
    {
      "epoch": 5.2541928721174,
      "grad_norm": 0.08270008862018585,
      "learning_rate": 0.0009215236146377071,
      "loss": 0.5804,
      "num_input_tokens_seen": 6567440,
      "step": 10025
    },
    {
      "epoch": 5.256813417190775,
      "grad_norm": 0.07179980725049973,
      "learning_rate": 0.0009214005743424056,
      "loss": 0.4284,
      "num_input_tokens_seen": 6570512,
      "step": 10030
    },
    {
      "epoch": 5.259433962264151,
      "grad_norm": 0.09278710186481476,
      "learning_rate": 0.0009212774458949116,
      "loss": 0.405,
      "num_input_tokens_seen": 6573968,
      "step": 10035
    },
    {
      "epoch": 5.262054507337526,
      "grad_norm": 0.06126386672258377,
      "learning_rate": 0.000921154229320982,
      "loss": 0.3865,
      "num_input_tokens_seen": 6578672,
      "step": 10040
    },
    {
      "epoch": 5.264675052410902,
      "grad_norm": 0.08187318593263626,
      "learning_rate": 0.0009210309246463924,
      "loss": 0.4803,
      "num_input_tokens_seen": 6581232,
      "step": 10045
    },
    {
      "epoch": 5.267295597484277,
      "grad_norm": 0.07839003950357437,
      "learning_rate": 0.0009209075318969369,
      "loss": 0.4684,
      "num_input_tokens_seen": 6588688,
      "step": 10050
    },
    {
      "epoch": 5.269916142557652,
      "grad_norm": 0.07629413902759552,
      "learning_rate": 0.0009207840510984276,
      "loss": 0.3879,
      "num_input_tokens_seen": 6592048,
      "step": 10055
    },
    {
      "epoch": 5.272536687631027,
      "grad_norm": 0.05526461824774742,
      "learning_rate": 0.0009206604822766953,
      "loss": 0.4339,
      "num_input_tokens_seen": 6595728,
      "step": 10060
    },
    {
      "epoch": 5.2751572327044025,
      "grad_norm": 0.10425745695829391,
      "learning_rate": 0.0009205368254575892,
      "loss": 0.3951,
      "num_input_tokens_seen": 6598256,
      "step": 10065
    },
    {
      "epoch": 5.277777777777778,
      "grad_norm": 0.05243440717458725,
      "learning_rate": 0.000920413080666977,
      "loss": 0.3777,
      "num_input_tokens_seen": 6601488,
      "step": 10070
    },
    {
      "epoch": 5.280398322851153,
      "grad_norm": 0.0546136237680912,
      "learning_rate": 0.0009202892479307448,
      "loss": 0.5931,
      "num_input_tokens_seen": 6605616,
      "step": 10075
    },
    {
      "epoch": 5.283018867924528,
      "grad_norm": 0.08864539116621017,
      "learning_rate": 0.0009201653272747967,
      "loss": 0.4648,
      "num_input_tokens_seen": 6609616,
      "step": 10080
    },
    {
      "epoch": 5.285639412997903,
      "grad_norm": 0.08512280881404877,
      "learning_rate": 0.0009200413187250558,
      "loss": 0.607,
      "num_input_tokens_seen": 6612816,
      "step": 10085
    },
    {
      "epoch": 5.288259958071279,
      "grad_norm": 0.09132121503353119,
      "learning_rate": 0.000919917222307463,
      "loss": 0.5236,
      "num_input_tokens_seen": 6615984,
      "step": 10090
    },
    {
      "epoch": 5.290880503144654,
      "grad_norm": 0.0777854397892952,
      "learning_rate": 0.000919793038047978,
      "loss": 0.4502,
      "num_input_tokens_seen": 6618480,
      "step": 10095
    },
    {
      "epoch": 5.29350104821803,
      "grad_norm": 0.09537246823310852,
      "learning_rate": 0.0009196687659725787,
      "loss": 0.5132,
      "num_input_tokens_seen": 6622928,
      "step": 10100
    },
    {
      "epoch": 5.296121593291405,
      "grad_norm": 0.09370624274015427,
      "learning_rate": 0.0009195444061072612,
      "loss": 0.423,
      "num_input_tokens_seen": 6625872,
      "step": 10105
    },
    {
      "epoch": 5.29874213836478,
      "grad_norm": 0.08561132848262787,
      "learning_rate": 0.0009194199584780405,
      "loss": 0.5938,
      "num_input_tokens_seen": 6628912,
      "step": 10110
    },
    {
      "epoch": 5.301362683438155,
      "grad_norm": 0.07152483612298965,
      "learning_rate": 0.0009192954231109496,
      "loss": 0.5765,
      "num_input_tokens_seen": 6632336,
      "step": 10115
    },
    {
      "epoch": 5.30398322851153,
      "grad_norm": 0.12185141444206238,
      "learning_rate": 0.0009191708000320396,
      "loss": 0.4828,
      "num_input_tokens_seen": 6635440,
      "step": 10120
    },
    {
      "epoch": 5.306603773584905,
      "grad_norm": 0.08423329144716263,
      "learning_rate": 0.0009190460892673805,
      "loss": 0.3753,
      "num_input_tokens_seen": 6640304,
      "step": 10125
    },
    {
      "epoch": 5.309224318658281,
      "grad_norm": 0.05550295487046242,
      "learning_rate": 0.0009189212908430601,
      "loss": 0.4553,
      "num_input_tokens_seen": 6646064,
      "step": 10130
    },
    {
      "epoch": 5.311844863731656,
      "grad_norm": 0.07739603519439697,
      "learning_rate": 0.0009187964047851851,
      "loss": 0.4838,
      "num_input_tokens_seen": 6648816,
      "step": 10135
    },
    {
      "epoch": 5.314465408805032,
      "grad_norm": 0.1080213412642479,
      "learning_rate": 0.0009186714311198801,
      "loss": 0.5328,
      "num_input_tokens_seen": 6652144,
      "step": 10140
    },
    {
      "epoch": 5.317085953878407,
      "grad_norm": 0.07903607189655304,
      "learning_rate": 0.000918546369873288,
      "loss": 0.4032,
      "num_input_tokens_seen": 6656080,
      "step": 10145
    },
    {
      "epoch": 5.319706498951782,
      "grad_norm": 0.1647482067346573,
      "learning_rate": 0.0009184212210715704,
      "loss": 0.5378,
      "num_input_tokens_seen": 6660048,
      "step": 10150
    },
    {
      "epoch": 5.322327044025157,
      "grad_norm": 0.05248650535941124,
      "learning_rate": 0.0009182959847409072,
      "loss": 0.5498,
      "num_input_tokens_seen": 6663344,
      "step": 10155
    },
    {
      "epoch": 5.3249475890985325,
      "grad_norm": 0.13610395789146423,
      "learning_rate": 0.0009181706609074959,
      "loss": 0.6104,
      "num_input_tokens_seen": 6666544,
      "step": 10160
    },
    {
      "epoch": 5.327568134171908,
      "grad_norm": 0.06224901229143143,
      "learning_rate": 0.0009180452495975531,
      "loss": 0.4765,
      "num_input_tokens_seen": 6670032,
      "step": 10165
    },
    {
      "epoch": 5.330188679245283,
      "grad_norm": 0.06328964978456497,
      "learning_rate": 0.0009179197508373134,
      "loss": 0.6014,
      "num_input_tokens_seen": 6672592,
      "step": 10170
    },
    {
      "epoch": 5.332809224318658,
      "grad_norm": 0.11019866913557053,
      "learning_rate": 0.0009177941646530299,
      "loss": 0.5159,
      "num_input_tokens_seen": 6675664,
      "step": 10175
    },
    {
      "epoch": 5.335429769392033,
      "grad_norm": 0.053868506103754044,
      "learning_rate": 0.0009176684910709733,
      "loss": 0.3652,
      "num_input_tokens_seen": 6678512,
      "step": 10180
    },
    {
      "epoch": 5.338050314465409,
      "grad_norm": 0.07390592247247696,
      "learning_rate": 0.0009175427301174338,
      "loss": 0.5777,
      "num_input_tokens_seen": 6682352,
      "step": 10185
    },
    {
      "epoch": 5.340670859538784,
      "grad_norm": 0.10268691927194595,
      "learning_rate": 0.0009174168818187183,
      "loss": 0.4427,
      "num_input_tokens_seen": 6684720,
      "step": 10190
    },
    {
      "epoch": 5.34329140461216,
      "grad_norm": 0.07200295478105545,
      "learning_rate": 0.0009172909462011536,
      "loss": 0.4332,
      "num_input_tokens_seen": 6688304,
      "step": 10195
    },
    {
      "epoch": 5.345911949685535,
      "grad_norm": 0.06626884639263153,
      "learning_rate": 0.0009171649232910835,
      "loss": 0.4088,
      "num_input_tokens_seen": 6691632,
      "step": 10200
    },
    {
      "epoch": 5.34853249475891,
      "grad_norm": 0.07744301110506058,
      "learning_rate": 0.0009170388131148707,
      "loss": 0.4909,
      "num_input_tokens_seen": 6694576,
      "step": 10205
    },
    {
      "epoch": 5.351153039832285,
      "grad_norm": 0.0819619819521904,
      "learning_rate": 0.000916912615698896,
      "loss": 0.5813,
      "num_input_tokens_seen": 6697648,
      "step": 10210
    },
    {
      "epoch": 5.35377358490566,
      "grad_norm": 0.08486897498369217,
      "learning_rate": 0.0009167863310695585,
      "loss": 0.5276,
      "num_input_tokens_seen": 6701296,
      "step": 10215
    },
    {
      "epoch": 5.356394129979035,
      "grad_norm": 0.10765793919563293,
      "learning_rate": 0.0009166599592532756,
      "loss": 0.5039,
      "num_input_tokens_seen": 6704240,
      "step": 10220
    },
    {
      "epoch": 5.359014675052411,
      "grad_norm": 0.06073619797825813,
      "learning_rate": 0.0009165335002764828,
      "loss": 0.42,
      "num_input_tokens_seen": 6707248,
      "step": 10225
    },
    {
      "epoch": 5.361635220125786,
      "grad_norm": 0.09537713974714279,
      "learning_rate": 0.0009164069541656337,
      "loss": 0.5962,
      "num_input_tokens_seen": 6709712,
      "step": 10230
    },
    {
      "epoch": 5.364255765199162,
      "grad_norm": 0.03397134318947792,
      "learning_rate": 0.0009162803209472004,
      "loss": 0.5276,
      "num_input_tokens_seen": 6715376,
      "step": 10235
    },
    {
      "epoch": 5.366876310272537,
      "grad_norm": 0.12410714477300644,
      "learning_rate": 0.000916153600647673,
      "loss": 0.3944,
      "num_input_tokens_seen": 6717840,
      "step": 10240
    },
    {
      "epoch": 5.369496855345912,
      "grad_norm": 0.06791934370994568,
      "learning_rate": 0.0009160267932935602,
      "loss": 0.2839,
      "num_input_tokens_seen": 6720816,
      "step": 10245
    },
    {
      "epoch": 5.372117400419287,
      "grad_norm": 0.09005788713693619,
      "learning_rate": 0.0009158998989113885,
      "loss": 0.5454,
      "num_input_tokens_seen": 6724176,
      "step": 10250
    },
    {
      "epoch": 5.3747379454926625,
      "grad_norm": 0.08143124729394913,
      "learning_rate": 0.0009157729175277028,
      "loss": 0.4821,
      "num_input_tokens_seen": 6727280,
      "step": 10255
    },
    {
      "epoch": 5.377358490566038,
      "grad_norm": 0.09529535472393036,
      "learning_rate": 0.0009156458491690662,
      "loss": 0.4128,
      "num_input_tokens_seen": 6730832,
      "step": 10260
    },
    {
      "epoch": 5.379979035639413,
      "grad_norm": 0.05954912677407265,
      "learning_rate": 0.0009155186938620599,
      "loss": 0.503,
      "num_input_tokens_seen": 6734032,
      "step": 10265
    },
    {
      "epoch": 5.382599580712788,
      "grad_norm": 0.08731410652399063,
      "learning_rate": 0.0009153914516332833,
      "loss": 0.5051,
      "num_input_tokens_seen": 6737232,
      "step": 10270
    },
    {
      "epoch": 5.385220125786163,
      "grad_norm": 0.08418498933315277,
      "learning_rate": 0.000915264122509354,
      "loss": 0.4294,
      "num_input_tokens_seen": 6740560,
      "step": 10275
    },
    {
      "epoch": 5.387840670859539,
      "grad_norm": 0.06153019517660141,
      "learning_rate": 0.0009151367065169078,
      "loss": 0.4242,
      "num_input_tokens_seen": 6743344,
      "step": 10280
    },
    {
      "epoch": 5.390461215932914,
      "grad_norm": 0.15094737708568573,
      "learning_rate": 0.0009150092036825989,
      "loss": 0.5568,
      "num_input_tokens_seen": 6746448,
      "step": 10285
    },
    {
      "epoch": 5.3930817610062896,
      "grad_norm": 0.07692885398864746,
      "learning_rate": 0.0009148816140330991,
      "loss": 0.3953,
      "num_input_tokens_seen": 6749008,
      "step": 10290
    },
    {
      "epoch": 5.395702306079665,
      "grad_norm": 0.08162686973810196,
      "learning_rate": 0.000914753937595099,
      "loss": 0.6102,
      "num_input_tokens_seen": 6752048,
      "step": 10295
    },
    {
      "epoch": 5.39832285115304,
      "grad_norm": 0.09519916027784348,
      "learning_rate": 0.0009146261743953068,
      "loss": 0.5356,
      "num_input_tokens_seen": 6754512,
      "step": 10300
    },
    {
      "epoch": 5.400943396226415,
      "grad_norm": 0.07292890548706055,
      "learning_rate": 0.0009144983244604493,
      "loss": 0.4894,
      "num_input_tokens_seen": 6757744,
      "step": 10305
    },
    {
      "epoch": 5.40356394129979,
      "grad_norm": 0.06414690613746643,
      "learning_rate": 0.0009143703878172712,
      "loss": 0.3959,
      "num_input_tokens_seen": 6762704,
      "step": 10310
    },
    {
      "epoch": 5.406184486373165,
      "grad_norm": 0.12767915427684784,
      "learning_rate": 0.0009142423644925353,
      "loss": 0.4625,
      "num_input_tokens_seen": 6765264,
      "step": 10315
    },
    {
      "epoch": 5.408805031446541,
      "grad_norm": 0.06489857286214828,
      "learning_rate": 0.0009141142545130228,
      "loss": 0.487,
      "num_input_tokens_seen": 6768976,
      "step": 10320
    },
    {
      "epoch": 5.411425576519916,
      "grad_norm": 0.12378785759210587,
      "learning_rate": 0.0009139860579055326,
      "loss": 0.4427,
      "num_input_tokens_seen": 6771952,
      "step": 10325
    },
    {
      "epoch": 5.414046121593292,
      "grad_norm": 0.04735107347369194,
      "learning_rate": 0.0009138577746968821,
      "loss": 0.3624,
      "num_input_tokens_seen": 6776656,
      "step": 10330
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.13428542017936707,
      "learning_rate": 0.0009137294049139066,
      "loss": 0.6309,
      "num_input_tokens_seen": 6779440,
      "step": 10335
    },
    {
      "epoch": 5.419287211740042,
      "grad_norm": 0.08682858943939209,
      "learning_rate": 0.0009136009485834598,
      "loss": 0.4182,
      "num_input_tokens_seen": 6782352,
      "step": 10340
    },
    {
      "epoch": 5.421907756813417,
      "grad_norm": 0.09559296816587448,
      "learning_rate": 0.0009134724057324131,
      "loss": 0.4022,
      "num_input_tokens_seen": 6785744,
      "step": 10345
    },
    {
      "epoch": 5.4245283018867925,
      "grad_norm": 0.1565745323896408,
      "learning_rate": 0.0009133437763876562,
      "loss": 0.6082,
      "num_input_tokens_seen": 6788688,
      "step": 10350
    },
    {
      "epoch": 5.427148846960168,
      "grad_norm": 0.07643445581197739,
      "learning_rate": 0.000913215060576097,
      "loss": 0.3561,
      "num_input_tokens_seen": 6793072,
      "step": 10355
    },
    {
      "epoch": 5.429769392033543,
      "grad_norm": 0.07874005287885666,
      "learning_rate": 0.0009130862583246613,
      "loss": 0.4721,
      "num_input_tokens_seen": 6796720,
      "step": 10360
    },
    {
      "epoch": 5.432389937106918,
      "grad_norm": 0.12467379868030548,
      "learning_rate": 0.0009129573696602932,
      "loss": 0.6247,
      "num_input_tokens_seen": 6799312,
      "step": 10365
    },
    {
      "epoch": 5.435010482180293,
      "grad_norm": 0.06632871180772781,
      "learning_rate": 0.0009128283946099546,
      "loss": 0.4381,
      "num_input_tokens_seen": 6803696,
      "step": 10370
    },
    {
      "epoch": 5.437631027253669,
      "grad_norm": 0.09807103127241135,
      "learning_rate": 0.0009126993332006256,
      "loss": 0.5102,
      "num_input_tokens_seen": 6807312,
      "step": 10375
    },
    {
      "epoch": 5.440251572327044,
      "grad_norm": 0.04966133087873459,
      "learning_rate": 0.0009125701854593045,
      "loss": 0.5304,
      "num_input_tokens_seen": 6810640,
      "step": 10380
    },
    {
      "epoch": 5.4428721174004195,
      "grad_norm": 0.06973550468683243,
      "learning_rate": 0.0009124409514130073,
      "loss": 0.4117,
      "num_input_tokens_seen": 6817904,
      "step": 10385
    },
    {
      "epoch": 5.445492662473795,
      "grad_norm": 0.06855133175849915,
      "learning_rate": 0.0009123116310887686,
      "loss": 0.4021,
      "num_input_tokens_seen": 6820400,
      "step": 10390
    },
    {
      "epoch": 5.44811320754717,
      "grad_norm": 0.09452421963214874,
      "learning_rate": 0.0009121822245136404,
      "loss": 0.5188,
      "num_input_tokens_seen": 6823376,
      "step": 10395
    },
    {
      "epoch": 5.450733752620545,
      "grad_norm": 0.06111488863825798,
      "learning_rate": 0.0009120527317146934,
      "loss": 0.5425,
      "num_input_tokens_seen": 6826928,
      "step": 10400
    },
    {
      "epoch": 5.45335429769392,
      "grad_norm": 0.04623119905591011,
      "learning_rate": 0.0009119231527190158,
      "loss": 0.4501,
      "num_input_tokens_seen": 6830064,
      "step": 10405
    },
    {
      "epoch": 5.455974842767295,
      "grad_norm": 0.09005524218082428,
      "learning_rate": 0.0009117934875537141,
      "loss": 0.4416,
      "num_input_tokens_seen": 6833232,
      "step": 10410
    },
    {
      "epoch": 5.4585953878406706,
      "grad_norm": 0.052898384630680084,
      "learning_rate": 0.0009116637362459129,
      "loss": 0.5832,
      "num_input_tokens_seen": 6837072,
      "step": 10415
    },
    {
      "epoch": 5.461215932914046,
      "grad_norm": 0.07911410927772522,
      "learning_rate": 0.0009115338988227546,
      "loss": 0.5111,
      "num_input_tokens_seen": 6840080,
      "step": 10420
    },
    {
      "epoch": 5.463836477987422,
      "grad_norm": 0.08915146440267563,
      "learning_rate": 0.0009114039753113997,
      "loss": 0.5282,
      "num_input_tokens_seen": 6843184,
      "step": 10425
    },
    {
      "epoch": 5.466457023060797,
      "grad_norm": 0.07417196035385132,
      "learning_rate": 0.0009112739657390265,
      "loss": 0.5561,
      "num_input_tokens_seen": 6845968,
      "step": 10430
    },
    {
      "epoch": 5.469077568134172,
      "grad_norm": 0.08523817360401154,
      "learning_rate": 0.0009111438701328319,
      "loss": 0.5011,
      "num_input_tokens_seen": 6848688,
      "step": 10435
    },
    {
      "epoch": 5.471698113207547,
      "grad_norm": 0.10985984653234482,
      "learning_rate": 0.0009110136885200302,
      "loss": 0.4612,
      "num_input_tokens_seen": 6851984,
      "step": 10440
    },
    {
      "epoch": 5.4743186582809225,
      "grad_norm": 0.06444241106510162,
      "learning_rate": 0.000910883420927854,
      "loss": 0.4965,
      "num_input_tokens_seen": 6855056,
      "step": 10445
    },
    {
      "epoch": 5.476939203354298,
      "grad_norm": 0.06416481733322144,
      "learning_rate": 0.0009107530673835536,
      "loss": 0.5423,
      "num_input_tokens_seen": 6858480,
      "step": 10450
    },
    {
      "epoch": 5.479559748427673,
      "grad_norm": 0.1378486156463623,
      "learning_rate": 0.0009106226279143979,
      "loss": 0.5497,
      "num_input_tokens_seen": 6861104,
      "step": 10455
    },
    {
      "epoch": 5.482180293501048,
      "grad_norm": 0.06800494343042374,
      "learning_rate": 0.0009104921025476728,
      "loss": 0.6367,
      "num_input_tokens_seen": 6864848,
      "step": 10460
    },
    {
      "epoch": 5.484800838574423,
      "grad_norm": 0.06036119908094406,
      "learning_rate": 0.0009103614913106832,
      "loss": 0.5466,
      "num_input_tokens_seen": 6867248,
      "step": 10465
    },
    {
      "epoch": 5.487421383647799,
      "grad_norm": 0.043755561113357544,
      "learning_rate": 0.0009102307942307511,
      "loss": 0.4359,
      "num_input_tokens_seen": 6870800,
      "step": 10470
    },
    {
      "epoch": 5.490041928721174,
      "grad_norm": 0.140305295586586,
      "learning_rate": 0.000910100011335217,
      "loss": 0.4838,
      "num_input_tokens_seen": 6874288,
      "step": 10475
    },
    {
      "epoch": 5.4926624737945495,
      "grad_norm": 0.03755873069167137,
      "learning_rate": 0.0009099691426514392,
      "loss": 0.4612,
      "num_input_tokens_seen": 6877968,
      "step": 10480
    },
    {
      "epoch": 5.495283018867925,
      "grad_norm": 0.04254528880119324,
      "learning_rate": 0.0009098381882067941,
      "loss": 0.4591,
      "num_input_tokens_seen": 6882416,
      "step": 10485
    },
    {
      "epoch": 5.4979035639413,
      "grad_norm": 0.0668635219335556,
      "learning_rate": 0.0009097071480286756,
      "loss": 0.4126,
      "num_input_tokens_seen": 6885232,
      "step": 10490
    },
    {
      "epoch": 5.500524109014675,
      "grad_norm": 0.05489465221762657,
      "learning_rate": 0.0009095760221444959,
      "loss": 0.5987,
      "num_input_tokens_seen": 6888368,
      "step": 10495
    },
    {
      "epoch": 5.50314465408805,
      "grad_norm": 0.0870826467871666,
      "learning_rate": 0.000909444810581685,
      "loss": 0.3883,
      "num_input_tokens_seen": 6892080,
      "step": 10500
    },
    {
      "epoch": 5.505765199161425,
      "grad_norm": 0.044241029769182205,
      "learning_rate": 0.000909313513367691,
      "loss": 0.4565,
      "num_input_tokens_seen": 6895664,
      "step": 10505
    },
    {
      "epoch": 5.5083857442348005,
      "grad_norm": 0.09833808988332748,
      "learning_rate": 0.0009091821305299798,
      "loss": 0.4512,
      "num_input_tokens_seen": 6898992,
      "step": 10510
    },
    {
      "epoch": 5.511006289308176,
      "grad_norm": 0.13204286992549896,
      "learning_rate": 0.000909050662096035,
      "loss": 0.4447,
      "num_input_tokens_seen": 6902160,
      "step": 10515
    },
    {
      "epoch": 5.513626834381551,
      "grad_norm": 0.19830046594142914,
      "learning_rate": 0.0009089191080933583,
      "loss": 0.521,
      "num_input_tokens_seen": 6904752,
      "step": 10520
    },
    {
      "epoch": 5.516247379454927,
      "grad_norm": 0.06074182689189911,
      "learning_rate": 0.0009087874685494695,
      "loss": 0.5356,
      "num_input_tokens_seen": 6907792,
      "step": 10525
    },
    {
      "epoch": 5.518867924528302,
      "grad_norm": 0.07350416481494904,
      "learning_rate": 0.0009086557434919059,
      "loss": 0.442,
      "num_input_tokens_seen": 6910608,
      "step": 10530
    },
    {
      "epoch": 5.521488469601677,
      "grad_norm": 0.13659986853599548,
      "learning_rate": 0.0009085239329482231,
      "loss": 0.4996,
      "num_input_tokens_seen": 6913584,
      "step": 10535
    },
    {
      "epoch": 5.524109014675052,
      "grad_norm": 0.09946153312921524,
      "learning_rate": 0.0009083920369459941,
      "loss": 0.3699,
      "num_input_tokens_seen": 6916432,
      "step": 10540
    },
    {
      "epoch": 5.526729559748428,
      "grad_norm": 0.08322654664516449,
      "learning_rate": 0.00090826005551281,
      "loss": 0.4235,
      "num_input_tokens_seen": 6920048,
      "step": 10545
    },
    {
      "epoch": 5.529350104821803,
      "grad_norm": 0.08660665154457092,
      "learning_rate": 0.0009081279886762802,
      "loss": 0.3982,
      "num_input_tokens_seen": 6922544,
      "step": 10550
    },
    {
      "epoch": 5.531970649895178,
      "grad_norm": 0.08136792480945587,
      "learning_rate": 0.0009079958364640313,
      "loss": 0.3274,
      "num_input_tokens_seen": 6926576,
      "step": 10555
    },
    {
      "epoch": 5.534591194968553,
      "grad_norm": 0.11095024645328522,
      "learning_rate": 0.0009078635989037081,
      "loss": 0.4467,
      "num_input_tokens_seen": 6930288,
      "step": 10560
    },
    {
      "epoch": 5.537211740041929,
      "grad_norm": 0.058354754000902176,
      "learning_rate": 0.000907731276022973,
      "loss": 0.4269,
      "num_input_tokens_seen": 6933232,
      "step": 10565
    },
    {
      "epoch": 5.539832285115304,
      "grad_norm": 0.08256931602954865,
      "learning_rate": 0.0009075988678495066,
      "loss": 0.4404,
      "num_input_tokens_seen": 6936752,
      "step": 10570
    },
    {
      "epoch": 5.5424528301886795,
      "grad_norm": 0.09443307667970657,
      "learning_rate": 0.0009074663744110073,
      "loss": 0.5031,
      "num_input_tokens_seen": 6939280,
      "step": 10575
    },
    {
      "epoch": 5.545073375262055,
      "grad_norm": 0.08284757286310196,
      "learning_rate": 0.0009073337957351911,
      "loss": 0.4612,
      "num_input_tokens_seen": 6941520,
      "step": 10580
    },
    {
      "epoch": 5.54769392033543,
      "grad_norm": 0.15247328579425812,
      "learning_rate": 0.0009072011318497919,
      "loss": 0.5887,
      "num_input_tokens_seen": 6944048,
      "step": 10585
    },
    {
      "epoch": 5.550314465408805,
      "grad_norm": 0.12147967517375946,
      "learning_rate": 0.0009070683827825615,
      "loss": 0.5193,
      "num_input_tokens_seen": 6946768,
      "step": 10590
    },
    {
      "epoch": 5.55293501048218,
      "grad_norm": 0.08587247878313065,
      "learning_rate": 0.0009069355485612695,
      "loss": 0.6787,
      "num_input_tokens_seen": 6950192,
      "step": 10595
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 0.08976490795612335,
      "learning_rate": 0.0009068026292137034,
      "loss": 0.437,
      "num_input_tokens_seen": 6953168,
      "step": 10600
    },
    {
      "epoch": 5.5581761006289305,
      "grad_norm": 0.07330793887376785,
      "learning_rate": 0.0009066696247676682,
      "loss": 0.3682,
      "num_input_tokens_seen": 6956560,
      "step": 10605
    },
    {
      "epoch": 5.560796645702306,
      "grad_norm": 0.12830813229084015,
      "learning_rate": 0.0009065365352509871,
      "loss": 0.4685,
      "num_input_tokens_seen": 6958896,
      "step": 10610
    },
    {
      "epoch": 5.563417190775681,
      "grad_norm": 0.11419185250997543,
      "learning_rate": 0.0009064033606915008,
      "loss": 0.4205,
      "num_input_tokens_seen": 6962864,
      "step": 10615
    },
    {
      "epoch": 5.566037735849057,
      "grad_norm": 0.20453381538391113,
      "learning_rate": 0.000906270101117068,
      "loss": 0.5637,
      "num_input_tokens_seen": 6966448,
      "step": 10620
    },
    {
      "epoch": 5.568658280922432,
      "grad_norm": 0.1143551617860794,
      "learning_rate": 0.0009061367565555649,
      "loss": 0.3709,
      "num_input_tokens_seen": 6969072,
      "step": 10625
    },
    {
      "epoch": 5.571278825995807,
      "grad_norm": 0.05464315786957741,
      "learning_rate": 0.000906003327034886,
      "loss": 0.28,
      "num_input_tokens_seen": 6972048,
      "step": 10630
    },
    {
      "epoch": 5.573899371069182,
      "grad_norm": 0.05695590376853943,
      "learning_rate": 0.0009058698125829428,
      "loss": 0.4035,
      "num_input_tokens_seen": 6975280,
      "step": 10635
    },
    {
      "epoch": 5.576519916142558,
      "grad_norm": 0.050130441784858704,
      "learning_rate": 0.0009057362132276653,
      "loss": 0.35,
      "num_input_tokens_seen": 6978096,
      "step": 10640
    },
    {
      "epoch": 5.579140461215933,
      "grad_norm": 0.07238835096359253,
      "learning_rate": 0.0009056025289970009,
      "loss": 0.3943,
      "num_input_tokens_seen": 6982896,
      "step": 10645
    },
    {
      "epoch": 5.581761006289308,
      "grad_norm": 0.11729922890663147,
      "learning_rate": 0.0009054687599189148,
      "loss": 0.4919,
      "num_input_tokens_seen": 6985392,
      "step": 10650
    },
    {
      "epoch": 5.584381551362683,
      "grad_norm": 0.09494125843048096,
      "learning_rate": 0.0009053349060213899,
      "loss": 0.415,
      "num_input_tokens_seen": 6989456,
      "step": 10655
    },
    {
      "epoch": 5.587002096436059,
      "grad_norm": 0.08867081254720688,
      "learning_rate": 0.0009052009673324269,
      "loss": 0.3134,
      "num_input_tokens_seen": 6991856,
      "step": 10660
    },
    {
      "epoch": 5.589622641509434,
      "grad_norm": 0.09968278557062149,
      "learning_rate": 0.0009050669438800445,
      "loss": 0.4828,
      "num_input_tokens_seen": 6995440,
      "step": 10665
    },
    {
      "epoch": 5.5922431865828095,
      "grad_norm": 0.06272199749946594,
      "learning_rate": 0.0009049328356922786,
      "loss": 0.3568,
      "num_input_tokens_seen": 6998128,
      "step": 10670
    },
    {
      "epoch": 5.594863731656185,
      "grad_norm": 0.09456229954957962,
      "learning_rate": 0.0009047986427971831,
      "loss": 0.4182,
      "num_input_tokens_seen": 7001232,
      "step": 10675
    },
    {
      "epoch": 5.59748427672956,
      "grad_norm": 0.04866272583603859,
      "learning_rate": 0.0009046643652228297,
      "loss": 0.4057,
      "num_input_tokens_seen": 7005040,
      "step": 10680
    },
    {
      "epoch": 5.600104821802935,
      "grad_norm": 0.15500086545944214,
      "learning_rate": 0.0009045300029973079,
      "loss": 0.4027,
      "num_input_tokens_seen": 7007792,
      "step": 10685
    },
    {
      "epoch": 5.60272536687631,
      "grad_norm": 0.07638904452323914,
      "learning_rate": 0.0009043955561487245,
      "loss": 0.4623,
      "num_input_tokens_seen": 7010576,
      "step": 10690
    },
    {
      "epoch": 5.605345911949685,
      "grad_norm": 0.16446702182292938,
      "learning_rate": 0.0009042610247052044,
      "loss": 0.3975,
      "num_input_tokens_seen": 7013328,
      "step": 10695
    },
    {
      "epoch": 5.6079664570230605,
      "grad_norm": 0.09108636528253555,
      "learning_rate": 0.0009041264086948899,
      "loss": 0.5844,
      "num_input_tokens_seen": 7016976,
      "step": 10700
    },
    {
      "epoch": 5.610587002096436,
      "grad_norm": 0.05573403835296631,
      "learning_rate": 0.0009039917081459414,
      "loss": 0.4395,
      "num_input_tokens_seen": 7020400,
      "step": 10705
    },
    {
      "epoch": 5.613207547169811,
      "grad_norm": 0.10272786766290665,
      "learning_rate": 0.0009038569230865363,
      "loss": 0.5172,
      "num_input_tokens_seen": 7023088,
      "step": 10710
    },
    {
      "epoch": 5.615828092243187,
      "grad_norm": 0.0476057343184948,
      "learning_rate": 0.0009037220535448705,
      "loss": 0.4632,
      "num_input_tokens_seen": 7026960,
      "step": 10715
    },
    {
      "epoch": 5.618448637316562,
      "grad_norm": 0.09886373579502106,
      "learning_rate": 0.0009035870995491571,
      "loss": 0.372,
      "num_input_tokens_seen": 7029968,
      "step": 10720
    },
    {
      "epoch": 5.621069182389937,
      "grad_norm": 0.062217891216278076,
      "learning_rate": 0.0009034520611276265,
      "loss": 0.4555,
      "num_input_tokens_seen": 7033520,
      "step": 10725
    },
    {
      "epoch": 5.623689727463312,
      "grad_norm": 0.0734778642654419,
      "learning_rate": 0.0009033169383085278,
      "loss": 0.4542,
      "num_input_tokens_seen": 7037680,
      "step": 10730
    },
    {
      "epoch": 5.626310272536688,
      "grad_norm": 0.0779578760266304,
      "learning_rate": 0.0009031817311201268,
      "loss": 0.4069,
      "num_input_tokens_seen": 7040464,
      "step": 10735
    },
    {
      "epoch": 5.628930817610063,
      "grad_norm": 0.08629970252513885,
      "learning_rate": 0.0009030464395907074,
      "loss": 0.532,
      "num_input_tokens_seen": 7043024,
      "step": 10740
    },
    {
      "epoch": 5.631551362683438,
      "grad_norm": 0.06646474450826645,
      "learning_rate": 0.0009029110637485711,
      "loss": 0.5762,
      "num_input_tokens_seen": 7046992,
      "step": 10745
    },
    {
      "epoch": 5.634171907756813,
      "grad_norm": 0.08665109425783157,
      "learning_rate": 0.0009027756036220368,
      "loss": 0.4787,
      "num_input_tokens_seen": 7050160,
      "step": 10750
    },
    {
      "epoch": 5.636792452830189,
      "grad_norm": 0.06635670363903046,
      "learning_rate": 0.0009026400592394415,
      "loss": 0.4047,
      "num_input_tokens_seen": 7052880,
      "step": 10755
    },
    {
      "epoch": 5.639412997903564,
      "grad_norm": 0.06878826767206192,
      "learning_rate": 0.0009025044306291393,
      "loss": 0.3896,
      "num_input_tokens_seen": 7055856,
      "step": 10760
    },
    {
      "epoch": 5.6420335429769395,
      "grad_norm": 0.09201590716838837,
      "learning_rate": 0.0009023687178195022,
      "loss": 0.4145,
      "num_input_tokens_seen": 7058352,
      "step": 10765
    },
    {
      "epoch": 5.644654088050315,
      "grad_norm": 0.06431446969509125,
      "learning_rate": 0.0009022329208389196,
      "loss": 0.4768,
      "num_input_tokens_seen": 7061744,
      "step": 10770
    },
    {
      "epoch": 5.64727463312369,
      "grad_norm": 0.08622148633003235,
      "learning_rate": 0.000902097039715799,
      "loss": 0.3763,
      "num_input_tokens_seen": 7065744,
      "step": 10775
    },
    {
      "epoch": 5.649895178197065,
      "grad_norm": 0.09574194997549057,
      "learning_rate": 0.0009019610744785651,
      "loss": 0.3457,
      "num_input_tokens_seen": 7068688,
      "step": 10780
    },
    {
      "epoch": 5.65251572327044,
      "grad_norm": 0.06681521981954575,
      "learning_rate": 0.0009018250251556603,
      "loss": 0.4212,
      "num_input_tokens_seen": 7071568,
      "step": 10785
    },
    {
      "epoch": 5.655136268343815,
      "grad_norm": 0.09327097237110138,
      "learning_rate": 0.0009016888917755445,
      "loss": 0.5127,
      "num_input_tokens_seen": 7074384,
      "step": 10790
    },
    {
      "epoch": 5.6577568134171905,
      "grad_norm": 0.0660795122385025,
      "learning_rate": 0.0009015526743666951,
      "loss": 0.3734,
      "num_input_tokens_seen": 7077360,
      "step": 10795
    },
    {
      "epoch": 5.660377358490566,
      "grad_norm": 0.08959445357322693,
      "learning_rate": 0.0009014163729576074,
      "loss": 0.5112,
      "num_input_tokens_seen": 7080400,
      "step": 10800
    },
    {
      "epoch": 5.662997903563941,
      "grad_norm": 0.08306272327899933,
      "learning_rate": 0.0009012799875767943,
      "loss": 0.4864,
      "num_input_tokens_seen": 7083344,
      "step": 10805
    },
    {
      "epoch": 5.665618448637317,
      "grad_norm": 0.06170669198036194,
      "learning_rate": 0.0009011435182527856,
      "loss": 0.6289,
      "num_input_tokens_seen": 7086352,
      "step": 10810
    },
    {
      "epoch": 5.668238993710692,
      "grad_norm": 0.19500845670700073,
      "learning_rate": 0.0009010069650141295,
      "loss": 0.5496,
      "num_input_tokens_seen": 7090480,
      "step": 10815
    },
    {
      "epoch": 5.670859538784067,
      "grad_norm": 0.06587222218513489,
      "learning_rate": 0.0009008703278893913,
      "loss": 0.5589,
      "num_input_tokens_seen": 7094768,
      "step": 10820
    },
    {
      "epoch": 5.673480083857442,
      "grad_norm": 0.06687308847904205,
      "learning_rate": 0.0009007336069071537,
      "loss": 0.4781,
      "num_input_tokens_seen": 7098000,
      "step": 10825
    },
    {
      "epoch": 5.676100628930818,
      "grad_norm": 0.13142137229442596,
      "learning_rate": 0.0009005968020960175,
      "loss": 0.488,
      "num_input_tokens_seen": 7100688,
      "step": 10830
    },
    {
      "epoch": 5.678721174004193,
      "grad_norm": 0.0808761790394783,
      "learning_rate": 0.0009004599134846004,
      "loss": 0.4459,
      "num_input_tokens_seen": 7103984,
      "step": 10835
    },
    {
      "epoch": 5.681341719077568,
      "grad_norm": 0.0722244530916214,
      "learning_rate": 0.0009003229411015382,
      "loss": 0.4682,
      "num_input_tokens_seen": 7107568,
      "step": 10840
    },
    {
      "epoch": 5.683962264150943,
      "grad_norm": 0.07242511957883835,
      "learning_rate": 0.0009001858849754838,
      "loss": 0.3911,
      "num_input_tokens_seen": 7109680,
      "step": 10845
    },
    {
      "epoch": 5.686582809224319,
      "grad_norm": 0.08252822607755661,
      "learning_rate": 0.0009000487451351078,
      "loss": 0.5056,
      "num_input_tokens_seen": 7113232,
      "step": 10850
    },
    {
      "epoch": 5.689203354297694,
      "grad_norm": 0.17167450487613678,
      "learning_rate": 0.0008999115216090985,
      "loss": 0.5932,
      "num_input_tokens_seen": 7116176,
      "step": 10855
    },
    {
      "epoch": 5.6918238993710695,
      "grad_norm": 0.08835852146148682,
      "learning_rate": 0.0008997742144261612,
      "loss": 0.6472,
      "num_input_tokens_seen": 7118544,
      "step": 10860
    },
    {
      "epoch": 5.694444444444445,
      "grad_norm": 0.05247250944375992,
      "learning_rate": 0.000899636823615019,
      "loss": 0.4413,
      "num_input_tokens_seen": 7123152,
      "step": 10865
    },
    {
      "epoch": 5.69706498951782,
      "grad_norm": 0.050340618938207626,
      "learning_rate": 0.0008994993492044127,
      "loss": 0.4775,
      "num_input_tokens_seen": 7126448,
      "step": 10870
    },
    {
      "epoch": 5.699685534591195,
      "grad_norm": 0.053532470017671585,
      "learning_rate": 0.0008993617912231003,
      "loss": 0.4504,
      "num_input_tokens_seen": 7129360,
      "step": 10875
    },
    {
      "epoch": 5.70230607966457,
      "grad_norm": 0.06834382563829422,
      "learning_rate": 0.0008992241496998572,
      "loss": 0.405,
      "num_input_tokens_seen": 7132432,
      "step": 10880
    },
    {
      "epoch": 5.704926624737945,
      "grad_norm": 0.06348369270563126,
      "learning_rate": 0.0008990864246634767,
      "loss": 0.437,
      "num_input_tokens_seen": 7135056,
      "step": 10885
    },
    {
      "epoch": 5.7075471698113205,
      "grad_norm": 0.1064876839518547,
      "learning_rate": 0.0008989486161427691,
      "loss": 0.5374,
      "num_input_tokens_seen": 7138160,
      "step": 10890
    },
    {
      "epoch": 5.710167714884696,
      "grad_norm": 0.10093604028224945,
      "learning_rate": 0.0008988107241665624,
      "loss": 0.4568,
      "num_input_tokens_seen": 7141296,
      "step": 10895
    },
    {
      "epoch": 5.712788259958071,
      "grad_norm": 0.09385815262794495,
      "learning_rate": 0.0008986727487637022,
      "loss": 0.3649,
      "num_input_tokens_seen": 7143984,
      "step": 10900
    },
    {
      "epoch": 5.715408805031447,
      "grad_norm": 0.10612881183624268,
      "learning_rate": 0.0008985346899630513,
      "loss": 0.4758,
      "num_input_tokens_seen": 7146608,
      "step": 10905
    },
    {
      "epoch": 5.718029350104822,
      "grad_norm": 0.24201107025146484,
      "learning_rate": 0.0008983965477934899,
      "loss": 0.4555,
      "num_input_tokens_seen": 7149296,
      "step": 10910
    },
    {
      "epoch": 5.720649895178197,
      "grad_norm": 0.16743230819702148,
      "learning_rate": 0.0008982583222839158,
      "loss": 0.5459,
      "num_input_tokens_seen": 7155440,
      "step": 10915
    },
    {
      "epoch": 5.723270440251572,
      "grad_norm": 0.08017987012863159,
      "learning_rate": 0.0008981200134632444,
      "loss": 0.5159,
      "num_input_tokens_seen": 7158768,
      "step": 10920
    },
    {
      "epoch": 5.725890985324948,
      "grad_norm": 0.1016082689166069,
      "learning_rate": 0.000897981621360408,
      "loss": 0.4332,
      "num_input_tokens_seen": 7162160,
      "step": 10925
    },
    {
      "epoch": 5.728511530398323,
      "grad_norm": 0.07004458457231522,
      "learning_rate": 0.0008978431460043569,
      "loss": 0.2948,
      "num_input_tokens_seen": 7165296,
      "step": 10930
    },
    {
      "epoch": 5.731132075471698,
      "grad_norm": 0.14086171984672546,
      "learning_rate": 0.0008977045874240585,
      "loss": 0.5056,
      "num_input_tokens_seen": 7168912,
      "step": 10935
    },
    {
      "epoch": 5.733752620545073,
      "grad_norm": 0.11488671600818634,
      "learning_rate": 0.0008975659456484977,
      "loss": 0.4599,
      "num_input_tokens_seen": 7171536,
      "step": 10940
    },
    {
      "epoch": 5.736373165618449,
      "grad_norm": 0.09616987407207489,
      "learning_rate": 0.0008974272207066767,
      "loss": 0.4444,
      "num_input_tokens_seen": 7174800,
      "step": 10945
    },
    {
      "epoch": 5.738993710691824,
      "grad_norm": 0.09533089399337769,
      "learning_rate": 0.0008972884126276152,
      "loss": 0.4308,
      "num_input_tokens_seen": 7177520,
      "step": 10950
    },
    {
      "epoch": 5.7416142557651995,
      "grad_norm": 0.11962543427944183,
      "learning_rate": 0.0008971495214403502,
      "loss": 0.4465,
      "num_input_tokens_seen": 7179728,
      "step": 10955
    },
    {
      "epoch": 5.744234800838575,
      "grad_norm": 0.09629682451486588,
      "learning_rate": 0.0008970105471739364,
      "loss": 0.4554,
      "num_input_tokens_seen": 7183024,
      "step": 10960
    },
    {
      "epoch": 5.74685534591195,
      "grad_norm": 0.06099168211221695,
      "learning_rate": 0.0008968714898574454,
      "loss": 0.4746,
      "num_input_tokens_seen": 7185712,
      "step": 10965
    },
    {
      "epoch": 5.749475890985325,
      "grad_norm": 0.08996910601854324,
      "learning_rate": 0.0008967323495199665,
      "loss": 0.4328,
      "num_input_tokens_seen": 7190160,
      "step": 10970
    },
    {
      "epoch": 5.7520964360587,
      "grad_norm": 0.060170724987983704,
      "learning_rate": 0.0008965931261906061,
      "loss": 0.4576,
      "num_input_tokens_seen": 7193392,
      "step": 10975
    },
    {
      "epoch": 5.754716981132075,
      "grad_norm": 0.12358245253562927,
      "learning_rate": 0.0008964538198984885,
      "loss": 0.4122,
      "num_input_tokens_seen": 7196784,
      "step": 10980
    },
    {
      "epoch": 5.7573375262054505,
      "grad_norm": 0.08004108816385269,
      "learning_rate": 0.0008963144306727547,
      "loss": 0.6645,
      "num_input_tokens_seen": 7200400,
      "step": 10985
    },
    {
      "epoch": 5.759958071278826,
      "grad_norm": 0.09876164048910141,
      "learning_rate": 0.0008961749585425634,
      "loss": 0.3679,
      "num_input_tokens_seen": 7204048,
      "step": 10990
    },
    {
      "epoch": 5.762578616352201,
      "grad_norm": 0.05132538080215454,
      "learning_rate": 0.0008960354035370905,
      "loss": 0.44,
      "num_input_tokens_seen": 7207184,
      "step": 10995
    },
    {
      "epoch": 5.765199161425577,
      "grad_norm": 0.16644832491874695,
      "learning_rate": 0.0008958957656855294,
      "loss": 0.3614,
      "num_input_tokens_seen": 7210640,
      "step": 11000
    },
    {
      "epoch": 5.767819706498952,
      "grad_norm": 0.06517969816923141,
      "learning_rate": 0.0008957560450170907,
      "loss": 0.4965,
      "num_input_tokens_seen": 7214672,
      "step": 11005
    },
    {
      "epoch": 5.770440251572327,
      "grad_norm": 0.1005665734410286,
      "learning_rate": 0.0008956162415610025,
      "loss": 0.4312,
      "num_input_tokens_seen": 7217264,
      "step": 11010
    },
    {
      "epoch": 5.773060796645702,
      "grad_norm": 0.11999613046646118,
      "learning_rate": 0.00089547635534651,
      "loss": 0.4952,
      "num_input_tokens_seen": 7220848,
      "step": 11015
    },
    {
      "epoch": 5.7756813417190775,
      "grad_norm": 0.07858625054359436,
      "learning_rate": 0.0008953363864028758,
      "loss": 0.3997,
      "num_input_tokens_seen": 7223408,
      "step": 11020
    },
    {
      "epoch": 5.778301886792453,
      "grad_norm": 0.10785995423793793,
      "learning_rate": 0.0008951963347593796,
      "loss": 0.5933,
      "num_input_tokens_seen": 7225744,
      "step": 11025
    },
    {
      "epoch": 5.780922431865828,
      "grad_norm": 0.11179422587156296,
      "learning_rate": 0.0008950562004453191,
      "loss": 0.484,
      "num_input_tokens_seen": 7228528,
      "step": 11030
    },
    {
      "epoch": 5.783542976939203,
      "grad_norm": 0.06744150817394257,
      "learning_rate": 0.0008949159834900082,
      "loss": 0.6242,
      "num_input_tokens_seen": 7231920,
      "step": 11035
    },
    {
      "epoch": 5.786163522012579,
      "grad_norm": 0.05015942081809044,
      "learning_rate": 0.0008947756839227792,
      "loss": 0.3777,
      "num_input_tokens_seen": 7234864,
      "step": 11040
    },
    {
      "epoch": 5.788784067085954,
      "grad_norm": 0.13136020302772522,
      "learning_rate": 0.0008946353017729809,
      "loss": 0.6223,
      "num_input_tokens_seen": 7237648,
      "step": 11045
    },
    {
      "epoch": 5.7914046121593294,
      "grad_norm": 0.08624756336212158,
      "learning_rate": 0.0008944948370699798,
      "loss": 0.5358,
      "num_input_tokens_seen": 7241232,
      "step": 11050
    },
    {
      "epoch": 5.794025157232705,
      "grad_norm": 0.06739348918199539,
      "learning_rate": 0.0008943542898431593,
      "loss": 0.4646,
      "num_input_tokens_seen": 7245008,
      "step": 11055
    },
    {
      "epoch": 5.79664570230608,
      "grad_norm": 0.10140512883663177,
      "learning_rate": 0.0008942136601219205,
      "loss": 0.5459,
      "num_input_tokens_seen": 7248368,
      "step": 11060
    },
    {
      "epoch": 5.799266247379455,
      "grad_norm": 0.07280240952968597,
      "learning_rate": 0.0008940729479356813,
      "loss": 0.4707,
      "num_input_tokens_seen": 7251920,
      "step": 11065
    },
    {
      "epoch": 5.80188679245283,
      "grad_norm": 0.044401757419109344,
      "learning_rate": 0.0008939321533138774,
      "loss": 0.3511,
      "num_input_tokens_seen": 7254800,
      "step": 11070
    },
    {
      "epoch": 5.804507337526205,
      "grad_norm": 0.10645563900470734,
      "learning_rate": 0.0008937912762859611,
      "loss": 0.534,
      "num_input_tokens_seen": 7257552,
      "step": 11075
    },
    {
      "epoch": 5.8071278825995805,
      "grad_norm": 0.08666805177927017,
      "learning_rate": 0.0008936503168814024,
      "loss": 0.434,
      "num_input_tokens_seen": 7261328,
      "step": 11080
    },
    {
      "epoch": 5.809748427672956,
      "grad_norm": 0.07077767699956894,
      "learning_rate": 0.0008935092751296885,
      "loss": 0.4783,
      "num_input_tokens_seen": 7264432,
      "step": 11085
    },
    {
      "epoch": 5.812368972746331,
      "grad_norm": 0.11098459362983704,
      "learning_rate": 0.0008933681510603235,
      "loss": 0.5289,
      "num_input_tokens_seen": 7266864,
      "step": 11090
    },
    {
      "epoch": 5.814989517819707,
      "grad_norm": 0.05209510400891304,
      "learning_rate": 0.0008932269447028292,
      "loss": 0.6452,
      "num_input_tokens_seen": 7269936,
      "step": 11095
    },
    {
      "epoch": 5.817610062893082,
      "grad_norm": 0.11415263265371323,
      "learning_rate": 0.0008930856560867442,
      "loss": 0.3839,
      "num_input_tokens_seen": 7273552,
      "step": 11100
    },
    {
      "epoch": 5.820230607966457,
      "grad_norm": 0.09647440165281296,
      "learning_rate": 0.0008929442852416245,
      "loss": 0.4695,
      "num_input_tokens_seen": 7276752,
      "step": 11105
    },
    {
      "epoch": 5.822851153039832,
      "grad_norm": 0.14070840179920197,
      "learning_rate": 0.0008928028321970433,
      "loss": 0.3852,
      "num_input_tokens_seen": 7278704,
      "step": 11110
    },
    {
      "epoch": 5.8254716981132075,
      "grad_norm": 0.11163754761219025,
      "learning_rate": 0.0008926612969825909,
      "loss": 0.507,
      "num_input_tokens_seen": 7281488,
      "step": 11115
    },
    {
      "epoch": 5.828092243186583,
      "grad_norm": 0.07471249252557755,
      "learning_rate": 0.000892519679627875,
      "loss": 0.403,
      "num_input_tokens_seen": 7284624,
      "step": 11120
    },
    {
      "epoch": 5.830712788259958,
      "grad_norm": 0.060118839144706726,
      "learning_rate": 0.00089237798016252,
      "loss": 0.3526,
      "num_input_tokens_seen": 7287664,
      "step": 11125
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.09082048386335373,
      "learning_rate": 0.0008922361986161682,
      "loss": 0.4565,
      "num_input_tokens_seen": 7290992,
      "step": 11130
    },
    {
      "epoch": 5.835953878406709,
      "grad_norm": 0.08756004273891449,
      "learning_rate": 0.0008920943350184785,
      "loss": 0.4107,
      "num_input_tokens_seen": 7294256,
      "step": 11135
    },
    {
      "epoch": 5.838574423480084,
      "grad_norm": 0.06315022706985474,
      "learning_rate": 0.0008919523893991271,
      "loss": 0.4432,
      "num_input_tokens_seen": 7297424,
      "step": 11140
    },
    {
      "epoch": 5.841194968553459,
      "grad_norm": 0.09965426474809647,
      "learning_rate": 0.0008918103617878075,
      "loss": 0.4995,
      "num_input_tokens_seen": 7300592,
      "step": 11145
    },
    {
      "epoch": 5.843815513626835,
      "grad_norm": 0.06215228885412216,
      "learning_rate": 0.0008916682522142302,
      "loss": 0.4663,
      "num_input_tokens_seen": 7303568,
      "step": 11150
    },
    {
      "epoch": 5.84643605870021,
      "grad_norm": 0.09144339710474014,
      "learning_rate": 0.000891526060708123,
      "loss": 0.4131,
      "num_input_tokens_seen": 7306736,
      "step": 11155
    },
    {
      "epoch": 5.849056603773585,
      "grad_norm": 0.07925480604171753,
      "learning_rate": 0.0008913837872992306,
      "loss": 0.42,
      "num_input_tokens_seen": 7309488,
      "step": 11160
    },
    {
      "epoch": 5.85167714884696,
      "grad_norm": 0.06438411772251129,
      "learning_rate": 0.000891241432017315,
      "loss": 0.4083,
      "num_input_tokens_seen": 7312400,
      "step": 11165
    },
    {
      "epoch": 5.854297693920335,
      "grad_norm": 0.05549168214201927,
      "learning_rate": 0.0008910989948921555,
      "loss": 0.4028,
      "num_input_tokens_seen": 7316112,
      "step": 11170
    },
    {
      "epoch": 5.8569182389937104,
      "grad_norm": 0.09905706346035004,
      "learning_rate": 0.000890956475953548,
      "loss": 0.4382,
      "num_input_tokens_seen": 7319216,
      "step": 11175
    },
    {
      "epoch": 5.859538784067086,
      "grad_norm": 0.07175421714782715,
      "learning_rate": 0.0008908138752313061,
      "loss": 0.3853,
      "num_input_tokens_seen": 7322192,
      "step": 11180
    },
    {
      "epoch": 5.862159329140461,
      "grad_norm": 0.09311728924512863,
      "learning_rate": 0.0008906711927552601,
      "loss": 0.3638,
      "num_input_tokens_seen": 7325072,
      "step": 11185
    },
    {
      "epoch": 5.864779874213837,
      "grad_norm": 0.11747577041387558,
      "learning_rate": 0.0008905284285552575,
      "loss": 0.5313,
      "num_input_tokens_seen": 7327600,
      "step": 11190
    },
    {
      "epoch": 5.867400419287212,
      "grad_norm": 0.160232275724411,
      "learning_rate": 0.0008903855826611631,
      "loss": 0.4876,
      "num_input_tokens_seen": 7330576,
      "step": 11195
    },
    {
      "epoch": 5.870020964360587,
      "grad_norm": 0.08704744279384613,
      "learning_rate": 0.0008902426551028586,
      "loss": 0.463,
      "num_input_tokens_seen": 7333360,
      "step": 11200
    },
    {
      "epoch": 5.872641509433962,
      "grad_norm": 0.08539269119501114,
      "learning_rate": 0.0008900996459102428,
      "loss": 0.4964,
      "num_input_tokens_seen": 7336656,
      "step": 11205
    },
    {
      "epoch": 5.8752620545073375,
      "grad_norm": 0.06772743165493011,
      "learning_rate": 0.0008899565551132315,
      "loss": 0.4307,
      "num_input_tokens_seen": 7341008,
      "step": 11210
    },
    {
      "epoch": 5.877882599580713,
      "grad_norm": 0.07393039017915726,
      "learning_rate": 0.0008898133827417578,
      "loss": 0.5025,
      "num_input_tokens_seen": 7343856,
      "step": 11215
    },
    {
      "epoch": 5.880503144654088,
      "grad_norm": 0.051656901836395264,
      "learning_rate": 0.0008896701288257716,
      "loss": 0.6205,
      "num_input_tokens_seen": 7347056,
      "step": 11220
    },
    {
      "epoch": 5.883123689727463,
      "grad_norm": 0.08304382860660553,
      "learning_rate": 0.00088952679339524,
      "loss": 0.418,
      "num_input_tokens_seen": 7350320,
      "step": 11225
    },
    {
      "epoch": 5.885744234800838,
      "grad_norm": 0.0679163932800293,
      "learning_rate": 0.0008893833764801473,
      "loss": 0.4974,
      "num_input_tokens_seen": 7353392,
      "step": 11230
    },
    {
      "epoch": 5.888364779874214,
      "grad_norm": 0.06719517707824707,
      "learning_rate": 0.0008892398781104945,
      "loss": 0.4149,
      "num_input_tokens_seen": 7356400,
      "step": 11235
    },
    {
      "epoch": 5.890985324947589,
      "grad_norm": 0.0503617525100708,
      "learning_rate": 0.0008890962983162997,
      "loss": 0.4527,
      "num_input_tokens_seen": 7359216,
      "step": 11240
    },
    {
      "epoch": 5.893605870020965,
      "grad_norm": 0.08505856245756149,
      "learning_rate": 0.0008889526371275987,
      "loss": 0.4047,
      "num_input_tokens_seen": 7361904,
      "step": 11245
    },
    {
      "epoch": 5.89622641509434,
      "grad_norm": 0.08428967744112015,
      "learning_rate": 0.0008888088945744432,
      "loss": 0.4572,
      "num_input_tokens_seen": 7365040,
      "step": 11250
    },
    {
      "epoch": 5.898846960167715,
      "grad_norm": 0.07049956917762756,
      "learning_rate": 0.0008886650706869027,
      "loss": 0.4075,
      "num_input_tokens_seen": 7368368,
      "step": 11255
    },
    {
      "epoch": 5.90146750524109,
      "grad_norm": 0.08817142993211746,
      "learning_rate": 0.0008885211654950636,
      "loss": 0.4763,
      "num_input_tokens_seen": 7370960,
      "step": 11260
    },
    {
      "epoch": 5.904088050314465,
      "grad_norm": 0.06549142301082611,
      "learning_rate": 0.0008883771790290291,
      "loss": 0.3728,
      "num_input_tokens_seen": 7374192,
      "step": 11265
    },
    {
      "epoch": 5.90670859538784,
      "grad_norm": 0.08063815534114838,
      "learning_rate": 0.0008882331113189197,
      "loss": 0.5484,
      "num_input_tokens_seen": 7377456,
      "step": 11270
    },
    {
      "epoch": 5.909329140461216,
      "grad_norm": 0.07101596146821976,
      "learning_rate": 0.0008880889623948724,
      "loss": 0.5805,
      "num_input_tokens_seen": 7380688,
      "step": 11275
    },
    {
      "epoch": 5.911949685534591,
      "grad_norm": 0.09626126289367676,
      "learning_rate": 0.000887944732287042,
      "loss": 0.5706,
      "num_input_tokens_seen": 7384112,
      "step": 11280
    },
    {
      "epoch": 5.914570230607967,
      "grad_norm": 0.06157802417874336,
      "learning_rate": 0.0008878004210255995,
      "loss": 0.5405,
      "num_input_tokens_seen": 7388240,
      "step": 11285
    },
    {
      "epoch": 5.917190775681342,
      "grad_norm": 0.06381572037935257,
      "learning_rate": 0.0008876560286407329,
      "loss": 0.4872,
      "num_input_tokens_seen": 7391600,
      "step": 11290
    },
    {
      "epoch": 5.919811320754717,
      "grad_norm": 0.08027154952287674,
      "learning_rate": 0.000887511555162648,
      "loss": 0.5055,
      "num_input_tokens_seen": 7395184,
      "step": 11295
    },
    {
      "epoch": 5.922431865828092,
      "grad_norm": 0.0666775107383728,
      "learning_rate": 0.0008873670006215666,
      "loss": 0.5769,
      "num_input_tokens_seen": 7398032,
      "step": 11300
    },
    {
      "epoch": 5.9250524109014675,
      "grad_norm": 0.0958479717373848,
      "learning_rate": 0.0008872223650477281,
      "loss": 0.4368,
      "num_input_tokens_seen": 7401360,
      "step": 11305
    },
    {
      "epoch": 5.927672955974843,
      "grad_norm": 0.13391810655593872,
      "learning_rate": 0.0008870776484713882,
      "loss": 0.496,
      "num_input_tokens_seen": 7404112,
      "step": 11310
    },
    {
      "epoch": 5.930293501048218,
      "grad_norm": 0.07586339116096497,
      "learning_rate": 0.0008869328509228205,
      "loss": 0.4107,
      "num_input_tokens_seen": 7407056,
      "step": 11315
    },
    {
      "epoch": 5.932914046121593,
      "grad_norm": 0.1575615257024765,
      "learning_rate": 0.0008867879724323147,
      "loss": 0.5254,
      "num_input_tokens_seen": 7410288,
      "step": 11320
    },
    {
      "epoch": 5.935534591194968,
      "grad_norm": 0.053282320499420166,
      "learning_rate": 0.0008866430130301777,
      "loss": 0.5199,
      "num_input_tokens_seen": 7413520,
      "step": 11325
    },
    {
      "epoch": 5.938155136268344,
      "grad_norm": 0.07341096550226212,
      "learning_rate": 0.0008864979727467335,
      "loss": 0.4237,
      "num_input_tokens_seen": 7415920,
      "step": 11330
    },
    {
      "epoch": 5.940775681341719,
      "grad_norm": 0.07640644907951355,
      "learning_rate": 0.000886352851612323,
      "loss": 0.3639,
      "num_input_tokens_seen": 7419056,
      "step": 11335
    },
    {
      "epoch": 5.943396226415095,
      "grad_norm": 0.08486912399530411,
      "learning_rate": 0.0008862076496573034,
      "loss": 0.5622,
      "num_input_tokens_seen": 7423216,
      "step": 11340
    },
    {
      "epoch": 5.94601677148847,
      "grad_norm": 0.14583027362823486,
      "learning_rate": 0.0008860623669120496,
      "loss": 0.4647,
      "num_input_tokens_seen": 7426352,
      "step": 11345
    },
    {
      "epoch": 5.948637316561845,
      "grad_norm": 0.08217135071754456,
      "learning_rate": 0.0008859170034069533,
      "loss": 0.4378,
      "num_input_tokens_seen": 7429712,
      "step": 11350
    },
    {
      "epoch": 5.95125786163522,
      "grad_norm": 0.05531996861100197,
      "learning_rate": 0.0008857715591724225,
      "loss": 0.4171,
      "num_input_tokens_seen": 7432912,
      "step": 11355
    },
    {
      "epoch": 5.953878406708595,
      "grad_norm": 0.050040096044540405,
      "learning_rate": 0.0008856260342388827,
      "loss": 0.3749,
      "num_input_tokens_seen": 7436592,
      "step": 11360
    },
    {
      "epoch": 5.95649895178197,
      "grad_norm": 0.07206269353628159,
      "learning_rate": 0.0008854804286367758,
      "loss": 0.3413,
      "num_input_tokens_seen": 7439696,
      "step": 11365
    },
    {
      "epoch": 5.959119496855346,
      "grad_norm": 0.11647721379995346,
      "learning_rate": 0.0008853347423965612,
      "loss": 0.4039,
      "num_input_tokens_seen": 7442704,
      "step": 11370
    },
    {
      "epoch": 5.961740041928721,
      "grad_norm": 0.058786604553461075,
      "learning_rate": 0.0008851889755487146,
      "loss": 0.5353,
      "num_input_tokens_seen": 7446224,
      "step": 11375
    },
    {
      "epoch": 5.964360587002097,
      "grad_norm": 0.07821574807167053,
      "learning_rate": 0.0008850431281237288,
      "loss": 0.5159,
      "num_input_tokens_seen": 7449008,
      "step": 11380
    },
    {
      "epoch": 5.966981132075472,
      "grad_norm": 0.036325033754110336,
      "learning_rate": 0.0008848972001521134,
      "loss": 0.3188,
      "num_input_tokens_seen": 7453008,
      "step": 11385
    },
    {
      "epoch": 5.969601677148847,
      "grad_norm": 0.07217619568109512,
      "learning_rate": 0.0008847511916643948,
      "loss": 0.502,
      "num_input_tokens_seen": 7456144,
      "step": 11390
    },
    {
      "epoch": 5.972222222222222,
      "grad_norm": 0.08443109691143036,
      "learning_rate": 0.0008846051026911164,
      "loss": 0.4409,
      "num_input_tokens_seen": 7459504,
      "step": 11395
    },
    {
      "epoch": 5.9748427672955975,
      "grad_norm": 0.053296759724617004,
      "learning_rate": 0.0008844589332628383,
      "loss": 0.5006,
      "num_input_tokens_seen": 7463760,
      "step": 11400
    },
    {
      "epoch": 5.977463312368973,
      "grad_norm": 0.038508206605911255,
      "learning_rate": 0.0008843126834101376,
      "loss": 0.3588,
      "num_input_tokens_seen": 7467280,
      "step": 11405
    },
    {
      "epoch": 5.980083857442348,
      "grad_norm": 0.055304236710071564,
      "learning_rate": 0.000884166353163608,
      "loss": 0.3806,
      "num_input_tokens_seen": 7470096,
      "step": 11410
    },
    {
      "epoch": 5.982704402515723,
      "grad_norm": 0.0812402293086052,
      "learning_rate": 0.0008840199425538599,
      "loss": 0.4607,
      "num_input_tokens_seen": 7472624,
      "step": 11415
    },
    {
      "epoch": 5.985324947589098,
      "grad_norm": 0.07604651153087616,
      "learning_rate": 0.0008838734516115213,
      "loss": 0.534,
      "num_input_tokens_seen": 7475760,
      "step": 11420
    },
    {
      "epoch": 5.987945492662474,
      "grad_norm": 0.10753457248210907,
      "learning_rate": 0.0008837268803672359,
      "loss": 0.5537,
      "num_input_tokens_seen": 7478480,
      "step": 11425
    },
    {
      "epoch": 5.990566037735849,
      "grad_norm": 0.058148469775915146,
      "learning_rate": 0.0008835802288516647,
      "loss": 0.4219,
      "num_input_tokens_seen": 7481616,
      "step": 11430
    },
    {
      "epoch": 5.993186582809225,
      "grad_norm": 0.06778661161661148,
      "learning_rate": 0.0008834334970954861,
      "loss": 0.3486,
      "num_input_tokens_seen": 7484560,
      "step": 11435
    },
    {
      "epoch": 5.9958071278826,
      "grad_norm": 0.056106556206941605,
      "learning_rate": 0.0008832866851293941,
      "loss": 0.466,
      "num_input_tokens_seen": 7488048,
      "step": 11440
    },
    {
      "epoch": 5.998427672955975,
      "grad_norm": 0.06375772505998611,
      "learning_rate": 0.0008831397929841005,
      "loss": 0.5131,
      "num_input_tokens_seen": 7490672,
      "step": 11445
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.47593918442726135,
      "eval_runtime": 13.5784,
      "eval_samples_per_second": 62.452,
      "eval_steps_per_second": 15.613,
      "num_input_tokens_seen": 7491776,
      "step": 11448
    },
    {
      "epoch": 6.00104821802935,
      "grad_norm": 0.08277041465044022,
      "learning_rate": 0.0008829928206903333,
      "loss": 0.3822,
      "num_input_tokens_seen": 7493024,
      "step": 11450
    },
    {
      "epoch": 6.003668763102725,
      "grad_norm": 0.06664524972438812,
      "learning_rate": 0.0008828457682788373,
      "loss": 0.5204,
      "num_input_tokens_seen": 7496448,
      "step": 11455
    },
    {
      "epoch": 6.0062893081761,
      "grad_norm": 0.08033803850412369,
      "learning_rate": 0.0008826986357803743,
      "loss": 0.4656,
      "num_input_tokens_seen": 7499584,
      "step": 11460
    },
    {
      "epoch": 6.008909853249476,
      "grad_norm": 0.12059523910284042,
      "learning_rate": 0.0008825514232257228,
      "loss": 0.4199,
      "num_input_tokens_seen": 7502432,
      "step": 11465
    },
    {
      "epoch": 6.011530398322851,
      "grad_norm": 0.08113756030797958,
      "learning_rate": 0.000882404130645678,
      "loss": 0.5355,
      "num_input_tokens_seen": 7506176,
      "step": 11470
    },
    {
      "epoch": 6.014150943396227,
      "grad_norm": 0.06166117638349533,
      "learning_rate": 0.0008822567580710518,
      "loss": 0.3224,
      "num_input_tokens_seen": 7509248,
      "step": 11475
    },
    {
      "epoch": 6.016771488469602,
      "grad_norm": 0.07026064395904541,
      "learning_rate": 0.0008821093055326728,
      "loss": 0.5636,
      "num_input_tokens_seen": 7512320,
      "step": 11480
    },
    {
      "epoch": 6.019392033542977,
      "grad_norm": 0.08154627680778503,
      "learning_rate": 0.0008819617730613863,
      "loss": 0.5783,
      "num_input_tokens_seen": 7515232,
      "step": 11485
    },
    {
      "epoch": 6.022012578616352,
      "grad_norm": 0.06803280860185623,
      "learning_rate": 0.0008818141606880545,
      "loss": 0.3652,
      "num_input_tokens_seen": 7518752,
      "step": 11490
    },
    {
      "epoch": 6.0246331236897275,
      "grad_norm": 0.06070752814412117,
      "learning_rate": 0.0008816664684435564,
      "loss": 0.4492,
      "num_input_tokens_seen": 7522880,
      "step": 11495
    },
    {
      "epoch": 6.027253668763103,
      "grad_norm": 0.05560179054737091,
      "learning_rate": 0.0008815186963587873,
      "loss": 0.2919,
      "num_input_tokens_seen": 7525952,
      "step": 11500
    },
    {
      "epoch": 6.029874213836478,
      "grad_norm": 0.055660124868154526,
      "learning_rate": 0.0008813708444646596,
      "loss": 0.5409,
      "num_input_tokens_seen": 7529088,
      "step": 11505
    },
    {
      "epoch": 6.032494758909853,
      "grad_norm": 0.10854894667863846,
      "learning_rate": 0.0008812229127921021,
      "loss": 0.5614,
      "num_input_tokens_seen": 7535616,
      "step": 11510
    },
    {
      "epoch": 6.035115303983228,
      "grad_norm": 0.06685581058263779,
      "learning_rate": 0.0008810749013720605,
      "loss": 0.4578,
      "num_input_tokens_seen": 7538240,
      "step": 11515
    },
    {
      "epoch": 6.037735849056604,
      "grad_norm": 0.05054929479956627,
      "learning_rate": 0.0008809268102354969,
      "loss": 0.5431,
      "num_input_tokens_seen": 7541312,
      "step": 11520
    },
    {
      "epoch": 6.040356394129979,
      "grad_norm": 0.0750511884689331,
      "learning_rate": 0.0008807786394133905,
      "loss": 0.4288,
      "num_input_tokens_seen": 7544160,
      "step": 11525
    },
    {
      "epoch": 6.0429769392033545,
      "grad_norm": 0.06805145740509033,
      "learning_rate": 0.0008806303889367371,
      "loss": 0.5037,
      "num_input_tokens_seen": 7546976,
      "step": 11530
    },
    {
      "epoch": 6.04559748427673,
      "grad_norm": 0.11120704561471939,
      "learning_rate": 0.0008804820588365485,
      "loss": 0.4123,
      "num_input_tokens_seen": 7549536,
      "step": 11535
    },
    {
      "epoch": 6.048218029350105,
      "grad_norm": 0.04103334620594978,
      "learning_rate": 0.0008803336491438543,
      "loss": 0.5191,
      "num_input_tokens_seen": 7552608,
      "step": 11540
    },
    {
      "epoch": 6.05083857442348,
      "grad_norm": 0.10438937693834305,
      "learning_rate": 0.0008801851598896995,
      "loss": 0.4041,
      "num_input_tokens_seen": 7556352,
      "step": 11545
    },
    {
      "epoch": 6.053459119496855,
      "grad_norm": 0.08314179629087448,
      "learning_rate": 0.0008800365911051467,
      "loss": 0.4448,
      "num_input_tokens_seen": 7559072,
      "step": 11550
    },
    {
      "epoch": 6.05607966457023,
      "grad_norm": 0.09172337502241135,
      "learning_rate": 0.0008798879428212747,
      "loss": 0.6515,
      "num_input_tokens_seen": 7562080,
      "step": 11555
    },
    {
      "epoch": 6.058700209643606,
      "grad_norm": 0.0853007510304451,
      "learning_rate": 0.0008797392150691792,
      "loss": 0.3814,
      "num_input_tokens_seen": 7564704,
      "step": 11560
    },
    {
      "epoch": 6.061320754716981,
      "grad_norm": 0.09167642891407013,
      "learning_rate": 0.000879590407879972,
      "loss": 0.4632,
      "num_input_tokens_seen": 7567776,
      "step": 11565
    },
    {
      "epoch": 6.063941299790357,
      "grad_norm": 0.10343924909830093,
      "learning_rate": 0.0008794415212847822,
      "loss": 0.4336,
      "num_input_tokens_seen": 7570976,
      "step": 11570
    },
    {
      "epoch": 6.066561844863732,
      "grad_norm": 0.03829888254404068,
      "learning_rate": 0.000879292555314755,
      "loss": 0.3442,
      "num_input_tokens_seen": 7575168,
      "step": 11575
    },
    {
      "epoch": 6.069182389937107,
      "grad_norm": 0.06951938569545746,
      "learning_rate": 0.0008791435100010524,
      "loss": 0.4238,
      "num_input_tokens_seen": 7577952,
      "step": 11580
    },
    {
      "epoch": 6.071802935010482,
      "grad_norm": 0.06027460843324661,
      "learning_rate": 0.000878994385374853,
      "loss": 0.4838,
      "num_input_tokens_seen": 7580512,
      "step": 11585
    },
    {
      "epoch": 6.0744234800838575,
      "grad_norm": 0.07916707545518875,
      "learning_rate": 0.0008788451814673521,
      "loss": 0.2871,
      "num_input_tokens_seen": 7584032,
      "step": 11590
    },
    {
      "epoch": 6.077044025157233,
      "grad_norm": 0.06481225788593292,
      "learning_rate": 0.0008786958983097613,
      "loss": 0.4312,
      "num_input_tokens_seen": 7587680,
      "step": 11595
    },
    {
      "epoch": 6.079664570230608,
      "grad_norm": 0.05036067217588425,
      "learning_rate": 0.0008785465359333088,
      "loss": 0.3817,
      "num_input_tokens_seen": 7590816,
      "step": 11600
    },
    {
      "epoch": 6.082285115303983,
      "grad_norm": 0.08311349898576736,
      "learning_rate": 0.0008783970943692398,
      "loss": 0.5486,
      "num_input_tokens_seen": 7594016,
      "step": 11605
    },
    {
      "epoch": 6.084905660377358,
      "grad_norm": 0.07311584055423737,
      "learning_rate": 0.0008782475736488156,
      "loss": 0.5439,
      "num_input_tokens_seen": 7597344,
      "step": 11610
    },
    {
      "epoch": 6.087526205450734,
      "grad_norm": 0.08457436412572861,
      "learning_rate": 0.0008780979738033142,
      "loss": 0.5023,
      "num_input_tokens_seen": 7600128,
      "step": 11615
    },
    {
      "epoch": 6.090146750524109,
      "grad_norm": 0.19088828563690186,
      "learning_rate": 0.0008779482948640305,
      "loss": 0.4895,
      "num_input_tokens_seen": 7602816,
      "step": 11620
    },
    {
      "epoch": 6.0927672955974845,
      "grad_norm": 0.10118798911571503,
      "learning_rate": 0.0008777985368622752,
      "loss": 0.374,
      "num_input_tokens_seen": 7605696,
      "step": 11625
    },
    {
      "epoch": 6.09538784067086,
      "grad_norm": 0.18652361631393433,
      "learning_rate": 0.0008776486998293762,
      "loss": 0.5759,
      "num_input_tokens_seen": 7608672,
      "step": 11630
    },
    {
      "epoch": 6.098008385744235,
      "grad_norm": 0.15089288353919983,
      "learning_rate": 0.0008774987837966775,
      "loss": 0.5198,
      "num_input_tokens_seen": 7611936,
      "step": 11635
    },
    {
      "epoch": 6.10062893081761,
      "grad_norm": 0.08941055089235306,
      "learning_rate": 0.0008773487887955401,
      "loss": 0.6182,
      "num_input_tokens_seen": 7614496,
      "step": 11640
    },
    {
      "epoch": 6.103249475890985,
      "grad_norm": 0.08275646716356277,
      "learning_rate": 0.000877198714857341,
      "loss": 0.4307,
      "num_input_tokens_seen": 7617536,
      "step": 11645
    },
    {
      "epoch": 6.10587002096436,
      "grad_norm": 0.10836029797792435,
      "learning_rate": 0.000877048562013474,
      "loss": 0.4754,
      "num_input_tokens_seen": 7620448,
      "step": 11650
    },
    {
      "epoch": 6.1084905660377355,
      "grad_norm": 0.14091630280017853,
      "learning_rate": 0.0008768983302953498,
      "loss": 0.4819,
      "num_input_tokens_seen": 7622592,
      "step": 11655
    },
    {
      "epoch": 6.111111111111111,
      "grad_norm": 0.09184812009334564,
      "learning_rate": 0.0008767480197343945,
      "loss": 0.5105,
      "num_input_tokens_seen": 7626304,
      "step": 11660
    },
    {
      "epoch": 6.113731656184487,
      "grad_norm": 0.05397089198231697,
      "learning_rate": 0.0008765976303620515,
      "loss": 0.4475,
      "num_input_tokens_seen": 7630624,
      "step": 11665
    },
    {
      "epoch": 6.116352201257862,
      "grad_norm": 0.14386549592018127,
      "learning_rate": 0.0008764471622097809,
      "loss": 0.4784,
      "num_input_tokens_seen": 7634848,
      "step": 11670
    },
    {
      "epoch": 6.118972746331237,
      "grad_norm": 0.047303706407547,
      "learning_rate": 0.0008762966153090588,
      "loss": 0.366,
      "num_input_tokens_seen": 7639712,
      "step": 11675
    },
    {
      "epoch": 6.121593291404612,
      "grad_norm": 0.0897391140460968,
      "learning_rate": 0.0008761459896913776,
      "loss": 0.4996,
      "num_input_tokens_seen": 7642784,
      "step": 11680
    },
    {
      "epoch": 6.1242138364779874,
      "grad_norm": 0.1366645097732544,
      "learning_rate": 0.0008759952853882466,
      "loss": 0.405,
      "num_input_tokens_seen": 7645568,
      "step": 11685
    },
    {
      "epoch": 6.126834381551363,
      "grad_norm": 0.10263535380363464,
      "learning_rate": 0.0008758445024311917,
      "loss": 0.5433,
      "num_input_tokens_seen": 7648352,
      "step": 11690
    },
    {
      "epoch": 6.129454926624738,
      "grad_norm": 0.05664035305380821,
      "learning_rate": 0.0008756936408517547,
      "loss": 0.4643,
      "num_input_tokens_seen": 7651840,
      "step": 11695
    },
    {
      "epoch": 6.132075471698113,
      "grad_norm": 0.08762096613645554,
      "learning_rate": 0.000875542700681494,
      "loss": 0.3776,
      "num_input_tokens_seen": 7655328,
      "step": 11700
    },
    {
      "epoch": 6.134696016771488,
      "grad_norm": 0.12942923605442047,
      "learning_rate": 0.0008753916819519849,
      "loss": 0.5761,
      "num_input_tokens_seen": 7658464,
      "step": 11705
    },
    {
      "epoch": 6.137316561844864,
      "grad_norm": 0.07263826578855515,
      "learning_rate": 0.0008752405846948186,
      "loss": 0.5431,
      "num_input_tokens_seen": 7661568,
      "step": 11710
    },
    {
      "epoch": 6.139937106918239,
      "grad_norm": 0.06788668036460876,
      "learning_rate": 0.0008750894089416029,
      "loss": 0.4273,
      "num_input_tokens_seen": 7665312,
      "step": 11715
    },
    {
      "epoch": 6.1425576519916145,
      "grad_norm": 0.10060682147741318,
      "learning_rate": 0.0008749381547239621,
      "loss": 0.4609,
      "num_input_tokens_seen": 7668000,
      "step": 11720
    },
    {
      "epoch": 6.14517819706499,
      "grad_norm": 0.07851670682430267,
      "learning_rate": 0.000874786822073537,
      "loss": 0.3411,
      "num_input_tokens_seen": 7671936,
      "step": 11725
    },
    {
      "epoch": 6.147798742138365,
      "grad_norm": 0.11401816457509995,
      "learning_rate": 0.0008746354110219843,
      "loss": 0.3844,
      "num_input_tokens_seen": 7675520,
      "step": 11730
    },
    {
      "epoch": 6.15041928721174,
      "grad_norm": 0.11942431330680847,
      "learning_rate": 0.0008744839216009779,
      "loss": 0.3772,
      "num_input_tokens_seen": 7678720,
      "step": 11735
    },
    {
      "epoch": 6.153039832285115,
      "grad_norm": 0.10536105185747147,
      "learning_rate": 0.0008743323538422072,
      "loss": 0.4889,
      "num_input_tokens_seen": 7681856,
      "step": 11740
    },
    {
      "epoch": 6.15566037735849,
      "grad_norm": 0.10235778242349625,
      "learning_rate": 0.0008741807077773789,
      "loss": 0.3473,
      "num_input_tokens_seen": 7685824,
      "step": 11745
    },
    {
      "epoch": 6.1582809224318655,
      "grad_norm": 0.08758671581745148,
      "learning_rate": 0.0008740289834382153,
      "loss": 0.3688,
      "num_input_tokens_seen": 7689056,
      "step": 11750
    },
    {
      "epoch": 6.160901467505241,
      "grad_norm": 0.05533965677022934,
      "learning_rate": 0.0008738771808564555,
      "loss": 0.41,
      "num_input_tokens_seen": 7691744,
      "step": 11755
    },
    {
      "epoch": 6.163522012578617,
      "grad_norm": 0.06357719749212265,
      "learning_rate": 0.000873725300063855,
      "loss": 0.4155,
      "num_input_tokens_seen": 7696416,
      "step": 11760
    },
    {
      "epoch": 6.166142557651992,
      "grad_norm": 0.06244008615612984,
      "learning_rate": 0.0008735733410921853,
      "loss": 0.4814,
      "num_input_tokens_seen": 7699232,
      "step": 11765
    },
    {
      "epoch": 6.168763102725367,
      "grad_norm": 0.04873967170715332,
      "learning_rate": 0.0008734213039732346,
      "loss": 0.5121,
      "num_input_tokens_seen": 7703168,
      "step": 11770
    },
    {
      "epoch": 6.171383647798742,
      "grad_norm": 0.08812415599822998,
      "learning_rate": 0.0008732691887388073,
      "loss": 0.3568,
      "num_input_tokens_seen": 7706912,
      "step": 11775
    },
    {
      "epoch": 6.174004192872117,
      "grad_norm": 0.0930212214589119,
      "learning_rate": 0.0008731169954207243,
      "loss": 0.5032,
      "num_input_tokens_seen": 7709504,
      "step": 11780
    },
    {
      "epoch": 6.176624737945493,
      "grad_norm": 0.13777926564216614,
      "learning_rate": 0.0008729647240508225,
      "loss": 0.4369,
      "num_input_tokens_seen": 7711872,
      "step": 11785
    },
    {
      "epoch": 6.179245283018868,
      "grad_norm": 0.10034577548503876,
      "learning_rate": 0.0008728123746609555,
      "loss": 0.3475,
      "num_input_tokens_seen": 7714912,
      "step": 11790
    },
    {
      "epoch": 6.181865828092243,
      "grad_norm": 0.06984014064073563,
      "learning_rate": 0.000872659947282993,
      "loss": 0.4879,
      "num_input_tokens_seen": 7718304,
      "step": 11795
    },
    {
      "epoch": 6.184486373165618,
      "grad_norm": 0.13923922181129456,
      "learning_rate": 0.000872507441948821,
      "loss": 0.5139,
      "num_input_tokens_seen": 7721024,
      "step": 11800
    },
    {
      "epoch": 6.187106918238993,
      "grad_norm": 0.0619347020983696,
      "learning_rate": 0.0008723548586903418,
      "loss": 0.3493,
      "num_input_tokens_seen": 7723872,
      "step": 11805
    },
    {
      "epoch": 6.189727463312369,
      "grad_norm": 0.07381653785705566,
      "learning_rate": 0.0008722021975394745,
      "loss": 0.4262,
      "num_input_tokens_seen": 7726688,
      "step": 11810
    },
    {
      "epoch": 6.1923480083857445,
      "grad_norm": 0.09864044934511185,
      "learning_rate": 0.0008720494585281536,
      "loss": 0.4276,
      "num_input_tokens_seen": 7728992,
      "step": 11815
    },
    {
      "epoch": 6.19496855345912,
      "grad_norm": 0.11752676963806152,
      "learning_rate": 0.0008718966416883306,
      "loss": 0.4694,
      "num_input_tokens_seen": 7732096,
      "step": 11820
    },
    {
      "epoch": 6.197589098532495,
      "grad_norm": 0.10718053579330444,
      "learning_rate": 0.0008717437470519729,
      "loss": 0.5782,
      "num_input_tokens_seen": 7734624,
      "step": 11825
    },
    {
      "epoch": 6.20020964360587,
      "grad_norm": 0.06948576122522354,
      "learning_rate": 0.0008715907746510645,
      "loss": 0.3799,
      "num_input_tokens_seen": 7737792,
      "step": 11830
    },
    {
      "epoch": 6.202830188679245,
      "grad_norm": 0.15266123414039612,
      "learning_rate": 0.0008714377245176054,
      "loss": 0.4232,
      "num_input_tokens_seen": 7740864,
      "step": 11835
    },
    {
      "epoch": 6.20545073375262,
      "grad_norm": 0.10097084939479828,
      "learning_rate": 0.0008712845966836119,
      "loss": 0.3599,
      "num_input_tokens_seen": 7744288,
      "step": 11840
    },
    {
      "epoch": 6.2080712788259955,
      "grad_norm": 0.08001802116632462,
      "learning_rate": 0.0008711313911811165,
      "loss": 0.4879,
      "num_input_tokens_seen": 7747328,
      "step": 11845
    },
    {
      "epoch": 6.210691823899371,
      "grad_norm": 0.10504291951656342,
      "learning_rate": 0.0008709781080421681,
      "loss": 0.4366,
      "num_input_tokens_seen": 7750304,
      "step": 11850
    },
    {
      "epoch": 6.213312368972747,
      "grad_norm": 0.08975241333246231,
      "learning_rate": 0.0008708247472988319,
      "loss": 0.3286,
      "num_input_tokens_seen": 7753088,
      "step": 11855
    },
    {
      "epoch": 6.215932914046122,
      "grad_norm": 0.07098102569580078,
      "learning_rate": 0.0008706713089831893,
      "loss": 0.4098,
      "num_input_tokens_seen": 7756384,
      "step": 11860
    },
    {
      "epoch": 6.218553459119497,
      "grad_norm": 0.06949736177921295,
      "learning_rate": 0.0008705177931273377,
      "loss": 0.3481,
      "num_input_tokens_seen": 7759200,
      "step": 11865
    },
    {
      "epoch": 6.221174004192872,
      "grad_norm": 0.1284111887216568,
      "learning_rate": 0.0008703641997633907,
      "loss": 0.5515,
      "num_input_tokens_seen": 7761952,
      "step": 11870
    },
    {
      "epoch": 6.223794549266247,
      "grad_norm": 0.05523363873362541,
      "learning_rate": 0.0008702105289234786,
      "loss": 0.3193,
      "num_input_tokens_seen": 7765088,
      "step": 11875
    },
    {
      "epoch": 6.226415094339623,
      "grad_norm": 0.09845605492591858,
      "learning_rate": 0.0008700567806397473,
      "loss": 0.4708,
      "num_input_tokens_seen": 7767776,
      "step": 11880
    },
    {
      "epoch": 6.229035639412998,
      "grad_norm": 0.06694909930229187,
      "learning_rate": 0.0008699029549443595,
      "loss": 0.4685,
      "num_input_tokens_seen": 7770240,
      "step": 11885
    },
    {
      "epoch": 6.231656184486373,
      "grad_norm": 0.1473618447780609,
      "learning_rate": 0.0008697490518694935,
      "loss": 0.4845,
      "num_input_tokens_seen": 7773024,
      "step": 11890
    },
    {
      "epoch": 6.234276729559748,
      "grad_norm": 0.09124957025051117,
      "learning_rate": 0.0008695950714473442,
      "loss": 0.3457,
      "num_input_tokens_seen": 7775648,
      "step": 11895
    },
    {
      "epoch": 6.236897274633123,
      "grad_norm": 0.13837823271751404,
      "learning_rate": 0.0008694410137101224,
      "loss": 0.5068,
      "num_input_tokens_seen": 7779168,
      "step": 11900
    },
    {
      "epoch": 6.239517819706499,
      "grad_norm": 0.11187054216861725,
      "learning_rate": 0.0008692868786900554,
      "loss": 0.4812,
      "num_input_tokens_seen": 7783264,
      "step": 11905
    },
    {
      "epoch": 6.2421383647798745,
      "grad_norm": 0.10766462981700897,
      "learning_rate": 0.0008691326664193865,
      "loss": 0.5517,
      "num_input_tokens_seen": 7785920,
      "step": 11910
    },
    {
      "epoch": 6.24475890985325,
      "grad_norm": 0.07930102944374084,
      "learning_rate": 0.000868978376930375,
      "loss": 0.5344,
      "num_input_tokens_seen": 7788640,
      "step": 11915
    },
    {
      "epoch": 6.247379454926625,
      "grad_norm": 0.10063289850950241,
      "learning_rate": 0.0008688240102552965,
      "loss": 0.5528,
      "num_input_tokens_seen": 7792736,
      "step": 11920
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.09858006238937378,
      "learning_rate": 0.000868669566426443,
      "loss": 0.4497,
      "num_input_tokens_seen": 7796128,
      "step": 11925
    },
    {
      "epoch": 6.252620545073375,
      "grad_norm": 0.16178260743618011,
      "learning_rate": 0.0008685150454761222,
      "loss": 0.7064,
      "num_input_tokens_seen": 7799488,
      "step": 11930
    },
    {
      "epoch": 6.25524109014675,
      "grad_norm": 0.09693784266710281,
      "learning_rate": 0.000868360447436658,
      "loss": 0.5423,
      "num_input_tokens_seen": 7803264,
      "step": 11935
    },
    {
      "epoch": 6.2578616352201255,
      "grad_norm": 0.07682737708091736,
      "learning_rate": 0.0008682057723403907,
      "loss": 0.5169,
      "num_input_tokens_seen": 7805920,
      "step": 11940
    },
    {
      "epoch": 6.260482180293501,
      "grad_norm": 0.057310301810503006,
      "learning_rate": 0.0008680510202196765,
      "loss": 0.3992,
      "num_input_tokens_seen": 7809728,
      "step": 11945
    },
    {
      "epoch": 6.263102725366876,
      "grad_norm": 0.0939088985323906,
      "learning_rate": 0.0008678961911068879,
      "loss": 0.5062,
      "num_input_tokens_seen": 7813056,
      "step": 11950
    },
    {
      "epoch": 6.265723270440252,
      "grad_norm": 0.061955444514751434,
      "learning_rate": 0.0008677412850344133,
      "loss": 0.5569,
      "num_input_tokens_seen": 7815904,
      "step": 11955
    },
    {
      "epoch": 6.268343815513627,
      "grad_norm": 0.09443516284227371,
      "learning_rate": 0.0008675863020346573,
      "loss": 0.5723,
      "num_input_tokens_seen": 7819744,
      "step": 11960
    },
    {
      "epoch": 6.270964360587002,
      "grad_norm": 0.041263263672590256,
      "learning_rate": 0.0008674312421400405,
      "loss": 0.4105,
      "num_input_tokens_seen": 7823104,
      "step": 11965
    },
    {
      "epoch": 6.273584905660377,
      "grad_norm": 0.14364935457706451,
      "learning_rate": 0.0008672761053829997,
      "loss": 0.4398,
      "num_input_tokens_seen": 7825728,
      "step": 11970
    },
    {
      "epoch": 6.276205450733753,
      "grad_norm": 0.10256201028823853,
      "learning_rate": 0.0008671208917959878,
      "loss": 0.4989,
      "num_input_tokens_seen": 7828288,
      "step": 11975
    },
    {
      "epoch": 6.278825995807128,
      "grad_norm": 0.05433318018913269,
      "learning_rate": 0.0008669656014114737,
      "loss": 0.5139,
      "num_input_tokens_seen": 7830912,
      "step": 11980
    },
    {
      "epoch": 6.281446540880503,
      "grad_norm": 0.08774960041046143,
      "learning_rate": 0.0008668102342619424,
      "loss": 0.3491,
      "num_input_tokens_seen": 7833728,
      "step": 11985
    },
    {
      "epoch": 6.284067085953878,
      "grad_norm": 0.051400959491729736,
      "learning_rate": 0.0008666547903798947,
      "loss": 0.463,
      "num_input_tokens_seen": 7837632,
      "step": 11990
    },
    {
      "epoch": 6.286687631027253,
      "grad_norm": 0.10476464778184891,
      "learning_rate": 0.000866499269797848,
      "loss": 0.3586,
      "num_input_tokens_seen": 7840672,
      "step": 11995
    },
    {
      "epoch": 6.289308176100629,
      "grad_norm": 0.06359368562698364,
      "learning_rate": 0.0008663436725483354,
      "loss": 0.5271,
      "num_input_tokens_seen": 7843488,
      "step": 12000
    },
    {
      "epoch": 6.2919287211740045,
      "grad_norm": 0.08874376118183136,
      "learning_rate": 0.0008661879986639058,
      "loss": 0.6468,
      "num_input_tokens_seen": 7845952,
      "step": 12005
    },
    {
      "epoch": 6.29454926624738,
      "grad_norm": 0.13223309814929962,
      "learning_rate": 0.0008660322481771246,
      "loss": 0.4504,
      "num_input_tokens_seen": 7849088,
      "step": 12010
    },
    {
      "epoch": 6.297169811320755,
      "grad_norm": 0.05616173520684242,
      "learning_rate": 0.0008658764211205731,
      "loss": 0.4186,
      "num_input_tokens_seen": 7853792,
      "step": 12015
    },
    {
      "epoch": 6.29979035639413,
      "grad_norm": 0.1513025462627411,
      "learning_rate": 0.0008657205175268484,
      "loss": 0.5482,
      "num_input_tokens_seen": 7856448,
      "step": 12020
    },
    {
      "epoch": 6.302410901467505,
      "grad_norm": 0.06299155950546265,
      "learning_rate": 0.0008655645374285637,
      "loss": 0.4277,
      "num_input_tokens_seen": 7859200,
      "step": 12025
    },
    {
      "epoch": 6.30503144654088,
      "grad_norm": 0.05232926830649376,
      "learning_rate": 0.0008654084808583485,
      "loss": 0.6017,
      "num_input_tokens_seen": 7864064,
      "step": 12030
    },
    {
      "epoch": 6.3076519916142555,
      "grad_norm": 0.057172853499650955,
      "learning_rate": 0.0008652523478488478,
      "loss": 0.3799,
      "num_input_tokens_seen": 7867552,
      "step": 12035
    },
    {
      "epoch": 6.310272536687631,
      "grad_norm": 0.0893237292766571,
      "learning_rate": 0.000865096138432723,
      "loss": 0.4307,
      "num_input_tokens_seen": 7871360,
      "step": 12040
    },
    {
      "epoch": 6.312893081761006,
      "grad_norm": 0.08358286321163177,
      "learning_rate": 0.0008649398526426512,
      "loss": 0.5034,
      "num_input_tokens_seen": 7874656,
      "step": 12045
    },
    {
      "epoch": 6.315513626834382,
      "grad_norm": 0.06896735727787018,
      "learning_rate": 0.0008647834905113256,
      "loss": 0.4699,
      "num_input_tokens_seen": 7877792,
      "step": 12050
    },
    {
      "epoch": 6.318134171907757,
      "grad_norm": 0.06438267976045609,
      "learning_rate": 0.0008646270520714556,
      "loss": 0.4227,
      "num_input_tokens_seen": 7881760,
      "step": 12055
    },
    {
      "epoch": 6.320754716981132,
      "grad_norm": 0.11011284589767456,
      "learning_rate": 0.0008644705373557663,
      "loss": 0.4574,
      "num_input_tokens_seen": 7887968,
      "step": 12060
    },
    {
      "epoch": 6.323375262054507,
      "grad_norm": 0.08568761497735977,
      "learning_rate": 0.0008643139463969985,
      "loss": 0.4414,
      "num_input_tokens_seen": 7892832,
      "step": 12065
    },
    {
      "epoch": 6.325995807127883,
      "grad_norm": 0.060910556465387344,
      "learning_rate": 0.0008641572792279095,
      "loss": 0.5647,
      "num_input_tokens_seen": 7896512,
      "step": 12070
    },
    {
      "epoch": 6.328616352201258,
      "grad_norm": 0.08200164884328842,
      "learning_rate": 0.0008640005358812723,
      "loss": 0.4425,
      "num_input_tokens_seen": 7898720,
      "step": 12075
    },
    {
      "epoch": 6.331236897274633,
      "grad_norm": 0.0944327861070633,
      "learning_rate": 0.0008638437163898756,
      "loss": 0.3947,
      "num_input_tokens_seen": 7902528,
      "step": 12080
    },
    {
      "epoch": 6.333857442348008,
      "grad_norm": 0.11685097962617874,
      "learning_rate": 0.0008636868207865244,
      "loss": 0.5487,
      "num_input_tokens_seen": 7906336,
      "step": 12085
    },
    {
      "epoch": 6.336477987421383,
      "grad_norm": 0.09610330313444138,
      "learning_rate": 0.0008635298491040394,
      "loss": 0.4483,
      "num_input_tokens_seen": 7910240,
      "step": 12090
    },
    {
      "epoch": 6.339098532494759,
      "grad_norm": 0.10272429138422012,
      "learning_rate": 0.0008633728013752574,
      "loss": 0.4062,
      "num_input_tokens_seen": 7912800,
      "step": 12095
    },
    {
      "epoch": 6.3417190775681345,
      "grad_norm": 0.06960093230009079,
      "learning_rate": 0.000863215677633031,
      "loss": 0.5073,
      "num_input_tokens_seen": 7916544,
      "step": 12100
    },
    {
      "epoch": 6.34433962264151,
      "grad_norm": 0.06715451180934906,
      "learning_rate": 0.0008630584779102285,
      "loss": 0.4642,
      "num_input_tokens_seen": 7920192,
      "step": 12105
    },
    {
      "epoch": 6.346960167714885,
      "grad_norm": 0.08575300127267838,
      "learning_rate": 0.0008629012022397344,
      "loss": 0.4438,
      "num_input_tokens_seen": 7923264,
      "step": 12110
    },
    {
      "epoch": 6.34958071278826,
      "grad_norm": 0.07604160904884338,
      "learning_rate": 0.0008627438506544491,
      "loss": 0.3614,
      "num_input_tokens_seen": 7926080,
      "step": 12115
    },
    {
      "epoch": 6.352201257861635,
      "grad_norm": 0.10551757365465164,
      "learning_rate": 0.0008625864231872886,
      "loss": 0.3842,
      "num_input_tokens_seen": 7929120,
      "step": 12120
    },
    {
      "epoch": 6.35482180293501,
      "grad_norm": 0.12681782245635986,
      "learning_rate": 0.000862428919871185,
      "loss": 0.4644,
      "num_input_tokens_seen": 7931968,
      "step": 12125
    },
    {
      "epoch": 6.3574423480083855,
      "grad_norm": 0.07081370055675507,
      "learning_rate": 0.0008622713407390861,
      "loss": 0.4836,
      "num_input_tokens_seen": 7935232,
      "step": 12130
    },
    {
      "epoch": 6.360062893081761,
      "grad_norm": 0.059052541851997375,
      "learning_rate": 0.0008621136858239557,
      "loss": 0.507,
      "num_input_tokens_seen": 7939840,
      "step": 12135
    },
    {
      "epoch": 6.362683438155136,
      "grad_norm": 0.20743046700954437,
      "learning_rate": 0.0008619559551587736,
      "loss": 0.4431,
      "num_input_tokens_seen": 7942752,
      "step": 12140
    },
    {
      "epoch": 6.365303983228512,
      "grad_norm": 0.05477573350071907,
      "learning_rate": 0.0008617981487765349,
      "loss": 0.5322,
      "num_input_tokens_seen": 7947552,
      "step": 12145
    },
    {
      "epoch": 6.367924528301887,
      "grad_norm": 0.1652410477399826,
      "learning_rate": 0.0008616402667102512,
      "loss": 0.5551,
      "num_input_tokens_seen": 7951424,
      "step": 12150
    },
    {
      "epoch": 6.370545073375262,
      "grad_norm": 0.05170605331659317,
      "learning_rate": 0.0008614823089929495,
      "loss": 0.5602,
      "num_input_tokens_seen": 7954560,
      "step": 12155
    },
    {
      "epoch": 6.373165618448637,
      "grad_norm": 0.07703927904367447,
      "learning_rate": 0.0008613242756576728,
      "loss": 0.4835,
      "num_input_tokens_seen": 7959616,
      "step": 12160
    },
    {
      "epoch": 6.3757861635220126,
      "grad_norm": 0.07334930449724197,
      "learning_rate": 0.0008611661667374798,
      "loss": 0.4402,
      "num_input_tokens_seen": 7962912,
      "step": 12165
    },
    {
      "epoch": 6.378406708595388,
      "grad_norm": 0.07678987830877304,
      "learning_rate": 0.0008610079822654451,
      "loss": 0.443,
      "num_input_tokens_seen": 7966656,
      "step": 12170
    },
    {
      "epoch": 6.381027253668763,
      "grad_norm": 0.2503560483455658,
      "learning_rate": 0.0008608497222746591,
      "loss": 0.7264,
      "num_input_tokens_seen": 7969280,
      "step": 12175
    },
    {
      "epoch": 6.383647798742138,
      "grad_norm": 0.07085017114877701,
      "learning_rate": 0.000860691386798228,
      "loss": 0.5104,
      "num_input_tokens_seen": 7972352,
      "step": 12180
    },
    {
      "epoch": 6.386268343815513,
      "grad_norm": 0.08675462752580643,
      "learning_rate": 0.000860532975869274,
      "loss": 0.4348,
      "num_input_tokens_seen": 7975136,
      "step": 12185
    },
    {
      "epoch": 6.388888888888889,
      "grad_norm": 0.13371959328651428,
      "learning_rate": 0.0008603744895209342,
      "loss": 0.499,
      "num_input_tokens_seen": 7977632,
      "step": 12190
    },
    {
      "epoch": 6.3915094339622645,
      "grad_norm": 0.0723033919930458,
      "learning_rate": 0.0008602159277863628,
      "loss": 0.4581,
      "num_input_tokens_seen": 7980960,
      "step": 12195
    },
    {
      "epoch": 6.39412997903564,
      "grad_norm": 0.086279958486557,
      "learning_rate": 0.0008600572906987289,
      "loss": 0.4859,
      "num_input_tokens_seen": 7983776,
      "step": 12200
    },
    {
      "epoch": 6.396750524109015,
      "grad_norm": 0.1403590738773346,
      "learning_rate": 0.0008598985782912174,
      "loss": 0.4715,
      "num_input_tokens_seen": 7986752,
      "step": 12205
    },
    {
      "epoch": 6.39937106918239,
      "grad_norm": 0.07858196645975113,
      "learning_rate": 0.0008597397905970293,
      "loss": 0.4558,
      "num_input_tokens_seen": 7989728,
      "step": 12210
    },
    {
      "epoch": 6.401991614255765,
      "grad_norm": 0.07188994437456131,
      "learning_rate": 0.0008595809276493812,
      "loss": 0.5659,
      "num_input_tokens_seen": 7992384,
      "step": 12215
    },
    {
      "epoch": 6.40461215932914,
      "grad_norm": 0.2018074095249176,
      "learning_rate": 0.0008594219894815054,
      "loss": 0.4536,
      "num_input_tokens_seen": 7994784,
      "step": 12220
    },
    {
      "epoch": 6.4072327044025155,
      "grad_norm": 0.055969517678022385,
      "learning_rate": 0.0008592629761266497,
      "loss": 0.4078,
      "num_input_tokens_seen": 7998976,
      "step": 12225
    },
    {
      "epoch": 6.409853249475891,
      "grad_norm": 0.11834905296564102,
      "learning_rate": 0.0008591038876180784,
      "loss": 0.5226,
      "num_input_tokens_seen": 8001728,
      "step": 12230
    },
    {
      "epoch": 6.412473794549266,
      "grad_norm": 0.1072586178779602,
      "learning_rate": 0.0008589447239890705,
      "loss": 0.6828,
      "num_input_tokens_seen": 8004800,
      "step": 12235
    },
    {
      "epoch": 6.415094339622642,
      "grad_norm": 0.05078095570206642,
      "learning_rate": 0.0008587854852729213,
      "loss": 0.3151,
      "num_input_tokens_seen": 8007872,
      "step": 12240
    },
    {
      "epoch": 6.417714884696017,
      "grad_norm": 0.08370359241962433,
      "learning_rate": 0.000858626171502942,
      "loss": 0.52,
      "num_input_tokens_seen": 8010944,
      "step": 12245
    },
    {
      "epoch": 6.420335429769392,
      "grad_norm": 0.1234569177031517,
      "learning_rate": 0.0008584667827124589,
      "loss": 0.4081,
      "num_input_tokens_seen": 8013312,
      "step": 12250
    },
    {
      "epoch": 6.422955974842767,
      "grad_norm": 0.09733153879642487,
      "learning_rate": 0.0008583073189348145,
      "loss": 0.571,
      "num_input_tokens_seen": 8015808,
      "step": 12255
    },
    {
      "epoch": 6.4255765199161425,
      "grad_norm": 0.11707354336977005,
      "learning_rate": 0.0008581477802033668,
      "loss": 0.5273,
      "num_input_tokens_seen": 8019552,
      "step": 12260
    },
    {
      "epoch": 6.428197064989518,
      "grad_norm": 0.07612434774637222,
      "learning_rate": 0.0008579881665514895,
      "loss": 0.3717,
      "num_input_tokens_seen": 8023296,
      "step": 12265
    },
    {
      "epoch": 6.430817610062893,
      "grad_norm": 0.0835626944899559,
      "learning_rate": 0.0008578284780125718,
      "loss": 0.5354,
      "num_input_tokens_seen": 8025952,
      "step": 12270
    },
    {
      "epoch": 6.433438155136268,
      "grad_norm": 0.08854175359010696,
      "learning_rate": 0.0008576687146200189,
      "loss": 0.5299,
      "num_input_tokens_seen": 8028928,
      "step": 12275
    },
    {
      "epoch": 6.436058700209643,
      "grad_norm": 0.10914226621389389,
      "learning_rate": 0.0008575088764072511,
      "loss": 0.3815,
      "num_input_tokens_seen": 8031808,
      "step": 12280
    },
    {
      "epoch": 6.438679245283019,
      "grad_norm": 0.09651739150285721,
      "learning_rate": 0.0008573489634077054,
      "loss": 0.4449,
      "num_input_tokens_seen": 8037728,
      "step": 12285
    },
    {
      "epoch": 6.441299790356394,
      "grad_norm": 0.10604283958673477,
      "learning_rate": 0.0008571889756548333,
      "loss": 0.3699,
      "num_input_tokens_seen": 8040544,
      "step": 12290
    },
    {
      "epoch": 6.44392033542977,
      "grad_norm": 0.0871376097202301,
      "learning_rate": 0.0008570289131821025,
      "loss": 0.4324,
      "num_input_tokens_seen": 8043616,
      "step": 12295
    },
    {
      "epoch": 6.446540880503145,
      "grad_norm": 0.10148654133081436,
      "learning_rate": 0.0008568687760229963,
      "loss": 0.4551,
      "num_input_tokens_seen": 8046816,
      "step": 12300
    },
    {
      "epoch": 6.44916142557652,
      "grad_norm": 0.07462198287248611,
      "learning_rate": 0.0008567085642110135,
      "loss": 0.3989,
      "num_input_tokens_seen": 8050016,
      "step": 12305
    },
    {
      "epoch": 6.451781970649895,
      "grad_norm": 0.08775196224451065,
      "learning_rate": 0.0008565482777796687,
      "loss": 0.3972,
      "num_input_tokens_seen": 8053888,
      "step": 12310
    },
    {
      "epoch": 6.45440251572327,
      "grad_norm": 0.06975264102220535,
      "learning_rate": 0.0008563879167624919,
      "loss": 0.5072,
      "num_input_tokens_seen": 8057280,
      "step": 12315
    },
    {
      "epoch": 6.4570230607966455,
      "grad_norm": 0.09183962643146515,
      "learning_rate": 0.0008562274811930287,
      "loss": 0.408,
      "num_input_tokens_seen": 8060768,
      "step": 12320
    },
    {
      "epoch": 6.459643605870021,
      "grad_norm": 0.07151422649621964,
      "learning_rate": 0.0008560669711048406,
      "loss": 0.4407,
      "num_input_tokens_seen": 8064576,
      "step": 12325
    },
    {
      "epoch": 6.462264150943396,
      "grad_norm": 0.09784577786922455,
      "learning_rate": 0.0008559063865315042,
      "loss": 0.4295,
      "num_input_tokens_seen": 8067808,
      "step": 12330
    },
    {
      "epoch": 6.464884696016772,
      "grad_norm": 0.06450612097978592,
      "learning_rate": 0.0008557457275066122,
      "loss": 0.4111,
      "num_input_tokens_seen": 8071680,
      "step": 12335
    },
    {
      "epoch": 6.467505241090147,
      "grad_norm": 0.10497520118951797,
      "learning_rate": 0.0008555849940637725,
      "loss": 0.4419,
      "num_input_tokens_seen": 8074880,
      "step": 12340
    },
    {
      "epoch": 6.470125786163522,
      "grad_norm": 0.095546193420887,
      "learning_rate": 0.000855424186236609,
      "loss": 0.3779,
      "num_input_tokens_seen": 8080192,
      "step": 12345
    },
    {
      "epoch": 6.472746331236897,
      "grad_norm": 0.07138736546039581,
      "learning_rate": 0.0008552633040587605,
      "loss": 0.5183,
      "num_input_tokens_seen": 8082784,
      "step": 12350
    },
    {
      "epoch": 6.4753668763102725,
      "grad_norm": 0.0669734999537468,
      "learning_rate": 0.0008551023475638819,
      "loss": 0.4773,
      "num_input_tokens_seen": 8085216,
      "step": 12355
    },
    {
      "epoch": 6.477987421383648,
      "grad_norm": 0.0778287723660469,
      "learning_rate": 0.0008549413167856432,
      "loss": 0.3556,
      "num_input_tokens_seen": 8087968,
      "step": 12360
    },
    {
      "epoch": 6.480607966457023,
      "grad_norm": 0.1550457775592804,
      "learning_rate": 0.0008547802117577307,
      "loss": 0.3916,
      "num_input_tokens_seen": 8091200,
      "step": 12365
    },
    {
      "epoch": 6.483228511530398,
      "grad_norm": 0.05999382585287094,
      "learning_rate": 0.0008546190325138454,
      "loss": 0.4652,
      "num_input_tokens_seen": 8094464,
      "step": 12370
    },
    {
      "epoch": 6.485849056603773,
      "grad_norm": 0.10891872644424438,
      "learning_rate": 0.000854457779087704,
      "loss": 0.4881,
      "num_input_tokens_seen": 8097216,
      "step": 12375
    },
    {
      "epoch": 6.488469601677149,
      "grad_norm": 0.06606847792863846,
      "learning_rate": 0.0008542964515130392,
      "loss": 0.4214,
      "num_input_tokens_seen": 8100672,
      "step": 12380
    },
    {
      "epoch": 6.491090146750524,
      "grad_norm": 0.10898823291063309,
      "learning_rate": 0.0008541350498235989,
      "loss": 0.5091,
      "num_input_tokens_seen": 8103808,
      "step": 12385
    },
    {
      "epoch": 6.4937106918239,
      "grad_norm": 0.10979048907756805,
      "learning_rate": 0.0008539735740531462,
      "loss": 0.4829,
      "num_input_tokens_seen": 8106496,
      "step": 12390
    },
    {
      "epoch": 6.496331236897275,
      "grad_norm": 0.07746147364377975,
      "learning_rate": 0.0008538120242354602,
      "loss": 0.4882,
      "num_input_tokens_seen": 8109888,
      "step": 12395
    },
    {
      "epoch": 6.49895178197065,
      "grad_norm": 0.0684068500995636,
      "learning_rate": 0.0008536504004043353,
      "loss": 0.3561,
      "num_input_tokens_seen": 8113056,
      "step": 12400
    },
    {
      "epoch": 6.501572327044025,
      "grad_norm": 0.06604698300361633,
      "learning_rate": 0.0008534887025935811,
      "loss": 0.3873,
      "num_input_tokens_seen": 8116384,
      "step": 12405
    },
    {
      "epoch": 6.5041928721174,
      "grad_norm": 0.10171255469322205,
      "learning_rate": 0.0008533269308370233,
      "loss": 0.4497,
      "num_input_tokens_seen": 8119680,
      "step": 12410
    },
    {
      "epoch": 6.506813417190775,
      "grad_norm": 0.15199656784534454,
      "learning_rate": 0.0008531650851685025,
      "loss": 0.4769,
      "num_input_tokens_seen": 8123520,
      "step": 12415
    },
    {
      "epoch": 6.509433962264151,
      "grad_norm": 0.08249080926179886,
      "learning_rate": 0.000853003165621875,
      "loss": 0.4355,
      "num_input_tokens_seen": 8126464,
      "step": 12420
    },
    {
      "epoch": 6.512054507337526,
      "grad_norm": 0.1601717472076416,
      "learning_rate": 0.0008528411722310126,
      "loss": 0.5907,
      "num_input_tokens_seen": 8129728,
      "step": 12425
    },
    {
      "epoch": 6.514675052410902,
      "grad_norm": 0.12644362449645996,
      "learning_rate": 0.0008526791050298022,
      "loss": 0.5713,
      "num_input_tokens_seen": 8132352,
      "step": 12430
    },
    {
      "epoch": 6.517295597484277,
      "grad_norm": 0.06516147404909134,
      "learning_rate": 0.0008525169640521467,
      "loss": 0.4323,
      "num_input_tokens_seen": 8135328,
      "step": 12435
    },
    {
      "epoch": 6.519916142557652,
      "grad_norm": 0.08109619468450546,
      "learning_rate": 0.0008523547493319641,
      "loss": 0.4599,
      "num_input_tokens_seen": 8137920,
      "step": 12440
    },
    {
      "epoch": 6.522536687631027,
      "grad_norm": 0.09787538647651672,
      "learning_rate": 0.0008521924609031877,
      "loss": 0.5434,
      "num_input_tokens_seen": 8141152,
      "step": 12445
    },
    {
      "epoch": 6.5251572327044025,
      "grad_norm": 0.09205442667007446,
      "learning_rate": 0.0008520300987997667,
      "loss": 0.5136,
      "num_input_tokens_seen": 8143808,
      "step": 12450
    },
    {
      "epoch": 6.527777777777778,
      "grad_norm": 0.04672020301222801,
      "learning_rate": 0.000851867663055665,
      "loss": 0.3905,
      "num_input_tokens_seen": 8147392,
      "step": 12455
    },
    {
      "epoch": 6.530398322851153,
      "grad_norm": 0.08891680836677551,
      "learning_rate": 0.0008517051537048625,
      "loss": 0.6753,
      "num_input_tokens_seen": 8150720,
      "step": 12460
    },
    {
      "epoch": 6.533018867924528,
      "grad_norm": 0.061982639133930206,
      "learning_rate": 0.0008515425707813544,
      "loss": 0.4826,
      "num_input_tokens_seen": 8153792,
      "step": 12465
    },
    {
      "epoch": 6.535639412997903,
      "grad_norm": 0.09800807386636734,
      "learning_rate": 0.0008513799143191512,
      "loss": 0.3501,
      "num_input_tokens_seen": 8157184,
      "step": 12470
    },
    {
      "epoch": 6.538259958071279,
      "grad_norm": 0.08645055443048477,
      "learning_rate": 0.0008512171843522786,
      "loss": 0.6015,
      "num_input_tokens_seen": 8160480,
      "step": 12475
    },
    {
      "epoch": 6.540880503144654,
      "grad_norm": 0.1421448439359665,
      "learning_rate": 0.000851054380914778,
      "loss": 0.5678,
      "num_input_tokens_seen": 8163776,
      "step": 12480
    },
    {
      "epoch": 6.54350104821803,
      "grad_norm": 0.07736183702945709,
      "learning_rate": 0.0008508915040407057,
      "loss": 0.4894,
      "num_input_tokens_seen": 8166912,
      "step": 12485
    },
    {
      "epoch": 6.546121593291405,
      "grad_norm": 0.08003000915050507,
      "learning_rate": 0.0008507285537641342,
      "loss": 0.3822,
      "num_input_tokens_seen": 8169664,
      "step": 12490
    },
    {
      "epoch": 6.54874213836478,
      "grad_norm": 0.06771332770586014,
      "learning_rate": 0.0008505655301191504,
      "loss": 0.4671,
      "num_input_tokens_seen": 8172768,
      "step": 12495
    },
    {
      "epoch": 6.551362683438155,
      "grad_norm": 0.06507833302021027,
      "learning_rate": 0.0008504024331398572,
      "loss": 0.5414,
      "num_input_tokens_seen": 8176064,
      "step": 12500
    },
    {
      "epoch": 6.55398322851153,
      "grad_norm": 0.085900217294693,
      "learning_rate": 0.0008502392628603727,
      "loss": 0.4866,
      "num_input_tokens_seen": 8179840,
      "step": 12505
    },
    {
      "epoch": 6.556603773584905,
      "grad_norm": 0.09097328782081604,
      "learning_rate": 0.0008500760193148301,
      "loss": 0.36,
      "num_input_tokens_seen": 8183840,
      "step": 12510
    },
    {
      "epoch": 6.559224318658281,
      "grad_norm": 0.05249931290745735,
      "learning_rate": 0.0008499127025373781,
      "loss": 0.4214,
      "num_input_tokens_seen": 8187456,
      "step": 12515
    },
    {
      "epoch": 6.561844863731656,
      "grad_norm": 0.06448839604854584,
      "learning_rate": 0.0008497493125621807,
      "loss": 0.3794,
      "num_input_tokens_seen": 8190528,
      "step": 12520
    },
    {
      "epoch": 6.564465408805032,
      "grad_norm": 0.13783743977546692,
      "learning_rate": 0.0008495858494234173,
      "loss": 0.6207,
      "num_input_tokens_seen": 8193344,
      "step": 12525
    },
    {
      "epoch": 6.567085953878407,
      "grad_norm": 0.1889653205871582,
      "learning_rate": 0.0008494223131552825,
      "loss": 0.4105,
      "num_input_tokens_seen": 8195680,
      "step": 12530
    },
    {
      "epoch": 6.569706498951782,
      "grad_norm": 0.06979246437549591,
      "learning_rate": 0.0008492587037919864,
      "loss": 0.5082,
      "num_input_tokens_seen": 8198656,
      "step": 12535
    },
    {
      "epoch": 6.572327044025157,
      "grad_norm": 0.12149744480848312,
      "learning_rate": 0.0008490950213677537,
      "loss": 0.4475,
      "num_input_tokens_seen": 8201408,
      "step": 12540
    },
    {
      "epoch": 6.5749475890985325,
      "grad_norm": 0.09668497741222382,
      "learning_rate": 0.0008489312659168254,
      "loss": 0.5723,
      "num_input_tokens_seen": 8204832,
      "step": 12545
    },
    {
      "epoch": 6.577568134171908,
      "grad_norm": 0.05716576427221298,
      "learning_rate": 0.0008487674374734569,
      "loss": 0.5126,
      "num_input_tokens_seen": 8209088,
      "step": 12550
    },
    {
      "epoch": 6.580188679245283,
      "grad_norm": 0.06691193580627441,
      "learning_rate": 0.0008486035360719197,
      "loss": 0.3716,
      "num_input_tokens_seen": 8211744,
      "step": 12555
    },
    {
      "epoch": 6.582809224318658,
      "grad_norm": 0.10508845001459122,
      "learning_rate": 0.0008484395617464997,
      "loss": 0.3597,
      "num_input_tokens_seen": 8214176,
      "step": 12560
    },
    {
      "epoch": 6.585429769392033,
      "grad_norm": 0.07351014763116837,
      "learning_rate": 0.0008482755145314986,
      "loss": 0.3104,
      "num_input_tokens_seen": 8217056,
      "step": 12565
    },
    {
      "epoch": 6.588050314465409,
      "grad_norm": 0.11949928104877472,
      "learning_rate": 0.0008481113944612331,
      "loss": 0.4436,
      "num_input_tokens_seen": 8219200,
      "step": 12570
    },
    {
      "epoch": 6.590670859538784,
      "grad_norm": 0.06635351479053497,
      "learning_rate": 0.0008479472015700356,
      "loss": 0.508,
      "num_input_tokens_seen": 8222080,
      "step": 12575
    },
    {
      "epoch": 6.59329140461216,
      "grad_norm": 0.08561035245656967,
      "learning_rate": 0.0008477829358922529,
      "loss": 0.4856,
      "num_input_tokens_seen": 8224960,
      "step": 12580
    },
    {
      "epoch": 6.595911949685535,
      "grad_norm": 0.04005761444568634,
      "learning_rate": 0.0008476185974622477,
      "loss": 0.5143,
      "num_input_tokens_seen": 8227936,
      "step": 12585
    },
    {
      "epoch": 6.59853249475891,
      "grad_norm": 0.07586356997489929,
      "learning_rate": 0.0008474541863143978,
      "loss": 0.5043,
      "num_input_tokens_seen": 8231648,
      "step": 12590
    },
    {
      "epoch": 6.601153039832285,
      "grad_norm": 0.0734267607331276,
      "learning_rate": 0.0008472897024830961,
      "loss": 0.3993,
      "num_input_tokens_seen": 8234848,
      "step": 12595
    },
    {
      "epoch": 6.60377358490566,
      "grad_norm": 0.10262829810380936,
      "learning_rate": 0.0008471251460027508,
      "loss": 0.4159,
      "num_input_tokens_seen": 8237536,
      "step": 12600
    },
    {
      "epoch": 6.606394129979035,
      "grad_norm": 0.1502695530653,
      "learning_rate": 0.0008469605169077852,
      "loss": 0.5133,
      "num_input_tokens_seen": 8240064,
      "step": 12605
    },
    {
      "epoch": 6.609014675052411,
      "grad_norm": 0.08984256535768509,
      "learning_rate": 0.0008467958152326377,
      "loss": 0.5777,
      "num_input_tokens_seen": 8243360,
      "step": 12610
    },
    {
      "epoch": 6.611635220125786,
      "grad_norm": 0.0910666212439537,
      "learning_rate": 0.0008466310410117622,
      "loss": 0.563,
      "num_input_tokens_seen": 8247648,
      "step": 12615
    },
    {
      "epoch": 6.614255765199162,
      "grad_norm": 0.07908107340335846,
      "learning_rate": 0.0008464661942796275,
      "loss": 0.4228,
      "num_input_tokens_seen": 8251328,
      "step": 12620
    },
    {
      "epoch": 6.616876310272537,
      "grad_norm": 0.04715687409043312,
      "learning_rate": 0.0008463012750707175,
      "loss": 0.4527,
      "num_input_tokens_seen": 8254688,
      "step": 12625
    },
    {
      "epoch": 6.619496855345912,
      "grad_norm": 0.09931448847055435,
      "learning_rate": 0.0008461362834195316,
      "loss": 0.5524,
      "num_input_tokens_seen": 8258144,
      "step": 12630
    },
    {
      "epoch": 6.622117400419287,
      "grad_norm": 0.08142129331827164,
      "learning_rate": 0.0008459712193605842,
      "loss": 0.3745,
      "num_input_tokens_seen": 8261856,
      "step": 12635
    },
    {
      "epoch": 6.6247379454926625,
      "grad_norm": 0.06925705075263977,
      "learning_rate": 0.0008458060829284048,
      "loss": 0.4634,
      "num_input_tokens_seen": 8265120,
      "step": 12640
    },
    {
      "epoch": 6.627358490566038,
      "grad_norm": 0.06732506304979324,
      "learning_rate": 0.0008456408741575378,
      "loss": 0.4573,
      "num_input_tokens_seen": 8267936,
      "step": 12645
    },
    {
      "epoch": 6.629979035639413,
      "grad_norm": 0.12600308656692505,
      "learning_rate": 0.0008454755930825435,
      "loss": 0.4784,
      "num_input_tokens_seen": 8271584,
      "step": 12650
    },
    {
      "epoch": 6.632599580712788,
      "grad_norm": 0.15900170803070068,
      "learning_rate": 0.0008453102397379963,
      "loss": 0.4395,
      "num_input_tokens_seen": 8275072,
      "step": 12655
    },
    {
      "epoch": 6.635220125786163,
      "grad_norm": 0.0953902155160904,
      "learning_rate": 0.0008451448141584868,
      "loss": 0.3945,
      "num_input_tokens_seen": 8277856,
      "step": 12660
    },
    {
      "epoch": 6.637840670859539,
      "grad_norm": 0.04522598907351494,
      "learning_rate": 0.0008449793163786194,
      "loss": 0.548,
      "num_input_tokens_seen": 8281888,
      "step": 12665
    },
    {
      "epoch": 6.640461215932914,
      "grad_norm": 0.05833068862557411,
      "learning_rate": 0.0008448137464330149,
      "loss": 0.362,
      "num_input_tokens_seen": 8288032,
      "step": 12670
    },
    {
      "epoch": 6.6430817610062896,
      "grad_norm": 0.11190968751907349,
      "learning_rate": 0.0008446481043563086,
      "loss": 0.4685,
      "num_input_tokens_seen": 8291520,
      "step": 12675
    },
    {
      "epoch": 6.645702306079665,
      "grad_norm": 0.10118816047906876,
      "learning_rate": 0.0008444823901831507,
      "loss": 0.4824,
      "num_input_tokens_seen": 8295360,
      "step": 12680
    },
    {
      "epoch": 6.64832285115304,
      "grad_norm": 0.06844305992126465,
      "learning_rate": 0.0008443166039482067,
      "loss": 0.6211,
      "num_input_tokens_seen": 8299776,
      "step": 12685
    },
    {
      "epoch": 6.650943396226415,
      "grad_norm": 0.16721512377262115,
      "learning_rate": 0.0008441507456861575,
      "loss": 0.4874,
      "num_input_tokens_seen": 8303072,
      "step": 12690
    },
    {
      "epoch": 6.65356394129979,
      "grad_norm": 0.07777807116508484,
      "learning_rate": 0.0008439848154316985,
      "loss": 0.493,
      "num_input_tokens_seen": 8305824,
      "step": 12695
    },
    {
      "epoch": 6.656184486373165,
      "grad_norm": 0.15571093559265137,
      "learning_rate": 0.0008438188132195406,
      "loss": 0.4208,
      "num_input_tokens_seen": 8308704,
      "step": 12700
    },
    {
      "epoch": 6.658805031446541,
      "grad_norm": 0.10981638729572296,
      "learning_rate": 0.0008436527390844094,
      "loss": 0.5817,
      "num_input_tokens_seen": 8311904,
      "step": 12705
    },
    {
      "epoch": 6.661425576519916,
      "grad_norm": 0.11904926598072052,
      "learning_rate": 0.0008434865930610458,
      "loss": 0.4978,
      "num_input_tokens_seen": 8315296,
      "step": 12710
    },
    {
      "epoch": 6.664046121593291,
      "grad_norm": 0.09407201409339905,
      "learning_rate": 0.0008433203751842057,
      "loss": 0.4321,
      "num_input_tokens_seen": 8318112,
      "step": 12715
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.11762438714504242,
      "learning_rate": 0.0008431540854886598,
      "loss": 0.3984,
      "num_input_tokens_seen": 8321600,
      "step": 12720
    },
    {
      "epoch": 6.669287211740042,
      "grad_norm": 0.05708121508359909,
      "learning_rate": 0.0008429877240091941,
      "loss": 0.4708,
      "num_input_tokens_seen": 8324352,
      "step": 12725
    },
    {
      "epoch": 6.671907756813417,
      "grad_norm": 0.0587000846862793,
      "learning_rate": 0.0008428212907806097,
      "loss": 0.4773,
      "num_input_tokens_seen": 8327648,
      "step": 12730
    },
    {
      "epoch": 6.6745283018867925,
      "grad_norm": 0.06879075616598129,
      "learning_rate": 0.0008426547858377222,
      "loss": 0.4175,
      "num_input_tokens_seen": 8330688,
      "step": 12735
    },
    {
      "epoch": 6.677148846960168,
      "grad_norm": 0.17058153450489044,
      "learning_rate": 0.0008424882092153629,
      "loss": 0.5294,
      "num_input_tokens_seen": 8333216,
      "step": 12740
    },
    {
      "epoch": 6.679769392033543,
      "grad_norm": 0.08009025454521179,
      "learning_rate": 0.0008423215609483774,
      "loss": 0.481,
      "num_input_tokens_seen": 8336928,
      "step": 12745
    },
    {
      "epoch": 6.682389937106918,
      "grad_norm": 0.09968157857656479,
      "learning_rate": 0.0008421548410716269,
      "loss": 0.5866,
      "num_input_tokens_seen": 8339712,
      "step": 12750
    },
    {
      "epoch": 6.685010482180293,
      "grad_norm": 0.08819986134767532,
      "learning_rate": 0.0008419880496199869,
      "loss": 0.6649,
      "num_input_tokens_seen": 8342208,
      "step": 12755
    },
    {
      "epoch": 6.687631027253669,
      "grad_norm": 0.11007992178201675,
      "learning_rate": 0.0008418211866283488,
      "loss": 0.5026,
      "num_input_tokens_seen": 8345280,
      "step": 12760
    },
    {
      "epoch": 6.690251572327044,
      "grad_norm": 0.09716680645942688,
      "learning_rate": 0.0008416542521316182,
      "loss": 0.46,
      "num_input_tokens_seen": 8348640,
      "step": 12765
    },
    {
      "epoch": 6.6928721174004195,
      "grad_norm": 0.10089365392923355,
      "learning_rate": 0.0008414872461647156,
      "loss": 0.3961,
      "num_input_tokens_seen": 8351840,
      "step": 12770
    },
    {
      "epoch": 6.695492662473795,
      "grad_norm": 0.12290028482675552,
      "learning_rate": 0.0008413201687625772,
      "loss": 0.3977,
      "num_input_tokens_seen": 8354912,
      "step": 12775
    },
    {
      "epoch": 6.69811320754717,
      "grad_norm": 0.0998905748128891,
      "learning_rate": 0.0008411530199601534,
      "loss": 0.3925,
      "num_input_tokens_seen": 8357792,
      "step": 12780
    },
    {
      "epoch": 6.700733752620545,
      "grad_norm": 0.04530927911400795,
      "learning_rate": 0.0008409857997924097,
      "loss": 0.5372,
      "num_input_tokens_seen": 8361408,
      "step": 12785
    },
    {
      "epoch": 6.70335429769392,
      "grad_norm": 0.22960014641284943,
      "learning_rate": 0.0008408185082943271,
      "loss": 0.6086,
      "num_input_tokens_seen": 8364128,
      "step": 12790
    },
    {
      "epoch": 6.705974842767295,
      "grad_norm": 0.0602307952940464,
      "learning_rate": 0.0008406511455009007,
      "loss": 0.5092,
      "num_input_tokens_seen": 8367904,
      "step": 12795
    },
    {
      "epoch": 6.7085953878406706,
      "grad_norm": 0.0798063650727272,
      "learning_rate": 0.000840483711447141,
      "loss": 0.4414,
      "num_input_tokens_seen": 8371328,
      "step": 12800
    },
    {
      "epoch": 6.711215932914046,
      "grad_norm": 0.07416599243879318,
      "learning_rate": 0.0008403162061680736,
      "loss": 0.372,
      "num_input_tokens_seen": 8374464,
      "step": 12805
    },
    {
      "epoch": 6.713836477987421,
      "grad_norm": 0.0712791234254837,
      "learning_rate": 0.0008401486296987382,
      "loss": 0.5635,
      "num_input_tokens_seen": 8377888,
      "step": 12810
    },
    {
      "epoch": 6.716457023060797,
      "grad_norm": 0.18190310895442963,
      "learning_rate": 0.0008399809820741901,
      "loss": 0.5482,
      "num_input_tokens_seen": 8380864,
      "step": 12815
    },
    {
      "epoch": 6.719077568134172,
      "grad_norm": 0.10470041632652283,
      "learning_rate": 0.0008398132633294993,
      "loss": 0.4659,
      "num_input_tokens_seen": 8383616,
      "step": 12820
    },
    {
      "epoch": 6.721698113207547,
      "grad_norm": 0.09526285529136658,
      "learning_rate": 0.0008396454734997506,
      "loss": 0.4634,
      "num_input_tokens_seen": 8386784,
      "step": 12825
    },
    {
      "epoch": 6.7243186582809225,
      "grad_norm": 0.08975683897733688,
      "learning_rate": 0.0008394776126200436,
      "loss": 0.3832,
      "num_input_tokens_seen": 8390400,
      "step": 12830
    },
    {
      "epoch": 6.726939203354298,
      "grad_norm": 0.10313301533460617,
      "learning_rate": 0.0008393096807254931,
      "loss": 0.3877,
      "num_input_tokens_seen": 8393152,
      "step": 12835
    },
    {
      "epoch": 6.729559748427673,
      "grad_norm": 0.09579875320196152,
      "learning_rate": 0.0008391416778512284,
      "loss": 0.4455,
      "num_input_tokens_seen": 8395776,
      "step": 12840
    },
    {
      "epoch": 6.732180293501048,
      "grad_norm": 0.07437391579151154,
      "learning_rate": 0.0008389736040323939,
      "loss": 0.4883,
      "num_input_tokens_seen": 8399648,
      "step": 12845
    },
    {
      "epoch": 6.734800838574423,
      "grad_norm": 0.07029058039188385,
      "learning_rate": 0.0008388054593041485,
      "loss": 0.3779,
      "num_input_tokens_seen": 8402624,
      "step": 12850
    },
    {
      "epoch": 6.737421383647799,
      "grad_norm": 0.10949951410293579,
      "learning_rate": 0.0008386372437016665,
      "loss": 0.5192,
      "num_input_tokens_seen": 8406944,
      "step": 12855
    },
    {
      "epoch": 6.740041928721174,
      "grad_norm": 0.04302312433719635,
      "learning_rate": 0.0008384689572601364,
      "loss": 0.585,
      "num_input_tokens_seen": 8410144,
      "step": 12860
    },
    {
      "epoch": 6.7426624737945495,
      "grad_norm": 0.08616543561220169,
      "learning_rate": 0.000838300600014762,
      "loss": 0.5208,
      "num_input_tokens_seen": 8413280,
      "step": 12865
    },
    {
      "epoch": 6.745283018867925,
      "grad_norm": 0.07209339737892151,
      "learning_rate": 0.0008381321720007613,
      "loss": 0.5293,
      "num_input_tokens_seen": 8416832,
      "step": 12870
    },
    {
      "epoch": 6.7479035639413,
      "grad_norm": 0.07333023846149445,
      "learning_rate": 0.0008379636732533681,
      "loss": 0.5851,
      "num_input_tokens_seen": 8420480,
      "step": 12875
    },
    {
      "epoch": 6.750524109014675,
      "grad_norm": 0.07458510994911194,
      "learning_rate": 0.0008377951038078302,
      "loss": 0.4872,
      "num_input_tokens_seen": 8424032,
      "step": 12880
    },
    {
      "epoch": 6.75314465408805,
      "grad_norm": 0.09251747280359268,
      "learning_rate": 0.0008376264636994102,
      "loss": 0.4693,
      "num_input_tokens_seen": 8426880,
      "step": 12885
    },
    {
      "epoch": 6.755765199161425,
      "grad_norm": 0.15316858887672424,
      "learning_rate": 0.000837457752963386,
      "loss": 0.4045,
      "num_input_tokens_seen": 8429632,
      "step": 12890
    },
    {
      "epoch": 6.7583857442348005,
      "grad_norm": 0.09695760160684586,
      "learning_rate": 0.0008372889716350496,
      "loss": 0.4768,
      "num_input_tokens_seen": 8432512,
      "step": 12895
    },
    {
      "epoch": 6.761006289308176,
      "grad_norm": 0.10510582476854324,
      "learning_rate": 0.0008371201197497084,
      "loss": 0.4301,
      "num_input_tokens_seen": 8436192,
      "step": 12900
    },
    {
      "epoch": 6.763626834381551,
      "grad_norm": 0.058473315089941025,
      "learning_rate": 0.0008369511973426842,
      "loss": 0.5045,
      "num_input_tokens_seen": 8439968,
      "step": 12905
    },
    {
      "epoch": 6.766247379454927,
      "grad_norm": 0.12327499687671661,
      "learning_rate": 0.0008367822044493138,
      "loss": 0.428,
      "num_input_tokens_seen": 8442816,
      "step": 12910
    },
    {
      "epoch": 6.768867924528302,
      "grad_norm": 0.15657825767993927,
      "learning_rate": 0.0008366131411049483,
      "loss": 0.4535,
      "num_input_tokens_seen": 8445216,
      "step": 12915
    },
    {
      "epoch": 6.771488469601677,
      "grad_norm": 0.08262340724468231,
      "learning_rate": 0.000836444007344954,
      "loss": 0.4228,
      "num_input_tokens_seen": 8448768,
      "step": 12920
    },
    {
      "epoch": 6.774109014675052,
      "grad_norm": 0.07825923711061478,
      "learning_rate": 0.0008362748032047119,
      "loss": 0.385,
      "num_input_tokens_seen": 8451616,
      "step": 12925
    },
    {
      "epoch": 6.776729559748428,
      "grad_norm": 0.11626957356929779,
      "learning_rate": 0.0008361055287196171,
      "loss": 0.5713,
      "num_input_tokens_seen": 8453856,
      "step": 12930
    },
    {
      "epoch": 6.779350104821803,
      "grad_norm": 0.10492612421512604,
      "learning_rate": 0.0008359361839250803,
      "loss": 0.5714,
      "num_input_tokens_seen": 8457248,
      "step": 12935
    },
    {
      "epoch": 6.781970649895178,
      "grad_norm": 0.11417655646800995,
      "learning_rate": 0.0008357667688565265,
      "loss": 0.5543,
      "num_input_tokens_seen": 8459808,
      "step": 12940
    },
    {
      "epoch": 6.784591194968553,
      "grad_norm": 0.07714727520942688,
      "learning_rate": 0.0008355972835493951,
      "loss": 0.4502,
      "num_input_tokens_seen": 8463040,
      "step": 12945
    },
    {
      "epoch": 6.787211740041929,
      "grad_norm": 0.09701839834451675,
      "learning_rate": 0.0008354277280391408,
      "loss": 0.3794,
      "num_input_tokens_seen": 8466016,
      "step": 12950
    },
    {
      "epoch": 6.789832285115304,
      "grad_norm": 0.08350866287946701,
      "learning_rate": 0.0008352581023612324,
      "loss": 0.5133,
      "num_input_tokens_seen": 8468544,
      "step": 12955
    },
    {
      "epoch": 6.7924528301886795,
      "grad_norm": 0.14793401956558228,
      "learning_rate": 0.0008350884065511541,
      "loss": 0.4379,
      "num_input_tokens_seen": 8471968,
      "step": 12960
    },
    {
      "epoch": 6.795073375262055,
      "grad_norm": 0.07717784494161606,
      "learning_rate": 0.0008349186406444038,
      "loss": 0.5995,
      "num_input_tokens_seen": 8474272,
      "step": 12965
    },
    {
      "epoch": 6.79769392033543,
      "grad_norm": 0.1299431473016739,
      "learning_rate": 0.0008347488046764949,
      "loss": 0.5848,
      "num_input_tokens_seen": 8478848,
      "step": 12970
    },
    {
      "epoch": 6.800314465408805,
      "grad_norm": 0.05980744957923889,
      "learning_rate": 0.0008345788986829551,
      "loss": 0.3482,
      "num_input_tokens_seen": 8481568,
      "step": 12975
    },
    {
      "epoch": 6.80293501048218,
      "grad_norm": 0.09724362194538116,
      "learning_rate": 0.0008344089226993268,
      "loss": 0.3954,
      "num_input_tokens_seen": 8485280,
      "step": 12980
    },
    {
      "epoch": 6.805555555555555,
      "grad_norm": 0.07597626745700836,
      "learning_rate": 0.000834238876761167,
      "loss": 0.4357,
      "num_input_tokens_seen": 8488160,
      "step": 12985
    },
    {
      "epoch": 6.8081761006289305,
      "grad_norm": 0.12757930159568787,
      "learning_rate": 0.0008340687609040473,
      "loss": 0.4478,
      "num_input_tokens_seen": 8491264,
      "step": 12990
    },
    {
      "epoch": 6.810796645702306,
      "grad_norm": 0.15459640324115753,
      "learning_rate": 0.0008338985751635542,
      "loss": 0.5774,
      "num_input_tokens_seen": 8494176,
      "step": 12995
    },
    {
      "epoch": 6.813417190775681,
      "grad_norm": 0.09757707267999649,
      "learning_rate": 0.0008337283195752883,
      "loss": 0.7237,
      "num_input_tokens_seen": 8497504,
      "step": 13000
    },
    {
      "epoch": 6.816037735849057,
      "grad_norm": 0.09305817633867264,
      "learning_rate": 0.0008335579941748654,
      "loss": 0.4724,
      "num_input_tokens_seen": 8500992,
      "step": 13005
    },
    {
      "epoch": 6.818658280922432,
      "grad_norm": 0.08038131147623062,
      "learning_rate": 0.0008333875989979156,
      "loss": 0.4918,
      "num_input_tokens_seen": 8504800,
      "step": 13010
    },
    {
      "epoch": 6.821278825995807,
      "grad_norm": 0.07008787989616394,
      "learning_rate": 0.0008332171340800835,
      "loss": 0.3899,
      "num_input_tokens_seen": 8508864,
      "step": 13015
    },
    {
      "epoch": 6.823899371069182,
      "grad_norm": 0.0794028788805008,
      "learning_rate": 0.0008330465994570287,
      "loss": 0.4956,
      "num_input_tokens_seen": 8511872,
      "step": 13020
    },
    {
      "epoch": 6.826519916142558,
      "grad_norm": 0.10262022912502289,
      "learning_rate": 0.0008328759951644247,
      "loss": 0.363,
      "num_input_tokens_seen": 8515200,
      "step": 13025
    },
    {
      "epoch": 6.829140461215933,
      "grad_norm": 0.06722530722618103,
      "learning_rate": 0.0008327053212379603,
      "loss": 0.5908,
      "num_input_tokens_seen": 8518240,
      "step": 13030
    },
    {
      "epoch": 6.831761006289308,
      "grad_norm": 0.07650285214185715,
      "learning_rate": 0.0008325345777133382,
      "loss": 0.477,
      "num_input_tokens_seen": 8521472,
      "step": 13035
    },
    {
      "epoch": 6.834381551362683,
      "grad_norm": 0.07867398113012314,
      "learning_rate": 0.0008323637646262763,
      "loss": 0.3788,
      "num_input_tokens_seen": 8524288,
      "step": 13040
    },
    {
      "epoch": 6.837002096436059,
      "grad_norm": 0.08219065517187119,
      "learning_rate": 0.0008321928820125067,
      "loss": 0.3934,
      "num_input_tokens_seen": 8526912,
      "step": 13045
    },
    {
      "epoch": 6.839622641509434,
      "grad_norm": 0.10103824734687805,
      "learning_rate": 0.000832021929907776,
      "loss": 0.4377,
      "num_input_tokens_seen": 8530048,
      "step": 13050
    },
    {
      "epoch": 6.8422431865828095,
      "grad_norm": 0.12022311240434647,
      "learning_rate": 0.0008318509083478454,
      "loss": 0.508,
      "num_input_tokens_seen": 8534144,
      "step": 13055
    },
    {
      "epoch": 6.844863731656185,
      "grad_norm": 0.10538114607334137,
      "learning_rate": 0.0008316798173684907,
      "loss": 0.4211,
      "num_input_tokens_seen": 8537536,
      "step": 13060
    },
    {
      "epoch": 6.84748427672956,
      "grad_norm": 0.0642242580652237,
      "learning_rate": 0.0008315086570055024,
      "loss": 0.4999,
      "num_input_tokens_seen": 8541056,
      "step": 13065
    },
    {
      "epoch": 6.850104821802935,
      "grad_norm": 0.06105669587850571,
      "learning_rate": 0.000831337427294685,
      "loss": 0.434,
      "num_input_tokens_seen": 8545248,
      "step": 13070
    },
    {
      "epoch": 6.85272536687631,
      "grad_norm": 0.1160302609205246,
      "learning_rate": 0.0008311661282718579,
      "loss": 0.4351,
      "num_input_tokens_seen": 8548288,
      "step": 13075
    },
    {
      "epoch": 6.855345911949685,
      "grad_norm": 0.08737858384847641,
      "learning_rate": 0.0008309947599728549,
      "loss": 0.3695,
      "num_input_tokens_seen": 8551456,
      "step": 13080
    },
    {
      "epoch": 6.8579664570230605,
      "grad_norm": 0.1466325968503952,
      "learning_rate": 0.0008308233224335243,
      "loss": 0.5954,
      "num_input_tokens_seen": 8554688,
      "step": 13085
    },
    {
      "epoch": 6.860587002096436,
      "grad_norm": 0.04957897216081619,
      "learning_rate": 0.0008306518156897289,
      "loss": 0.4835,
      "num_input_tokens_seen": 8558016,
      "step": 13090
    },
    {
      "epoch": 6.863207547169811,
      "grad_norm": 0.14806511998176575,
      "learning_rate": 0.0008304802397773459,
      "loss": 0.4625,
      "num_input_tokens_seen": 8561312,
      "step": 13095
    },
    {
      "epoch": 6.865828092243187,
      "grad_norm": 0.08689826726913452,
      "learning_rate": 0.0008303085947322672,
      "loss": 0.3252,
      "num_input_tokens_seen": 8565152,
      "step": 13100
    },
    {
      "epoch": 6.868448637316562,
      "grad_norm": 0.08630833029747009,
      "learning_rate": 0.0008301368805903988,
      "loss": 0.5374,
      "num_input_tokens_seen": 8567936,
      "step": 13105
    },
    {
      "epoch": 6.871069182389937,
      "grad_norm": 0.09409549832344055,
      "learning_rate": 0.0008299650973876611,
      "loss": 0.4584,
      "num_input_tokens_seen": 8571104,
      "step": 13110
    },
    {
      "epoch": 6.873689727463312,
      "grad_norm": 0.0976090058684349,
      "learning_rate": 0.0008297932451599898,
      "loss": 0.4518,
      "num_input_tokens_seen": 8573728,
      "step": 13115
    },
    {
      "epoch": 6.876310272536688,
      "grad_norm": 0.08613628894090652,
      "learning_rate": 0.0008296213239433339,
      "loss": 0.5084,
      "num_input_tokens_seen": 8576672,
      "step": 13120
    },
    {
      "epoch": 6.878930817610063,
      "grad_norm": 0.15251372754573822,
      "learning_rate": 0.0008294493337736577,
      "loss": 0.5364,
      "num_input_tokens_seen": 8579232,
      "step": 13125
    },
    {
      "epoch": 6.881551362683438,
      "grad_norm": 0.08705029636621475,
      "learning_rate": 0.0008292772746869392,
      "loss": 0.4774,
      "num_input_tokens_seen": 8581824,
      "step": 13130
    },
    {
      "epoch": 6.884171907756813,
      "grad_norm": 0.13578005135059357,
      "learning_rate": 0.0008291051467191717,
      "loss": 0.4336,
      "num_input_tokens_seen": 8586080,
      "step": 13135
    },
    {
      "epoch": 6.886792452830189,
      "grad_norm": 0.07597523927688599,
      "learning_rate": 0.000828932949906362,
      "loss": 0.3999,
      "num_input_tokens_seen": 8590400,
      "step": 13140
    },
    {
      "epoch": 6.889412997903564,
      "grad_norm": 0.1096436083316803,
      "learning_rate": 0.0008287606842845319,
      "loss": 0.5228,
      "num_input_tokens_seen": 8593728,
      "step": 13145
    },
    {
      "epoch": 6.8920335429769395,
      "grad_norm": 0.055120356380939484,
      "learning_rate": 0.0008285883498897174,
      "loss": 0.4006,
      "num_input_tokens_seen": 8596832,
      "step": 13150
    },
    {
      "epoch": 6.894654088050315,
      "grad_norm": 0.08602835237979889,
      "learning_rate": 0.0008284159467579686,
      "loss": 0.393,
      "num_input_tokens_seen": 8601024,
      "step": 13155
    },
    {
      "epoch": 6.89727463312369,
      "grad_norm": 0.12174109369516373,
      "learning_rate": 0.0008282434749253507,
      "loss": 0.6005,
      "num_input_tokens_seen": 8603936,
      "step": 13160
    },
    {
      "epoch": 6.899895178197065,
      "grad_norm": 0.09647480398416519,
      "learning_rate": 0.0008280709344279426,
      "loss": 0.4001,
      "num_input_tokens_seen": 8606720,
      "step": 13165
    },
    {
      "epoch": 6.90251572327044,
      "grad_norm": 0.044672995805740356,
      "learning_rate": 0.0008278983253018377,
      "loss": 0.5997,
      "num_input_tokens_seen": 8612352,
      "step": 13170
    },
    {
      "epoch": 6.905136268343815,
      "grad_norm": 0.08457010984420776,
      "learning_rate": 0.0008277256475831443,
      "loss": 0.3474,
      "num_input_tokens_seen": 8615168,
      "step": 13175
    },
    {
      "epoch": 6.9077568134171905,
      "grad_norm": 0.0688885971903801,
      "learning_rate": 0.0008275529013079841,
      "loss": 0.5642,
      "num_input_tokens_seen": 8618304,
      "step": 13180
    },
    {
      "epoch": 6.910377358490566,
      "grad_norm": 0.11803046613931656,
      "learning_rate": 0.0008273800865124941,
      "loss": 0.5378,
      "num_input_tokens_seen": 8621216,
      "step": 13185
    },
    {
      "epoch": 6.912997903563941,
      "grad_norm": 0.09119752049446106,
      "learning_rate": 0.0008272072032328246,
      "loss": 0.3462,
      "num_input_tokens_seen": 8624256,
      "step": 13190
    },
    {
      "epoch": 6.915618448637317,
      "grad_norm": 0.0958106517791748,
      "learning_rate": 0.0008270342515051414,
      "loss": 0.4736,
      "num_input_tokens_seen": 8627968,
      "step": 13195
    },
    {
      "epoch": 6.918238993710692,
      "grad_norm": 0.08147364109754562,
      "learning_rate": 0.0008268612313656238,
      "loss": 0.4407,
      "num_input_tokens_seen": 8630848,
      "step": 13200
    },
    {
      "epoch": 6.920859538784067,
      "grad_norm": 0.05548175424337387,
      "learning_rate": 0.0008266881428504655,
      "loss": 0.4686,
      "num_input_tokens_seen": 8634880,
      "step": 13205
    },
    {
      "epoch": 6.923480083857442,
      "grad_norm": 0.07743128389120102,
      "learning_rate": 0.000826514985995875,
      "loss": 0.6028,
      "num_input_tokens_seen": 8638432,
      "step": 13210
    },
    {
      "epoch": 6.926100628930818,
      "grad_norm": 0.11791868507862091,
      "learning_rate": 0.0008263417608380743,
      "loss": 0.557,
      "num_input_tokens_seen": 8641888,
      "step": 13215
    },
    {
      "epoch": 6.928721174004193,
      "grad_norm": 0.08644267916679382,
      "learning_rate": 0.0008261684674133003,
      "loss": 0.577,
      "num_input_tokens_seen": 8645760,
      "step": 13220
    },
    {
      "epoch": 6.931341719077568,
      "grad_norm": 0.07681585103273392,
      "learning_rate": 0.0008259951057578041,
      "loss": 0.4548,
      "num_input_tokens_seen": 8649120,
      "step": 13225
    },
    {
      "epoch": 6.933962264150943,
      "grad_norm": 0.11582257598638535,
      "learning_rate": 0.000825821675907851,
      "loss": 0.5099,
      "num_input_tokens_seen": 8652416,
      "step": 13230
    },
    {
      "epoch": 6.936582809224319,
      "grad_norm": 0.05901035666465759,
      "learning_rate": 0.0008256481778997205,
      "loss": 0.3243,
      "num_input_tokens_seen": 8655040,
      "step": 13235
    },
    {
      "epoch": 6.939203354297694,
      "grad_norm": 0.07817316800355911,
      "learning_rate": 0.0008254746117697062,
      "loss": 0.4125,
      "num_input_tokens_seen": 8658720,
      "step": 13240
    },
    {
      "epoch": 6.9418238993710695,
      "grad_norm": 0.07653142511844635,
      "learning_rate": 0.0008253009775541165,
      "loss": 0.451,
      "num_input_tokens_seen": 8662144,
      "step": 13245
    },
    {
      "epoch": 6.944444444444445,
      "grad_norm": 0.11064258962869644,
      "learning_rate": 0.0008251272752892733,
      "loss": 0.3786,
      "num_input_tokens_seen": 8664960,
      "step": 13250
    },
    {
      "epoch": 6.94706498951782,
      "grad_norm": 0.06555324047803879,
      "learning_rate": 0.0008249535050115135,
      "loss": 0.4146,
      "num_input_tokens_seen": 8668352,
      "step": 13255
    },
    {
      "epoch": 6.949685534591195,
      "grad_norm": 0.08728949725627899,
      "learning_rate": 0.0008247796667571879,
      "loss": 0.4137,
      "num_input_tokens_seen": 8670784,
      "step": 13260
    },
    {
      "epoch": 6.95230607966457,
      "grad_norm": 0.054265543818473816,
      "learning_rate": 0.000824605760562661,
      "loss": 0.4558,
      "num_input_tokens_seen": 8674272,
      "step": 13265
    },
    {
      "epoch": 6.954926624737945,
      "grad_norm": 0.07743683457374573,
      "learning_rate": 0.0008244317864643125,
      "loss": 0.4211,
      "num_input_tokens_seen": 8677696,
      "step": 13270
    },
    {
      "epoch": 6.9575471698113205,
      "grad_norm": 0.0916675478219986,
      "learning_rate": 0.0008242577444985355,
      "loss": 0.5531,
      "num_input_tokens_seen": 8680640,
      "step": 13275
    },
    {
      "epoch": 6.960167714884696,
      "grad_norm": 0.07595764845609665,
      "learning_rate": 0.0008240836347017375,
      "loss": 0.4138,
      "num_input_tokens_seen": 8683680,
      "step": 13280
    },
    {
      "epoch": 6.962788259958071,
      "grad_norm": 0.08118987828493118,
      "learning_rate": 0.0008239094571103408,
      "loss": 0.3825,
      "num_input_tokens_seen": 8687136,
      "step": 13285
    },
    {
      "epoch": 6.965408805031447,
      "grad_norm": 0.09810169786214828,
      "learning_rate": 0.0008237352117607808,
      "loss": 0.3495,
      "num_input_tokens_seen": 8690048,
      "step": 13290
    },
    {
      "epoch": 6.968029350104822,
      "grad_norm": 0.05893757939338684,
      "learning_rate": 0.000823560898689508,
      "loss": 0.3968,
      "num_input_tokens_seen": 8693248,
      "step": 13295
    },
    {
      "epoch": 6.970649895178197,
      "grad_norm": 0.09819149971008301,
      "learning_rate": 0.0008233865179329865,
      "loss": 0.4274,
      "num_input_tokens_seen": 8700800,
      "step": 13300
    },
    {
      "epoch": 6.973270440251572,
      "grad_norm": 0.08098478615283966,
      "learning_rate": 0.0008232120695276948,
      "loss": 0.4476,
      "num_input_tokens_seen": 8705824,
      "step": 13305
    },
    {
      "epoch": 6.975890985324948,
      "grad_norm": 0.05793555825948715,
      "learning_rate": 0.0008230375535101255,
      "loss": 0.4411,
      "num_input_tokens_seen": 8708768,
      "step": 13310
    },
    {
      "epoch": 6.978511530398323,
      "grad_norm": 0.06543002277612686,
      "learning_rate": 0.0008228629699167855,
      "loss": 0.3585,
      "num_input_tokens_seen": 8711936,
      "step": 13315
    },
    {
      "epoch": 6.981132075471698,
      "grad_norm": 0.09677831083536148,
      "learning_rate": 0.0008226883187841957,
      "loss": 0.4619,
      "num_input_tokens_seen": 8714880,
      "step": 13320
    },
    {
      "epoch": 6.983752620545073,
      "grad_norm": 0.07766691595315933,
      "learning_rate": 0.0008225136001488908,
      "loss": 0.3552,
      "num_input_tokens_seen": 8718272,
      "step": 13325
    },
    {
      "epoch": 6.986373165618449,
      "grad_norm": 0.07948964089155197,
      "learning_rate": 0.0008223388140474205,
      "loss": 0.5084,
      "num_input_tokens_seen": 8720928,
      "step": 13330
    },
    {
      "epoch": 6.988993710691824,
      "grad_norm": 0.07912881672382355,
      "learning_rate": 0.0008221639605163476,
      "loss": 0.4473,
      "num_input_tokens_seen": 8723712,
      "step": 13335
    },
    {
      "epoch": 6.9916142557651995,
      "grad_norm": 0.11629687994718552,
      "learning_rate": 0.0008219890395922495,
      "loss": 0.4477,
      "num_input_tokens_seen": 8726752,
      "step": 13340
    },
    {
      "epoch": 6.994234800838575,
      "grad_norm": 0.06424354761838913,
      "learning_rate": 0.0008218140513117178,
      "loss": 0.5792,
      "num_input_tokens_seen": 8730336,
      "step": 13345
    },
    {
      "epoch": 6.99685534591195,
      "grad_norm": 0.08359383791685104,
      "learning_rate": 0.0008216389957113582,
      "loss": 0.4809,
      "num_input_tokens_seen": 8732896,
      "step": 13350
    },
    {
      "epoch": 6.999475890985325,
      "grad_norm": 0.11070705205202103,
      "learning_rate": 0.0008214638728277899,
      "loss": 0.4679,
      "num_input_tokens_seen": 8735648,
      "step": 13355
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.4737432897090912,
      "eval_runtime": 13.5758,
      "eval_samples_per_second": 62.464,
      "eval_steps_per_second": 15.616,
      "num_input_tokens_seen": 8735728,
      "step": 13356
    },
    {
      "epoch": 7.0020964360587,
      "grad_norm": 0.10299075394868851,
      "learning_rate": 0.0008212886826976469,
      "loss": 0.4152,
      "num_input_tokens_seen": 8738288,
      "step": 13360
    },
    {
      "epoch": 7.004716981132075,
      "grad_norm": 0.057899609208106995,
      "learning_rate": 0.0008211134253575769,
      "loss": 0.3714,
      "num_input_tokens_seen": 8742352,
      "step": 13365
    },
    {
      "epoch": 7.0073375262054505,
      "grad_norm": 0.15711838006973267,
      "learning_rate": 0.000820938100844242,
      "loss": 0.4432,
      "num_input_tokens_seen": 8744880,
      "step": 13370
    },
    {
      "epoch": 7.009958071278826,
      "grad_norm": 0.0386352613568306,
      "learning_rate": 0.0008207627091943177,
      "loss": 0.3956,
      "num_input_tokens_seen": 8751280,
      "step": 13375
    },
    {
      "epoch": 7.012578616352202,
      "grad_norm": 0.0842125415802002,
      "learning_rate": 0.000820587250444494,
      "loss": 0.5068,
      "num_input_tokens_seen": 8754704,
      "step": 13380
    },
    {
      "epoch": 7.015199161425577,
      "grad_norm": 0.09641428291797638,
      "learning_rate": 0.0008204117246314752,
      "loss": 0.6361,
      "num_input_tokens_seen": 8757840,
      "step": 13385
    },
    {
      "epoch": 7.017819706498952,
      "grad_norm": 0.08182863891124725,
      "learning_rate": 0.0008202361317919788,
      "loss": 0.4957,
      "num_input_tokens_seen": 8761136,
      "step": 13390
    },
    {
      "epoch": 7.020440251572327,
      "grad_norm": 0.04827294126152992,
      "learning_rate": 0.0008200604719627373,
      "loss": 0.4268,
      "num_input_tokens_seen": 8764976,
      "step": 13395
    },
    {
      "epoch": 7.023060796645702,
      "grad_norm": 0.1118776723742485,
      "learning_rate": 0.0008198847451804964,
      "loss": 0.5001,
      "num_input_tokens_seen": 8768624,
      "step": 13400
    },
    {
      "epoch": 7.0256813417190775,
      "grad_norm": 0.07156307995319366,
      "learning_rate": 0.0008197089514820162,
      "loss": 0.6002,
      "num_input_tokens_seen": 8772880,
      "step": 13405
    },
    {
      "epoch": 7.028301886792453,
      "grad_norm": 0.09557902812957764,
      "learning_rate": 0.0008195330909040708,
      "loss": 0.4122,
      "num_input_tokens_seen": 8775824,
      "step": 13410
    },
    {
      "epoch": 7.030922431865828,
      "grad_norm": 0.11478090286254883,
      "learning_rate": 0.0008193571634834483,
      "loss": 0.5336,
      "num_input_tokens_seen": 8778480,
      "step": 13415
    },
    {
      "epoch": 7.033542976939203,
      "grad_norm": 0.08020918071269989,
      "learning_rate": 0.0008191811692569506,
      "loss": 0.4087,
      "num_input_tokens_seen": 8781072,
      "step": 13420
    },
    {
      "epoch": 7.036163522012578,
      "grad_norm": 0.11080586910247803,
      "learning_rate": 0.0008190051082613936,
      "loss": 0.3789,
      "num_input_tokens_seen": 8784592,
      "step": 13425
    },
    {
      "epoch": 7.038784067085954,
      "grad_norm": 0.055876702070236206,
      "learning_rate": 0.0008188289805336074,
      "loss": 0.3897,
      "num_input_tokens_seen": 8788656,
      "step": 13430
    },
    {
      "epoch": 7.0414046121593294,
      "grad_norm": 0.0725199282169342,
      "learning_rate": 0.0008186527861104359,
      "loss": 0.4151,
      "num_input_tokens_seen": 8792016,
      "step": 13435
    },
    {
      "epoch": 7.044025157232705,
      "grad_norm": 0.13256922364234924,
      "learning_rate": 0.0008184765250287369,
      "loss": 0.4128,
      "num_input_tokens_seen": 8794768,
      "step": 13440
    },
    {
      "epoch": 7.04664570230608,
      "grad_norm": 0.0739373043179512,
      "learning_rate": 0.0008183001973253823,
      "loss": 0.5745,
      "num_input_tokens_seen": 8797776,
      "step": 13445
    },
    {
      "epoch": 7.049266247379455,
      "grad_norm": 0.09829367697238922,
      "learning_rate": 0.0008181238030372576,
      "loss": 0.4995,
      "num_input_tokens_seen": 8801488,
      "step": 13450
    },
    {
      "epoch": 7.05188679245283,
      "grad_norm": 0.07453735172748566,
      "learning_rate": 0.0008179473422012628,
      "loss": 0.4635,
      "num_input_tokens_seen": 8805360,
      "step": 13455
    },
    {
      "epoch": 7.054507337526205,
      "grad_norm": 0.06822298467159271,
      "learning_rate": 0.0008177708148543114,
      "loss": 0.4565,
      "num_input_tokens_seen": 8808848,
      "step": 13460
    },
    {
      "epoch": 7.0571278825995805,
      "grad_norm": 0.1641635149717331,
      "learning_rate": 0.0008175942210333307,
      "loss": 0.5573,
      "num_input_tokens_seen": 8812336,
      "step": 13465
    },
    {
      "epoch": 7.059748427672956,
      "grad_norm": 0.15504449605941772,
      "learning_rate": 0.0008174175607752626,
      "loss": 0.5183,
      "num_input_tokens_seen": 8814768,
      "step": 13470
    },
    {
      "epoch": 7.062368972746331,
      "grad_norm": 0.1266116350889206,
      "learning_rate": 0.0008172408341170617,
      "loss": 0.3281,
      "num_input_tokens_seen": 8818512,
      "step": 13475
    },
    {
      "epoch": 7.064989517819707,
      "grad_norm": 0.12076421827077866,
      "learning_rate": 0.0008170640410956976,
      "loss": 0.5198,
      "num_input_tokens_seen": 8821232,
      "step": 13480
    },
    {
      "epoch": 7.067610062893082,
      "grad_norm": 0.1226128414273262,
      "learning_rate": 0.0008168871817481536,
      "loss": 0.4704,
      "num_input_tokens_seen": 8825616,
      "step": 13485
    },
    {
      "epoch": 7.070230607966457,
      "grad_norm": 0.09777790307998657,
      "learning_rate": 0.0008167102561114261,
      "loss": 0.4854,
      "num_input_tokens_seen": 8828144,
      "step": 13490
    },
    {
      "epoch": 7.072851153039832,
      "grad_norm": 0.13584044575691223,
      "learning_rate": 0.0008165332642225265,
      "loss": 0.6021,
      "num_input_tokens_seen": 8830960,
      "step": 13495
    },
    {
      "epoch": 7.0754716981132075,
      "grad_norm": 0.09078551828861237,
      "learning_rate": 0.0008163562061184791,
      "loss": 0.4507,
      "num_input_tokens_seen": 8833680,
      "step": 13500
    },
    {
      "epoch": 7.078092243186583,
      "grad_norm": 0.06355825811624527,
      "learning_rate": 0.0008161790818363227,
      "loss": 0.5428,
      "num_input_tokens_seen": 8837008,
      "step": 13505
    },
    {
      "epoch": 7.080712788259958,
      "grad_norm": 0.08519697189331055,
      "learning_rate": 0.0008160018914131094,
      "loss": 0.4079,
      "num_input_tokens_seen": 8840528,
      "step": 13510
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.10870074480772018,
      "learning_rate": 0.0008158246348859057,
      "loss": 0.4465,
      "num_input_tokens_seen": 8844080,
      "step": 13515
    },
    {
      "epoch": 7.085953878406708,
      "grad_norm": 0.054716918617486954,
      "learning_rate": 0.0008156473122917913,
      "loss": 0.3489,
      "num_input_tokens_seen": 8847184,
      "step": 13520
    },
    {
      "epoch": 7.088574423480084,
      "grad_norm": 0.09895560145378113,
      "learning_rate": 0.0008154699236678604,
      "loss": 0.454,
      "num_input_tokens_seen": 8850032,
      "step": 13525
    },
    {
      "epoch": 7.091194968553459,
      "grad_norm": 0.05323413386940956,
      "learning_rate": 0.0008152924690512205,
      "loss": 0.3905,
      "num_input_tokens_seen": 8853328,
      "step": 13530
    },
    {
      "epoch": 7.093815513626835,
      "grad_norm": 0.09038370847702026,
      "learning_rate": 0.0008151149484789932,
      "loss": 0.4072,
      "num_input_tokens_seen": 8856432,
      "step": 13535
    },
    {
      "epoch": 7.09643605870021,
      "grad_norm": 0.11643639951944351,
      "learning_rate": 0.0008149373619883136,
      "loss": 0.4469,
      "num_input_tokens_seen": 8859696,
      "step": 13540
    },
    {
      "epoch": 7.099056603773585,
      "grad_norm": 0.06209114193916321,
      "learning_rate": 0.0008147597096163308,
      "loss": 0.3551,
      "num_input_tokens_seen": 8862736,
      "step": 13545
    },
    {
      "epoch": 7.10167714884696,
      "grad_norm": 0.0727565586566925,
      "learning_rate": 0.0008145819914002079,
      "loss": 0.4349,
      "num_input_tokens_seen": 8865424,
      "step": 13550
    },
    {
      "epoch": 7.104297693920335,
      "grad_norm": 0.1917150914669037,
      "learning_rate": 0.0008144042073771214,
      "loss": 0.4893,
      "num_input_tokens_seen": 8868368,
      "step": 13555
    },
    {
      "epoch": 7.1069182389937104,
      "grad_norm": 0.09165406972169876,
      "learning_rate": 0.0008142263575842615,
      "loss": 0.4952,
      "num_input_tokens_seen": 8870960,
      "step": 13560
    },
    {
      "epoch": 7.109538784067086,
      "grad_norm": 0.11852040886878967,
      "learning_rate": 0.0008140484420588323,
      "loss": 0.5968,
      "num_input_tokens_seen": 8874256,
      "step": 13565
    },
    {
      "epoch": 7.112159329140461,
      "grad_norm": 0.20242981612682343,
      "learning_rate": 0.000813870460838052,
      "loss": 0.5055,
      "num_input_tokens_seen": 8877456,
      "step": 13570
    },
    {
      "epoch": 7.114779874213837,
      "grad_norm": 0.059788089245557785,
      "learning_rate": 0.0008136924139591522,
      "loss": 0.4577,
      "num_input_tokens_seen": 8880976,
      "step": 13575
    },
    {
      "epoch": 7.117400419287212,
      "grad_norm": 0.1006987988948822,
      "learning_rate": 0.0008135143014593782,
      "loss": 0.3507,
      "num_input_tokens_seen": 8883568,
      "step": 13580
    },
    {
      "epoch": 7.120020964360587,
      "grad_norm": 0.11119552701711655,
      "learning_rate": 0.000813336123375989,
      "loss": 0.5454,
      "num_input_tokens_seen": 8887088,
      "step": 13585
    },
    {
      "epoch": 7.122641509433962,
      "grad_norm": 0.06599216163158417,
      "learning_rate": 0.0008131578797462575,
      "loss": 0.4872,
      "num_input_tokens_seen": 8890704,
      "step": 13590
    },
    {
      "epoch": 7.1252620545073375,
      "grad_norm": 0.0917544737458229,
      "learning_rate": 0.0008129795706074703,
      "loss": 0.4815,
      "num_input_tokens_seen": 8894160,
      "step": 13595
    },
    {
      "epoch": 7.127882599580713,
      "grad_norm": 0.09565563499927521,
      "learning_rate": 0.0008128011959969277,
      "loss": 0.4315,
      "num_input_tokens_seen": 8897008,
      "step": 13600
    },
    {
      "epoch": 7.130503144654088,
      "grad_norm": 0.1116461232304573,
      "learning_rate": 0.0008126227559519434,
      "loss": 0.3118,
      "num_input_tokens_seen": 8899696,
      "step": 13605
    },
    {
      "epoch": 7.133123689727463,
      "grad_norm": 0.07622087001800537,
      "learning_rate": 0.0008124442505098452,
      "loss": 0.4443,
      "num_input_tokens_seen": 8903568,
      "step": 13610
    },
    {
      "epoch": 7.135744234800838,
      "grad_norm": 0.09495776891708374,
      "learning_rate": 0.0008122656797079744,
      "loss": 0.5189,
      "num_input_tokens_seen": 8907216,
      "step": 13615
    },
    {
      "epoch": 7.138364779874214,
      "grad_norm": 0.2812514007091522,
      "learning_rate": 0.0008120870435836858,
      "loss": 0.4812,
      "num_input_tokens_seen": 8910544,
      "step": 13620
    },
    {
      "epoch": 7.140985324947589,
      "grad_norm": 0.12551644444465637,
      "learning_rate": 0.0008119083421743481,
      "loss": 0.4832,
      "num_input_tokens_seen": 8913872,
      "step": 13625
    },
    {
      "epoch": 7.143605870020965,
      "grad_norm": 0.07620216906070709,
      "learning_rate": 0.0008117295755173437,
      "loss": 0.3538,
      "num_input_tokens_seen": 8917456,
      "step": 13630
    },
    {
      "epoch": 7.14622641509434,
      "grad_norm": 0.09972311556339264,
      "learning_rate": 0.0008115507436500687,
      "loss": 0.5263,
      "num_input_tokens_seen": 8920848,
      "step": 13635
    },
    {
      "epoch": 7.148846960167715,
      "grad_norm": 0.09145185351371765,
      "learning_rate": 0.0008113718466099322,
      "loss": 0.4489,
      "num_input_tokens_seen": 8923632,
      "step": 13640
    },
    {
      "epoch": 7.15146750524109,
      "grad_norm": 0.06559357792139053,
      "learning_rate": 0.0008111928844343579,
      "loss": 0.4576,
      "num_input_tokens_seen": 8927952,
      "step": 13645
    },
    {
      "epoch": 7.154088050314465,
      "grad_norm": 0.10647577047348022,
      "learning_rate": 0.0008110138571607823,
      "loss": 0.5001,
      "num_input_tokens_seen": 8931792,
      "step": 13650
    },
    {
      "epoch": 7.15670859538784,
      "grad_norm": 0.06333848834037781,
      "learning_rate": 0.0008108347648266563,
      "loss": 0.3545,
      "num_input_tokens_seen": 8934672,
      "step": 13655
    },
    {
      "epoch": 7.159329140461216,
      "grad_norm": 0.08864142745733261,
      "learning_rate": 0.0008106556074694434,
      "loss": 0.4205,
      "num_input_tokens_seen": 8938128,
      "step": 13660
    },
    {
      "epoch": 7.161949685534591,
      "grad_norm": 0.11673112213611603,
      "learning_rate": 0.0008104763851266216,
      "loss": 0.4364,
      "num_input_tokens_seen": 8940784,
      "step": 13665
    },
    {
      "epoch": 7.164570230607967,
      "grad_norm": 0.04646959900856018,
      "learning_rate": 0.0008102970978356822,
      "loss": 0.3823,
      "num_input_tokens_seen": 8944208,
      "step": 13670
    },
    {
      "epoch": 7.167190775681342,
      "grad_norm": 0.08058857172727585,
      "learning_rate": 0.00081011774563413,
      "loss": 0.6313,
      "num_input_tokens_seen": 8947216,
      "step": 13675
    },
    {
      "epoch": 7.169811320754717,
      "grad_norm": 0.08501345664262772,
      "learning_rate": 0.0008099383285594835,
      "loss": 0.4145,
      "num_input_tokens_seen": 8950480,
      "step": 13680
    },
    {
      "epoch": 7.172431865828092,
      "grad_norm": 0.07850345969200134,
      "learning_rate": 0.0008097588466492746,
      "loss": 0.5273,
      "num_input_tokens_seen": 8953232,
      "step": 13685
    },
    {
      "epoch": 7.1750524109014675,
      "grad_norm": 0.07743844389915466,
      "learning_rate": 0.0008095792999410487,
      "loss": 0.3597,
      "num_input_tokens_seen": 8956304,
      "step": 13690
    },
    {
      "epoch": 7.177672955974843,
      "grad_norm": 0.08167094737291336,
      "learning_rate": 0.0008093996884723653,
      "loss": 0.4396,
      "num_input_tokens_seen": 8960048,
      "step": 13695
    },
    {
      "epoch": 7.180293501048218,
      "grad_norm": 0.07330206036567688,
      "learning_rate": 0.0008092200122807969,
      "loss": 0.3872,
      "num_input_tokens_seen": 8963184,
      "step": 13700
    },
    {
      "epoch": 7.182914046121593,
      "grad_norm": 0.15809550881385803,
      "learning_rate": 0.0008090402714039295,
      "loss": 0.4576,
      "num_input_tokens_seen": 8965776,
      "step": 13705
    },
    {
      "epoch": 7.185534591194968,
      "grad_norm": 0.07953187078237534,
      "learning_rate": 0.0008088604658793632,
      "loss": 0.4886,
      "num_input_tokens_seen": 8968400,
      "step": 13710
    },
    {
      "epoch": 7.188155136268344,
      "grad_norm": 0.08154962956905365,
      "learning_rate": 0.0008086805957447111,
      "loss": 0.5521,
      "num_input_tokens_seen": 8971152,
      "step": 13715
    },
    {
      "epoch": 7.190775681341719,
      "grad_norm": 0.06964615732431412,
      "learning_rate": 0.0008085006610376,
      "loss": 0.4412,
      "num_input_tokens_seen": 8974288,
      "step": 13720
    },
    {
      "epoch": 7.193396226415095,
      "grad_norm": 0.049786344170570374,
      "learning_rate": 0.0008083206617956702,
      "loss": 0.3878,
      "num_input_tokens_seen": 8977840,
      "step": 13725
    },
    {
      "epoch": 7.19601677148847,
      "grad_norm": 0.07343660295009613,
      "learning_rate": 0.0008081405980565755,
      "loss": 0.3811,
      "num_input_tokens_seen": 8981552,
      "step": 13730
    },
    {
      "epoch": 7.198637316561845,
      "grad_norm": 0.05879523605108261,
      "learning_rate": 0.0008079604698579829,
      "loss": 0.3625,
      "num_input_tokens_seen": 8984400,
      "step": 13735
    },
    {
      "epoch": 7.20125786163522,
      "grad_norm": 0.10204970091581345,
      "learning_rate": 0.0008077802772375736,
      "loss": 0.4605,
      "num_input_tokens_seen": 8986992,
      "step": 13740
    },
    {
      "epoch": 7.203878406708595,
      "grad_norm": 0.1654772162437439,
      "learning_rate": 0.0008076000202330416,
      "loss": 0.4634,
      "num_input_tokens_seen": 8989488,
      "step": 13745
    },
    {
      "epoch": 7.20649895178197,
      "grad_norm": 0.09911580383777618,
      "learning_rate": 0.0008074196988820945,
      "loss": 0.4314,
      "num_input_tokens_seen": 8992752,
      "step": 13750
    },
    {
      "epoch": 7.209119496855346,
      "grad_norm": 0.07823745906352997,
      "learning_rate": 0.0008072393132224539,
      "loss": 0.4777,
      "num_input_tokens_seen": 8995504,
      "step": 13755
    },
    {
      "epoch": 7.211740041928721,
      "grad_norm": 0.17868541181087494,
      "learning_rate": 0.0008070588632918541,
      "loss": 0.3889,
      "num_input_tokens_seen": 8998256,
      "step": 13760
    },
    {
      "epoch": 7.214360587002097,
      "grad_norm": 0.10426442325115204,
      "learning_rate": 0.000806878349128043,
      "loss": 0.4924,
      "num_input_tokens_seen": 9001168,
      "step": 13765
    },
    {
      "epoch": 7.216981132075472,
      "grad_norm": 0.10784455388784409,
      "learning_rate": 0.0008066977707687826,
      "loss": 0.3669,
      "num_input_tokens_seen": 9004176,
      "step": 13770
    },
    {
      "epoch": 7.219601677148847,
      "grad_norm": 0.10392668098211288,
      "learning_rate": 0.0008065171282518473,
      "loss": 0.4615,
      "num_input_tokens_seen": 9007088,
      "step": 13775
    },
    {
      "epoch": 7.222222222222222,
      "grad_norm": 0.12382746487855911,
      "learning_rate": 0.0008063364216150257,
      "loss": 0.4286,
      "num_input_tokens_seen": 9010192,
      "step": 13780
    },
    {
      "epoch": 7.2248427672955975,
      "grad_norm": 0.06090817600488663,
      "learning_rate": 0.0008061556508961199,
      "loss": 0.4289,
      "num_input_tokens_seen": 9013744,
      "step": 13785
    },
    {
      "epoch": 7.227463312368973,
      "grad_norm": 0.11271172016859055,
      "learning_rate": 0.0008059748161329443,
      "loss": 0.5228,
      "num_input_tokens_seen": 9016720,
      "step": 13790
    },
    {
      "epoch": 7.230083857442348,
      "grad_norm": 0.07962451130151749,
      "learning_rate": 0.0008057939173633282,
      "loss": 0.4347,
      "num_input_tokens_seen": 9020336,
      "step": 13795
    },
    {
      "epoch": 7.232704402515723,
      "grad_norm": 0.06837359815835953,
      "learning_rate": 0.0008056129546251132,
      "loss": 0.5384,
      "num_input_tokens_seen": 9022896,
      "step": 13800
    },
    {
      "epoch": 7.235324947589098,
      "grad_norm": 0.0814751610159874,
      "learning_rate": 0.0008054319279561546,
      "loss": 0.4302,
      "num_input_tokens_seen": 9025808,
      "step": 13805
    },
    {
      "epoch": 7.237945492662474,
      "grad_norm": 0.0830637738108635,
      "learning_rate": 0.0008052508373943214,
      "loss": 0.333,
      "num_input_tokens_seen": 9028528,
      "step": 13810
    },
    {
      "epoch": 7.240566037735849,
      "grad_norm": 0.10362819582223892,
      "learning_rate": 0.0008050696829774954,
      "loss": 0.4772,
      "num_input_tokens_seen": 9031984,
      "step": 13815
    },
    {
      "epoch": 7.243186582809225,
      "grad_norm": 0.13830187916755676,
      "learning_rate": 0.0008048884647435721,
      "loss": 0.5337,
      "num_input_tokens_seen": 9034480,
      "step": 13820
    },
    {
      "epoch": 7.2458071278826,
      "grad_norm": 0.12059345096349716,
      "learning_rate": 0.0008047071827304604,
      "loss": 0.4008,
      "num_input_tokens_seen": 9037904,
      "step": 13825
    },
    {
      "epoch": 7.248427672955975,
      "grad_norm": 0.10741136968135834,
      "learning_rate": 0.0008045258369760824,
      "loss": 0.5012,
      "num_input_tokens_seen": 9040016,
      "step": 13830
    },
    {
      "epoch": 7.25104821802935,
      "grad_norm": 0.0936087816953659,
      "learning_rate": 0.0008043444275183735,
      "loss": 0.5166,
      "num_input_tokens_seen": 9044176,
      "step": 13835
    },
    {
      "epoch": 7.253668763102725,
      "grad_norm": 0.1484525203704834,
      "learning_rate": 0.0008041629543952824,
      "loss": 0.4092,
      "num_input_tokens_seen": 9047920,
      "step": 13840
    },
    {
      "epoch": 7.2562893081761,
      "grad_norm": 0.07192862778902054,
      "learning_rate": 0.0008039814176447714,
      "loss": 0.3556,
      "num_input_tokens_seen": 9051024,
      "step": 13845
    },
    {
      "epoch": 7.258909853249476,
      "grad_norm": 0.10869866609573364,
      "learning_rate": 0.0008037998173048157,
      "loss": 0.6357,
      "num_input_tokens_seen": 9055280,
      "step": 13850
    },
    {
      "epoch": 7.261530398322851,
      "grad_norm": 0.08758268505334854,
      "learning_rate": 0.0008036181534134044,
      "loss": 0.4423,
      "num_input_tokens_seen": 9058128,
      "step": 13855
    },
    {
      "epoch": 7.264150943396227,
      "grad_norm": 0.08347384631633759,
      "learning_rate": 0.0008034364260085391,
      "loss": 0.5537,
      "num_input_tokens_seen": 9061008,
      "step": 13860
    },
    {
      "epoch": 7.266771488469602,
      "grad_norm": 0.0685151070356369,
      "learning_rate": 0.0008032546351282353,
      "loss": 0.4739,
      "num_input_tokens_seen": 9063856,
      "step": 13865
    },
    {
      "epoch": 7.269392033542977,
      "grad_norm": 0.09585316479206085,
      "learning_rate": 0.0008030727808105215,
      "loss": 0.3913,
      "num_input_tokens_seen": 9067664,
      "step": 13870
    },
    {
      "epoch": 7.272012578616352,
      "grad_norm": 0.08636537939310074,
      "learning_rate": 0.0008028908630934397,
      "loss": 0.4861,
      "num_input_tokens_seen": 9070320,
      "step": 13875
    },
    {
      "epoch": 7.2746331236897275,
      "grad_norm": 0.07735379040241241,
      "learning_rate": 0.0008027088820150447,
      "loss": 0.5024,
      "num_input_tokens_seen": 9073264,
      "step": 13880
    },
    {
      "epoch": 7.277253668763103,
      "grad_norm": 0.13628117740154266,
      "learning_rate": 0.0008025268376134054,
      "loss": 0.4807,
      "num_input_tokens_seen": 9076368,
      "step": 13885
    },
    {
      "epoch": 7.279874213836478,
      "grad_norm": 0.09360995143651962,
      "learning_rate": 0.0008023447299266027,
      "loss": 0.4341,
      "num_input_tokens_seen": 9079568,
      "step": 13890
    },
    {
      "epoch": 7.282494758909853,
      "grad_norm": 0.13036377727985382,
      "learning_rate": 0.0008021625589927321,
      "loss": 0.5215,
      "num_input_tokens_seen": 9083184,
      "step": 13895
    },
    {
      "epoch": 7.285115303983228,
      "grad_norm": 0.08268532156944275,
      "learning_rate": 0.0008019803248499013,
      "loss": 0.4127,
      "num_input_tokens_seen": 9086832,
      "step": 13900
    },
    {
      "epoch": 7.287735849056604,
      "grad_norm": 0.10074886679649353,
      "learning_rate": 0.0008017980275362318,
      "loss": 0.4144,
      "num_input_tokens_seen": 9089488,
      "step": 13905
    },
    {
      "epoch": 7.290356394129979,
      "grad_norm": 0.16976946592330933,
      "learning_rate": 0.000801615667089858,
      "loss": 0.4753,
      "num_input_tokens_seen": 9092144,
      "step": 13910
    },
    {
      "epoch": 7.2929769392033545,
      "grad_norm": 0.13123750686645508,
      "learning_rate": 0.0008014332435489275,
      "loss": 0.4608,
      "num_input_tokens_seen": 9095152,
      "step": 13915
    },
    {
      "epoch": 7.29559748427673,
      "grad_norm": 0.06894700229167938,
      "learning_rate": 0.0008012507569516016,
      "loss": 0.4505,
      "num_input_tokens_seen": 9098448,
      "step": 13920
    },
    {
      "epoch": 7.298218029350105,
      "grad_norm": 0.09439918398857117,
      "learning_rate": 0.0008010682073360541,
      "loss": 0.3154,
      "num_input_tokens_seen": 9101072,
      "step": 13925
    },
    {
      "epoch": 7.30083857442348,
      "grad_norm": 0.1223638728260994,
      "learning_rate": 0.0008008855947404724,
      "loss": 0.4009,
      "num_input_tokens_seen": 9103600,
      "step": 13930
    },
    {
      "epoch": 7.303459119496855,
      "grad_norm": 0.07566490769386292,
      "learning_rate": 0.000800702919203057,
      "loss": 0.5157,
      "num_input_tokens_seen": 9107344,
      "step": 13935
    },
    {
      "epoch": 7.30607966457023,
      "grad_norm": 0.19620691239833832,
      "learning_rate": 0.0008005201807620214,
      "loss": 0.5369,
      "num_input_tokens_seen": 9110672,
      "step": 13940
    },
    {
      "epoch": 7.308700209643606,
      "grad_norm": 0.06948868185281754,
      "learning_rate": 0.0008003373794555926,
      "loss": 0.4391,
      "num_input_tokens_seen": 9113936,
      "step": 13945
    },
    {
      "epoch": 7.311320754716981,
      "grad_norm": 0.07932770252227783,
      "learning_rate": 0.0008001545153220104,
      "loss": 0.3119,
      "num_input_tokens_seen": 9116688,
      "step": 13950
    },
    {
      "epoch": 7.313941299790357,
      "grad_norm": 0.05587628483772278,
      "learning_rate": 0.000799971588399528,
      "loss": 0.384,
      "num_input_tokens_seen": 9120304,
      "step": 13955
    },
    {
      "epoch": 7.316561844863732,
      "grad_norm": 0.14871905744075775,
      "learning_rate": 0.0007997885987264115,
      "loss": 0.514,
      "num_input_tokens_seen": 9123440,
      "step": 13960
    },
    {
      "epoch": 7.319182389937107,
      "grad_norm": 0.1684984415769577,
      "learning_rate": 0.0007996055463409403,
      "loss": 0.5555,
      "num_input_tokens_seen": 9126096,
      "step": 13965
    },
    {
      "epoch": 7.321802935010482,
      "grad_norm": 0.11206676810979843,
      "learning_rate": 0.000799422431281407,
      "loss": 0.3477,
      "num_input_tokens_seen": 9129168,
      "step": 13970
    },
    {
      "epoch": 7.3244234800838575,
      "grad_norm": 0.12382621318101883,
      "learning_rate": 0.000799239253586117,
      "loss": 0.3862,
      "num_input_tokens_seen": 9132688,
      "step": 13975
    },
    {
      "epoch": 7.327044025157233,
      "grad_norm": 0.10298247635364532,
      "learning_rate": 0.0007990560132933891,
      "loss": 0.5018,
      "num_input_tokens_seen": 9135216,
      "step": 13980
    },
    {
      "epoch": 7.329664570230608,
      "grad_norm": 0.11126453429460526,
      "learning_rate": 0.0007988727104415549,
      "loss": 0.5079,
      "num_input_tokens_seen": 9138768,
      "step": 13985
    },
    {
      "epoch": 7.332285115303983,
      "grad_norm": 0.07376701384782791,
      "learning_rate": 0.0007986893450689594,
      "loss": 0.4507,
      "num_input_tokens_seen": 9141904,
      "step": 13990
    },
    {
      "epoch": 7.334905660377358,
      "grad_norm": 0.04631229117512703,
      "learning_rate": 0.0007985059172139606,
      "loss": 0.4348,
      "num_input_tokens_seen": 9145744,
      "step": 13995
    },
    {
      "epoch": 7.337526205450734,
      "grad_norm": 0.08610087633132935,
      "learning_rate": 0.0007983224269149296,
      "loss": 0.6741,
      "num_input_tokens_seen": 9151760,
      "step": 14000
    },
    {
      "epoch": 7.340146750524109,
      "grad_norm": 0.10443831980228424,
      "learning_rate": 0.00079813887421025,
      "loss": 0.5184,
      "num_input_tokens_seen": 9154704,
      "step": 14005
    },
    {
      "epoch": 7.3427672955974845,
      "grad_norm": 0.07138708233833313,
      "learning_rate": 0.0007979552591383195,
      "loss": 0.4291,
      "num_input_tokens_seen": 9157520,
      "step": 14010
    },
    {
      "epoch": 7.34538784067086,
      "grad_norm": 0.09850875288248062,
      "learning_rate": 0.0007977715817375481,
      "loss": 0.5598,
      "num_input_tokens_seen": 9162128,
      "step": 14015
    },
    {
      "epoch": 7.348008385744235,
      "grad_norm": 0.07935002446174622,
      "learning_rate": 0.0007975878420463588,
      "loss": 0.4755,
      "num_input_tokens_seen": 9165616,
      "step": 14020
    },
    {
      "epoch": 7.35062893081761,
      "grad_norm": 0.061138950288295746,
      "learning_rate": 0.0007974040401031882,
      "loss": 0.3919,
      "num_input_tokens_seen": 9168400,
      "step": 14025
    },
    {
      "epoch": 7.353249475890985,
      "grad_norm": 0.0745839774608612,
      "learning_rate": 0.0007972201759464851,
      "loss": 0.539,
      "num_input_tokens_seen": 9172176,
      "step": 14030
    },
    {
      "epoch": 7.35587002096436,
      "grad_norm": 0.07366564124822617,
      "learning_rate": 0.0007970362496147121,
      "loss": 0.4307,
      "num_input_tokens_seen": 9175184,
      "step": 14035
    },
    {
      "epoch": 7.3584905660377355,
      "grad_norm": 0.08803611248731613,
      "learning_rate": 0.0007968522611463447,
      "loss": 0.4074,
      "num_input_tokens_seen": 9178320,
      "step": 14040
    },
    {
      "epoch": 7.361111111111111,
      "grad_norm": 0.08567468822002411,
      "learning_rate": 0.0007966682105798708,
      "loss": 0.3791,
      "num_input_tokens_seen": 9181264,
      "step": 14045
    },
    {
      "epoch": 7.363731656184487,
      "grad_norm": 0.12840168178081512,
      "learning_rate": 0.0007964840979537918,
      "loss": 0.4121,
      "num_input_tokens_seen": 9184272,
      "step": 14050
    },
    {
      "epoch": 7.366352201257862,
      "grad_norm": 0.09421040117740631,
      "learning_rate": 0.0007962999233066219,
      "loss": 0.469,
      "num_input_tokens_seen": 9187024,
      "step": 14055
    },
    {
      "epoch": 7.368972746331237,
      "grad_norm": 0.132976233959198,
      "learning_rate": 0.0007961156866768885,
      "loss": 0.4913,
      "num_input_tokens_seen": 9189456,
      "step": 14060
    },
    {
      "epoch": 7.371593291404612,
      "grad_norm": 0.08496756851673126,
      "learning_rate": 0.0007959313881031317,
      "loss": 0.4752,
      "num_input_tokens_seen": 9192368,
      "step": 14065
    },
    {
      "epoch": 7.3742138364779874,
      "grad_norm": 0.08916717022657394,
      "learning_rate": 0.0007957470276239048,
      "loss": 0.4374,
      "num_input_tokens_seen": 9195568,
      "step": 14070
    },
    {
      "epoch": 7.376834381551363,
      "grad_norm": 0.08306615054607391,
      "learning_rate": 0.0007955626052777735,
      "loss": 0.4464,
      "num_input_tokens_seen": 9198384,
      "step": 14075
    },
    {
      "epoch": 7.379454926624738,
      "grad_norm": 0.0835813507437706,
      "learning_rate": 0.0007953781211033173,
      "loss": 0.4208,
      "num_input_tokens_seen": 9201232,
      "step": 14080
    },
    {
      "epoch": 7.382075471698113,
      "grad_norm": 0.09765996038913727,
      "learning_rate": 0.000795193575139128,
      "loss": 0.5523,
      "num_input_tokens_seen": 9208560,
      "step": 14085
    },
    {
      "epoch": 7.384696016771488,
      "grad_norm": 0.1276177018880844,
      "learning_rate": 0.0007950089674238106,
      "loss": 0.4868,
      "num_input_tokens_seen": 9211856,
      "step": 14090
    },
    {
      "epoch": 7.387316561844864,
      "grad_norm": 0.08173646032810211,
      "learning_rate": 0.0007948242979959828,
      "loss": 0.4322,
      "num_input_tokens_seen": 9215280,
      "step": 14095
    },
    {
      "epoch": 7.389937106918239,
      "grad_norm": 0.12077684700489044,
      "learning_rate": 0.0007946395668942754,
      "loss": 0.5965,
      "num_input_tokens_seen": 9218352,
      "step": 14100
    },
    {
      "epoch": 7.3925576519916145,
      "grad_norm": 0.09578825533390045,
      "learning_rate": 0.0007944547741573319,
      "loss": 0.4047,
      "num_input_tokens_seen": 9221552,
      "step": 14105
    },
    {
      "epoch": 7.39517819706499,
      "grad_norm": 0.1593560427427292,
      "learning_rate": 0.0007942699198238091,
      "loss": 0.5066,
      "num_input_tokens_seen": 9224496,
      "step": 14110
    },
    {
      "epoch": 7.397798742138365,
      "grad_norm": 0.07734419405460358,
      "learning_rate": 0.0007940850039323763,
      "loss": 0.5069,
      "num_input_tokens_seen": 9227696,
      "step": 14115
    },
    {
      "epoch": 7.40041928721174,
      "grad_norm": 0.0787573903799057,
      "learning_rate": 0.0007939000265217156,
      "loss": 0.3637,
      "num_input_tokens_seen": 9231792,
      "step": 14120
    },
    {
      "epoch": 7.403039832285115,
      "grad_norm": 0.07592563331127167,
      "learning_rate": 0.0007937149876305226,
      "loss": 0.5153,
      "num_input_tokens_seen": 9235280,
      "step": 14125
    },
    {
      "epoch": 7.40566037735849,
      "grad_norm": 0.08373715728521347,
      "learning_rate": 0.000793529887297505,
      "loss": 0.472,
      "num_input_tokens_seen": 9238672,
      "step": 14130
    },
    {
      "epoch": 7.4082809224318655,
      "grad_norm": 0.06890913844108582,
      "learning_rate": 0.0007933447255613835,
      "loss": 0.6307,
      "num_input_tokens_seen": 9241968,
      "step": 14135
    },
    {
      "epoch": 7.410901467505241,
      "grad_norm": 0.11742813885211945,
      "learning_rate": 0.0007931595024608924,
      "loss": 0.5594,
      "num_input_tokens_seen": 9244976,
      "step": 14140
    },
    {
      "epoch": 7.413522012578617,
      "grad_norm": 0.09784556925296783,
      "learning_rate": 0.0007929742180347776,
      "loss": 0.4243,
      "num_input_tokens_seen": 9247856,
      "step": 14145
    },
    {
      "epoch": 7.416142557651992,
      "grad_norm": 0.09404045343399048,
      "learning_rate": 0.0007927888723217991,
      "loss": 0.3888,
      "num_input_tokens_seen": 9252656,
      "step": 14150
    },
    {
      "epoch": 7.418763102725367,
      "grad_norm": 0.07537657022476196,
      "learning_rate": 0.0007926034653607288,
      "loss": 0.538,
      "num_input_tokens_seen": 9254960,
      "step": 14155
    },
    {
      "epoch": 7.421383647798742,
      "grad_norm": 0.1024906262755394,
      "learning_rate": 0.0007924179971903516,
      "loss": 0.396,
      "num_input_tokens_seen": 9258288,
      "step": 14160
    },
    {
      "epoch": 7.424004192872117,
      "grad_norm": 0.1009426936507225,
      "learning_rate": 0.0007922324678494655,
      "loss": 0.4427,
      "num_input_tokens_seen": 9262032,
      "step": 14165
    },
    {
      "epoch": 7.426624737945493,
      "grad_norm": 0.0942915603518486,
      "learning_rate": 0.0007920468773768811,
      "loss": 0.6051,
      "num_input_tokens_seen": 9265520,
      "step": 14170
    },
    {
      "epoch": 7.429245283018868,
      "grad_norm": 0.1592453122138977,
      "learning_rate": 0.0007918612258114217,
      "loss": 0.555,
      "num_input_tokens_seen": 9268208,
      "step": 14175
    },
    {
      "epoch": 7.431865828092243,
      "grad_norm": 0.0702524408698082,
      "learning_rate": 0.0007916755131919238,
      "loss": 0.4956,
      "num_input_tokens_seen": 9270768,
      "step": 14180
    },
    {
      "epoch": 7.434486373165618,
      "grad_norm": 0.1178973987698555,
      "learning_rate": 0.000791489739557236,
      "loss": 0.423,
      "num_input_tokens_seen": 9274064,
      "step": 14185
    },
    {
      "epoch": 7.437106918238994,
      "grad_norm": 0.13152572512626648,
      "learning_rate": 0.0007913039049462203,
      "loss": 0.4709,
      "num_input_tokens_seen": 9277456,
      "step": 14190
    },
    {
      "epoch": 7.439727463312369,
      "grad_norm": 0.06904218345880508,
      "learning_rate": 0.0007911180093977511,
      "loss": 0.5324,
      "num_input_tokens_seen": 9280208,
      "step": 14195
    },
    {
      "epoch": 7.4423480083857445,
      "grad_norm": 0.07884184271097183,
      "learning_rate": 0.0007909320529507154,
      "loss": 0.5022,
      "num_input_tokens_seen": 9283664,
      "step": 14200
    },
    {
      "epoch": 7.44496855345912,
      "grad_norm": 0.0707177147269249,
      "learning_rate": 0.0007907460356440134,
      "loss": 0.3968,
      "num_input_tokens_seen": 9288944,
      "step": 14205
    },
    {
      "epoch": 7.447589098532495,
      "grad_norm": 0.07931607961654663,
      "learning_rate": 0.0007905599575165577,
      "loss": 0.442,
      "num_input_tokens_seen": 9292976,
      "step": 14210
    },
    {
      "epoch": 7.45020964360587,
      "grad_norm": 0.11787939816713333,
      "learning_rate": 0.0007903738186072739,
      "loss": 0.4345,
      "num_input_tokens_seen": 9295600,
      "step": 14215
    },
    {
      "epoch": 7.452830188679245,
      "grad_norm": 0.11344081908464432,
      "learning_rate": 0.0007901876189550999,
      "loss": 0.4404,
      "num_input_tokens_seen": 9298512,
      "step": 14220
    },
    {
      "epoch": 7.45545073375262,
      "grad_norm": 0.21385659277439117,
      "learning_rate": 0.0007900013585989867,
      "loss": 0.5872,
      "num_input_tokens_seen": 9301616,
      "step": 14225
    },
    {
      "epoch": 7.4580712788259955,
      "grad_norm": 0.1113162487745285,
      "learning_rate": 0.0007898150375778979,
      "loss": 0.3939,
      "num_input_tokens_seen": 9304112,
      "step": 14230
    },
    {
      "epoch": 7.460691823899371,
      "grad_norm": 0.11331847310066223,
      "learning_rate": 0.0007896286559308095,
      "loss": 0.4536,
      "num_input_tokens_seen": 9307312,
      "step": 14235
    },
    {
      "epoch": 7.463312368972747,
      "grad_norm": 0.11696764081716537,
      "learning_rate": 0.0007894422136967105,
      "loss": 0.4522,
      "num_input_tokens_seen": 9310960,
      "step": 14240
    },
    {
      "epoch": 7.465932914046122,
      "grad_norm": 0.09684276580810547,
      "learning_rate": 0.0007892557109146026,
      "loss": 0.5156,
      "num_input_tokens_seen": 9313168,
      "step": 14245
    },
    {
      "epoch": 7.468553459119497,
      "grad_norm": 0.039263248443603516,
      "learning_rate": 0.0007890691476234999,
      "loss": 0.4308,
      "num_input_tokens_seen": 9316624,
      "step": 14250
    },
    {
      "epoch": 7.471174004192872,
      "grad_norm": 0.1403733491897583,
      "learning_rate": 0.0007888825238624294,
      "loss": 0.4805,
      "num_input_tokens_seen": 9319920,
      "step": 14255
    },
    {
      "epoch": 7.473794549266247,
      "grad_norm": 0.10391530394554138,
      "learning_rate": 0.0007886958396704307,
      "loss": 0.4813,
      "num_input_tokens_seen": 9322640,
      "step": 14260
    },
    {
      "epoch": 7.476415094339623,
      "grad_norm": 0.07402122020721436,
      "learning_rate": 0.0007885090950865559,
      "loss": 0.5386,
      "num_input_tokens_seen": 9325424,
      "step": 14265
    },
    {
      "epoch": 7.479035639412998,
      "grad_norm": 0.08760985732078552,
      "learning_rate": 0.0007883222901498701,
      "loss": 0.3712,
      "num_input_tokens_seen": 9328816,
      "step": 14270
    },
    {
      "epoch": 7.481656184486373,
      "grad_norm": 0.10136149078607559,
      "learning_rate": 0.0007881354248994503,
      "loss": 0.3892,
      "num_input_tokens_seen": 9331472,
      "step": 14275
    },
    {
      "epoch": 7.484276729559748,
      "grad_norm": 0.09879312664270401,
      "learning_rate": 0.0007879484993743869,
      "loss": 0.496,
      "num_input_tokens_seen": 9334544,
      "step": 14280
    },
    {
      "epoch": 7.486897274633124,
      "grad_norm": 0.08390229195356369,
      "learning_rate": 0.0007877615136137827,
      "loss": 0.4843,
      "num_input_tokens_seen": 9337488,
      "step": 14285
    },
    {
      "epoch": 7.489517819706499,
      "grad_norm": 0.07282692939043045,
      "learning_rate": 0.0007875744676567527,
      "loss": 0.6632,
      "num_input_tokens_seen": 9341168,
      "step": 14290
    },
    {
      "epoch": 7.4921383647798745,
      "grad_norm": 0.0645332857966423,
      "learning_rate": 0.0007873873615424248,
      "loss": 0.4698,
      "num_input_tokens_seen": 9344112,
      "step": 14295
    },
    {
      "epoch": 7.49475890985325,
      "grad_norm": 0.12890012562274933,
      "learning_rate": 0.0007872001953099396,
      "loss": 0.4805,
      "num_input_tokens_seen": 9347920,
      "step": 14300
    },
    {
      "epoch": 7.497379454926625,
      "grad_norm": 0.10321094840765,
      "learning_rate": 0.0007870129689984501,
      "loss": 0.4755,
      "num_input_tokens_seen": 9350800,
      "step": 14305
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.08435818552970886,
      "learning_rate": 0.000786825682647122,
      "loss": 0.4712,
      "num_input_tokens_seen": 9353712,
      "step": 14310
    },
    {
      "epoch": 7.502620545073375,
      "grad_norm": 0.08166422694921494,
      "learning_rate": 0.0007866383362951332,
      "loss": 0.4533,
      "num_input_tokens_seen": 9357456,
      "step": 14315
    },
    {
      "epoch": 7.50524109014675,
      "grad_norm": 0.10313909500837326,
      "learning_rate": 0.0007864509299816746,
      "loss": 0.5895,
      "num_input_tokens_seen": 9360752,
      "step": 14320
    },
    {
      "epoch": 7.5078616352201255,
      "grad_norm": 0.11436036229133606,
      "learning_rate": 0.0007862634637459496,
      "loss": 0.4959,
      "num_input_tokens_seen": 9364528,
      "step": 14325
    },
    {
      "epoch": 7.510482180293501,
      "grad_norm": 0.08800959587097168,
      "learning_rate": 0.0007860759376271737,
      "loss": 0.4326,
      "num_input_tokens_seen": 9368336,
      "step": 14330
    },
    {
      "epoch": 7.513102725366876,
      "grad_norm": 0.09293539822101593,
      "learning_rate": 0.0007858883516645755,
      "loss": 0.5205,
      "num_input_tokens_seen": 9372336,
      "step": 14335
    },
    {
      "epoch": 7.515723270440252,
      "grad_norm": 0.14096102118492126,
      "learning_rate": 0.0007857007058973957,
      "loss": 0.4828,
      "num_input_tokens_seen": 9375280,
      "step": 14340
    },
    {
      "epoch": 7.518343815513627,
      "grad_norm": 0.09249082207679749,
      "learning_rate": 0.0007855130003648876,
      "loss": 0.3754,
      "num_input_tokens_seen": 9377936,
      "step": 14345
    },
    {
      "epoch": 7.520964360587002,
      "grad_norm": 0.08646810799837112,
      "learning_rate": 0.0007853252351063171,
      "loss": 0.5858,
      "num_input_tokens_seen": 9380816,
      "step": 14350
    },
    {
      "epoch": 7.523584905660377,
      "grad_norm": 0.0653277337551117,
      "learning_rate": 0.0007851374101609627,
      "loss": 0.4042,
      "num_input_tokens_seen": 9383920,
      "step": 14355
    },
    {
      "epoch": 7.526205450733753,
      "grad_norm": 0.10041534900665283,
      "learning_rate": 0.000784949525568115,
      "loss": 0.5811,
      "num_input_tokens_seen": 9386320,
      "step": 14360
    },
    {
      "epoch": 7.528825995807128,
      "grad_norm": 0.10335538536310196,
      "learning_rate": 0.0007847615813670776,
      "loss": 0.5417,
      "num_input_tokens_seen": 9389392,
      "step": 14365
    },
    {
      "epoch": 7.531446540880503,
      "grad_norm": 0.07862576097249985,
      "learning_rate": 0.000784573577597166,
      "loss": 0.3989,
      "num_input_tokens_seen": 9393424,
      "step": 14370
    },
    {
      "epoch": 7.534067085953878,
      "grad_norm": 0.0907941609621048,
      "learning_rate": 0.0007843855142977086,
      "loss": 0.4219,
      "num_input_tokens_seen": 9396208,
      "step": 14375
    },
    {
      "epoch": 7.536687631027254,
      "grad_norm": 0.08318211883306503,
      "learning_rate": 0.000784197391508046,
      "loss": 0.4342,
      "num_input_tokens_seen": 9399504,
      "step": 14380
    },
    {
      "epoch": 7.539308176100629,
      "grad_norm": 0.07217522710561752,
      "learning_rate": 0.0007840092092675313,
      "loss": 0.4683,
      "num_input_tokens_seen": 9403728,
      "step": 14385
    },
    {
      "epoch": 7.5419287211740045,
      "grad_norm": 0.074299156665802,
      "learning_rate": 0.0007838209676155302,
      "loss": 0.3966,
      "num_input_tokens_seen": 9406832,
      "step": 14390
    },
    {
      "epoch": 7.54454926624738,
      "grad_norm": 0.10878770053386688,
      "learning_rate": 0.0007836326665914209,
      "loss": 0.4132,
      "num_input_tokens_seen": 9410544,
      "step": 14395
    },
    {
      "epoch": 7.547169811320755,
      "grad_norm": 0.0877973884344101,
      "learning_rate": 0.0007834443062345932,
      "loss": 0.5313,
      "num_input_tokens_seen": 9414160,
      "step": 14400
    },
    {
      "epoch": 7.54979035639413,
      "grad_norm": 0.20110873878002167,
      "learning_rate": 0.0007832558865844507,
      "loss": 0.3655,
      "num_input_tokens_seen": 9417680,
      "step": 14405
    },
    {
      "epoch": 7.552410901467505,
      "grad_norm": 0.0918751135468483,
      "learning_rate": 0.0007830674076804083,
      "loss": 0.3391,
      "num_input_tokens_seen": 9420272,
      "step": 14410
    },
    {
      "epoch": 7.55503144654088,
      "grad_norm": 0.07333680242300034,
      "learning_rate": 0.0007828788695618934,
      "loss": 0.4278,
      "num_input_tokens_seen": 9424560,
      "step": 14415
    },
    {
      "epoch": 7.5576519916142555,
      "grad_norm": 0.08874436467885971,
      "learning_rate": 0.0007826902722683462,
      "loss": 0.3813,
      "num_input_tokens_seen": 9427184,
      "step": 14420
    },
    {
      "epoch": 7.560272536687631,
      "grad_norm": 0.15115264058113098,
      "learning_rate": 0.0007825016158392193,
      "loss": 0.4065,
      "num_input_tokens_seen": 9429648,
      "step": 14425
    },
    {
      "epoch": 7.562893081761006,
      "grad_norm": 0.0998363122344017,
      "learning_rate": 0.0007823129003139773,
      "loss": 0.5481,
      "num_input_tokens_seen": 9432688,
      "step": 14430
    },
    {
      "epoch": 7.565513626834382,
      "grad_norm": 0.08935918658971786,
      "learning_rate": 0.0007821241257320972,
      "loss": 0.4165,
      "num_input_tokens_seen": 9435600,
      "step": 14435
    },
    {
      "epoch": 7.568134171907757,
      "grad_norm": 0.08096322417259216,
      "learning_rate": 0.0007819352921330689,
      "loss": 0.3003,
      "num_input_tokens_seen": 9438448,
      "step": 14440
    },
    {
      "epoch": 7.570754716981132,
      "grad_norm": 0.16920629143714905,
      "learning_rate": 0.0007817463995563938,
      "loss": 0.4987,
      "num_input_tokens_seen": 9441040,
      "step": 14445
    },
    {
      "epoch": 7.573375262054507,
      "grad_norm": 0.10820138454437256,
      "learning_rate": 0.0007815574480415864,
      "loss": 0.3346,
      "num_input_tokens_seen": 9444560,
      "step": 14450
    },
    {
      "epoch": 7.575995807127883,
      "grad_norm": 0.3879911005496979,
      "learning_rate": 0.0007813684376281729,
      "loss": 0.4808,
      "num_input_tokens_seen": 9447760,
      "step": 14455
    },
    {
      "epoch": 7.578616352201258,
      "grad_norm": 0.07455108314752579,
      "learning_rate": 0.0007811793683556922,
      "loss": 0.5005,
      "num_input_tokens_seen": 9450608,
      "step": 14460
    },
    {
      "epoch": 7.581236897274633,
      "grad_norm": 0.05971009284257889,
      "learning_rate": 0.0007809902402636957,
      "loss": 0.3291,
      "num_input_tokens_seen": 9454928,
      "step": 14465
    },
    {
      "epoch": 7.583857442348008,
      "grad_norm": 0.10565793514251709,
      "learning_rate": 0.0007808010533917464,
      "loss": 0.5125,
      "num_input_tokens_seen": 9458832,
      "step": 14470
    },
    {
      "epoch": 7.586477987421384,
      "grad_norm": 0.10386307537555695,
      "learning_rate": 0.0007806118077794205,
      "loss": 0.3746,
      "num_input_tokens_seen": 9461488,
      "step": 14475
    },
    {
      "epoch": 7.589098532494759,
      "grad_norm": 0.09996362775564194,
      "learning_rate": 0.0007804225034663058,
      "loss": 0.3695,
      "num_input_tokens_seen": 9464336,
      "step": 14480
    },
    {
      "epoch": 7.5917190775681345,
      "grad_norm": 0.06134520098567009,
      "learning_rate": 0.0007802331404920024,
      "loss": 0.4126,
      "num_input_tokens_seen": 9467600,
      "step": 14485
    },
    {
      "epoch": 7.59433962264151,
      "grad_norm": 0.12220806628465652,
      "learning_rate": 0.0007800437188961232,
      "loss": 0.4952,
      "num_input_tokens_seen": 9470384,
      "step": 14490
    },
    {
      "epoch": 7.596960167714885,
      "grad_norm": 0.06874008476734161,
      "learning_rate": 0.0007798542387182929,
      "loss": 0.3272,
      "num_input_tokens_seen": 9474256,
      "step": 14495
    },
    {
      "epoch": 7.59958071278826,
      "grad_norm": 0.07568733394145966,
      "learning_rate": 0.0007796646999981488,
      "loss": 0.322,
      "num_input_tokens_seen": 9477584,
      "step": 14500
    },
    {
      "epoch": 7.602201257861635,
      "grad_norm": 0.05724848806858063,
      "learning_rate": 0.0007794751027753397,
      "loss": 0.4388,
      "num_input_tokens_seen": 9480912,
      "step": 14505
    },
    {
      "epoch": 7.60482180293501,
      "grad_norm": 0.0823894590139389,
      "learning_rate": 0.0007792854470895278,
      "loss": 0.5066,
      "num_input_tokens_seen": 9483696,
      "step": 14510
    },
    {
      "epoch": 7.6074423480083855,
      "grad_norm": 0.08565602451562881,
      "learning_rate": 0.0007790957329803865,
      "loss": 0.3999,
      "num_input_tokens_seen": 9486768,
      "step": 14515
    },
    {
      "epoch": 7.610062893081761,
      "grad_norm": 0.08466839045286179,
      "learning_rate": 0.0007789059604876019,
      "loss": 0.447,
      "num_input_tokens_seen": 9491088,
      "step": 14520
    },
    {
      "epoch": 7.612683438155136,
      "grad_norm": 0.09113074839115143,
      "learning_rate": 0.0007787161296508724,
      "loss": 0.4989,
      "num_input_tokens_seen": 9493840,
      "step": 14525
    },
    {
      "epoch": 7.615303983228512,
      "grad_norm": 0.07260996848344803,
      "learning_rate": 0.0007785262405099083,
      "loss": 0.542,
      "num_input_tokens_seen": 9496752,
      "step": 14530
    },
    {
      "epoch": 7.617924528301887,
      "grad_norm": 0.07233689725399017,
      "learning_rate": 0.0007783362931044322,
      "loss": 0.4717,
      "num_input_tokens_seen": 9500144,
      "step": 14535
    },
    {
      "epoch": 7.620545073375262,
      "grad_norm": 0.09469322860240936,
      "learning_rate": 0.0007781462874741793,
      "loss": 0.4331,
      "num_input_tokens_seen": 9503568,
      "step": 14540
    },
    {
      "epoch": 7.623165618448637,
      "grad_norm": 0.08484702557325363,
      "learning_rate": 0.000777956223658896,
      "loss": 0.5288,
      "num_input_tokens_seen": 9507472,
      "step": 14545
    },
    {
      "epoch": 7.6257861635220126,
      "grad_norm": 0.1251649558544159,
      "learning_rate": 0.000777766101698342,
      "loss": 0.4428,
      "num_input_tokens_seen": 9510224,
      "step": 14550
    },
    {
      "epoch": 7.628406708595388,
      "grad_norm": 0.08059290796518326,
      "learning_rate": 0.0007775759216322882,
      "loss": 0.4183,
      "num_input_tokens_seen": 9512976,
      "step": 14555
    },
    {
      "epoch": 7.631027253668763,
      "grad_norm": 0.07081030309200287,
      "learning_rate": 0.0007773856835005187,
      "loss": 0.4719,
      "num_input_tokens_seen": 9516016,
      "step": 14560
    },
    {
      "epoch": 7.633647798742138,
      "grad_norm": 0.08423572033643723,
      "learning_rate": 0.0007771953873428285,
      "loss": 0.46,
      "num_input_tokens_seen": 9518800,
      "step": 14565
    },
    {
      "epoch": 7.636268343815514,
      "grad_norm": 0.096523717045784,
      "learning_rate": 0.0007770050331990259,
      "loss": 0.4656,
      "num_input_tokens_seen": 9524688,
      "step": 14570
    },
    {
      "epoch": 7.638888888888889,
      "grad_norm": 0.16709353029727936,
      "learning_rate": 0.0007768146211089304,
      "loss": 0.376,
      "num_input_tokens_seen": 9527344,
      "step": 14575
    },
    {
      "epoch": 7.6415094339622645,
      "grad_norm": 0.1168292984366417,
      "learning_rate": 0.0007766241511123744,
      "loss": 0.3696,
      "num_input_tokens_seen": 9530224,
      "step": 14580
    },
    {
      "epoch": 7.64412997903564,
      "grad_norm": 0.09073685109615326,
      "learning_rate": 0.0007764336232492018,
      "loss": 0.6726,
      "num_input_tokens_seen": 9533200,
      "step": 14585
    },
    {
      "epoch": 7.646750524109015,
      "grad_norm": 0.09032661467790604,
      "learning_rate": 0.0007762430375592689,
      "loss": 0.4385,
      "num_input_tokens_seen": 9535888,
      "step": 14590
    },
    {
      "epoch": 7.64937106918239,
      "grad_norm": 0.08225614577531815,
      "learning_rate": 0.0007760523940824441,
      "loss": 0.4652,
      "num_input_tokens_seen": 9538576,
      "step": 14595
    },
    {
      "epoch": 7.651991614255765,
      "grad_norm": 0.06360188126564026,
      "learning_rate": 0.0007758616928586077,
      "loss": 0.4712,
      "num_input_tokens_seen": 9542128,
      "step": 14600
    },
    {
      "epoch": 7.65461215932914,
      "grad_norm": 0.09262935817241669,
      "learning_rate": 0.0007756709339276527,
      "loss": 0.4543,
      "num_input_tokens_seen": 9545232,
      "step": 14605
    },
    {
      "epoch": 7.6572327044025155,
      "grad_norm": 0.09477219730615616,
      "learning_rate": 0.0007754801173294831,
      "loss": 0.5448,
      "num_input_tokens_seen": 9548080,
      "step": 14610
    },
    {
      "epoch": 7.659853249475891,
      "grad_norm": 0.1236879825592041,
      "learning_rate": 0.0007752892431040158,
      "loss": 0.2692,
      "num_input_tokens_seen": 9550640,
      "step": 14615
    },
    {
      "epoch": 7.662473794549266,
      "grad_norm": 0.08044459670782089,
      "learning_rate": 0.0007750983112911796,
      "loss": 0.4275,
      "num_input_tokens_seen": 9553136,
      "step": 14620
    },
    {
      "epoch": 7.665094339622642,
      "grad_norm": 0.07184448838233948,
      "learning_rate": 0.0007749073219309151,
      "loss": 0.3894,
      "num_input_tokens_seen": 9556208,
      "step": 14625
    },
    {
      "epoch": 7.667714884696017,
      "grad_norm": 0.09300745278596878,
      "learning_rate": 0.0007747162750631751,
      "loss": 0.342,
      "num_input_tokens_seen": 9560080,
      "step": 14630
    },
    {
      "epoch": 7.670335429769392,
      "grad_norm": 0.09738190472126007,
      "learning_rate": 0.0007745251707279246,
      "loss": 0.3831,
      "num_input_tokens_seen": 9562704,
      "step": 14635
    },
    {
      "epoch": 7.672955974842767,
      "grad_norm": 0.1259356141090393,
      "learning_rate": 0.0007743340089651403,
      "loss": 0.5091,
      "num_input_tokens_seen": 9565680,
      "step": 14640
    },
    {
      "epoch": 7.6755765199161425,
      "grad_norm": 0.11684877425432205,
      "learning_rate": 0.0007741427898148111,
      "loss": 0.4389,
      "num_input_tokens_seen": 9569136,
      "step": 14645
    },
    {
      "epoch": 7.678197064989518,
      "grad_norm": 0.06912504136562347,
      "learning_rate": 0.0007739515133169379,
      "loss": 0.5388,
      "num_input_tokens_seen": 9572144,
      "step": 14650
    },
    {
      "epoch": 7.680817610062893,
      "grad_norm": 0.14091438055038452,
      "learning_rate": 0.0007737601795115334,
      "loss": 0.5846,
      "num_input_tokens_seen": 9575184,
      "step": 14655
    },
    {
      "epoch": 7.683438155136268,
      "grad_norm": 0.09842802584171295,
      "learning_rate": 0.0007735687884386226,
      "loss": 0.4199,
      "num_input_tokens_seen": 9579632,
      "step": 14660
    },
    {
      "epoch": 7.686058700209644,
      "grad_norm": 0.09931682050228119,
      "learning_rate": 0.0007733773401382424,
      "loss": 0.3971,
      "num_input_tokens_seen": 9582576,
      "step": 14665
    },
    {
      "epoch": 7.688679245283019,
      "grad_norm": 0.11272184550762177,
      "learning_rate": 0.0007731858346504414,
      "loss": 0.4459,
      "num_input_tokens_seen": 9586224,
      "step": 14670
    },
    {
      "epoch": 7.691299790356394,
      "grad_norm": 0.11710330098867416,
      "learning_rate": 0.0007729942720152805,
      "loss": 0.379,
      "num_input_tokens_seen": 9593136,
      "step": 14675
    },
    {
      "epoch": 7.69392033542977,
      "grad_norm": 0.10899078845977783,
      "learning_rate": 0.0007728026522728324,
      "loss": 0.4034,
      "num_input_tokens_seen": 9596336,
      "step": 14680
    },
    {
      "epoch": 7.696540880503145,
      "grad_norm": 0.08734811842441559,
      "learning_rate": 0.0007726109754631817,
      "loss": 0.3683,
      "num_input_tokens_seen": 9599760,
      "step": 14685
    },
    {
      "epoch": 7.69916142557652,
      "grad_norm": 0.09288239479064941,
      "learning_rate": 0.000772419241626425,
      "loss": 0.59,
      "num_input_tokens_seen": 9603248,
      "step": 14690
    },
    {
      "epoch": 7.701781970649895,
      "grad_norm": 0.10950417816638947,
      "learning_rate": 0.000772227450802671,
      "loss": 0.3783,
      "num_input_tokens_seen": 9606384,
      "step": 14695
    },
    {
      "epoch": 7.70440251572327,
      "grad_norm": 0.09388095140457153,
      "learning_rate": 0.0007720356030320399,
      "loss": 0.447,
      "num_input_tokens_seen": 9609424,
      "step": 14700
    },
    {
      "epoch": 7.7070230607966455,
      "grad_norm": 0.07856587320566177,
      "learning_rate": 0.0007718436983546642,
      "loss": 0.4194,
      "num_input_tokens_seen": 9611984,
      "step": 14705
    },
    {
      "epoch": 7.709643605870021,
      "grad_norm": 0.12656421959400177,
      "learning_rate": 0.0007716517368106882,
      "loss": 0.5107,
      "num_input_tokens_seen": 9614768,
      "step": 14710
    },
    {
      "epoch": 7.712264150943396,
      "grad_norm": 0.10373231768608093,
      "learning_rate": 0.000771459718440268,
      "loss": 0.3342,
      "num_input_tokens_seen": 9617392,
      "step": 14715
    },
    {
      "epoch": 7.714884696016772,
      "grad_norm": 0.20797792077064514,
      "learning_rate": 0.0007712676432835717,
      "loss": 0.3833,
      "num_input_tokens_seen": 9620368,
      "step": 14720
    },
    {
      "epoch": 7.717505241090147,
      "grad_norm": 0.06365363299846649,
      "learning_rate": 0.0007710755113807794,
      "loss": 0.4047,
      "num_input_tokens_seen": 9623600,
      "step": 14725
    },
    {
      "epoch": 7.720125786163522,
      "grad_norm": 0.12730193138122559,
      "learning_rate": 0.0007708833227720824,
      "loss": 0.5552,
      "num_input_tokens_seen": 9626160,
      "step": 14730
    },
    {
      "epoch": 7.722746331236897,
      "grad_norm": 0.0944991409778595,
      "learning_rate": 0.0007706910774976848,
      "loss": 0.3486,
      "num_input_tokens_seen": 9629136,
      "step": 14735
    },
    {
      "epoch": 7.7253668763102725,
      "grad_norm": 0.09871754050254822,
      "learning_rate": 0.0007704987755978021,
      "loss": 0.4253,
      "num_input_tokens_seen": 9632080,
      "step": 14740
    },
    {
      "epoch": 7.727987421383648,
      "grad_norm": 0.06985636800527573,
      "learning_rate": 0.0007703064171126615,
      "loss": 0.5683,
      "num_input_tokens_seen": 9635024,
      "step": 14745
    },
    {
      "epoch": 7.730607966457023,
      "grad_norm": 0.077531598508358,
      "learning_rate": 0.0007701140020825022,
      "loss": 0.4986,
      "num_input_tokens_seen": 9638832,
      "step": 14750
    },
    {
      "epoch": 7.733228511530398,
      "grad_norm": 0.08630085736513138,
      "learning_rate": 0.0007699215305475753,
      "loss": 0.3968,
      "num_input_tokens_seen": 9641936,
      "step": 14755
    },
    {
      "epoch": 7.735849056603773,
      "grad_norm": 0.0774301066994667,
      "learning_rate": 0.0007697290025481436,
      "loss": 0.5092,
      "num_input_tokens_seen": 9645872,
      "step": 14760
    },
    {
      "epoch": 7.738469601677149,
      "grad_norm": 0.06618639826774597,
      "learning_rate": 0.0007695364181244819,
      "loss": 0.4558,
      "num_input_tokens_seen": 9649872,
      "step": 14765
    },
    {
      "epoch": 7.741090146750524,
      "grad_norm": 0.1288859099149704,
      "learning_rate": 0.0007693437773168764,
      "loss": 0.456,
      "num_input_tokens_seen": 9653712,
      "step": 14770
    },
    {
      "epoch": 7.7437106918239,
      "grad_norm": 0.16112922132015228,
      "learning_rate": 0.0007691510801656256,
      "loss": 0.5261,
      "num_input_tokens_seen": 9656560,
      "step": 14775
    },
    {
      "epoch": 7.746331236897275,
      "grad_norm": 0.12151557952165604,
      "learning_rate": 0.0007689583267110395,
      "loss": 0.5023,
      "num_input_tokens_seen": 9660592,
      "step": 14780
    },
    {
      "epoch": 7.74895178197065,
      "grad_norm": 0.051923878490924835,
      "learning_rate": 0.0007687655169934398,
      "loss": 0.5379,
      "num_input_tokens_seen": 9664656,
      "step": 14785
    },
    {
      "epoch": 7.751572327044025,
      "grad_norm": 0.05948289483785629,
      "learning_rate": 0.0007685726510531603,
      "loss": 0.4097,
      "num_input_tokens_seen": 9667888,
      "step": 14790
    },
    {
      "epoch": 7.7541928721174,
      "grad_norm": 0.09059514850378036,
      "learning_rate": 0.0007683797289305463,
      "loss": 0.4526,
      "num_input_tokens_seen": 9671248,
      "step": 14795
    },
    {
      "epoch": 7.756813417190775,
      "grad_norm": 0.0776400938630104,
      "learning_rate": 0.0007681867506659548,
      "loss": 0.3716,
      "num_input_tokens_seen": 9674416,
      "step": 14800
    },
    {
      "epoch": 7.759433962264151,
      "grad_norm": 0.15464524924755096,
      "learning_rate": 0.0007679937162997546,
      "loss": 0.4913,
      "num_input_tokens_seen": 9677808,
      "step": 14805
    },
    {
      "epoch": 7.762054507337526,
      "grad_norm": 0.10257339477539062,
      "learning_rate": 0.0007678006258723264,
      "loss": 0.4607,
      "num_input_tokens_seen": 9680720,
      "step": 14810
    },
    {
      "epoch": 7.764675052410902,
      "grad_norm": 0.11763998121023178,
      "learning_rate": 0.0007676074794240626,
      "loss": 0.5664,
      "num_input_tokens_seen": 9684656,
      "step": 14815
    },
    {
      "epoch": 7.767295597484277,
      "grad_norm": 0.08034638315439224,
      "learning_rate": 0.000767414276995367,
      "loss": 0.4009,
      "num_input_tokens_seen": 9687760,
      "step": 14820
    },
    {
      "epoch": 7.769916142557652,
      "grad_norm": 0.11121029406785965,
      "learning_rate": 0.0007672210186266555,
      "loss": 0.5503,
      "num_input_tokens_seen": 9692016,
      "step": 14825
    },
    {
      "epoch": 7.772536687631027,
      "grad_norm": 0.0690857544541359,
      "learning_rate": 0.0007670277043583556,
      "loss": 0.47,
      "num_input_tokens_seen": 9695856,
      "step": 14830
    },
    {
      "epoch": 7.7751572327044025,
      "grad_norm": 0.08582044392824173,
      "learning_rate": 0.0007668343342309063,
      "loss": 0.6186,
      "num_input_tokens_seen": 9699824,
      "step": 14835
    },
    {
      "epoch": 7.777777777777778,
      "grad_norm": 0.13643039762973785,
      "learning_rate": 0.0007666409082847586,
      "loss": 0.4151,
      "num_input_tokens_seen": 9702224,
      "step": 14840
    },
    {
      "epoch": 7.780398322851153,
      "grad_norm": 0.08622441440820694,
      "learning_rate": 0.0007664474265603747,
      "loss": 0.5577,
      "num_input_tokens_seen": 9704656,
      "step": 14845
    },
    {
      "epoch": 7.783018867924528,
      "grad_norm": 0.07603909075260162,
      "learning_rate": 0.0007662538890982291,
      "loss": 0.4591,
      "num_input_tokens_seen": 9707472,
      "step": 14850
    },
    {
      "epoch": 7.785639412997903,
      "grad_norm": 0.09429054707288742,
      "learning_rate": 0.0007660602959388075,
      "loss": 0.4806,
      "num_input_tokens_seen": 9710896,
      "step": 14855
    },
    {
      "epoch": 7.788259958071279,
      "grad_norm": 0.07336116582155228,
      "learning_rate": 0.0007658666471226073,
      "loss": 0.5031,
      "num_input_tokens_seen": 9713616,
      "step": 14860
    },
    {
      "epoch": 7.790880503144654,
      "grad_norm": 0.07675288617610931,
      "learning_rate": 0.0007656729426901377,
      "loss": 0.4436,
      "num_input_tokens_seen": 9716336,
      "step": 14865
    },
    {
      "epoch": 7.79350104821803,
      "grad_norm": 0.13417641818523407,
      "learning_rate": 0.0007654791826819194,
      "loss": 0.4157,
      "num_input_tokens_seen": 9719088,
      "step": 14870
    },
    {
      "epoch": 7.796121593291405,
      "grad_norm": 0.090348981320858,
      "learning_rate": 0.0007652853671384847,
      "loss": 0.3721,
      "num_input_tokens_seen": 9722256,
      "step": 14875
    },
    {
      "epoch": 7.79874213836478,
      "grad_norm": 0.082747682929039,
      "learning_rate": 0.0007650914961003781,
      "loss": 0.4138,
      "num_input_tokens_seen": 9725648,
      "step": 14880
    },
    {
      "epoch": 7.801362683438155,
      "grad_norm": 0.07926427572965622,
      "learning_rate": 0.0007648975696081546,
      "loss": 0.4029,
      "num_input_tokens_seen": 9728976,
      "step": 14885
    },
    {
      "epoch": 7.80398322851153,
      "grad_norm": 0.08598727732896805,
      "learning_rate": 0.0007647035877023816,
      "loss": 0.3372,
      "num_input_tokens_seen": 9735472,
      "step": 14890
    },
    {
      "epoch": 7.806603773584905,
      "grad_norm": 0.07117649912834167,
      "learning_rate": 0.0007645095504236381,
      "loss": 0.4199,
      "num_input_tokens_seen": 9738512,
      "step": 14895
    },
    {
      "epoch": 7.809224318658281,
      "grad_norm": 0.08165979385375977,
      "learning_rate": 0.0007643154578125142,
      "loss": 0.684,
      "num_input_tokens_seen": 9742416,
      "step": 14900
    },
    {
      "epoch": 7.811844863731656,
      "grad_norm": 0.1128099113702774,
      "learning_rate": 0.0007641213099096121,
      "loss": 0.4717,
      "num_input_tokens_seen": 9746800,
      "step": 14905
    },
    {
      "epoch": 7.814465408805032,
      "grad_norm": 0.07292765378952026,
      "learning_rate": 0.0007639271067555452,
      "loss": 0.37,
      "num_input_tokens_seen": 9750768,
      "step": 14910
    },
    {
      "epoch": 7.817085953878407,
      "grad_norm": 0.060919202864170074,
      "learning_rate": 0.0007637328483909385,
      "loss": 0.4687,
      "num_input_tokens_seen": 9753968,
      "step": 14915
    },
    {
      "epoch": 7.819706498951782,
      "grad_norm": 0.6200633645057678,
      "learning_rate": 0.000763538534856429,
      "loss": 0.4577,
      "num_input_tokens_seen": 9757744,
      "step": 14920
    },
    {
      "epoch": 7.822327044025157,
      "grad_norm": 0.10684540867805481,
      "learning_rate": 0.0007633441661926643,
      "loss": 0.5249,
      "num_input_tokens_seen": 9760016,
      "step": 14925
    },
    {
      "epoch": 7.8249475890985325,
      "grad_norm": 0.08963128924369812,
      "learning_rate": 0.0007631497424403046,
      "loss": 0.457,
      "num_input_tokens_seen": 9762960,
      "step": 14930
    },
    {
      "epoch": 7.827568134171908,
      "grad_norm": 0.07316999137401581,
      "learning_rate": 0.000762955263640021,
      "loss": 0.5479,
      "num_input_tokens_seen": 9767376,
      "step": 14935
    },
    {
      "epoch": 7.830188679245283,
      "grad_norm": 0.0846153199672699,
      "learning_rate": 0.0007627607298324961,
      "loss": 0.3719,
      "num_input_tokens_seen": 9770800,
      "step": 14940
    },
    {
      "epoch": 7.832809224318658,
      "grad_norm": 0.08654461801052094,
      "learning_rate": 0.0007625661410584244,
      "loss": 0.4654,
      "num_input_tokens_seen": 9774288,
      "step": 14945
    },
    {
      "epoch": 7.835429769392033,
      "grad_norm": 0.08227124810218811,
      "learning_rate": 0.0007623714973585113,
      "loss": 0.5,
      "num_input_tokens_seen": 9777296,
      "step": 14950
    },
    {
      "epoch": 7.838050314465409,
      "grad_norm": 0.07464147359132767,
      "learning_rate": 0.0007621767987734743,
      "loss": 0.4014,
      "num_input_tokens_seen": 9779888,
      "step": 14955
    },
    {
      "epoch": 7.840670859538784,
      "grad_norm": 0.07271448522806168,
      "learning_rate": 0.000761982045344042,
      "loss": 0.3215,
      "num_input_tokens_seen": 9783120,
      "step": 14960
    },
    {
      "epoch": 7.84329140461216,
      "grad_norm": 0.14880827069282532,
      "learning_rate": 0.0007617872371109549,
      "loss": 0.4906,
      "num_input_tokens_seen": 9786576,
      "step": 14965
    },
    {
      "epoch": 7.845911949685535,
      "grad_norm": 0.09980151802301407,
      "learning_rate": 0.0007615923741149643,
      "loss": 0.399,
      "num_input_tokens_seen": 9790384,
      "step": 14970
    },
    {
      "epoch": 7.84853249475891,
      "grad_norm": 0.12151896208524704,
      "learning_rate": 0.0007613974563968333,
      "loss": 0.45,
      "num_input_tokens_seen": 9793392,
      "step": 14975
    },
    {
      "epoch": 7.851153039832285,
      "grad_norm": 0.21950508654117584,
      "learning_rate": 0.0007612024839973368,
      "loss": 0.582,
      "num_input_tokens_seen": 9796656,
      "step": 14980
    },
    {
      "epoch": 7.85377358490566,
      "grad_norm": 0.08807060867547989,
      "learning_rate": 0.0007610074569572605,
      "loss": 0.4858,
      "num_input_tokens_seen": 9800720,
      "step": 14985
    },
    {
      "epoch": 7.856394129979035,
      "grad_norm": 0.1461939662694931,
      "learning_rate": 0.0007608123753174019,
      "loss": 0.3852,
      "num_input_tokens_seen": 9805040,
      "step": 14990
    },
    {
      "epoch": 7.859014675052411,
      "grad_norm": 0.06939559429883957,
      "learning_rate": 0.00076061723911857,
      "loss": 0.3327,
      "num_input_tokens_seen": 9808304,
      "step": 14995
    },
    {
      "epoch": 7.861635220125786,
      "grad_norm": 0.09931983798742294,
      "learning_rate": 0.0007604220484015849,
      "loss": 0.376,
      "num_input_tokens_seen": 9811120,
      "step": 15000
    },
    {
      "epoch": 7.864255765199162,
      "grad_norm": 0.07516758888959885,
      "learning_rate": 0.0007602268032072784,
      "loss": 0.4985,
      "num_input_tokens_seen": 9813776,
      "step": 15005
    },
    {
      "epoch": 7.866876310272537,
      "grad_norm": 0.08726884424686432,
      "learning_rate": 0.0007600315035764933,
      "loss": 0.3524,
      "num_input_tokens_seen": 9816976,
      "step": 15010
    },
    {
      "epoch": 7.869496855345912,
      "grad_norm": 0.0848407968878746,
      "learning_rate": 0.0007598361495500844,
      "loss": 0.5334,
      "num_input_tokens_seen": 9819728,
      "step": 15015
    },
    {
      "epoch": 7.872117400419287,
      "grad_norm": 0.08647368848323822,
      "learning_rate": 0.0007596407411689173,
      "loss": 0.5192,
      "num_input_tokens_seen": 9823344,
      "step": 15020
    },
    {
      "epoch": 7.8747379454926625,
      "grad_norm": 0.18498092889785767,
      "learning_rate": 0.0007594452784738695,
      "loss": 0.4308,
      "num_input_tokens_seen": 9826480,
      "step": 15025
    },
    {
      "epoch": 7.877358490566038,
      "grad_norm": 0.1261705905199051,
      "learning_rate": 0.000759249761505829,
      "loss": 0.6235,
      "num_input_tokens_seen": 9829744,
      "step": 15030
    },
    {
      "epoch": 7.879979035639413,
      "grad_norm": 0.07731489092111588,
      "learning_rate": 0.0007590541903056963,
      "loss": 0.4587,
      "num_input_tokens_seen": 9832624,
      "step": 15035
    },
    {
      "epoch": 7.882599580712788,
      "grad_norm": 0.08494168519973755,
      "learning_rate": 0.0007588585649143825,
      "loss": 0.4823,
      "num_input_tokens_seen": 9835600,
      "step": 15040
    },
    {
      "epoch": 7.885220125786163,
      "grad_norm": 0.07360701262950897,
      "learning_rate": 0.0007586628853728099,
      "loss": 0.3952,
      "num_input_tokens_seen": 9838448,
      "step": 15045
    },
    {
      "epoch": 7.887840670859539,
      "grad_norm": 0.13226652145385742,
      "learning_rate": 0.0007584671517219128,
      "loss": 0.3955,
      "num_input_tokens_seen": 9840528,
      "step": 15050
    },
    {
      "epoch": 7.890461215932914,
      "grad_norm": 0.0393415167927742,
      "learning_rate": 0.0007582713640026364,
      "loss": 0.4931,
      "num_input_tokens_seen": 9844816,
      "step": 15055
    },
    {
      "epoch": 7.8930817610062896,
      "grad_norm": 0.09636222571134567,
      "learning_rate": 0.000758075522255937,
      "loss": 0.4586,
      "num_input_tokens_seen": 9847312,
      "step": 15060
    },
    {
      "epoch": 7.895702306079665,
      "grad_norm": 0.0670655369758606,
      "learning_rate": 0.0007578796265227828,
      "loss": 0.4468,
      "num_input_tokens_seen": 9850960,
      "step": 15065
    },
    {
      "epoch": 7.89832285115304,
      "grad_norm": 0.1300184577703476,
      "learning_rate": 0.0007576836768441525,
      "loss": 0.4771,
      "num_input_tokens_seen": 9854192,
      "step": 15070
    },
    {
      "epoch": 7.900943396226415,
      "grad_norm": 0.08775652945041656,
      "learning_rate": 0.0007574876732610369,
      "loss": 0.4709,
      "num_input_tokens_seen": 9857136,
      "step": 15075
    },
    {
      "epoch": 7.90356394129979,
      "grad_norm": 0.0555189773440361,
      "learning_rate": 0.0007572916158144379,
      "loss": 0.444,
      "num_input_tokens_seen": 9860304,
      "step": 15080
    },
    {
      "epoch": 7.906184486373165,
      "grad_norm": 0.10564850270748138,
      "learning_rate": 0.0007570955045453679,
      "loss": 0.4872,
      "num_input_tokens_seen": 9863312,
      "step": 15085
    },
    {
      "epoch": 7.908805031446541,
      "grad_norm": 0.12502364814281464,
      "learning_rate": 0.0007568993394948516,
      "loss": 0.4965,
      "num_input_tokens_seen": 9866320,
      "step": 15090
    },
    {
      "epoch": 7.911425576519916,
      "grad_norm": 0.11936846375465393,
      "learning_rate": 0.0007567031207039243,
      "loss": 0.4641,
      "num_input_tokens_seen": 9869840,
      "step": 15095
    },
    {
      "epoch": 7.914046121593291,
      "grad_norm": 0.15817126631736755,
      "learning_rate": 0.0007565068482136328,
      "loss": 0.3994,
      "num_input_tokens_seen": 9873040,
      "step": 15100
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.037609778344631195,
      "learning_rate": 0.000756310522065035,
      "loss": 0.3346,
      "num_input_tokens_seen": 9876240,
      "step": 15105
    },
    {
      "epoch": 7.919287211740042,
      "grad_norm": 0.11278253048658371,
      "learning_rate": 0.0007561141422992002,
      "loss": 0.4237,
      "num_input_tokens_seen": 9879536,
      "step": 15110
    },
    {
      "epoch": 7.921907756813417,
      "grad_norm": 0.3103160560131073,
      "learning_rate": 0.0007559177089572086,
      "loss": 0.7673,
      "num_input_tokens_seen": 9882256,
      "step": 15115
    },
    {
      "epoch": 7.9245283018867925,
      "grad_norm": 0.12964174151420593,
      "learning_rate": 0.0007557212220801521,
      "loss": 0.5507,
      "num_input_tokens_seen": 9885936,
      "step": 15120
    },
    {
      "epoch": 7.927148846960168,
      "grad_norm": 0.07921206206083298,
      "learning_rate": 0.0007555246817091332,
      "loss": 0.2707,
      "num_input_tokens_seen": 9889072,
      "step": 15125
    },
    {
      "epoch": 7.929769392033543,
      "grad_norm": 0.05750655382871628,
      "learning_rate": 0.0007553280878852663,
      "loss": 0.4481,
      "num_input_tokens_seen": 9892240,
      "step": 15130
    },
    {
      "epoch": 7.932389937106918,
      "grad_norm": 0.11412393301725388,
      "learning_rate": 0.0007551314406496762,
      "loss": 0.6093,
      "num_input_tokens_seen": 9895312,
      "step": 15135
    },
    {
      "epoch": 7.935010482180293,
      "grad_norm": 0.05271957814693451,
      "learning_rate": 0.0007549347400434994,
      "loss": 0.3475,
      "num_input_tokens_seen": 9898800,
      "step": 15140
    },
    {
      "epoch": 7.937631027253669,
      "grad_norm": 0.09349916875362396,
      "learning_rate": 0.0007547379861078835,
      "loss": 0.4454,
      "num_input_tokens_seen": 9901680,
      "step": 15145
    },
    {
      "epoch": 7.940251572327044,
      "grad_norm": 0.04342113062739372,
      "learning_rate": 0.0007545411788839871,
      "loss": 0.3057,
      "num_input_tokens_seen": 9905456,
      "step": 15150
    },
    {
      "epoch": 7.9428721174004195,
      "grad_norm": 0.08101201057434082,
      "learning_rate": 0.0007543443184129799,
      "loss": 0.3054,
      "num_input_tokens_seen": 9908304,
      "step": 15155
    },
    {
      "epoch": 7.945492662473795,
      "grad_norm": 0.050125882029533386,
      "learning_rate": 0.000754147404736043,
      "loss": 0.5097,
      "num_input_tokens_seen": 9911760,
      "step": 15160
    },
    {
      "epoch": 7.94811320754717,
      "grad_norm": 0.07577962428331375,
      "learning_rate": 0.0007539504378943686,
      "loss": 0.3576,
      "num_input_tokens_seen": 9914928,
      "step": 15165
    },
    {
      "epoch": 7.950733752620545,
      "grad_norm": 0.13393224775791168,
      "learning_rate": 0.0007537534179291599,
      "loss": 0.723,
      "num_input_tokens_seen": 9918992,
      "step": 15170
    },
    {
      "epoch": 7.95335429769392,
      "grad_norm": 0.0852963998913765,
      "learning_rate": 0.000753556344881631,
      "loss": 0.4852,
      "num_input_tokens_seen": 9922960,
      "step": 15175
    },
    {
      "epoch": 7.955974842767295,
      "grad_norm": 0.1043752133846283,
      "learning_rate": 0.0007533592187930076,
      "loss": 0.4266,
      "num_input_tokens_seen": 9926320,
      "step": 15180
    },
    {
      "epoch": 7.9585953878406706,
      "grad_norm": 0.06556738913059235,
      "learning_rate": 0.000753162039704526,
      "loss": 0.3488,
      "num_input_tokens_seen": 9930000,
      "step": 15185
    },
    {
      "epoch": 7.961215932914046,
      "grad_norm": 0.08827753365039825,
      "learning_rate": 0.000752964807657434,
      "loss": 0.4895,
      "num_input_tokens_seen": 9934160,
      "step": 15190
    },
    {
      "epoch": 7.963836477987421,
      "grad_norm": 0.018143393099308014,
      "learning_rate": 0.0007527675226929902,
      "loss": 0.368,
      "num_input_tokens_seen": 9939760,
      "step": 15195
    },
    {
      "epoch": 7.966457023060797,
      "grad_norm": 0.12825915217399597,
      "learning_rate": 0.0007525701848524643,
      "loss": 0.5341,
      "num_input_tokens_seen": 9942768,
      "step": 15200
    },
    {
      "epoch": 7.969077568134172,
      "grad_norm": 0.07182314991950989,
      "learning_rate": 0.0007523727941771372,
      "loss": 0.5557,
      "num_input_tokens_seen": 9946864,
      "step": 15205
    },
    {
      "epoch": 7.971698113207547,
      "grad_norm": 0.10568176954984665,
      "learning_rate": 0.0007521753507083009,
      "loss": 0.4252,
      "num_input_tokens_seen": 9951664,
      "step": 15210
    },
    {
      "epoch": 7.9743186582809225,
      "grad_norm": 0.12360108643770218,
      "learning_rate": 0.0007519778544872581,
      "loss": 0.4194,
      "num_input_tokens_seen": 9954096,
      "step": 15215
    },
    {
      "epoch": 7.976939203354298,
      "grad_norm": 0.08115001767873764,
      "learning_rate": 0.000751780305555323,
      "loss": 0.5176,
      "num_input_tokens_seen": 9957456,
      "step": 15220
    },
    {
      "epoch": 7.979559748427673,
      "grad_norm": 0.09720363467931747,
      "learning_rate": 0.0007515827039538202,
      "loss": 0.5116,
      "num_input_tokens_seen": 9960240,
      "step": 15225
    },
    {
      "epoch": 7.982180293501048,
      "grad_norm": 0.130833700299263,
      "learning_rate": 0.0007513850497240861,
      "loss": 0.5749,
      "num_input_tokens_seen": 9962736,
      "step": 15230
    },
    {
      "epoch": 7.984800838574423,
      "grad_norm": 0.1014719232916832,
      "learning_rate": 0.0007511873429074676,
      "loss": 0.3639,
      "num_input_tokens_seen": 9965424,
      "step": 15235
    },
    {
      "epoch": 7.987421383647799,
      "grad_norm": 0.08900386095046997,
      "learning_rate": 0.0007509895835453224,
      "loss": 0.3517,
      "num_input_tokens_seen": 9968464,
      "step": 15240
    },
    {
      "epoch": 7.990041928721174,
      "grad_norm": 0.09356728941202164,
      "learning_rate": 0.0007507917716790201,
      "loss": 0.499,
      "num_input_tokens_seen": 9971152,
      "step": 15245
    },
    {
      "epoch": 7.9926624737945495,
      "grad_norm": 0.09544090926647186,
      "learning_rate": 0.0007505939073499401,
      "loss": 0.392,
      "num_input_tokens_seen": 9973712,
      "step": 15250
    },
    {
      "epoch": 7.995283018867925,
      "grad_norm": 0.12464458495378494,
      "learning_rate": 0.0007503959905994737,
      "loss": 0.4196,
      "num_input_tokens_seen": 9976560,
      "step": 15255
    },
    {
      "epoch": 7.9979035639413,
      "grad_norm": 0.19679886102676392,
      "learning_rate": 0.0007501980214690227,
      "loss": 0.4536,
      "num_input_tokens_seen": 9979344,
      "step": 15260
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.4750555157661438,
      "eval_runtime": 13.615,
      "eval_samples_per_second": 62.284,
      "eval_steps_per_second": 15.571,
      "num_input_tokens_seen": 9981168,
      "step": 15264
    },
    {
      "epoch": 8.000524109014675,
      "grad_norm": 0.09438329935073853,
      "learning_rate": 0.00075,
      "loss": 0.3397,
      "num_input_tokens_seen": 9981648,
      "step": 15265
    },
    {
      "epoch": 8.00314465408805,
      "grad_norm": 0.14538216590881348,
      "learning_rate": 0.0007498019262338295,
      "loss": 0.4353,
      "num_input_tokens_seen": 9984048,
      "step": 15270
    },
    {
      "epoch": 8.005765199161425,
      "grad_norm": 0.09560950100421906,
      "learning_rate": 0.0007496038002119459,
      "loss": 0.447,
      "num_input_tokens_seen": 9987056,
      "step": 15275
    },
    {
      "epoch": 8.0083857442348,
      "grad_norm": 0.09909003227949142,
      "learning_rate": 0.000749405621975795,
      "loss": 0.6957,
      "num_input_tokens_seen": 9990512,
      "step": 15280
    },
    {
      "epoch": 8.011006289308176,
      "grad_norm": 0.07941354066133499,
      "learning_rate": 0.0007492073915668334,
      "loss": 0.4039,
      "num_input_tokens_seen": 9993104,
      "step": 15285
    },
    {
      "epoch": 8.01362683438155,
      "grad_norm": 0.11302246898412704,
      "learning_rate": 0.0007490091090265283,
      "loss": 0.4338,
      "num_input_tokens_seen": 9996016,
      "step": 15290
    },
    {
      "epoch": 8.016247379454926,
      "grad_norm": 0.11229434609413147,
      "learning_rate": 0.0007488107743963587,
      "loss": 0.5246,
      "num_input_tokens_seen": 9998864,
      "step": 15295
    },
    {
      "epoch": 8.018867924528301,
      "grad_norm": 0.11204161494970322,
      "learning_rate": 0.0007486123877178136,
      "loss": 0.6085,
      "num_input_tokens_seen": 10001424,
      "step": 15300
    },
    {
      "epoch": 8.021488469601676,
      "grad_norm": 0.08929659426212311,
      "learning_rate": 0.0007484139490323932,
      "loss": 0.4033,
      "num_input_tokens_seen": 10004848,
      "step": 15305
    },
    {
      "epoch": 8.024109014675052,
      "grad_norm": 0.0950733870267868,
      "learning_rate": 0.000748215458381609,
      "loss": 0.4284,
      "num_input_tokens_seen": 10008560,
      "step": 15310
    },
    {
      "epoch": 8.026729559748428,
      "grad_norm": 0.07090529799461365,
      "learning_rate": 0.0007480169158069826,
      "loss": 0.5159,
      "num_input_tokens_seen": 10011664,
      "step": 15315
    },
    {
      "epoch": 8.029350104821804,
      "grad_norm": 0.09334816038608551,
      "learning_rate": 0.0007478183213500468,
      "loss": 0.4347,
      "num_input_tokens_seen": 10015120,
      "step": 15320
    },
    {
      "epoch": 8.031970649895179,
      "grad_norm": 0.08342143893241882,
      "learning_rate": 0.0007476196750523456,
      "loss": 0.5653,
      "num_input_tokens_seen": 10018672,
      "step": 15325
    },
    {
      "epoch": 8.034591194968554,
      "grad_norm": 0.09864170104265213,
      "learning_rate": 0.000747420976955433,
      "loss": 0.6447,
      "num_input_tokens_seen": 10022928,
      "step": 15330
    },
    {
      "epoch": 8.03721174004193,
      "grad_norm": 0.12500569224357605,
      "learning_rate": 0.0007472222271008752,
      "loss": 0.439,
      "num_input_tokens_seen": 10027216,
      "step": 15335
    },
    {
      "epoch": 8.039832285115304,
      "grad_norm": 0.11230193823575974,
      "learning_rate": 0.0007470234255302478,
      "loss": 0.4562,
      "num_input_tokens_seen": 10029872,
      "step": 15340
    },
    {
      "epoch": 8.04245283018868,
      "grad_norm": 0.08655674755573273,
      "learning_rate": 0.0007468245722851379,
      "loss": 0.4702,
      "num_input_tokens_seen": 10034352,
      "step": 15345
    },
    {
      "epoch": 8.045073375262055,
      "grad_norm": 0.10880337655544281,
      "learning_rate": 0.0007466256674071434,
      "loss": 0.436,
      "num_input_tokens_seen": 10037520,
      "step": 15350
    },
    {
      "epoch": 8.04769392033543,
      "grad_norm": 0.07566647231578827,
      "learning_rate": 0.000746426710937873,
      "loss": 0.4614,
      "num_input_tokens_seen": 10040720,
      "step": 15355
    },
    {
      "epoch": 8.050314465408805,
      "grad_norm": 0.05211849883198738,
      "learning_rate": 0.0007462277029189461,
      "loss": 0.5254,
      "num_input_tokens_seen": 10043760,
      "step": 15360
    },
    {
      "epoch": 8.05293501048218,
      "grad_norm": 0.08534590899944305,
      "learning_rate": 0.0007460286433919928,
      "loss": 0.4078,
      "num_input_tokens_seen": 10047504,
      "step": 15365
    },
    {
      "epoch": 8.055555555555555,
      "grad_norm": 0.047372039407491684,
      "learning_rate": 0.0007458295323986542,
      "loss": 0.3517,
      "num_input_tokens_seen": 10050480,
      "step": 15370
    },
    {
      "epoch": 8.05817610062893,
      "grad_norm": 0.10578080266714096,
      "learning_rate": 0.0007456303699805817,
      "loss": 0.414,
      "num_input_tokens_seen": 10053488,
      "step": 15375
    },
    {
      "epoch": 8.060796645702306,
      "grad_norm": 0.05390090122818947,
      "learning_rate": 0.0007454311561794386,
      "loss": 0.4899,
      "num_input_tokens_seen": 10057744,
      "step": 15380
    },
    {
      "epoch": 8.06341719077568,
      "grad_norm": 0.17266300320625305,
      "learning_rate": 0.0007452318910368972,
      "loss": 0.4436,
      "num_input_tokens_seen": 10060688,
      "step": 15385
    },
    {
      "epoch": 8.066037735849056,
      "grad_norm": 0.1051420271396637,
      "learning_rate": 0.0007450325745946422,
      "loss": 0.4562,
      "num_input_tokens_seen": 10063408,
      "step": 15390
    },
    {
      "epoch": 8.068658280922431,
      "grad_norm": 0.09244554489850998,
      "learning_rate": 0.0007448332068943681,
      "loss": 0.4411,
      "num_input_tokens_seen": 10067120,
      "step": 15395
    },
    {
      "epoch": 8.071278825995806,
      "grad_norm": 0.08767791837453842,
      "learning_rate": 0.0007446337879777802,
      "loss": 0.4583,
      "num_input_tokens_seen": 10070768,
      "step": 15400
    },
    {
      "epoch": 8.073899371069182,
      "grad_norm": 0.07752566039562225,
      "learning_rate": 0.0007444343178865948,
      "loss": 0.6652,
      "num_input_tokens_seen": 10073776,
      "step": 15405
    },
    {
      "epoch": 8.076519916142558,
      "grad_norm": 0.08786077052354813,
      "learning_rate": 0.0007442347966625389,
      "loss": 0.5167,
      "num_input_tokens_seen": 10077488,
      "step": 15410
    },
    {
      "epoch": 8.079140461215934,
      "grad_norm": 0.08758540451526642,
      "learning_rate": 0.0007440352243473496,
      "loss": 0.5592,
      "num_input_tokens_seen": 10080208,
      "step": 15415
    },
    {
      "epoch": 8.081761006289309,
      "grad_norm": 0.06908535957336426,
      "learning_rate": 0.0007438356009827758,
      "loss": 0.4273,
      "num_input_tokens_seen": 10083664,
      "step": 15420
    },
    {
      "epoch": 8.084381551362684,
      "grad_norm": 0.11387208849191666,
      "learning_rate": 0.0007436359266105759,
      "loss": 0.4207,
      "num_input_tokens_seen": 10086672,
      "step": 15425
    },
    {
      "epoch": 8.08700209643606,
      "grad_norm": 0.11836148798465729,
      "learning_rate": 0.0007434362012725198,
      "loss": 0.4076,
      "num_input_tokens_seen": 10090000,
      "step": 15430
    },
    {
      "epoch": 8.089622641509434,
      "grad_norm": 0.13151812553405762,
      "learning_rate": 0.0007432364250103877,
      "loss": 0.4913,
      "num_input_tokens_seen": 10093136,
      "step": 15435
    },
    {
      "epoch": 8.09224318658281,
      "grad_norm": 0.11090735346078873,
      "learning_rate": 0.0007430365978659704,
      "loss": 0.4926,
      "num_input_tokens_seen": 10096176,
      "step": 15440
    },
    {
      "epoch": 8.094863731656185,
      "grad_norm": 0.06644217669963837,
      "learning_rate": 0.0007428367198810694,
      "loss": 0.4355,
      "num_input_tokens_seen": 10099728,
      "step": 15445
    },
    {
      "epoch": 8.09748427672956,
      "grad_norm": 0.10580356419086456,
      "learning_rate": 0.0007426367910974973,
      "loss": 0.4899,
      "num_input_tokens_seen": 10102896,
      "step": 15450
    },
    {
      "epoch": 8.100104821802935,
      "grad_norm": 0.06232263147830963,
      "learning_rate": 0.0007424368115570763,
      "loss": 0.3688,
      "num_input_tokens_seen": 10106416,
      "step": 15455
    },
    {
      "epoch": 8.10272536687631,
      "grad_norm": 0.12991170585155487,
      "learning_rate": 0.0007422367813016405,
      "loss": 0.5,
      "num_input_tokens_seen": 10108848,
      "step": 15460
    },
    {
      "epoch": 8.105345911949685,
      "grad_norm": 0.1022559329867363,
      "learning_rate": 0.0007420367003730335,
      "loss": 0.4222,
      "num_input_tokens_seen": 10112496,
      "step": 15465
    },
    {
      "epoch": 8.10796645702306,
      "grad_norm": 0.11114625632762909,
      "learning_rate": 0.0007418365688131103,
      "loss": 0.3778,
      "num_input_tokens_seen": 10115472,
      "step": 15470
    },
    {
      "epoch": 8.110587002096436,
      "grad_norm": 0.09128429740667343,
      "learning_rate": 0.0007416363866637356,
      "loss": 0.4195,
      "num_input_tokens_seen": 10117872,
      "step": 15475
    },
    {
      "epoch": 8.11320754716981,
      "grad_norm": 0.09120391309261322,
      "learning_rate": 0.0007414361539667857,
      "loss": 0.4483,
      "num_input_tokens_seen": 10120720,
      "step": 15480
    },
    {
      "epoch": 8.115828092243186,
      "grad_norm": 0.14336751401424408,
      "learning_rate": 0.0007412358707641468,
      "loss": 0.429,
      "num_input_tokens_seen": 10123152,
      "step": 15485
    },
    {
      "epoch": 8.118448637316561,
      "grad_norm": 0.07478836923837662,
      "learning_rate": 0.0007410355370977158,
      "loss": 0.6419,
      "num_input_tokens_seen": 10126288,
      "step": 15490
    },
    {
      "epoch": 8.121069182389936,
      "grad_norm": 0.09153161942958832,
      "learning_rate": 0.0007408351530094005,
      "loss": 0.3627,
      "num_input_tokens_seen": 10129232,
      "step": 15495
    },
    {
      "epoch": 8.123689727463312,
      "grad_norm": 0.11042124778032303,
      "learning_rate": 0.0007406347185411187,
      "loss": 0.4446,
      "num_input_tokens_seen": 10131664,
      "step": 15500
    },
    {
      "epoch": 8.126310272536688,
      "grad_norm": 0.08750607073307037,
      "learning_rate": 0.0007404342337347992,
      "loss": 0.3026,
      "num_input_tokens_seen": 10134736,
      "step": 15505
    },
    {
      "epoch": 8.128930817610064,
      "grad_norm": 0.1434294730424881,
      "learning_rate": 0.000740233698632381,
      "loss": 0.4149,
      "num_input_tokens_seen": 10138192,
      "step": 15510
    },
    {
      "epoch": 8.131551362683439,
      "grad_norm": 0.08847276866436005,
      "learning_rate": 0.0007400331132758136,
      "loss": 0.3484,
      "num_input_tokens_seen": 10141232,
      "step": 15515
    },
    {
      "epoch": 8.134171907756814,
      "grad_norm": 0.104099340736866,
      "learning_rate": 0.0007398324777070576,
      "loss": 0.512,
      "num_input_tokens_seen": 10144464,
      "step": 15520
    },
    {
      "epoch": 8.13679245283019,
      "grad_norm": 0.09484648704528809,
      "learning_rate": 0.0007396317919680832,
      "loss": 0.5297,
      "num_input_tokens_seen": 10148048,
      "step": 15525
    },
    {
      "epoch": 8.139412997903564,
      "grad_norm": 0.09149807691574097,
      "learning_rate": 0.0007394310561008717,
      "loss": 0.5144,
      "num_input_tokens_seen": 10151600,
      "step": 15530
    },
    {
      "epoch": 8.14203354297694,
      "grad_norm": 0.1141175851225853,
      "learning_rate": 0.0007392302701474151,
      "loss": 0.4465,
      "num_input_tokens_seen": 10154032,
      "step": 15535
    },
    {
      "epoch": 8.144654088050315,
      "grad_norm": 0.18031486868858337,
      "learning_rate": 0.0007390294341497151,
      "loss": 0.4864,
      "num_input_tokens_seen": 10156368,
      "step": 15540
    },
    {
      "epoch": 8.14727463312369,
      "grad_norm": 0.06115563586354256,
      "learning_rate": 0.0007388285481497845,
      "loss": 0.3315,
      "num_input_tokens_seen": 10159504,
      "step": 15545
    },
    {
      "epoch": 8.149895178197065,
      "grad_norm": 0.08896046876907349,
      "learning_rate": 0.0007386276121896465,
      "loss": 0.3229,
      "num_input_tokens_seen": 10162864,
      "step": 15550
    },
    {
      "epoch": 8.15251572327044,
      "grad_norm": 0.11220463365316391,
      "learning_rate": 0.0007384266263113342,
      "loss": 0.4302,
      "num_input_tokens_seen": 10165744,
      "step": 15555
    },
    {
      "epoch": 8.155136268343815,
      "grad_norm": 0.11206784099340439,
      "learning_rate": 0.0007382255905568919,
      "loss": 0.4399,
      "num_input_tokens_seen": 10169456,
      "step": 15560
    },
    {
      "epoch": 8.15775681341719,
      "grad_norm": 0.10055597126483917,
      "learning_rate": 0.000738024504968374,
      "loss": 0.4144,
      "num_input_tokens_seen": 10172048,
      "step": 15565
    },
    {
      "epoch": 8.160377358490566,
      "grad_norm": 0.10354415327310562,
      "learning_rate": 0.0007378233695878449,
      "loss": 0.5173,
      "num_input_tokens_seen": 10175088,
      "step": 15570
    },
    {
      "epoch": 8.16299790356394,
      "grad_norm": 0.09189508855342865,
      "learning_rate": 0.0007376221844573803,
      "loss": 0.4686,
      "num_input_tokens_seen": 10177744,
      "step": 15575
    },
    {
      "epoch": 8.165618448637316,
      "grad_norm": 0.14039602875709534,
      "learning_rate": 0.0007374209496190656,
      "loss": 0.5379,
      "num_input_tokens_seen": 10180528,
      "step": 15580
    },
    {
      "epoch": 8.168238993710691,
      "grad_norm": 0.1421789824962616,
      "learning_rate": 0.0007372196651149968,
      "loss": 0.5322,
      "num_input_tokens_seen": 10182896,
      "step": 15585
    },
    {
      "epoch": 8.170859538784066,
      "grad_norm": 0.09584849327802658,
      "learning_rate": 0.0007370183309872805,
      "loss": 0.3903,
      "num_input_tokens_seen": 10186224,
      "step": 15590
    },
    {
      "epoch": 8.173480083857442,
      "grad_norm": 0.08797764033079147,
      "learning_rate": 0.0007368169472780335,
      "loss": 0.3935,
      "num_input_tokens_seen": 10190064,
      "step": 15595
    },
    {
      "epoch": 8.176100628930818,
      "grad_norm": 0.25312280654907227,
      "learning_rate": 0.0007366155140293828,
      "loss": 0.5169,
      "num_input_tokens_seen": 10192720,
      "step": 15600
    },
    {
      "epoch": 8.178721174004194,
      "grad_norm": 0.0706528052687645,
      "learning_rate": 0.000736414031283466,
      "loss": 0.4162,
      "num_input_tokens_seen": 10196848,
      "step": 15605
    },
    {
      "epoch": 8.181341719077569,
      "grad_norm": 0.07810267060995102,
      "learning_rate": 0.000736212499082431,
      "loss": 0.4614,
      "num_input_tokens_seen": 10200400,
      "step": 15610
    },
    {
      "epoch": 8.183962264150944,
      "grad_norm": 0.11447770148515701,
      "learning_rate": 0.0007360109174684359,
      "loss": 0.4245,
      "num_input_tokens_seen": 10204368,
      "step": 15615
    },
    {
      "epoch": 8.18658280922432,
      "grad_norm": 0.11069104820489883,
      "learning_rate": 0.0007358092864836497,
      "loss": 0.3962,
      "num_input_tokens_seen": 10208592,
      "step": 15620
    },
    {
      "epoch": 8.189203354297694,
      "grad_norm": 0.06586091965436935,
      "learning_rate": 0.0007356076061702508,
      "loss": 0.4152,
      "num_input_tokens_seen": 10212304,
      "step": 15625
    },
    {
      "epoch": 8.19182389937107,
      "grad_norm": 0.12523098289966583,
      "learning_rate": 0.0007354058765704288,
      "loss": 0.3612,
      "num_input_tokens_seen": 10215504,
      "step": 15630
    },
    {
      "epoch": 8.194444444444445,
      "grad_norm": 0.1432938277721405,
      "learning_rate": 0.000735204097726383,
      "loss": 0.4007,
      "num_input_tokens_seen": 10218768,
      "step": 15635
    },
    {
      "epoch": 8.19706498951782,
      "grad_norm": 0.1143747866153717,
      "learning_rate": 0.0007350022696803233,
      "loss": 0.4288,
      "num_input_tokens_seen": 10222640,
      "step": 15640
    },
    {
      "epoch": 8.199685534591195,
      "grad_norm": 0.1708614081144333,
      "learning_rate": 0.0007348003924744699,
      "loss": 0.4808,
      "num_input_tokens_seen": 10225008,
      "step": 15645
    },
    {
      "epoch": 8.20230607966457,
      "grad_norm": 0.06694647669792175,
      "learning_rate": 0.000734598466151053,
      "loss": 0.436,
      "num_input_tokens_seen": 10228208,
      "step": 15650
    },
    {
      "epoch": 8.204926624737945,
      "grad_norm": 0.13396884500980377,
      "learning_rate": 0.0007343964907523135,
      "loss": 0.4642,
      "num_input_tokens_seen": 10232080,
      "step": 15655
    },
    {
      "epoch": 8.20754716981132,
      "grad_norm": 0.13553741574287415,
      "learning_rate": 0.0007341944663205023,
      "loss": 0.4395,
      "num_input_tokens_seen": 10234704,
      "step": 15660
    },
    {
      "epoch": 8.210167714884696,
      "grad_norm": 0.1483759880065918,
      "learning_rate": 0.0007339923928978805,
      "loss": 0.3615,
      "num_input_tokens_seen": 10237872,
      "step": 15665
    },
    {
      "epoch": 8.21278825995807,
      "grad_norm": 0.08927840739488602,
      "learning_rate": 0.0007337902705267197,
      "loss": 0.4395,
      "num_input_tokens_seen": 10240784,
      "step": 15670
    },
    {
      "epoch": 8.215408805031446,
      "grad_norm": 0.16670149564743042,
      "learning_rate": 0.0007335880992493016,
      "loss": 0.383,
      "num_input_tokens_seen": 10243440,
      "step": 15675
    },
    {
      "epoch": 8.218029350104821,
      "grad_norm": 0.07177633792161942,
      "learning_rate": 0.000733385879107918,
      "loss": 0.468,
      "num_input_tokens_seen": 10246864,
      "step": 15680
    },
    {
      "epoch": 8.220649895178196,
      "grad_norm": 0.09917526692152023,
      "learning_rate": 0.000733183610144871,
      "loss": 0.4955,
      "num_input_tokens_seen": 10249360,
      "step": 15685
    },
    {
      "epoch": 8.223270440251572,
      "grad_norm": 0.07518015801906586,
      "learning_rate": 0.0007329812924024732,
      "loss": 0.5176,
      "num_input_tokens_seen": 10252848,
      "step": 15690
    },
    {
      "epoch": 8.225890985324948,
      "grad_norm": 0.08794297277927399,
      "learning_rate": 0.0007327789259230468,
      "loss": 0.5399,
      "num_input_tokens_seen": 10257680,
      "step": 15695
    },
    {
      "epoch": 8.228511530398324,
      "grad_norm": 0.07174192368984222,
      "learning_rate": 0.0007325765107489249,
      "loss": 0.4811,
      "num_input_tokens_seen": 10261520,
      "step": 15700
    },
    {
      "epoch": 8.231132075471699,
      "grad_norm": 0.06930521130561829,
      "learning_rate": 0.0007323740469224505,
      "loss": 0.3526,
      "num_input_tokens_seen": 10264624,
      "step": 15705
    },
    {
      "epoch": 8.233752620545074,
      "grad_norm": 0.08770298957824707,
      "learning_rate": 0.0007321715344859763,
      "loss": 0.4561,
      "num_input_tokens_seen": 10267664,
      "step": 15710
    },
    {
      "epoch": 8.23637316561845,
      "grad_norm": 0.1926957070827484,
      "learning_rate": 0.000731968973481866,
      "loss": 0.5425,
      "num_input_tokens_seen": 10270000,
      "step": 15715
    },
    {
      "epoch": 8.238993710691824,
      "grad_norm": 0.08710778504610062,
      "learning_rate": 0.0007317663639524928,
      "loss": 0.4347,
      "num_input_tokens_seen": 10273424,
      "step": 15720
    },
    {
      "epoch": 8.2416142557652,
      "grad_norm": 0.09014841914176941,
      "learning_rate": 0.0007315637059402404,
      "loss": 0.4621,
      "num_input_tokens_seen": 10277264,
      "step": 15725
    },
    {
      "epoch": 8.244234800838575,
      "grad_norm": 0.06881477683782578,
      "learning_rate": 0.0007313609994875024,
      "loss": 0.478,
      "num_input_tokens_seen": 10280080,
      "step": 15730
    },
    {
      "epoch": 8.24685534591195,
      "grad_norm": 0.07060816138982773,
      "learning_rate": 0.0007311582446366831,
      "loss": 0.473,
      "num_input_tokens_seen": 10283216,
      "step": 15735
    },
    {
      "epoch": 8.249475890985325,
      "grad_norm": 0.10043910145759583,
      "learning_rate": 0.000730955441430196,
      "loss": 0.4987,
      "num_input_tokens_seen": 10285968,
      "step": 15740
    },
    {
      "epoch": 8.2520964360587,
      "grad_norm": 0.08428922295570374,
      "learning_rate": 0.0007307525899104655,
      "loss": 0.3587,
      "num_input_tokens_seen": 10288784,
      "step": 15745
    },
    {
      "epoch": 8.254716981132075,
      "grad_norm": 0.08500651270151138,
      "learning_rate": 0.0007305496901199259,
      "loss": 0.4112,
      "num_input_tokens_seen": 10293904,
      "step": 15750
    },
    {
      "epoch": 8.25733752620545,
      "grad_norm": 0.09881432354450226,
      "learning_rate": 0.0007303467421010211,
      "loss": 0.4323,
      "num_input_tokens_seen": 10297488,
      "step": 15755
    },
    {
      "epoch": 8.259958071278826,
      "grad_norm": 0.10713210701942444,
      "learning_rate": 0.0007301437458962061,
      "loss": 0.5542,
      "num_input_tokens_seen": 10301392,
      "step": 15760
    },
    {
      "epoch": 8.2625786163522,
      "grad_norm": 0.07937464863061905,
      "learning_rate": 0.0007299407015479448,
      "loss": 0.3508,
      "num_input_tokens_seen": 10303888,
      "step": 15765
    },
    {
      "epoch": 8.265199161425576,
      "grad_norm": 0.07403391599655151,
      "learning_rate": 0.0007297376090987122,
      "loss": 0.3117,
      "num_input_tokens_seen": 10307888,
      "step": 15770
    },
    {
      "epoch": 8.267819706498951,
      "grad_norm": 0.181672602891922,
      "learning_rate": 0.0007295344685909926,
      "loss": 0.584,
      "num_input_tokens_seen": 10310768,
      "step": 15775
    },
    {
      "epoch": 8.270440251572326,
      "grad_norm": 0.14450547099113464,
      "learning_rate": 0.000729331280067281,
      "loss": 0.4737,
      "num_input_tokens_seen": 10313936,
      "step": 15780
    },
    {
      "epoch": 8.273060796645701,
      "grad_norm": 0.042882438749074936,
      "learning_rate": 0.0007291280435700819,
      "loss": 0.4171,
      "num_input_tokens_seen": 10319632,
      "step": 15785
    },
    {
      "epoch": 8.275681341719078,
      "grad_norm": 0.08217918872833252,
      "learning_rate": 0.0007289247591419102,
      "loss": 0.5336,
      "num_input_tokens_seen": 10322800,
      "step": 15790
    },
    {
      "epoch": 8.278301886792454,
      "grad_norm": 0.11267964541912079,
      "learning_rate": 0.0007287214268252904,
      "loss": 0.4687,
      "num_input_tokens_seen": 10326224,
      "step": 15795
    },
    {
      "epoch": 8.280922431865829,
      "grad_norm": 0.10668019950389862,
      "learning_rate": 0.0007285180466627577,
      "loss": 0.598,
      "num_input_tokens_seen": 10328912,
      "step": 15800
    },
    {
      "epoch": 8.283542976939204,
      "grad_norm": 0.08173541724681854,
      "learning_rate": 0.0007283146186968565,
      "loss": 0.421,
      "num_input_tokens_seen": 10331728,
      "step": 15805
    },
    {
      "epoch": 8.286163522012579,
      "grad_norm": 0.07502739131450653,
      "learning_rate": 0.000728111142970142,
      "loss": 0.4144,
      "num_input_tokens_seen": 10335056,
      "step": 15810
    },
    {
      "epoch": 8.288784067085954,
      "grad_norm": 0.06898657977581024,
      "learning_rate": 0.0007279076195251788,
      "loss": 0.4822,
      "num_input_tokens_seen": 10338384,
      "step": 15815
    },
    {
      "epoch": 8.29140461215933,
      "grad_norm": 0.08104453235864639,
      "learning_rate": 0.0007277040484045416,
      "loss": 0.3879,
      "num_input_tokens_seen": 10341008,
      "step": 15820
    },
    {
      "epoch": 8.294025157232705,
      "grad_norm": 0.05880816653370857,
      "learning_rate": 0.0007275004296508154,
      "loss": 0.5146,
      "num_input_tokens_seen": 10344336,
      "step": 15825
    },
    {
      "epoch": 8.29664570230608,
      "grad_norm": 0.06442830711603165,
      "learning_rate": 0.0007272967633065947,
      "loss": 0.3416,
      "num_input_tokens_seen": 10348432,
      "step": 15830
    },
    {
      "epoch": 8.299266247379455,
      "grad_norm": 0.09185337275266647,
      "learning_rate": 0.0007270930494144843,
      "loss": 0.4848,
      "num_input_tokens_seen": 10351056,
      "step": 15835
    },
    {
      "epoch": 8.30188679245283,
      "grad_norm": 0.09180700033903122,
      "learning_rate": 0.0007268892880170988,
      "loss": 0.3034,
      "num_input_tokens_seen": 10353680,
      "step": 15840
    },
    {
      "epoch": 8.304507337526205,
      "grad_norm": 0.09011563658714294,
      "learning_rate": 0.0007266854791570625,
      "loss": 0.4175,
      "num_input_tokens_seen": 10358160,
      "step": 15845
    },
    {
      "epoch": 8.30712788259958,
      "grad_norm": 0.09693887084722519,
      "learning_rate": 0.0007264816228770103,
      "loss": 0.4037,
      "num_input_tokens_seen": 10360976,
      "step": 15850
    },
    {
      "epoch": 8.309748427672956,
      "grad_norm": 0.14168965816497803,
      "learning_rate": 0.0007262777192195866,
      "loss": 0.3761,
      "num_input_tokens_seen": 10363600,
      "step": 15855
    },
    {
      "epoch": 8.31236897274633,
      "grad_norm": 0.07853731513023376,
      "learning_rate": 0.0007260737682274452,
      "loss": 0.5068,
      "num_input_tokens_seen": 10365744,
      "step": 15860
    },
    {
      "epoch": 8.314989517819706,
      "grad_norm": 0.07498983293771744,
      "learning_rate": 0.0007258697699432511,
      "loss": 0.5384,
      "num_input_tokens_seen": 10369104,
      "step": 15865
    },
    {
      "epoch": 8.317610062893081,
      "grad_norm": 0.09599503129720688,
      "learning_rate": 0.0007256657244096775,
      "loss": 0.4769,
      "num_input_tokens_seen": 10371696,
      "step": 15870
    },
    {
      "epoch": 8.320230607966456,
      "grad_norm": 0.10317826271057129,
      "learning_rate": 0.0007254616316694091,
      "loss": 0.5166,
      "num_input_tokens_seen": 10375184,
      "step": 15875
    },
    {
      "epoch": 8.322851153039831,
      "grad_norm": 0.11068093031644821,
      "learning_rate": 0.0007252574917651398,
      "loss": 0.4196,
      "num_input_tokens_seen": 10378288,
      "step": 15880
    },
    {
      "epoch": 8.325471698113208,
      "grad_norm": 0.09440125524997711,
      "learning_rate": 0.0007250533047395728,
      "loss": 0.376,
      "num_input_tokens_seen": 10380848,
      "step": 15885
    },
    {
      "epoch": 8.328092243186584,
      "grad_norm": 0.08638764917850494,
      "learning_rate": 0.0007248490706354221,
      "loss": 0.5136,
      "num_input_tokens_seen": 10383888,
      "step": 15890
    },
    {
      "epoch": 8.330712788259959,
      "grad_norm": 0.13182106614112854,
      "learning_rate": 0.0007246447894954109,
      "loss": 0.3157,
      "num_input_tokens_seen": 10388368,
      "step": 15895
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.08265355974435806,
      "learning_rate": 0.0007244404613622727,
      "loss": 0.4412,
      "num_input_tokens_seen": 10391280,
      "step": 15900
    },
    {
      "epoch": 8.335953878406709,
      "grad_norm": 0.06785473227500916,
      "learning_rate": 0.0007242360862787507,
      "loss": 0.3852,
      "num_input_tokens_seen": 10394384,
      "step": 15905
    },
    {
      "epoch": 8.338574423480084,
      "grad_norm": 0.11083216965198517,
      "learning_rate": 0.0007240316642875975,
      "loss": 0.3118,
      "num_input_tokens_seen": 10397744,
      "step": 15910
    },
    {
      "epoch": 8.34119496855346,
      "grad_norm": 0.1327754408121109,
      "learning_rate": 0.0007238271954315759,
      "loss": 0.4157,
      "num_input_tokens_seen": 10401712,
      "step": 15915
    },
    {
      "epoch": 8.343815513626835,
      "grad_norm": 0.08502114564180374,
      "learning_rate": 0.0007236226797534589,
      "loss": 0.3737,
      "num_input_tokens_seen": 10404592,
      "step": 15920
    },
    {
      "epoch": 8.34643605870021,
      "grad_norm": 0.10991501808166504,
      "learning_rate": 0.0007234181172960283,
      "loss": 0.5803,
      "num_input_tokens_seen": 10411120,
      "step": 15925
    },
    {
      "epoch": 8.349056603773585,
      "grad_norm": 0.09528907388448715,
      "learning_rate": 0.0007232135081020766,
      "loss": 0.4247,
      "num_input_tokens_seen": 10414416,
      "step": 15930
    },
    {
      "epoch": 8.35167714884696,
      "grad_norm": 0.07896102964878082,
      "learning_rate": 0.0007230088522144054,
      "loss": 0.4601,
      "num_input_tokens_seen": 10416944,
      "step": 15935
    },
    {
      "epoch": 8.354297693920335,
      "grad_norm": 0.08254726976156235,
      "learning_rate": 0.0007228041496758265,
      "loss": 0.5209,
      "num_input_tokens_seen": 10419472,
      "step": 15940
    },
    {
      "epoch": 8.35691823899371,
      "grad_norm": 0.06834548711776733,
      "learning_rate": 0.0007225994005291615,
      "loss": 0.4371,
      "num_input_tokens_seen": 10422384,
      "step": 15945
    },
    {
      "epoch": 8.359538784067086,
      "grad_norm": 0.15538622438907623,
      "learning_rate": 0.0007223946048172414,
      "loss": 0.6007,
      "num_input_tokens_seen": 10426832,
      "step": 15950
    },
    {
      "epoch": 8.36215932914046,
      "grad_norm": 0.16768084466457367,
      "learning_rate": 0.0007221897625829072,
      "loss": 0.575,
      "num_input_tokens_seen": 10429680,
      "step": 15955
    },
    {
      "epoch": 8.364779874213836,
      "grad_norm": 0.08642349392175674,
      "learning_rate": 0.0007219848738690095,
      "loss": 0.4529,
      "num_input_tokens_seen": 10432240,
      "step": 15960
    },
    {
      "epoch": 8.367400419287211,
      "grad_norm": 0.23885147273540497,
      "learning_rate": 0.0007217799387184089,
      "loss": 0.5711,
      "num_input_tokens_seen": 10434608,
      "step": 15965
    },
    {
      "epoch": 8.370020964360586,
      "grad_norm": 0.07541356980800629,
      "learning_rate": 0.0007215749571739752,
      "loss": 0.5459,
      "num_input_tokens_seen": 10437648,
      "step": 15970
    },
    {
      "epoch": 8.372641509433961,
      "grad_norm": 0.10175884515047073,
      "learning_rate": 0.0007213699292785883,
      "loss": 0.3479,
      "num_input_tokens_seen": 10440688,
      "step": 15975
    },
    {
      "epoch": 8.375262054507338,
      "grad_norm": 0.10301227122545242,
      "learning_rate": 0.0007211648550751377,
      "loss": 0.4161,
      "num_input_tokens_seen": 10442992,
      "step": 15980
    },
    {
      "epoch": 8.377882599580714,
      "grad_norm": 0.11453492939472198,
      "learning_rate": 0.0007209597346065226,
      "loss": 0.406,
      "num_input_tokens_seen": 10445776,
      "step": 15985
    },
    {
      "epoch": 8.380503144654089,
      "grad_norm": 0.06553031504154205,
      "learning_rate": 0.000720754567915652,
      "loss": 0.4252,
      "num_input_tokens_seen": 10449040,
      "step": 15990
    },
    {
      "epoch": 8.383123689727464,
      "grad_norm": 0.07794356346130371,
      "learning_rate": 0.000720549355045444,
      "loss": 0.4162,
      "num_input_tokens_seen": 10453104,
      "step": 15995
    },
    {
      "epoch": 8.385744234800839,
      "grad_norm": 0.09003341943025589,
      "learning_rate": 0.0007203440960388273,
      "loss": 0.3796,
      "num_input_tokens_seen": 10456912,
      "step": 16000
    },
    {
      "epoch": 8.388364779874214,
      "grad_norm": 0.10367493331432343,
      "learning_rate": 0.0007201387909387396,
      "loss": 0.4756,
      "num_input_tokens_seen": 10459920,
      "step": 16005
    },
    {
      "epoch": 8.39098532494759,
      "grad_norm": 0.10846921801567078,
      "learning_rate": 0.0007199334397881282,
      "loss": 0.3732,
      "num_input_tokens_seen": 10462992,
      "step": 16010
    },
    {
      "epoch": 8.393605870020965,
      "grad_norm": 0.14568361639976501,
      "learning_rate": 0.0007197280426299502,
      "loss": 0.529,
      "num_input_tokens_seen": 10466000,
      "step": 16015
    },
    {
      "epoch": 8.39622641509434,
      "grad_norm": 0.05167524889111519,
      "learning_rate": 0.0007195225995071727,
      "loss": 0.4094,
      "num_input_tokens_seen": 10470288,
      "step": 16020
    },
    {
      "epoch": 8.398846960167715,
      "grad_norm": 0.0955396220088005,
      "learning_rate": 0.0007193171104627718,
      "loss": 0.4074,
      "num_input_tokens_seen": 10473776,
      "step": 16025
    },
    {
      "epoch": 8.40146750524109,
      "grad_norm": 0.10302899032831192,
      "learning_rate": 0.0007191115755397333,
      "loss": 0.5551,
      "num_input_tokens_seen": 10477200,
      "step": 16030
    },
    {
      "epoch": 8.404088050314465,
      "grad_norm": 0.13737183809280396,
      "learning_rate": 0.0007189059947810531,
      "loss": 0.4499,
      "num_input_tokens_seen": 10480208,
      "step": 16035
    },
    {
      "epoch": 8.40670859538784,
      "grad_norm": 0.16459250450134277,
      "learning_rate": 0.0007187003682297363,
      "loss": 0.4141,
      "num_input_tokens_seen": 10483536,
      "step": 16040
    },
    {
      "epoch": 8.409329140461216,
      "grad_norm": 0.08231642097234726,
      "learning_rate": 0.0007184946959287972,
      "loss": 0.4547,
      "num_input_tokens_seen": 10486704,
      "step": 16045
    },
    {
      "epoch": 8.41194968553459,
      "grad_norm": 0.16566349565982819,
      "learning_rate": 0.0007182889779212609,
      "loss": 0.4531,
      "num_input_tokens_seen": 10489648,
      "step": 16050
    },
    {
      "epoch": 8.414570230607966,
      "grad_norm": 0.14269587397575378,
      "learning_rate": 0.0007180832142501605,
      "loss": 0.5147,
      "num_input_tokens_seen": 10493200,
      "step": 16055
    },
    {
      "epoch": 8.417190775681341,
      "grad_norm": 0.11388052999973297,
      "learning_rate": 0.0007178774049585397,
      "loss": 0.4487,
      "num_input_tokens_seen": 10495248,
      "step": 16060
    },
    {
      "epoch": 8.419811320754716,
      "grad_norm": 0.15784268081188202,
      "learning_rate": 0.0007176715500894515,
      "loss": 0.4839,
      "num_input_tokens_seen": 10499088,
      "step": 16065
    },
    {
      "epoch": 8.422431865828091,
      "grad_norm": 0.06980226188898087,
      "learning_rate": 0.0007174656496859584,
      "loss": 0.4473,
      "num_input_tokens_seen": 10502224,
      "step": 16070
    },
    {
      "epoch": 8.425052410901468,
      "grad_norm": 0.07502277940511703,
      "learning_rate": 0.0007172597037911323,
      "loss": 0.4052,
      "num_input_tokens_seen": 10505200,
      "step": 16075
    },
    {
      "epoch": 8.427672955974844,
      "grad_norm": 0.14557258784770966,
      "learning_rate": 0.0007170537124480548,
      "loss": 0.5072,
      "num_input_tokens_seen": 10509168,
      "step": 16080
    },
    {
      "epoch": 8.430293501048219,
      "grad_norm": 0.1395292580127716,
      "learning_rate": 0.0007168476756998169,
      "loss": 0.5083,
      "num_input_tokens_seen": 10512432,
      "step": 16085
    },
    {
      "epoch": 8.432914046121594,
      "grad_norm": 0.10542653501033783,
      "learning_rate": 0.0007166415935895194,
      "loss": 0.376,
      "num_input_tokens_seen": 10514832,
      "step": 16090
    },
    {
      "epoch": 8.435534591194969,
      "grad_norm": 0.06646604090929031,
      "learning_rate": 0.0007164354661602718,
      "loss": 0.436,
      "num_input_tokens_seen": 10517840,
      "step": 16095
    },
    {
      "epoch": 8.438155136268344,
      "grad_norm": 0.0889839306473732,
      "learning_rate": 0.000716229293455194,
      "loss": 0.3335,
      "num_input_tokens_seen": 10520912,
      "step": 16100
    },
    {
      "epoch": 8.44077568134172,
      "grad_norm": 0.07813384383916855,
      "learning_rate": 0.000716023075517415,
      "loss": 0.6344,
      "num_input_tokens_seen": 10524048,
      "step": 16105
    },
    {
      "epoch": 8.443396226415095,
      "grad_norm": 0.08503024280071259,
      "learning_rate": 0.000715816812390073,
      "loss": 0.4585,
      "num_input_tokens_seen": 10527120,
      "step": 16110
    },
    {
      "epoch": 8.44601677148847,
      "grad_norm": 0.06568825244903564,
      "learning_rate": 0.0007156105041163161,
      "loss": 0.489,
      "num_input_tokens_seen": 10530704,
      "step": 16115
    },
    {
      "epoch": 8.448637316561845,
      "grad_norm": 0.11231476068496704,
      "learning_rate": 0.0007154041507393015,
      "loss": 0.4409,
      "num_input_tokens_seen": 10536560,
      "step": 16120
    },
    {
      "epoch": 8.45125786163522,
      "grad_norm": 0.07644777745008469,
      "learning_rate": 0.000715197752302196,
      "loss": 0.3757,
      "num_input_tokens_seen": 10539824,
      "step": 16125
    },
    {
      "epoch": 8.453878406708595,
      "grad_norm": 0.11950859427452087,
      "learning_rate": 0.0007149913088481759,
      "loss": 0.5412,
      "num_input_tokens_seen": 10542352,
      "step": 16130
    },
    {
      "epoch": 8.45649895178197,
      "grad_norm": 0.16776250302791595,
      "learning_rate": 0.0007147848204204266,
      "loss": 0.5228,
      "num_input_tokens_seen": 10545872,
      "step": 16135
    },
    {
      "epoch": 8.459119496855346,
      "grad_norm": 0.0810299888253212,
      "learning_rate": 0.0007145782870621435,
      "loss": 0.483,
      "num_input_tokens_seen": 10550960,
      "step": 16140
    },
    {
      "epoch": 8.46174004192872,
      "grad_norm": 0.29853734374046326,
      "learning_rate": 0.0007143717088165304,
      "loss": 0.6381,
      "num_input_tokens_seen": 10553712,
      "step": 16145
    },
    {
      "epoch": 8.464360587002096,
      "grad_norm": 0.12793268263339996,
      "learning_rate": 0.0007141650857268019,
      "loss": 0.3877,
      "num_input_tokens_seen": 10556560,
      "step": 16150
    },
    {
      "epoch": 8.466981132075471,
      "grad_norm": 0.09375818073749542,
      "learning_rate": 0.0007139584178361807,
      "loss": 0.5489,
      "num_input_tokens_seen": 10560112,
      "step": 16155
    },
    {
      "epoch": 8.469601677148846,
      "grad_norm": 0.08023213595151901,
      "learning_rate": 0.0007137517051878994,
      "loss": 0.4959,
      "num_input_tokens_seen": 10563504,
      "step": 16160
    },
    {
      "epoch": 8.472222222222221,
      "grad_norm": 0.0840706005692482,
      "learning_rate": 0.0007135449478251998,
      "loss": 0.4996,
      "num_input_tokens_seen": 10567568,
      "step": 16165
    },
    {
      "epoch": 8.474842767295598,
      "grad_norm": 0.11587990820407867,
      "learning_rate": 0.0007133381457913336,
      "loss": 0.4546,
      "num_input_tokens_seen": 10570448,
      "step": 16170
    },
    {
      "epoch": 8.477463312368974,
      "grad_norm": 0.09989342838525772,
      "learning_rate": 0.0007131312991295611,
      "loss": 0.4835,
      "num_input_tokens_seen": 10573264,
      "step": 16175
    },
    {
      "epoch": 8.480083857442349,
      "grad_norm": 0.11179002374410629,
      "learning_rate": 0.0007129244078831525,
      "loss": 0.4829,
      "num_input_tokens_seen": 10577264,
      "step": 16180
    },
    {
      "epoch": 8.482704402515724,
      "grad_norm": 0.0894445851445198,
      "learning_rate": 0.0007127174720953866,
      "loss": 0.4296,
      "num_input_tokens_seen": 10580080,
      "step": 16185
    },
    {
      "epoch": 8.485324947589099,
      "grad_norm": 0.06807806342840195,
      "learning_rate": 0.0007125104918095526,
      "loss": 0.4514,
      "num_input_tokens_seen": 10582736,
      "step": 16190
    },
    {
      "epoch": 8.487945492662474,
      "grad_norm": 0.10054916888475418,
      "learning_rate": 0.0007123034670689483,
      "loss": 0.4172,
      "num_input_tokens_seen": 10586064,
      "step": 16195
    },
    {
      "epoch": 8.49056603773585,
      "grad_norm": 0.08924217522144318,
      "learning_rate": 0.0007120963979168804,
      "loss": 0.411,
      "num_input_tokens_seen": 10589136,
      "step": 16200
    },
    {
      "epoch": 8.493186582809225,
      "grad_norm": 0.09378229826688766,
      "learning_rate": 0.000711889284396666,
      "loss": 0.4414,
      "num_input_tokens_seen": 10592784,
      "step": 16205
    },
    {
      "epoch": 8.4958071278826,
      "grad_norm": 0.08393813669681549,
      "learning_rate": 0.0007116821265516307,
      "loss": 0.4779,
      "num_input_tokens_seen": 10595888,
      "step": 16210
    },
    {
      "epoch": 8.498427672955975,
      "grad_norm": 0.1060887947678566,
      "learning_rate": 0.0007114749244251094,
      "loss": 0.425,
      "num_input_tokens_seen": 10598960,
      "step": 16215
    },
    {
      "epoch": 8.50104821802935,
      "grad_norm": 0.08621113002300262,
      "learning_rate": 0.0007112676780604468,
      "loss": 0.5543,
      "num_input_tokens_seen": 10602736,
      "step": 16220
    },
    {
      "epoch": 8.503668763102725,
      "grad_norm": 0.09613047540187836,
      "learning_rate": 0.000711060387500996,
      "loss": 0.4528,
      "num_input_tokens_seen": 10605712,
      "step": 16225
    },
    {
      "epoch": 8.5062893081761,
      "grad_norm": 0.09302499890327454,
      "learning_rate": 0.0007108530527901199,
      "loss": 0.4322,
      "num_input_tokens_seen": 10608848,
      "step": 16230
    },
    {
      "epoch": 8.508909853249476,
      "grad_norm": 0.06355608254671097,
      "learning_rate": 0.000710645673971191,
      "loss": 0.4155,
      "num_input_tokens_seen": 10612944,
      "step": 16235
    },
    {
      "epoch": 8.51153039832285,
      "grad_norm": 0.1500285267829895,
      "learning_rate": 0.00071043825108759,
      "loss": 0.4005,
      "num_input_tokens_seen": 10616464,
      "step": 16240
    },
    {
      "epoch": 8.514150943396226,
      "grad_norm": 0.10364464670419693,
      "learning_rate": 0.0007102307841827079,
      "loss": 0.5279,
      "num_input_tokens_seen": 10619280,
      "step": 16245
    },
    {
      "epoch": 8.516771488469601,
      "grad_norm": 0.08392667770385742,
      "learning_rate": 0.0007100232732999443,
      "loss": 0.4129,
      "num_input_tokens_seen": 10621872,
      "step": 16250
    },
    {
      "epoch": 8.519392033542976,
      "grad_norm": 0.08616933971643448,
      "learning_rate": 0.0007098157184827076,
      "loss": 0.4573,
      "num_input_tokens_seen": 10625360,
      "step": 16255
    },
    {
      "epoch": 8.522012578616351,
      "grad_norm": 0.09366479516029358,
      "learning_rate": 0.0007096081197744166,
      "loss": 0.3348,
      "num_input_tokens_seen": 10628752,
      "step": 16260
    },
    {
      "epoch": 8.524633123689728,
      "grad_norm": 0.06358734518289566,
      "learning_rate": 0.0007094004772184981,
      "loss": 0.3954,
      "num_input_tokens_seen": 10632176,
      "step": 16265
    },
    {
      "epoch": 8.527253668763104,
      "grad_norm": 0.10059832036495209,
      "learning_rate": 0.0007091927908583889,
      "loss": 0.3945,
      "num_input_tokens_seen": 10636880,
      "step": 16270
    },
    {
      "epoch": 8.529874213836479,
      "grad_norm": 0.11362356692552567,
      "learning_rate": 0.0007089850607375343,
      "loss": 0.4514,
      "num_input_tokens_seen": 10640112,
      "step": 16275
    },
    {
      "epoch": 8.532494758909854,
      "grad_norm": 0.1494498997926712,
      "learning_rate": 0.0007087772868993894,
      "loss": 0.5016,
      "num_input_tokens_seen": 10643856,
      "step": 16280
    },
    {
      "epoch": 8.535115303983229,
      "grad_norm": 0.16073742508888245,
      "learning_rate": 0.0007085694693874178,
      "loss": 0.4688,
      "num_input_tokens_seen": 10646960,
      "step": 16285
    },
    {
      "epoch": 8.537735849056604,
      "grad_norm": 0.146772101521492,
      "learning_rate": 0.0007083616082450928,
      "loss": 0.4532,
      "num_input_tokens_seen": 10653456,
      "step": 16290
    },
    {
      "epoch": 8.54035639412998,
      "grad_norm": 0.16455188393592834,
      "learning_rate": 0.0007081537035158962,
      "loss": 0.4518,
      "num_input_tokens_seen": 10656656,
      "step": 16295
    },
    {
      "epoch": 8.542976939203355,
      "grad_norm": 0.22561895847320557,
      "learning_rate": 0.0007079457552433198,
      "loss": 0.4575,
      "num_input_tokens_seen": 10660304,
      "step": 16300
    },
    {
      "epoch": 8.54559748427673,
      "grad_norm": 0.12082992494106293,
      "learning_rate": 0.0007077377634708637,
      "loss": 0.3586,
      "num_input_tokens_seen": 10663696,
      "step": 16305
    },
    {
      "epoch": 8.548218029350105,
      "grad_norm": 0.05991114675998688,
      "learning_rate": 0.0007075297282420375,
      "loss": 0.4065,
      "num_input_tokens_seen": 10667344,
      "step": 16310
    },
    {
      "epoch": 8.55083857442348,
      "grad_norm": 0.08371634036302567,
      "learning_rate": 0.0007073216496003598,
      "loss": 0.4897,
      "num_input_tokens_seen": 10670480,
      "step": 16315
    },
    {
      "epoch": 8.553459119496855,
      "grad_norm": 0.09215247631072998,
      "learning_rate": 0.0007071135275893584,
      "loss": 0.5352,
      "num_input_tokens_seen": 10674064,
      "step": 16320
    },
    {
      "epoch": 8.55607966457023,
      "grad_norm": 0.07206430286169052,
      "learning_rate": 0.0007069053622525696,
      "loss": 0.5362,
      "num_input_tokens_seen": 10676848,
      "step": 16325
    },
    {
      "epoch": 8.558700209643606,
      "grad_norm": 0.07874105870723724,
      "learning_rate": 0.0007066971536335395,
      "loss": 0.4994,
      "num_input_tokens_seen": 10679440,
      "step": 16330
    },
    {
      "epoch": 8.56132075471698,
      "grad_norm": 0.09164847433567047,
      "learning_rate": 0.0007064889017758234,
      "loss": 0.3856,
      "num_input_tokens_seen": 10682672,
      "step": 16335
    },
    {
      "epoch": 8.563941299790356,
      "grad_norm": 0.06035079061985016,
      "learning_rate": 0.0007062806067229845,
      "loss": 0.3908,
      "num_input_tokens_seen": 10686224,
      "step": 16340
    },
    {
      "epoch": 8.566561844863731,
      "grad_norm": 0.06401512026786804,
      "learning_rate": 0.0007060722685185961,
      "loss": 0.4367,
      "num_input_tokens_seen": 10690128,
      "step": 16345
    },
    {
      "epoch": 8.569182389937106,
      "grad_norm": 0.1467832624912262,
      "learning_rate": 0.00070586388720624,
      "loss": 0.3878,
      "num_input_tokens_seen": 10693616,
      "step": 16350
    },
    {
      "epoch": 8.571802935010481,
      "grad_norm": 0.12373415380716324,
      "learning_rate": 0.0007056554628295076,
      "loss": 0.5251,
      "num_input_tokens_seen": 10696720,
      "step": 16355
    },
    {
      "epoch": 8.574423480083858,
      "grad_norm": 0.11645607650279999,
      "learning_rate": 0.0007054469954319984,
      "loss": 0.4945,
      "num_input_tokens_seen": 10699920,
      "step": 16360
    },
    {
      "epoch": 8.577044025157234,
      "grad_norm": 0.07269150763750076,
      "learning_rate": 0.0007052384850573217,
      "loss": 0.3412,
      "num_input_tokens_seen": 10702864,
      "step": 16365
    },
    {
      "epoch": 8.579664570230609,
      "grad_norm": 0.10586760938167572,
      "learning_rate": 0.0007050299317490952,
      "loss": 0.507,
      "num_input_tokens_seen": 10706416,
      "step": 16370
    },
    {
      "epoch": 8.582285115303984,
      "grad_norm": 0.08079464733600616,
      "learning_rate": 0.0007048213355509463,
      "loss": 0.4796,
      "num_input_tokens_seen": 10710128,
      "step": 16375
    },
    {
      "epoch": 8.584905660377359,
      "grad_norm": 0.15500077605247498,
      "learning_rate": 0.0007046126965065107,
      "loss": 0.565,
      "num_input_tokens_seen": 10712432,
      "step": 16380
    },
    {
      "epoch": 8.587526205450734,
      "grad_norm": 0.15831038355827332,
      "learning_rate": 0.0007044040146594332,
      "loss": 0.3969,
      "num_input_tokens_seen": 10716720,
      "step": 16385
    },
    {
      "epoch": 8.59014675052411,
      "grad_norm": 0.09037035703659058,
      "learning_rate": 0.0007041952900533681,
      "loss": 0.5404,
      "num_input_tokens_seen": 10720656,
      "step": 16390
    },
    {
      "epoch": 8.592767295597485,
      "grad_norm": 0.11216405034065247,
      "learning_rate": 0.0007039865227319777,
      "loss": 0.4872,
      "num_input_tokens_seen": 10723984,
      "step": 16395
    },
    {
      "epoch": 8.59538784067086,
      "grad_norm": 0.10426250845193863,
      "learning_rate": 0.0007037777127389339,
      "loss": 0.4272,
      "num_input_tokens_seen": 10727024,
      "step": 16400
    },
    {
      "epoch": 8.598008385744235,
      "grad_norm": 0.09251362830400467,
      "learning_rate": 0.0007035688601179177,
      "loss": 0.5519,
      "num_input_tokens_seen": 10730160,
      "step": 16405
    },
    {
      "epoch": 8.60062893081761,
      "grad_norm": 0.1381141096353531,
      "learning_rate": 0.000703359964912618,
      "loss": 0.4194,
      "num_input_tokens_seen": 10732560,
      "step": 16410
    },
    {
      "epoch": 8.603249475890985,
      "grad_norm": 0.13386350870132446,
      "learning_rate": 0.000703151027166734,
      "loss": 0.5871,
      "num_input_tokens_seen": 10735568,
      "step": 16415
    },
    {
      "epoch": 8.60587002096436,
      "grad_norm": 0.07369282096624374,
      "learning_rate": 0.0007029420469239726,
      "loss": 0.4781,
      "num_input_tokens_seen": 10739344,
      "step": 16420
    },
    {
      "epoch": 8.608490566037736,
      "grad_norm": 0.1247652992606163,
      "learning_rate": 0.0007027330242280503,
      "loss": 0.5185,
      "num_input_tokens_seen": 10742064,
      "step": 16425
    },
    {
      "epoch": 8.61111111111111,
      "grad_norm": 0.0958724170923233,
      "learning_rate": 0.0007025239591226923,
      "loss": 0.4433,
      "num_input_tokens_seen": 10745680,
      "step": 16430
    },
    {
      "epoch": 8.613731656184486,
      "grad_norm": 0.08619729429483414,
      "learning_rate": 0.0007023148516516326,
      "loss": 0.4202,
      "num_input_tokens_seen": 10748784,
      "step": 16435
    },
    {
      "epoch": 8.616352201257861,
      "grad_norm": 0.08659330755472183,
      "learning_rate": 0.0007021057018586139,
      "loss": 0.4253,
      "num_input_tokens_seen": 10752144,
      "step": 16440
    },
    {
      "epoch": 8.618972746331236,
      "grad_norm": 0.09127150475978851,
      "learning_rate": 0.0007018965097873883,
      "loss": 0.4662,
      "num_input_tokens_seen": 10755664,
      "step": 16445
    },
    {
      "epoch": 8.621593291404611,
      "grad_norm": 0.10905887186527252,
      "learning_rate": 0.0007016872754817161,
      "loss": 0.379,
      "num_input_tokens_seen": 10759728,
      "step": 16450
    },
    {
      "epoch": 8.624213836477988,
      "grad_norm": 0.13659319281578064,
      "learning_rate": 0.0007014779989853668,
      "loss": 0.6206,
      "num_input_tokens_seen": 10763184,
      "step": 16455
    },
    {
      "epoch": 8.626834381551364,
      "grad_norm": 0.08284425735473633,
      "learning_rate": 0.0007012686803421189,
      "loss": 0.5387,
      "num_input_tokens_seen": 10766320,
      "step": 16460
    },
    {
      "epoch": 8.629454926624739,
      "grad_norm": 0.12928520143032074,
      "learning_rate": 0.000701059319595759,
      "loss": 0.5235,
      "num_input_tokens_seen": 10769104,
      "step": 16465
    },
    {
      "epoch": 8.632075471698114,
      "grad_norm": 0.10224377363920212,
      "learning_rate": 0.0007008499167900833,
      "loss": 0.4092,
      "num_input_tokens_seen": 10772016,
      "step": 16470
    },
    {
      "epoch": 8.634696016771489,
      "grad_norm": 0.11008645594120026,
      "learning_rate": 0.0007006404719688966,
      "loss": 0.3232,
      "num_input_tokens_seen": 10774960,
      "step": 16475
    },
    {
      "epoch": 8.637316561844864,
      "grad_norm": 0.09575730562210083,
      "learning_rate": 0.000700430985176012,
      "loss": 0.3757,
      "num_input_tokens_seen": 10778288,
      "step": 16480
    },
    {
      "epoch": 8.63993710691824,
      "grad_norm": 0.08237464725971222,
      "learning_rate": 0.0007002214564552521,
      "loss": 0.4812,
      "num_input_tokens_seen": 10781744,
      "step": 16485
    },
    {
      "epoch": 8.642557651991615,
      "grad_norm": 0.09706523269414902,
      "learning_rate": 0.0007000118858504476,
      "loss": 0.4837,
      "num_input_tokens_seen": 10784624,
      "step": 16490
    },
    {
      "epoch": 8.64517819706499,
      "grad_norm": 0.08356943726539612,
      "learning_rate": 0.0006998022734054386,
      "loss": 0.3892,
      "num_input_tokens_seen": 10787536,
      "step": 16495
    },
    {
      "epoch": 8.647798742138365,
      "grad_norm": 0.094255730509758,
      "learning_rate": 0.0006995926191640734,
      "loss": 0.4231,
      "num_input_tokens_seen": 10790000,
      "step": 16500
    },
    {
      "epoch": 8.65041928721174,
      "grad_norm": 0.08820002526044846,
      "learning_rate": 0.0006993829231702092,
      "loss": 0.3976,
      "num_input_tokens_seen": 10793872,
      "step": 16505
    },
    {
      "epoch": 8.653039832285115,
      "grad_norm": 0.15125197172164917,
      "learning_rate": 0.0006991731854677124,
      "loss": 0.5005,
      "num_input_tokens_seen": 10796720,
      "step": 16510
    },
    {
      "epoch": 8.65566037735849,
      "grad_norm": 0.09239933639764786,
      "learning_rate": 0.0006989634061004572,
      "loss": 0.434,
      "num_input_tokens_seen": 10799856,
      "step": 16515
    },
    {
      "epoch": 8.658280922431866,
      "grad_norm": 0.07961831986904144,
      "learning_rate": 0.0006987535851123276,
      "loss": 0.453,
      "num_input_tokens_seen": 10804272,
      "step": 16520
    },
    {
      "epoch": 8.66090146750524,
      "grad_norm": 0.08966536819934845,
      "learning_rate": 0.0006985437225472155,
      "loss": 0.5071,
      "num_input_tokens_seen": 10806896,
      "step": 16525
    },
    {
      "epoch": 8.663522012578616,
      "grad_norm": 0.09215499460697174,
      "learning_rate": 0.0006983338184490215,
      "loss": 0.4322,
      "num_input_tokens_seen": 10810128,
      "step": 16530
    },
    {
      "epoch": 8.666142557651991,
      "grad_norm": 0.1502501666545868,
      "learning_rate": 0.0006981238728616557,
      "loss": 0.4444,
      "num_input_tokens_seen": 10812816,
      "step": 16535
    },
    {
      "epoch": 8.668763102725366,
      "grad_norm": 0.12371823936700821,
      "learning_rate": 0.0006979138858290358,
      "loss": 0.6035,
      "num_input_tokens_seen": 10815408,
      "step": 16540
    },
    {
      "epoch": 8.671383647798741,
      "grad_norm": 0.138744056224823,
      "learning_rate": 0.0006977038573950889,
      "loss": 0.5064,
      "num_input_tokens_seen": 10818928,
      "step": 16545
    },
    {
      "epoch": 8.674004192872118,
      "grad_norm": 0.08582637459039688,
      "learning_rate": 0.0006974937876037508,
      "loss": 0.4032,
      "num_input_tokens_seen": 10822288,
      "step": 16550
    },
    {
      "epoch": 8.676624737945493,
      "grad_norm": 0.08045779913663864,
      "learning_rate": 0.0006972836764989652,
      "loss": 0.3603,
      "num_input_tokens_seen": 10826512,
      "step": 16555
    },
    {
      "epoch": 8.679245283018869,
      "grad_norm": 0.11600005626678467,
      "learning_rate": 0.0006970735241246853,
      "loss": 0.404,
      "num_input_tokens_seen": 10829072,
      "step": 16560
    },
    {
      "epoch": 8.681865828092244,
      "grad_norm": 0.11355408281087875,
      "learning_rate": 0.0006968633305248724,
      "loss": 0.5214,
      "num_input_tokens_seen": 10832112,
      "step": 16565
    },
    {
      "epoch": 8.684486373165619,
      "grad_norm": 0.1291726678609848,
      "learning_rate": 0.0006966530957434968,
      "loss": 0.5966,
      "num_input_tokens_seen": 10835152,
      "step": 16570
    },
    {
      "epoch": 8.687106918238994,
      "grad_norm": 0.11438094824552536,
      "learning_rate": 0.0006964428198245372,
      "loss": 0.4493,
      "num_input_tokens_seen": 10838416,
      "step": 16575
    },
    {
      "epoch": 8.68972746331237,
      "grad_norm": 0.08722329139709473,
      "learning_rate": 0.0006962325028119806,
      "loss": 0.3751,
      "num_input_tokens_seen": 10841136,
      "step": 16580
    },
    {
      "epoch": 8.692348008385745,
      "grad_norm": 0.15492571890354156,
      "learning_rate": 0.0006960221447498232,
      "loss": 0.5115,
      "num_input_tokens_seen": 10844560,
      "step": 16585
    },
    {
      "epoch": 8.69496855345912,
      "grad_norm": 0.0642552599310875,
      "learning_rate": 0.0006958117456820696,
      "loss": 0.4458,
      "num_input_tokens_seen": 10849040,
      "step": 16590
    },
    {
      "epoch": 8.697589098532495,
      "grad_norm": 0.05826680362224579,
      "learning_rate": 0.0006956013056527326,
      "loss": 0.4706,
      "num_input_tokens_seen": 10852656,
      "step": 16595
    },
    {
      "epoch": 8.70020964360587,
      "grad_norm": 0.13459745049476624,
      "learning_rate": 0.0006953908247058341,
      "loss": 0.4077,
      "num_input_tokens_seen": 10855248,
      "step": 16600
    },
    {
      "epoch": 8.702830188679245,
      "grad_norm": 0.07563474774360657,
      "learning_rate": 0.0006951803028854041,
      "loss": 0.4244,
      "num_input_tokens_seen": 10858352,
      "step": 16605
    },
    {
      "epoch": 8.70545073375262,
      "grad_norm": 0.13572143018245697,
      "learning_rate": 0.0006949697402354816,
      "loss": 0.4793,
      "num_input_tokens_seen": 10860944,
      "step": 16610
    },
    {
      "epoch": 8.708071278825996,
      "grad_norm": 0.10891741514205933,
      "learning_rate": 0.0006947591368001138,
      "loss": 0.4684,
      "num_input_tokens_seen": 10864560,
      "step": 16615
    },
    {
      "epoch": 8.71069182389937,
      "grad_norm": 0.08069140464067459,
      "learning_rate": 0.0006945484926233563,
      "loss": 0.4291,
      "num_input_tokens_seen": 10868144,
      "step": 16620
    },
    {
      "epoch": 8.713312368972746,
      "grad_norm": 0.09014976024627686,
      "learning_rate": 0.0006943378077492737,
      "loss": 0.4695,
      "num_input_tokens_seen": 10871792,
      "step": 16625
    },
    {
      "epoch": 8.715932914046121,
      "grad_norm": 0.06470578163862228,
      "learning_rate": 0.000694127082221939,
      "loss": 0.4142,
      "num_input_tokens_seen": 10874800,
      "step": 16630
    },
    {
      "epoch": 8.718553459119496,
      "grad_norm": 0.08272609114646912,
      "learning_rate": 0.0006939163160854334,
      "loss": 0.6934,
      "num_input_tokens_seen": 10877680,
      "step": 16635
    },
    {
      "epoch": 8.721174004192871,
      "grad_norm": 0.08175083249807358,
      "learning_rate": 0.0006937055093838467,
      "loss": 0.5172,
      "num_input_tokens_seen": 10880464,
      "step": 16640
    },
    {
      "epoch": 8.723794549266248,
      "grad_norm": 0.16640618443489075,
      "learning_rate": 0.0006934946621612774,
      "loss": 0.558,
      "num_input_tokens_seen": 10883856,
      "step": 16645
    },
    {
      "epoch": 8.726415094339622,
      "grad_norm": 0.11037236452102661,
      "learning_rate": 0.0006932837744618322,
      "loss": 0.6156,
      "num_input_tokens_seen": 10888016,
      "step": 16650
    },
    {
      "epoch": 8.729035639412999,
      "grad_norm": 0.0820179209113121,
      "learning_rate": 0.0006930728463296265,
      "loss": 0.4923,
      "num_input_tokens_seen": 10891088,
      "step": 16655
    },
    {
      "epoch": 8.731656184486374,
      "grad_norm": 0.0969834104180336,
      "learning_rate": 0.0006928618778087842,
      "loss": 0.5244,
      "num_input_tokens_seen": 10893808,
      "step": 16660
    },
    {
      "epoch": 8.734276729559749,
      "grad_norm": 0.12608623504638672,
      "learning_rate": 0.0006926508689434371,
      "loss": 0.4749,
      "num_input_tokens_seen": 10896176,
      "step": 16665
    },
    {
      "epoch": 8.736897274633124,
      "grad_norm": 0.09358345717191696,
      "learning_rate": 0.0006924398197777263,
      "loss": 0.3328,
      "num_input_tokens_seen": 10899376,
      "step": 16670
    },
    {
      "epoch": 8.7395178197065,
      "grad_norm": 0.09396617114543915,
      "learning_rate": 0.0006922287303558006,
      "loss": 0.525,
      "num_input_tokens_seen": 10902800,
      "step": 16675
    },
    {
      "epoch": 8.742138364779874,
      "grad_norm": 0.1537141054868698,
      "learning_rate": 0.0006920176007218175,
      "loss": 0.5204,
      "num_input_tokens_seen": 10906352,
      "step": 16680
    },
    {
      "epoch": 8.74475890985325,
      "grad_norm": 0.0518091581761837,
      "learning_rate": 0.000691806430919943,
      "loss": 0.5298,
      "num_input_tokens_seen": 10910256,
      "step": 16685
    },
    {
      "epoch": 8.747379454926625,
      "grad_norm": 0.08001153916120529,
      "learning_rate": 0.0006915952209943514,
      "loss": 0.6838,
      "num_input_tokens_seen": 10913168,
      "step": 16690
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.10371175408363342,
      "learning_rate": 0.0006913839709892256,
      "loss": 0.5319,
      "num_input_tokens_seen": 10915984,
      "step": 16695
    },
    {
      "epoch": 8.752620545073375,
      "grad_norm": 0.10245472937822342,
      "learning_rate": 0.0006911726809487561,
      "loss": 0.4158,
      "num_input_tokens_seen": 10919024,
      "step": 16700
    },
    {
      "epoch": 8.75524109014675,
      "grad_norm": 0.04620549827814102,
      "learning_rate": 0.0006909613509171431,
      "loss": 0.4434,
      "num_input_tokens_seen": 10922960,
      "step": 16705
    },
    {
      "epoch": 8.757861635220126,
      "grad_norm": 0.09297391027212143,
      "learning_rate": 0.0006907499809385941,
      "loss": 0.4605,
      "num_input_tokens_seen": 10926064,
      "step": 16710
    },
    {
      "epoch": 8.7604821802935,
      "grad_norm": 0.11443498730659485,
      "learning_rate": 0.0006905385710573252,
      "loss": 0.3925,
      "num_input_tokens_seen": 10929168,
      "step": 16715
    },
    {
      "epoch": 8.763102725366876,
      "grad_norm": 0.07644793391227722,
      "learning_rate": 0.000690327121317561,
      "loss": 0.374,
      "num_input_tokens_seen": 10932176,
      "step": 16720
    },
    {
      "epoch": 8.765723270440251,
      "grad_norm": 0.06912339478731155,
      "learning_rate": 0.0006901156317635342,
      "loss": 0.4004,
      "num_input_tokens_seen": 10935312,
      "step": 16725
    },
    {
      "epoch": 8.768343815513626,
      "grad_norm": 0.14406125247478485,
      "learning_rate": 0.0006899041024394864,
      "loss": 0.5219,
      "num_input_tokens_seen": 10937904,
      "step": 16730
    },
    {
      "epoch": 8.770964360587001,
      "grad_norm": 0.12487466633319855,
      "learning_rate": 0.000689692533389667,
      "loss": 0.4255,
      "num_input_tokens_seen": 10942160,
      "step": 16735
    },
    {
      "epoch": 8.773584905660378,
      "grad_norm": 0.09623068571090698,
      "learning_rate": 0.0006894809246583334,
      "loss": 0.3964,
      "num_input_tokens_seen": 10946256,
      "step": 16740
    },
    {
      "epoch": 8.776205450733752,
      "grad_norm": 0.11000444740056992,
      "learning_rate": 0.0006892692762897523,
      "loss": 0.6266,
      "num_input_tokens_seen": 10949776,
      "step": 16745
    },
    {
      "epoch": 8.778825995807129,
      "grad_norm": 0.09864730387926102,
      "learning_rate": 0.000689057588328198,
      "loss": 0.361,
      "num_input_tokens_seen": 10952912,
      "step": 16750
    },
    {
      "epoch": 8.781446540880504,
      "grad_norm": 0.11460450291633606,
      "learning_rate": 0.0006888458608179528,
      "loss": 0.5258,
      "num_input_tokens_seen": 10956656,
      "step": 16755
    },
    {
      "epoch": 8.784067085953879,
      "grad_norm": 0.10881586372852325,
      "learning_rate": 0.0006886340938033085,
      "loss": 0.4512,
      "num_input_tokens_seen": 10960240,
      "step": 16760
    },
    {
      "epoch": 8.786687631027254,
      "grad_norm": 0.12314454466104507,
      "learning_rate": 0.0006884222873285632,
      "loss": 0.4241,
      "num_input_tokens_seen": 10963504,
      "step": 16765
    },
    {
      "epoch": 8.78930817610063,
      "grad_norm": 0.058980781584978104,
      "learning_rate": 0.0006882104414380254,
      "loss": 0.4967,
      "num_input_tokens_seen": 10968432,
      "step": 16770
    },
    {
      "epoch": 8.791928721174004,
      "grad_norm": 0.08274362236261368,
      "learning_rate": 0.0006879985561760105,
      "loss": 0.4033,
      "num_input_tokens_seen": 10971472,
      "step": 16775
    },
    {
      "epoch": 8.79454926624738,
      "grad_norm": 0.09120386093854904,
      "learning_rate": 0.0006877866315868422,
      "loss": 0.5707,
      "num_input_tokens_seen": 10974384,
      "step": 16780
    },
    {
      "epoch": 8.797169811320755,
      "grad_norm": 0.13373325765132904,
      "learning_rate": 0.0006875746677148531,
      "loss": 0.6182,
      "num_input_tokens_seen": 10977296,
      "step": 16785
    },
    {
      "epoch": 8.79979035639413,
      "grad_norm": 0.10133694112300873,
      "learning_rate": 0.0006873626646043835,
      "loss": 0.5113,
      "num_input_tokens_seen": 10980528,
      "step": 16790
    },
    {
      "epoch": 8.802410901467505,
      "grad_norm": 0.1439470648765564,
      "learning_rate": 0.000687150622299782,
      "loss": 0.3797,
      "num_input_tokens_seen": 10983408,
      "step": 16795
    },
    {
      "epoch": 8.80503144654088,
      "grad_norm": 0.12397518754005432,
      "learning_rate": 0.0006869385408454056,
      "loss": 0.3902,
      "num_input_tokens_seen": 10986000,
      "step": 16800
    },
    {
      "epoch": 8.807651991614255,
      "grad_norm": 0.08951389044523239,
      "learning_rate": 0.0006867264202856188,
      "loss": 0.4727,
      "num_input_tokens_seen": 10989168,
      "step": 16805
    },
    {
      "epoch": 8.81027253668763,
      "grad_norm": 0.062376778572797775,
      "learning_rate": 0.0006865142606647954,
      "loss": 0.4959,
      "num_input_tokens_seen": 10992528,
      "step": 16810
    },
    {
      "epoch": 8.812893081761006,
      "grad_norm": 0.1163644790649414,
      "learning_rate": 0.0006863020620273166,
      "loss": 0.4547,
      "num_input_tokens_seen": 10995120,
      "step": 16815
    },
    {
      "epoch": 8.815513626834381,
      "grad_norm": 0.05491089075803757,
      "learning_rate": 0.0006860898244175716,
      "loss": 0.4975,
      "num_input_tokens_seen": 10998416,
      "step": 16820
    },
    {
      "epoch": 8.818134171907756,
      "grad_norm": 0.10230950266122818,
      "learning_rate": 0.0006858775478799586,
      "loss": 0.4365,
      "num_input_tokens_seen": 11001712,
      "step": 16825
    },
    {
      "epoch": 8.820754716981131,
      "grad_norm": 0.06480373442173004,
      "learning_rate": 0.0006856652324588831,
      "loss": 0.5294,
      "num_input_tokens_seen": 11005200,
      "step": 16830
    },
    {
      "epoch": 8.823375262054507,
      "grad_norm": 0.11547546088695526,
      "learning_rate": 0.000685452878198759,
      "loss": 0.3669,
      "num_input_tokens_seen": 11008496,
      "step": 16835
    },
    {
      "epoch": 8.825995807127882,
      "grad_norm": 0.07458633184432983,
      "learning_rate": 0.0006852404851440088,
      "loss": 0.4612,
      "num_input_tokens_seen": 11011792,
      "step": 16840
    },
    {
      "epoch": 8.828616352201259,
      "grad_norm": 0.054009053856134415,
      "learning_rate": 0.0006850280533390624,
      "loss": 0.3734,
      "num_input_tokens_seen": 11015888,
      "step": 16845
    },
    {
      "epoch": 8.831236897274634,
      "grad_norm": 0.07139810919761658,
      "learning_rate": 0.0006848155828283581,
      "loss": 0.3952,
      "num_input_tokens_seen": 11019184,
      "step": 16850
    },
    {
      "epoch": 8.833857442348009,
      "grad_norm": 0.06790327280759811,
      "learning_rate": 0.0006846030736563422,
      "loss": 0.403,
      "num_input_tokens_seen": 11022320,
      "step": 16855
    },
    {
      "epoch": 8.836477987421384,
      "grad_norm": 0.11170078814029694,
      "learning_rate": 0.0006843905258674696,
      "loss": 0.399,
      "num_input_tokens_seen": 11024784,
      "step": 16860
    },
    {
      "epoch": 8.83909853249476,
      "grad_norm": 0.13583889603614807,
      "learning_rate": 0.0006841779395062026,
      "loss": 0.4268,
      "num_input_tokens_seen": 11027728,
      "step": 16865
    },
    {
      "epoch": 8.841719077568134,
      "grad_norm": 0.13390429317951202,
      "learning_rate": 0.0006839653146170116,
      "loss": 0.4377,
      "num_input_tokens_seen": 11031888,
      "step": 16870
    },
    {
      "epoch": 8.84433962264151,
      "grad_norm": 0.09995909780263901,
      "learning_rate": 0.0006837526512443758,
      "loss": 0.3914,
      "num_input_tokens_seen": 11034256,
      "step": 16875
    },
    {
      "epoch": 8.846960167714885,
      "grad_norm": 0.1729474514722824,
      "learning_rate": 0.0006835399494327818,
      "loss": 0.423,
      "num_input_tokens_seen": 11036976,
      "step": 16880
    },
    {
      "epoch": 8.84958071278826,
      "grad_norm": 0.13240009546279907,
      "learning_rate": 0.0006833272092267241,
      "loss": 0.5254,
      "num_input_tokens_seen": 11039856,
      "step": 16885
    },
    {
      "epoch": 8.852201257861635,
      "grad_norm": 0.11099006235599518,
      "learning_rate": 0.000683114430670706,
      "loss": 0.4282,
      "num_input_tokens_seen": 11042480,
      "step": 16890
    },
    {
      "epoch": 8.85482180293501,
      "grad_norm": 0.08929422497749329,
      "learning_rate": 0.0006829016138092378,
      "loss": 0.4911,
      "num_input_tokens_seen": 11045360,
      "step": 16895
    },
    {
      "epoch": 8.857442348008385,
      "grad_norm": 0.0781995877623558,
      "learning_rate": 0.0006826887586868388,
      "loss": 0.4282,
      "num_input_tokens_seen": 11049680,
      "step": 16900
    },
    {
      "epoch": 8.86006289308176,
      "grad_norm": 0.054157815873622894,
      "learning_rate": 0.0006824758653480356,
      "loss": 0.376,
      "num_input_tokens_seen": 11052816,
      "step": 16905
    },
    {
      "epoch": 8.862683438155136,
      "grad_norm": 0.09887661039829254,
      "learning_rate": 0.0006822629338373632,
      "loss": 0.5471,
      "num_input_tokens_seen": 11055408,
      "step": 16910
    },
    {
      "epoch": 8.865303983228511,
      "grad_norm": 0.10123498737812042,
      "learning_rate": 0.0006820499641993644,
      "loss": 0.4404,
      "num_input_tokens_seen": 11058704,
      "step": 16915
    },
    {
      "epoch": 8.867924528301886,
      "grad_norm": 0.13854114711284637,
      "learning_rate": 0.0006818369564785902,
      "loss": 0.4046,
      "num_input_tokens_seen": 11061616,
      "step": 16920
    },
    {
      "epoch": 8.870545073375261,
      "grad_norm": 0.1264868527650833,
      "learning_rate": 0.0006816239107195989,
      "loss": 0.3875,
      "num_input_tokens_seen": 11064304,
      "step": 16925
    },
    {
      "epoch": 8.873165618448636,
      "grad_norm": 0.10095184296369553,
      "learning_rate": 0.000681410826966958,
      "loss": 0.3912,
      "num_input_tokens_seen": 11067120,
      "step": 16930
    },
    {
      "epoch": 8.875786163522012,
      "grad_norm": 0.049251627177000046,
      "learning_rate": 0.0006811977052652414,
      "loss": 0.3867,
      "num_input_tokens_seen": 11071088,
      "step": 16935
    },
    {
      "epoch": 8.878406708595389,
      "grad_norm": 0.07994793355464935,
      "learning_rate": 0.000680984545659032,
      "loss": 0.401,
      "num_input_tokens_seen": 11073808,
      "step": 16940
    },
    {
      "epoch": 8.881027253668764,
      "grad_norm": 0.07559563219547272,
      "learning_rate": 0.0006807713481929207,
      "loss": 0.4303,
      "num_input_tokens_seen": 11077744,
      "step": 16945
    },
    {
      "epoch": 8.883647798742139,
      "grad_norm": 0.09516964107751846,
      "learning_rate": 0.0006805581129115055,
      "loss": 0.4275,
      "num_input_tokens_seen": 11080688,
      "step": 16950
    },
    {
      "epoch": 8.886268343815514,
      "grad_norm": 0.09114543348550797,
      "learning_rate": 0.0006803448398593931,
      "loss": 0.4708,
      "num_input_tokens_seen": 11083792,
      "step": 16955
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 0.07603757828474045,
      "learning_rate": 0.0006801315290811976,
      "loss": 0.4268,
      "num_input_tokens_seen": 11086640,
      "step": 16960
    },
    {
      "epoch": 8.891509433962264,
      "grad_norm": 0.15464355051517487,
      "learning_rate": 0.0006799181806215413,
      "loss": 0.4764,
      "num_input_tokens_seen": 11089936,
      "step": 16965
    },
    {
      "epoch": 8.89412997903564,
      "grad_norm": 0.09595223516225815,
      "learning_rate": 0.0006797047945250543,
      "loss": 0.4779,
      "num_input_tokens_seen": 11093520,
      "step": 16970
    },
    {
      "epoch": 8.896750524109015,
      "grad_norm": 0.09561681002378464,
      "learning_rate": 0.0006794913708363745,
      "loss": 0.4385,
      "num_input_tokens_seen": 11096016,
      "step": 16975
    },
    {
      "epoch": 8.89937106918239,
      "grad_norm": 0.14217650890350342,
      "learning_rate": 0.0006792779096001475,
      "loss": 0.483,
      "num_input_tokens_seen": 11099280,
      "step": 16980
    },
    {
      "epoch": 8.901991614255765,
      "grad_norm": 0.11920195072889328,
      "learning_rate": 0.0006790644108610273,
      "loss": 0.4609,
      "num_input_tokens_seen": 11101808,
      "step": 16985
    },
    {
      "epoch": 8.90461215932914,
      "grad_norm": 0.13791000843048096,
      "learning_rate": 0.0006788508746636751,
      "loss": 0.4898,
      "num_input_tokens_seen": 11104624,
      "step": 16990
    },
    {
      "epoch": 8.907232704402515,
      "grad_norm": 0.10278245806694031,
      "learning_rate": 0.0006786373010527605,
      "loss": 0.4521,
      "num_input_tokens_seen": 11108592,
      "step": 16995
    },
    {
      "epoch": 8.90985324947589,
      "grad_norm": 0.3841428756713867,
      "learning_rate": 0.0006784236900729603,
      "loss": 0.5008,
      "num_input_tokens_seen": 11111536,
      "step": 17000
    },
    {
      "epoch": 8.912473794549266,
      "grad_norm": 0.08844871073961258,
      "learning_rate": 0.0006782100417689599,
      "loss": 0.3243,
      "num_input_tokens_seen": 11114832,
      "step": 17005
    },
    {
      "epoch": 8.915094339622641,
      "grad_norm": 0.09995006769895554,
      "learning_rate": 0.0006779963561854517,
      "loss": 0.4752,
      "num_input_tokens_seen": 11118128,
      "step": 17010
    },
    {
      "epoch": 8.917714884696016,
      "grad_norm": 0.14937078952789307,
      "learning_rate": 0.0006777826333671367,
      "loss": 0.3224,
      "num_input_tokens_seen": 11123792,
      "step": 17015
    },
    {
      "epoch": 8.920335429769391,
      "grad_norm": 0.07285913079977036,
      "learning_rate": 0.0006775688733587227,
      "loss": 0.4707,
      "num_input_tokens_seen": 11127280,
      "step": 17020
    },
    {
      "epoch": 8.922955974842766,
      "grad_norm": 0.06691054254770279,
      "learning_rate": 0.0006773550762049265,
      "loss": 0.4817,
      "num_input_tokens_seen": 11130896,
      "step": 17025
    },
    {
      "epoch": 8.925576519916142,
      "grad_norm": 0.10381916165351868,
      "learning_rate": 0.0006771412419504716,
      "loss": 0.412,
      "num_input_tokens_seen": 11133936,
      "step": 17030
    },
    {
      "epoch": 8.928197064989519,
      "grad_norm": 0.0947822853922844,
      "learning_rate": 0.00067692737064009,
      "loss": 0.4567,
      "num_input_tokens_seen": 11137104,
      "step": 17035
    },
    {
      "epoch": 8.930817610062894,
      "grad_norm": 0.09609270840883255,
      "learning_rate": 0.0006767134623185208,
      "loss": 0.4267,
      "num_input_tokens_seen": 11139984,
      "step": 17040
    },
    {
      "epoch": 8.933438155136269,
      "grad_norm": 0.12064056843519211,
      "learning_rate": 0.0006764995170305114,
      "loss": 0.4216,
      "num_input_tokens_seen": 11142672,
      "step": 17045
    },
    {
      "epoch": 8.936058700209644,
      "grad_norm": 0.105640709400177,
      "learning_rate": 0.0006762855348208166,
      "loss": 0.5634,
      "num_input_tokens_seen": 11146096,
      "step": 17050
    },
    {
      "epoch": 8.93867924528302,
      "grad_norm": 0.13183219730854034,
      "learning_rate": 0.0006760715157341991,
      "loss": 0.3306,
      "num_input_tokens_seen": 11148656,
      "step": 17055
    },
    {
      "epoch": 8.941299790356394,
      "grad_norm": 0.08752868324518204,
      "learning_rate": 0.0006758574598154292,
      "loss": 0.3355,
      "num_input_tokens_seen": 11153008,
      "step": 17060
    },
    {
      "epoch": 8.94392033542977,
      "grad_norm": 0.07929021120071411,
      "learning_rate": 0.0006756433671092852,
      "loss": 0.4355,
      "num_input_tokens_seen": 11155984,
      "step": 17065
    },
    {
      "epoch": 8.946540880503145,
      "grad_norm": 0.06971858441829681,
      "learning_rate": 0.0006754292376605524,
      "loss": 0.3156,
      "num_input_tokens_seen": 11158960,
      "step": 17070
    },
    {
      "epoch": 8.94916142557652,
      "grad_norm": 0.07316748052835464,
      "learning_rate": 0.0006752150715140247,
      "loss": 0.5371,
      "num_input_tokens_seen": 11162576,
      "step": 17075
    },
    {
      "epoch": 8.951781970649895,
      "grad_norm": 0.13636258244514465,
      "learning_rate": 0.0006750008687145028,
      "loss": 0.4378,
      "num_input_tokens_seen": 11166160,
      "step": 17080
    },
    {
      "epoch": 8.95440251572327,
      "grad_norm": 0.045360978692770004,
      "learning_rate": 0.0006747866293067958,
      "loss": 0.4108,
      "num_input_tokens_seen": 11173296,
      "step": 17085
    },
    {
      "epoch": 8.957023060796645,
      "grad_norm": 0.10344617813825607,
      "learning_rate": 0.00067457235333572,
      "loss": 0.4277,
      "num_input_tokens_seen": 11176848,
      "step": 17090
    },
    {
      "epoch": 8.95964360587002,
      "grad_norm": 0.1022753193974495,
      "learning_rate": 0.0006743580408460994,
      "loss": 0.4618,
      "num_input_tokens_seen": 11179312,
      "step": 17095
    },
    {
      "epoch": 8.962264150943396,
      "grad_norm": 0.1445791870355606,
      "learning_rate": 0.0006741436918827659,
      "loss": 0.5122,
      "num_input_tokens_seen": 11182384,
      "step": 17100
    },
    {
      "epoch": 8.964884696016771,
      "grad_norm": 0.11800488829612732,
      "learning_rate": 0.0006739293064905589,
      "loss": 0.5947,
      "num_input_tokens_seen": 11185744,
      "step": 17105
    },
    {
      "epoch": 8.967505241090146,
      "grad_norm": 0.0934785008430481,
      "learning_rate": 0.0006737148847143251,
      "loss": 0.5491,
      "num_input_tokens_seen": 11188880,
      "step": 17110
    },
    {
      "epoch": 8.970125786163521,
      "grad_norm": 0.08620676398277283,
      "learning_rate": 0.0006735004265989195,
      "loss": 0.5436,
      "num_input_tokens_seen": 11192464,
      "step": 17115
    },
    {
      "epoch": 8.972746331236896,
      "grad_norm": 0.08048825711011887,
      "learning_rate": 0.0006732859321892038,
      "loss": 0.4313,
      "num_input_tokens_seen": 11195888,
      "step": 17120
    },
    {
      "epoch": 8.975366876310272,
      "grad_norm": 0.06641960144042969,
      "learning_rate": 0.0006730714015300481,
      "loss": 0.495,
      "num_input_tokens_seen": 11199056,
      "step": 17125
    },
    {
      "epoch": 8.977987421383649,
      "grad_norm": 0.10061527788639069,
      "learning_rate": 0.0006728568346663299,
      "loss": 0.4899,
      "num_input_tokens_seen": 11201552,
      "step": 17130
    },
    {
      "epoch": 8.980607966457024,
      "grad_norm": 0.21347399055957794,
      "learning_rate": 0.0006726422316429337,
      "loss": 0.5034,
      "num_input_tokens_seen": 11204432,
      "step": 17135
    },
    {
      "epoch": 8.983228511530399,
      "grad_norm": 0.08955463021993637,
      "learning_rate": 0.0006724275925047523,
      "loss": 0.35,
      "num_input_tokens_seen": 11207504,
      "step": 17140
    },
    {
      "epoch": 8.985849056603774,
      "grad_norm": 0.209316685795784,
      "learning_rate": 0.0006722129172966858,
      "loss": 0.4756,
      "num_input_tokens_seen": 11210416,
      "step": 17145
    },
    {
      "epoch": 8.98846960167715,
      "grad_norm": 0.11141834408044815,
      "learning_rate": 0.0006719982060636416,
      "loss": 0.3994,
      "num_input_tokens_seen": 11212688,
      "step": 17150
    },
    {
      "epoch": 8.991090146750524,
      "grad_norm": 0.12891685962677002,
      "learning_rate": 0.000671783458850535,
      "loss": 0.4531,
      "num_input_tokens_seen": 11215600,
      "step": 17155
    },
    {
      "epoch": 8.9937106918239,
      "grad_norm": 0.22930291295051575,
      "learning_rate": 0.0006715686757022886,
      "loss": 0.4895,
      "num_input_tokens_seen": 11219088,
      "step": 17160
    },
    {
      "epoch": 8.996331236897275,
      "grad_norm": 0.07326076179742813,
      "learning_rate": 0.0006713538566638326,
      "loss": 0.4875,
      "num_input_tokens_seen": 11222800,
      "step": 17165
    },
    {
      "epoch": 8.99895178197065,
      "grad_norm": 0.12486306577920914,
      "learning_rate": 0.0006711390017801049,
      "loss": 0.5711,
      "num_input_tokens_seen": 11226640,
      "step": 17170
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.47651222348213196,
      "eval_runtime": 13.5974,
      "eval_samples_per_second": 62.365,
      "eval_steps_per_second": 15.591,
      "num_input_tokens_seen": 11227560,
      "step": 17172
    },
    {
      "epoch": 9.001572327044025,
      "grad_norm": 0.10381979495286942,
      "learning_rate": 0.0006709241110960502,
      "loss": 0.3321,
      "num_input_tokens_seen": 11229416,
      "step": 17175
    },
    {
      "epoch": 9.0041928721174,
      "grad_norm": 0.1076553538441658,
      "learning_rate": 0.0006707091846566216,
      "loss": 0.407,
      "num_input_tokens_seen": 11232744,
      "step": 17180
    },
    {
      "epoch": 9.006813417190775,
      "grad_norm": 0.06864472478628159,
      "learning_rate": 0.0006704942225067791,
      "loss": 0.4786,
      "num_input_tokens_seen": 11235880,
      "step": 17185
    },
    {
      "epoch": 9.00943396226415,
      "grad_norm": 0.06040887534618378,
      "learning_rate": 0.0006702792246914902,
      "loss": 0.4016,
      "num_input_tokens_seen": 11240008,
      "step": 17190
    },
    {
      "epoch": 9.012054507337526,
      "grad_norm": 0.16126370429992676,
      "learning_rate": 0.0006700641912557304,
      "loss": 0.6062,
      "num_input_tokens_seen": 11242568,
      "step": 17195
    },
    {
      "epoch": 9.014675052410901,
      "grad_norm": 0.06109589338302612,
      "learning_rate": 0.0006698491222444818,
      "loss": 0.4564,
      "num_input_tokens_seen": 11245928,
      "step": 17200
    },
    {
      "epoch": 9.017295597484276,
      "grad_norm": 0.10641198605298996,
      "learning_rate": 0.0006696340177027346,
      "loss": 0.4114,
      "num_input_tokens_seen": 11249768,
      "step": 17205
    },
    {
      "epoch": 9.019916142557651,
      "grad_norm": 0.1482325941324234,
      "learning_rate": 0.0006694188776754863,
      "loss": 0.5166,
      "num_input_tokens_seen": 11253384,
      "step": 17210
    },
    {
      "epoch": 9.022536687631026,
      "grad_norm": 0.07367117702960968,
      "learning_rate": 0.0006692037022077415,
      "loss": 0.4558,
      "num_input_tokens_seen": 11256904,
      "step": 17215
    },
    {
      "epoch": 9.025157232704403,
      "grad_norm": 0.08319487422704697,
      "learning_rate": 0.0006689884913445126,
      "loss": 0.3665,
      "num_input_tokens_seen": 11259496,
      "step": 17220
    },
    {
      "epoch": 9.027777777777779,
      "grad_norm": 0.1309579759836197,
      "learning_rate": 0.0006687732451308193,
      "loss": 0.5199,
      "num_input_tokens_seen": 11262728,
      "step": 17225
    },
    {
      "epoch": 9.030398322851154,
      "grad_norm": 0.06873492896556854,
      "learning_rate": 0.0006685579636116886,
      "loss": 0.3368,
      "num_input_tokens_seen": 11265448,
      "step": 17230
    },
    {
      "epoch": 9.033018867924529,
      "grad_norm": 0.10063917189836502,
      "learning_rate": 0.0006683426468321547,
      "loss": 0.4543,
      "num_input_tokens_seen": 11269032,
      "step": 17235
    },
    {
      "epoch": 9.035639412997904,
      "grad_norm": 0.10004182159900665,
      "learning_rate": 0.0006681272948372598,
      "loss": 0.5909,
      "num_input_tokens_seen": 11271912,
      "step": 17240
    },
    {
      "epoch": 9.03825995807128,
      "grad_norm": 0.10777352750301361,
      "learning_rate": 0.000667911907672053,
      "loss": 0.4404,
      "num_input_tokens_seen": 11274728,
      "step": 17245
    },
    {
      "epoch": 9.040880503144654,
      "grad_norm": 0.10207303613424301,
      "learning_rate": 0.0006676964853815906,
      "loss": 0.4311,
      "num_input_tokens_seen": 11278280,
      "step": 17250
    },
    {
      "epoch": 9.04350104821803,
      "grad_norm": 0.14713138341903687,
      "learning_rate": 0.0006674810280109367,
      "loss": 0.4271,
      "num_input_tokens_seen": 11281960,
      "step": 17255
    },
    {
      "epoch": 9.046121593291405,
      "grad_norm": 0.08661845326423645,
      "learning_rate": 0.0006672655356051625,
      "loss": 0.4147,
      "num_input_tokens_seen": 11285096,
      "step": 17260
    },
    {
      "epoch": 9.04874213836478,
      "grad_norm": 0.08831517398357391,
      "learning_rate": 0.0006670500082093465,
      "loss": 0.3575,
      "num_input_tokens_seen": 11288104,
      "step": 17265
    },
    {
      "epoch": 9.051362683438155,
      "grad_norm": 0.07532012462615967,
      "learning_rate": 0.0006668344458685745,
      "loss": 0.6529,
      "num_input_tokens_seen": 11290760,
      "step": 17270
    },
    {
      "epoch": 9.05398322851153,
      "grad_norm": 0.12254985421895981,
      "learning_rate": 0.00066661884862794,
      "loss": 0.5104,
      "num_input_tokens_seen": 11293800,
      "step": 17275
    },
    {
      "epoch": 9.056603773584905,
      "grad_norm": 0.1128886267542839,
      "learning_rate": 0.000666403216532543,
      "loss": 0.4909,
      "num_input_tokens_seen": 11296520,
      "step": 17280
    },
    {
      "epoch": 9.05922431865828,
      "grad_norm": 0.060235124081373215,
      "learning_rate": 0.0006661875496274916,
      "loss": 0.4987,
      "num_input_tokens_seen": 11299656,
      "step": 17285
    },
    {
      "epoch": 9.061844863731656,
      "grad_norm": 0.16571733355522156,
      "learning_rate": 0.0006659718479579008,
      "loss": 0.3933,
      "num_input_tokens_seen": 11303080,
      "step": 17290
    },
    {
      "epoch": 9.064465408805031,
      "grad_norm": 0.13655170798301697,
      "learning_rate": 0.0006657561115688929,
      "loss": 0.518,
      "num_input_tokens_seen": 11305928,
      "step": 17295
    },
    {
      "epoch": 9.067085953878406,
      "grad_norm": 0.11885714530944824,
      "learning_rate": 0.0006655403405055977,
      "loss": 0.4749,
      "num_input_tokens_seen": 11309160,
      "step": 17300
    },
    {
      "epoch": 9.069706498951781,
      "grad_norm": 0.10540943592786789,
      "learning_rate": 0.0006653245348131517,
      "loss": 0.4472,
      "num_input_tokens_seen": 11311976,
      "step": 17305
    },
    {
      "epoch": 9.072327044025156,
      "grad_norm": 0.14693409204483032,
      "learning_rate": 0.0006651086945366991,
      "loss": 0.6269,
      "num_input_tokens_seen": 11314792,
      "step": 17310
    },
    {
      "epoch": 9.074947589098532,
      "grad_norm": 0.1592014580965042,
      "learning_rate": 0.0006648928197213914,
      "loss": 0.4509,
      "num_input_tokens_seen": 11317736,
      "step": 17315
    },
    {
      "epoch": 9.077568134171909,
      "grad_norm": 0.0826616957783699,
      "learning_rate": 0.0006646769104123868,
      "loss": 0.4407,
      "num_input_tokens_seen": 11320616,
      "step": 17320
    },
    {
      "epoch": 9.080188679245284,
      "grad_norm": 0.11382418125867844,
      "learning_rate": 0.0006644609666548513,
      "loss": 0.4822,
      "num_input_tokens_seen": 11324712,
      "step": 17325
    },
    {
      "epoch": 9.082809224318659,
      "grad_norm": 0.10676112025976181,
      "learning_rate": 0.000664244988493958,
      "loss": 0.5098,
      "num_input_tokens_seen": 11327496,
      "step": 17330
    },
    {
      "epoch": 9.085429769392034,
      "grad_norm": 0.059847570955753326,
      "learning_rate": 0.0006640289759748867,
      "loss": 0.4517,
      "num_input_tokens_seen": 11330408,
      "step": 17335
    },
    {
      "epoch": 9.08805031446541,
      "grad_norm": 0.10776638239622116,
      "learning_rate": 0.0006638129291428252,
      "loss": 0.4236,
      "num_input_tokens_seen": 11333640,
      "step": 17340
    },
    {
      "epoch": 9.090670859538784,
      "grad_norm": 0.07444517314434052,
      "learning_rate": 0.0006635968480429677,
      "loss": 0.4695,
      "num_input_tokens_seen": 11336360,
      "step": 17345
    },
    {
      "epoch": 9.09329140461216,
      "grad_norm": 0.0839575007557869,
      "learning_rate": 0.0006633807327205162,
      "loss": 0.3487,
      "num_input_tokens_seen": 11338696,
      "step": 17350
    },
    {
      "epoch": 9.095911949685535,
      "grad_norm": 0.0948515459895134,
      "learning_rate": 0.0006631645832206789,
      "loss": 0.4832,
      "num_input_tokens_seen": 11343048,
      "step": 17355
    },
    {
      "epoch": 9.09853249475891,
      "grad_norm": 0.08469662815332413,
      "learning_rate": 0.0006629483995886727,
      "loss": 0.446,
      "num_input_tokens_seen": 11345384,
      "step": 17360
    },
    {
      "epoch": 9.101153039832285,
      "grad_norm": 0.11020032316446304,
      "learning_rate": 0.0006627321818697202,
      "loss": 0.4451,
      "num_input_tokens_seen": 11348232,
      "step": 17365
    },
    {
      "epoch": 9.10377358490566,
      "grad_norm": 0.07089630514383316,
      "learning_rate": 0.0006625159301090518,
      "loss": 0.5284,
      "num_input_tokens_seen": 11351368,
      "step": 17370
    },
    {
      "epoch": 9.106394129979035,
      "grad_norm": 0.07988236099481583,
      "learning_rate": 0.0006622996443519047,
      "loss": 0.5429,
      "num_input_tokens_seen": 11354984,
      "step": 17375
    },
    {
      "epoch": 9.10901467505241,
      "grad_norm": 0.1168888732790947,
      "learning_rate": 0.0006620833246435238,
      "loss": 0.4468,
      "num_input_tokens_seen": 11358152,
      "step": 17380
    },
    {
      "epoch": 9.111635220125786,
      "grad_norm": 0.06987965852022171,
      "learning_rate": 0.0006618669710291606,
      "loss": 0.3253,
      "num_input_tokens_seen": 11361128,
      "step": 17385
    },
    {
      "epoch": 9.114255765199161,
      "grad_norm": 0.0846717581152916,
      "learning_rate": 0.0006616505835540736,
      "loss": 0.4571,
      "num_input_tokens_seen": 11364648,
      "step": 17390
    },
    {
      "epoch": 9.116876310272536,
      "grad_norm": 0.0893188863992691,
      "learning_rate": 0.0006614341622635287,
      "loss": 0.426,
      "num_input_tokens_seen": 11371624,
      "step": 17395
    },
    {
      "epoch": 9.119496855345911,
      "grad_norm": 0.12411445379257202,
      "learning_rate": 0.0006612177072027989,
      "loss": 0.4456,
      "num_input_tokens_seen": 11374824,
      "step": 17400
    },
    {
      "epoch": 9.122117400419286,
      "grad_norm": 0.06256547570228577,
      "learning_rate": 0.0006610012184171641,
      "loss": 0.4877,
      "num_input_tokens_seen": 11378408,
      "step": 17405
    },
    {
      "epoch": 9.124737945492662,
      "grad_norm": 0.0794030949473381,
      "learning_rate": 0.0006607846959519109,
      "loss": 0.4866,
      "num_input_tokens_seen": 11382664,
      "step": 17410
    },
    {
      "epoch": 9.127358490566039,
      "grad_norm": 0.10219322144985199,
      "learning_rate": 0.0006605681398523339,
      "loss": 0.5074,
      "num_input_tokens_seen": 11386536,
      "step": 17415
    },
    {
      "epoch": 9.129979035639414,
      "grad_norm": 0.10372927784919739,
      "learning_rate": 0.0006603515501637338,
      "loss": 0.5142,
      "num_input_tokens_seen": 11389672,
      "step": 17420
    },
    {
      "epoch": 9.132599580712789,
      "grad_norm": 0.0876423791050911,
      "learning_rate": 0.0006601349269314187,
      "loss": 0.3372,
      "num_input_tokens_seen": 11392872,
      "step": 17425
    },
    {
      "epoch": 9.135220125786164,
      "grad_norm": 0.09350749105215073,
      "learning_rate": 0.0006599182702007042,
      "loss": 0.3954,
      "num_input_tokens_seen": 11396104,
      "step": 17430
    },
    {
      "epoch": 9.13784067085954,
      "grad_norm": 0.08543314039707184,
      "learning_rate": 0.0006597015800169116,
      "loss": 0.382,
      "num_input_tokens_seen": 11398696,
      "step": 17435
    },
    {
      "epoch": 9.140461215932914,
      "grad_norm": 0.15744028985500336,
      "learning_rate": 0.0006594848564253705,
      "loss": 0.5306,
      "num_input_tokens_seen": 11401288,
      "step": 17440
    },
    {
      "epoch": 9.14308176100629,
      "grad_norm": 0.0813600942492485,
      "learning_rate": 0.0006592680994714171,
      "loss": 0.4032,
      "num_input_tokens_seen": 11403560,
      "step": 17445
    },
    {
      "epoch": 9.145702306079665,
      "grad_norm": 0.10599090158939362,
      "learning_rate": 0.0006590513092003943,
      "loss": 0.4704,
      "num_input_tokens_seen": 11405800,
      "step": 17450
    },
    {
      "epoch": 9.14832285115304,
      "grad_norm": 0.14094504714012146,
      "learning_rate": 0.0006588344856576521,
      "loss": 0.3308,
      "num_input_tokens_seen": 11408936,
      "step": 17455
    },
    {
      "epoch": 9.150943396226415,
      "grad_norm": 0.10332644730806351,
      "learning_rate": 0.0006586176288885475,
      "loss": 0.4499,
      "num_input_tokens_seen": 11412296,
      "step": 17460
    },
    {
      "epoch": 9.15356394129979,
      "grad_norm": 0.09826253354549408,
      "learning_rate": 0.0006584007389384446,
      "loss": 0.3991,
      "num_input_tokens_seen": 11415496,
      "step": 17465
    },
    {
      "epoch": 9.156184486373165,
      "grad_norm": 0.08156278729438782,
      "learning_rate": 0.0006581838158527144,
      "loss": 0.426,
      "num_input_tokens_seen": 11418216,
      "step": 17470
    },
    {
      "epoch": 9.15880503144654,
      "grad_norm": 0.08861640840768814,
      "learning_rate": 0.0006579668596767343,
      "loss": 0.4541,
      "num_input_tokens_seen": 11421608,
      "step": 17475
    },
    {
      "epoch": 9.161425576519916,
      "grad_norm": 0.1069062203168869,
      "learning_rate": 0.0006577498704558894,
      "loss": 0.4993,
      "num_input_tokens_seen": 11424200,
      "step": 17480
    },
    {
      "epoch": 9.164046121593291,
      "grad_norm": 0.09900215268135071,
      "learning_rate": 0.0006575328482355715,
      "loss": 0.5661,
      "num_input_tokens_seen": 11427272,
      "step": 17485
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.08626827597618103,
      "learning_rate": 0.0006573157930611788,
      "loss": 0.4167,
      "num_input_tokens_seen": 11429576,
      "step": 17490
    },
    {
      "epoch": 9.169287211740041,
      "grad_norm": 0.07632850855588913,
      "learning_rate": 0.000657098704978117,
      "loss": 0.4159,
      "num_input_tokens_seen": 11433288,
      "step": 17495
    },
    {
      "epoch": 9.171907756813416,
      "grad_norm": 0.10744422674179077,
      "learning_rate": 0.0006568815840317984,
      "loss": 0.3543,
      "num_input_tokens_seen": 11436392,
      "step": 17500
    },
    {
      "epoch": 9.174528301886792,
      "grad_norm": 0.16397982835769653,
      "learning_rate": 0.0006566644302676422,
      "loss": 0.3993,
      "num_input_tokens_seen": 11439848,
      "step": 17505
    },
    {
      "epoch": 9.177148846960169,
      "grad_norm": 0.07423293590545654,
      "learning_rate": 0.0006564472437310746,
      "loss": 0.368,
      "num_input_tokens_seen": 11442824,
      "step": 17510
    },
    {
      "epoch": 9.179769392033544,
      "grad_norm": 0.15027673542499542,
      "learning_rate": 0.0006562300244675283,
      "loss": 0.5015,
      "num_input_tokens_seen": 11445640,
      "step": 17515
    },
    {
      "epoch": 9.182389937106919,
      "grad_norm": 0.06427603214979172,
      "learning_rate": 0.0006560127725224432,
      "loss": 0.433,
      "num_input_tokens_seen": 11449928,
      "step": 17520
    },
    {
      "epoch": 9.185010482180294,
      "grad_norm": 0.18738946318626404,
      "learning_rate": 0.0006557954879412662,
      "loss": 0.6221,
      "num_input_tokens_seen": 11452328,
      "step": 17525
    },
    {
      "epoch": 9.18763102725367,
      "grad_norm": 0.05261171609163284,
      "learning_rate": 0.0006555781707694506,
      "loss": 0.3175,
      "num_input_tokens_seen": 11456424,
      "step": 17530
    },
    {
      "epoch": 9.190251572327044,
      "grad_norm": 0.08235526084899902,
      "learning_rate": 0.0006553608210524564,
      "loss": 0.512,
      "num_input_tokens_seen": 11460168,
      "step": 17535
    },
    {
      "epoch": 9.19287211740042,
      "grad_norm": 0.11380123347043991,
      "learning_rate": 0.0006551434388357509,
      "loss": 0.4895,
      "num_input_tokens_seen": 11462600,
      "step": 17540
    },
    {
      "epoch": 9.195492662473795,
      "grad_norm": 0.08118922263383865,
      "learning_rate": 0.000654926024164808,
      "loss": 0.5806,
      "num_input_tokens_seen": 11465160,
      "step": 17545
    },
    {
      "epoch": 9.19811320754717,
      "grad_norm": 0.0701853558421135,
      "learning_rate": 0.0006547085770851084,
      "loss": 0.4414,
      "num_input_tokens_seen": 11468680,
      "step": 17550
    },
    {
      "epoch": 9.200733752620545,
      "grad_norm": 0.07354238629341125,
      "learning_rate": 0.0006544910976421395,
      "loss": 0.4054,
      "num_input_tokens_seen": 11472776,
      "step": 17555
    },
    {
      "epoch": 9.20335429769392,
      "grad_norm": 0.08525685220956802,
      "learning_rate": 0.0006542735858813953,
      "loss": 0.4024,
      "num_input_tokens_seen": 11477672,
      "step": 17560
    },
    {
      "epoch": 9.205974842767295,
      "grad_norm": 0.09297161549329758,
      "learning_rate": 0.0006540560418483771,
      "loss": 0.3804,
      "num_input_tokens_seen": 11481544,
      "step": 17565
    },
    {
      "epoch": 9.20859538784067,
      "grad_norm": 0.10527385026216507,
      "learning_rate": 0.0006538384655885925,
      "loss": 0.3998,
      "num_input_tokens_seen": 11484648,
      "step": 17570
    },
    {
      "epoch": 9.211215932914046,
      "grad_norm": 0.11309409141540527,
      "learning_rate": 0.000653620857147556,
      "loss": 0.4353,
      "num_input_tokens_seen": 11487496,
      "step": 17575
    },
    {
      "epoch": 9.213836477987421,
      "grad_norm": 0.07976997643709183,
      "learning_rate": 0.0006534032165707887,
      "loss": 0.4891,
      "num_input_tokens_seen": 11490088,
      "step": 17580
    },
    {
      "epoch": 9.216457023060796,
      "grad_norm": 0.1234108954668045,
      "learning_rate": 0.0006531855439038187,
      "loss": 0.3842,
      "num_input_tokens_seen": 11493192,
      "step": 17585
    },
    {
      "epoch": 9.219077568134171,
      "grad_norm": 0.15834079682826996,
      "learning_rate": 0.0006529678391921805,
      "loss": 0.4882,
      "num_input_tokens_seen": 11496584,
      "step": 17590
    },
    {
      "epoch": 9.221698113207546,
      "grad_norm": 0.099641814827919,
      "learning_rate": 0.0006527501024814155,
      "loss": 0.3588,
      "num_input_tokens_seen": 11499528,
      "step": 17595
    },
    {
      "epoch": 9.224318658280922,
      "grad_norm": 0.1484920084476471,
      "learning_rate": 0.0006525323338170718,
      "loss": 0.5106,
      "num_input_tokens_seen": 11502344,
      "step": 17600
    },
    {
      "epoch": 9.226939203354299,
      "grad_norm": 0.09325443208217621,
      "learning_rate": 0.000652314533244704,
      "loss": 0.3761,
      "num_input_tokens_seen": 11505128,
      "step": 17605
    },
    {
      "epoch": 9.229559748427674,
      "grad_norm": 0.09988272190093994,
      "learning_rate": 0.0006520967008098735,
      "loss": 0.4096,
      "num_input_tokens_seen": 11508232,
      "step": 17610
    },
    {
      "epoch": 9.232180293501049,
      "grad_norm": 0.0898556113243103,
      "learning_rate": 0.0006518788365581485,
      "loss": 0.5612,
      "num_input_tokens_seen": 11512136,
      "step": 17615
    },
    {
      "epoch": 9.234800838574424,
      "grad_norm": 0.10787894576787949,
      "learning_rate": 0.0006516609405351034,
      "loss": 0.458,
      "num_input_tokens_seen": 11514920,
      "step": 17620
    },
    {
      "epoch": 9.2374213836478,
      "grad_norm": 0.05181146413087845,
      "learning_rate": 0.00065144301278632,
      "loss": 0.3383,
      "num_input_tokens_seen": 11518280,
      "step": 17625
    },
    {
      "epoch": 9.240041928721174,
      "grad_norm": 0.07818596810102463,
      "learning_rate": 0.0006512250533573862,
      "loss": 0.3042,
      "num_input_tokens_seen": 11520904,
      "step": 17630
    },
    {
      "epoch": 9.24266247379455,
      "grad_norm": 0.09513679891824722,
      "learning_rate": 0.0006510070622938962,
      "loss": 0.4978,
      "num_input_tokens_seen": 11524904,
      "step": 17635
    },
    {
      "epoch": 9.245283018867925,
      "grad_norm": 0.11410222202539444,
      "learning_rate": 0.0006507890396414516,
      "loss": 0.507,
      "num_input_tokens_seen": 11528680,
      "step": 17640
    },
    {
      "epoch": 9.2479035639413,
      "grad_norm": 0.2186681479215622,
      "learning_rate": 0.0006505709854456602,
      "loss": 0.3765,
      "num_input_tokens_seen": 11531176,
      "step": 17645
    },
    {
      "epoch": 9.250524109014675,
      "grad_norm": 0.10185936838388443,
      "learning_rate": 0.0006503528997521365,
      "loss": 0.478,
      "num_input_tokens_seen": 11534536,
      "step": 17650
    },
    {
      "epoch": 9.25314465408805,
      "grad_norm": 0.1478596031665802,
      "learning_rate": 0.0006501347826065017,
      "loss": 0.3777,
      "num_input_tokens_seen": 11537224,
      "step": 17655
    },
    {
      "epoch": 9.255765199161425,
      "grad_norm": 0.13471874594688416,
      "learning_rate": 0.000649916634054383,
      "loss": 0.2925,
      "num_input_tokens_seen": 11540456,
      "step": 17660
    },
    {
      "epoch": 9.2583857442348,
      "grad_norm": 0.13250041007995605,
      "learning_rate": 0.0006496984541414147,
      "loss": 0.3259,
      "num_input_tokens_seen": 11542824,
      "step": 17665
    },
    {
      "epoch": 9.261006289308176,
      "grad_norm": 0.0859638899564743,
      "learning_rate": 0.0006494802429132378,
      "loss": 0.7684,
      "num_input_tokens_seen": 11546440,
      "step": 17670
    },
    {
      "epoch": 9.26362683438155,
      "grad_norm": 0.07675698399543762,
      "learning_rate": 0.0006492620004154993,
      "loss": 0.4141,
      "num_input_tokens_seen": 11549416,
      "step": 17675
    },
    {
      "epoch": 9.266247379454926,
      "grad_norm": 0.08434990793466568,
      "learning_rate": 0.0006490437266938534,
      "loss": 0.4798,
      "num_input_tokens_seen": 11553000,
      "step": 17680
    },
    {
      "epoch": 9.268867924528301,
      "grad_norm": 0.08903440088033676,
      "learning_rate": 0.0006488254217939601,
      "loss": 0.38,
      "num_input_tokens_seen": 11555848,
      "step": 17685
    },
    {
      "epoch": 9.271488469601676,
      "grad_norm": 0.20585237443447113,
      "learning_rate": 0.0006486070857614863,
      "loss": 0.5304,
      "num_input_tokens_seen": 11559176,
      "step": 17690
    },
    {
      "epoch": 9.274109014675052,
      "grad_norm": 0.14762939512729645,
      "learning_rate": 0.0006483887186421059,
      "loss": 0.4366,
      "num_input_tokens_seen": 11562376,
      "step": 17695
    },
    {
      "epoch": 9.276729559748428,
      "grad_norm": 0.1587984561920166,
      "learning_rate": 0.0006481703204814982,
      "loss": 0.4892,
      "num_input_tokens_seen": 11565192,
      "step": 17700
    },
    {
      "epoch": 9.279350104821804,
      "grad_norm": 0.10719870775938034,
      "learning_rate": 0.00064795189132535,
      "loss": 0.3245,
      "num_input_tokens_seen": 11568392,
      "step": 17705
    },
    {
      "epoch": 9.281970649895179,
      "grad_norm": 0.05756339430809021,
      "learning_rate": 0.000647733431219354,
      "loss": 0.4246,
      "num_input_tokens_seen": 11572168,
      "step": 17710
    },
    {
      "epoch": 9.284591194968554,
      "grad_norm": 0.12930183112621307,
      "learning_rate": 0.0006475149402092097,
      "loss": 0.4053,
      "num_input_tokens_seen": 11575016,
      "step": 17715
    },
    {
      "epoch": 9.28721174004193,
      "grad_norm": 0.10104482620954514,
      "learning_rate": 0.0006472964183406229,
      "loss": 0.4264,
      "num_input_tokens_seen": 11578056,
      "step": 17720
    },
    {
      "epoch": 9.289832285115304,
      "grad_norm": 0.08712123334407806,
      "learning_rate": 0.0006470778656593055,
      "loss": 0.4894,
      "num_input_tokens_seen": 11580520,
      "step": 17725
    },
    {
      "epoch": 9.29245283018868,
      "grad_norm": 0.08150936663150787,
      "learning_rate": 0.0006468592822109769,
      "loss": 0.34,
      "num_input_tokens_seen": 11584040,
      "step": 17730
    },
    {
      "epoch": 9.295073375262055,
      "grad_norm": 0.06729945540428162,
      "learning_rate": 0.0006466406680413619,
      "loss": 0.4416,
      "num_input_tokens_seen": 11589000,
      "step": 17735
    },
    {
      "epoch": 9.29769392033543,
      "grad_norm": 0.08645468950271606,
      "learning_rate": 0.000646422023196192,
      "loss": 0.7237,
      "num_input_tokens_seen": 11592328,
      "step": 17740
    },
    {
      "epoch": 9.300314465408805,
      "grad_norm": 0.14741648733615875,
      "learning_rate": 0.0006462033477212054,
      "loss": 0.3934,
      "num_input_tokens_seen": 11595080,
      "step": 17745
    },
    {
      "epoch": 9.30293501048218,
      "grad_norm": 0.10345295071601868,
      "learning_rate": 0.0006459846416621462,
      "loss": 0.5135,
      "num_input_tokens_seen": 11598088,
      "step": 17750
    },
    {
      "epoch": 9.305555555555555,
      "grad_norm": 0.13696862757205963,
      "learning_rate": 0.0006457659050647657,
      "loss": 0.4698,
      "num_input_tokens_seen": 11601672,
      "step": 17755
    },
    {
      "epoch": 9.30817610062893,
      "grad_norm": 0.10734634101390839,
      "learning_rate": 0.0006455471379748208,
      "loss": 0.4474,
      "num_input_tokens_seen": 11604648,
      "step": 17760
    },
    {
      "epoch": 9.310796645702306,
      "grad_norm": 0.0950252115726471,
      "learning_rate": 0.000645328340438075,
      "loss": 0.4971,
      "num_input_tokens_seen": 11607688,
      "step": 17765
    },
    {
      "epoch": 9.31341719077568,
      "grad_norm": 0.07095987349748611,
      "learning_rate": 0.0006451095125002985,
      "loss": 0.5466,
      "num_input_tokens_seen": 11610920,
      "step": 17770
    },
    {
      "epoch": 9.316037735849056,
      "grad_norm": 0.12004438787698746,
      "learning_rate": 0.0006448906542072674,
      "loss": 0.4335,
      "num_input_tokens_seen": 11613992,
      "step": 17775
    },
    {
      "epoch": 9.318658280922431,
      "grad_norm": 0.09429673850536346,
      "learning_rate": 0.0006446717656047645,
      "loss": 0.4237,
      "num_input_tokens_seen": 11616776,
      "step": 17780
    },
    {
      "epoch": 9.321278825995806,
      "grad_norm": 0.09718432277441025,
      "learning_rate": 0.0006444528467385789,
      "loss": 0.4151,
      "num_input_tokens_seen": 11619592,
      "step": 17785
    },
    {
      "epoch": 9.323899371069182,
      "grad_norm": 0.11687646806240082,
      "learning_rate": 0.0006442338976545054,
      "loss": 0.4924,
      "num_input_tokens_seen": 11622952,
      "step": 17790
    },
    {
      "epoch": 9.326519916142558,
      "grad_norm": 0.07811284065246582,
      "learning_rate": 0.0006440149183983461,
      "loss": 0.3747,
      "num_input_tokens_seen": 11626344,
      "step": 17795
    },
    {
      "epoch": 9.329140461215934,
      "grad_norm": 0.08678704500198364,
      "learning_rate": 0.0006437959090159093,
      "loss": 0.4684,
      "num_input_tokens_seen": 11629832,
      "step": 17800
    },
    {
      "epoch": 9.331761006289309,
      "grad_norm": 0.2030256986618042,
      "learning_rate": 0.0006435768695530085,
      "loss": 0.4286,
      "num_input_tokens_seen": 11632584,
      "step": 17805
    },
    {
      "epoch": 9.334381551362684,
      "grad_norm": 0.1281074434518814,
      "learning_rate": 0.0006433578000554645,
      "loss": 0.4625,
      "num_input_tokens_seen": 11635560,
      "step": 17810
    },
    {
      "epoch": 9.33700209643606,
      "grad_norm": 0.08348929136991501,
      "learning_rate": 0.0006431387005691045,
      "loss": 0.4226,
      "num_input_tokens_seen": 11638856,
      "step": 17815
    },
    {
      "epoch": 9.339622641509434,
      "grad_norm": 0.16412685811519623,
      "learning_rate": 0.0006429195711397611,
      "loss": 0.5618,
      "num_input_tokens_seen": 11641448,
      "step": 17820
    },
    {
      "epoch": 9.34224318658281,
      "grad_norm": 0.06859268248081207,
      "learning_rate": 0.0006427004118132742,
      "loss": 0.528,
      "num_input_tokens_seen": 11645864,
      "step": 17825
    },
    {
      "epoch": 9.344863731656185,
      "grad_norm": 0.10182926803827286,
      "learning_rate": 0.0006424812226354889,
      "loss": 0.4346,
      "num_input_tokens_seen": 11648872,
      "step": 17830
    },
    {
      "epoch": 9.34748427672956,
      "grad_norm": 0.1272144615650177,
      "learning_rate": 0.0006422620036522574,
      "loss": 0.4067,
      "num_input_tokens_seen": 11651976,
      "step": 17835
    },
    {
      "epoch": 9.350104821802935,
      "grad_norm": 0.10417034476995468,
      "learning_rate": 0.000642042754909438,
      "loss": 0.5061,
      "num_input_tokens_seen": 11655432,
      "step": 17840
    },
    {
      "epoch": 9.35272536687631,
      "grad_norm": 0.1347234845161438,
      "learning_rate": 0.0006418234764528945,
      "loss": 0.6313,
      "num_input_tokens_seen": 11658376,
      "step": 17845
    },
    {
      "epoch": 9.355345911949685,
      "grad_norm": 0.09438890218734741,
      "learning_rate": 0.0006416041683284978,
      "loss": 0.3404,
      "num_input_tokens_seen": 11662120,
      "step": 17850
    },
    {
      "epoch": 9.35796645702306,
      "grad_norm": 0.1310930848121643,
      "learning_rate": 0.0006413848305821246,
      "loss": 0.45,
      "num_input_tokens_seen": 11665512,
      "step": 17855
    },
    {
      "epoch": 9.360587002096436,
      "grad_norm": 0.07679182291030884,
      "learning_rate": 0.0006411654632596578,
      "loss": 0.4332,
      "num_input_tokens_seen": 11668264,
      "step": 17860
    },
    {
      "epoch": 9.36320754716981,
      "grad_norm": 0.1265256106853485,
      "learning_rate": 0.0006409460664069867,
      "loss": 0.4554,
      "num_input_tokens_seen": 11671592,
      "step": 17865
    },
    {
      "epoch": 9.365828092243186,
      "grad_norm": 0.12106442451477051,
      "learning_rate": 0.0006407266400700064,
      "loss": 0.5651,
      "num_input_tokens_seen": 11675368,
      "step": 17870
    },
    {
      "epoch": 9.368448637316561,
      "grad_norm": 0.09947716444730759,
      "learning_rate": 0.0006405071842946185,
      "loss": 0.4176,
      "num_input_tokens_seen": 11678600,
      "step": 17875
    },
    {
      "epoch": 9.371069182389936,
      "grad_norm": 0.11166343092918396,
      "learning_rate": 0.0006402876991267308,
      "loss": 0.5561,
      "num_input_tokens_seen": 11681672,
      "step": 17880
    },
    {
      "epoch": 9.373689727463312,
      "grad_norm": 0.1360696703195572,
      "learning_rate": 0.0006400681846122568,
      "loss": 0.5185,
      "num_input_tokens_seen": 11684648,
      "step": 17885
    },
    {
      "epoch": 9.376310272536688,
      "grad_norm": 0.12090493738651276,
      "learning_rate": 0.0006398486407971166,
      "loss": 0.4038,
      "num_input_tokens_seen": 11687400,
      "step": 17890
    },
    {
      "epoch": 9.378930817610064,
      "grad_norm": 0.15705999732017517,
      "learning_rate": 0.0006396290677272361,
      "loss": 0.3728,
      "num_input_tokens_seen": 11689768,
      "step": 17895
    },
    {
      "epoch": 9.381551362683439,
      "grad_norm": 0.13092176616191864,
      "learning_rate": 0.0006394094654485477,
      "loss": 0.3761,
      "num_input_tokens_seen": 11692456,
      "step": 17900
    },
    {
      "epoch": 9.384171907756814,
      "grad_norm": 0.07376990467309952,
      "learning_rate": 0.0006391898340069896,
      "loss": 0.3689,
      "num_input_tokens_seen": 11696360,
      "step": 17905
    },
    {
      "epoch": 9.38679245283019,
      "grad_norm": 0.10746834427118301,
      "learning_rate": 0.0006389701734485061,
      "loss": 0.4462,
      "num_input_tokens_seen": 11699816,
      "step": 17910
    },
    {
      "epoch": 9.389412997903564,
      "grad_norm": 0.11855963617563248,
      "learning_rate": 0.0006387504838190479,
      "loss": 0.5144,
      "num_input_tokens_seen": 11702664,
      "step": 17915
    },
    {
      "epoch": 9.39203354297694,
      "grad_norm": 0.06718035787343979,
      "learning_rate": 0.0006385307651645715,
      "loss": 0.4585,
      "num_input_tokens_seen": 11706696,
      "step": 17920
    },
    {
      "epoch": 9.394654088050315,
      "grad_norm": 0.12979276478290558,
      "learning_rate": 0.0006383110175310393,
      "loss": 0.5478,
      "num_input_tokens_seen": 11709928,
      "step": 17925
    },
    {
      "epoch": 9.39727463312369,
      "grad_norm": 0.09200595319271088,
      "learning_rate": 0.0006380912409644202,
      "loss": 0.3187,
      "num_input_tokens_seen": 11713256,
      "step": 17930
    },
    {
      "epoch": 9.399895178197065,
      "grad_norm": 0.12674252688884735,
      "learning_rate": 0.000637871435510689,
      "loss": 0.6006,
      "num_input_tokens_seen": 11717256,
      "step": 17935
    },
    {
      "epoch": 9.40251572327044,
      "grad_norm": 0.15314409136772156,
      "learning_rate": 0.0006376516012158262,
      "loss": 0.4924,
      "num_input_tokens_seen": 11720168,
      "step": 17940
    },
    {
      "epoch": 9.405136268343815,
      "grad_norm": 0.1724909543991089,
      "learning_rate": 0.000637431738125819,
      "loss": 0.4915,
      "num_input_tokens_seen": 11722952,
      "step": 17945
    },
    {
      "epoch": 9.40775681341719,
      "grad_norm": 0.14842632412910461,
      "learning_rate": 0.00063721184628666,
      "loss": 0.45,
      "num_input_tokens_seen": 11725128,
      "step": 17950
    },
    {
      "epoch": 9.410377358490566,
      "grad_norm": 0.1327250748872757,
      "learning_rate": 0.0006369919257443484,
      "loss": 0.4224,
      "num_input_tokens_seen": 11727720,
      "step": 17955
    },
    {
      "epoch": 9.41299790356394,
      "grad_norm": 0.12390647828578949,
      "learning_rate": 0.0006367719765448886,
      "loss": 0.3846,
      "num_input_tokens_seen": 11731016,
      "step": 17960
    },
    {
      "epoch": 9.415618448637316,
      "grad_norm": 0.07460872083902359,
      "learning_rate": 0.0006365519987342916,
      "loss": 0.2944,
      "num_input_tokens_seen": 11733992,
      "step": 17965
    },
    {
      "epoch": 9.418238993710691,
      "grad_norm": 0.11030074954032898,
      "learning_rate": 0.0006363319923585746,
      "loss": 0.4813,
      "num_input_tokens_seen": 11737448,
      "step": 17970
    },
    {
      "epoch": 9.420859538784066,
      "grad_norm": 0.10341185331344604,
      "learning_rate": 0.0006361119574637599,
      "loss": 0.3843,
      "num_input_tokens_seen": 11741256,
      "step": 17975
    },
    {
      "epoch": 9.423480083857442,
      "grad_norm": 0.07877958565950394,
      "learning_rate": 0.0006358918940958767,
      "loss": 0.3285,
      "num_input_tokens_seen": 11743624,
      "step": 17980
    },
    {
      "epoch": 9.426100628930818,
      "grad_norm": 0.1172657459974289,
      "learning_rate": 0.0006356718023009597,
      "loss": 0.5272,
      "num_input_tokens_seen": 11746184,
      "step": 17985
    },
    {
      "epoch": 9.428721174004194,
      "grad_norm": 0.11976461112499237,
      "learning_rate": 0.0006354516821250492,
      "loss": 0.3579,
      "num_input_tokens_seen": 11749544,
      "step": 17990
    },
    {
      "epoch": 9.431341719077569,
      "grad_norm": 0.11940640211105347,
      "learning_rate": 0.0006352315336141923,
      "loss": 0.5045,
      "num_input_tokens_seen": 11752456,
      "step": 17995
    },
    {
      "epoch": 9.433962264150944,
      "grad_norm": 0.14185674488544464,
      "learning_rate": 0.0006350113568144414,
      "loss": 0.4808,
      "num_input_tokens_seen": 11755720,
      "step": 18000
    },
    {
      "epoch": 9.43658280922432,
      "grad_norm": 0.10256705433130264,
      "learning_rate": 0.0006347911517718547,
      "loss": 0.3562,
      "num_input_tokens_seen": 11758664,
      "step": 18005
    },
    {
      "epoch": 9.439203354297694,
      "grad_norm": 0.1512429416179657,
      "learning_rate": 0.0006345709185324972,
      "loss": 0.6731,
      "num_input_tokens_seen": 11761576,
      "step": 18010
    },
    {
      "epoch": 9.44182389937107,
      "grad_norm": 0.05230376869440079,
      "learning_rate": 0.0006343506571424386,
      "loss": 0.3866,
      "num_input_tokens_seen": 11765832,
      "step": 18015
    },
    {
      "epoch": 9.444444444444445,
      "grad_norm": 0.08958809077739716,
      "learning_rate": 0.0006341303676477552,
      "loss": 0.4012,
      "num_input_tokens_seen": 11773160,
      "step": 18020
    },
    {
      "epoch": 9.44706498951782,
      "grad_norm": 0.10553896427154541,
      "learning_rate": 0.0006339100500945293,
      "loss": 0.4538,
      "num_input_tokens_seen": 11776648,
      "step": 18025
    },
    {
      "epoch": 9.449685534591195,
      "grad_norm": 0.09241974353790283,
      "learning_rate": 0.0006336897045288486,
      "loss": 0.3801,
      "num_input_tokens_seen": 11779976,
      "step": 18030
    },
    {
      "epoch": 9.45230607966457,
      "grad_norm": 0.17412017285823822,
      "learning_rate": 0.0006334693309968068,
      "loss": 0.3333,
      "num_input_tokens_seen": 11783784,
      "step": 18035
    },
    {
      "epoch": 9.454926624737945,
      "grad_norm": 0.12685127556324005,
      "learning_rate": 0.0006332489295445038,
      "loss": 0.5664,
      "num_input_tokens_seen": 11787176,
      "step": 18040
    },
    {
      "epoch": 9.45754716981132,
      "grad_norm": 0.12642236053943634,
      "learning_rate": 0.0006330285002180448,
      "loss": 0.4844,
      "num_input_tokens_seen": 11789864,
      "step": 18045
    },
    {
      "epoch": 9.460167714884696,
      "grad_norm": 0.08420434594154358,
      "learning_rate": 0.0006328080430635412,
      "loss": 0.3469,
      "num_input_tokens_seen": 11795432,
      "step": 18050
    },
    {
      "epoch": 9.46278825995807,
      "grad_norm": 0.14011059701442719,
      "learning_rate": 0.0006325875581271103,
      "loss": 0.3507,
      "num_input_tokens_seen": 11798472,
      "step": 18055
    },
    {
      "epoch": 9.465408805031446,
      "grad_norm": 0.21017640829086304,
      "learning_rate": 0.0006323670454548749,
      "loss": 0.521,
      "num_input_tokens_seen": 11800872,
      "step": 18060
    },
    {
      "epoch": 9.468029350104821,
      "grad_norm": 0.05868973210453987,
      "learning_rate": 0.0006321465050929635,
      "loss": 0.3575,
      "num_input_tokens_seen": 11804392,
      "step": 18065
    },
    {
      "epoch": 9.470649895178196,
      "grad_norm": 0.10208728164434433,
      "learning_rate": 0.000631925937087511,
      "loss": 0.5878,
      "num_input_tokens_seen": 11808520,
      "step": 18070
    },
    {
      "epoch": 9.473270440251572,
      "grad_norm": 0.09636595100164413,
      "learning_rate": 0.0006317053414846576,
      "loss": 0.3316,
      "num_input_tokens_seen": 11812008,
      "step": 18075
    },
    {
      "epoch": 9.475890985324948,
      "grad_norm": 0.17149662971496582,
      "learning_rate": 0.0006314847183305492,
      "loss": 0.4378,
      "num_input_tokens_seen": 11815304,
      "step": 18080
    },
    {
      "epoch": 9.478511530398324,
      "grad_norm": 0.21177174150943756,
      "learning_rate": 0.0006312640676713378,
      "loss": 0.5671,
      "num_input_tokens_seen": 11818376,
      "step": 18085
    },
    {
      "epoch": 9.481132075471699,
      "grad_norm": 0.09031239151954651,
      "learning_rate": 0.0006310433895531811,
      "loss": 0.4275,
      "num_input_tokens_seen": 11821000,
      "step": 18090
    },
    {
      "epoch": 9.483752620545074,
      "grad_norm": 0.11203102022409439,
      "learning_rate": 0.0006308226840222422,
      "loss": 0.4747,
      "num_input_tokens_seen": 11823656,
      "step": 18095
    },
    {
      "epoch": 9.48637316561845,
      "grad_norm": 0.10949777066707611,
      "learning_rate": 0.0006306019511246905,
      "loss": 0.4819,
      "num_input_tokens_seen": 11826824,
      "step": 18100
    },
    {
      "epoch": 9.488993710691824,
      "grad_norm": 0.12547563016414642,
      "learning_rate": 0.0006303811909067003,
      "loss": 0.3813,
      "num_input_tokens_seen": 11830280,
      "step": 18105
    },
    {
      "epoch": 9.4916142557652,
      "grad_norm": 0.09881211817264557,
      "learning_rate": 0.0006301604034144527,
      "loss": 0.4977,
      "num_input_tokens_seen": 11833768,
      "step": 18110
    },
    {
      "epoch": 9.494234800838575,
      "grad_norm": 0.08831317722797394,
      "learning_rate": 0.0006299395886941336,
      "loss": 0.4691,
      "num_input_tokens_seen": 11836328,
      "step": 18115
    },
    {
      "epoch": 9.49685534591195,
      "grad_norm": 0.07222750782966614,
      "learning_rate": 0.0006297187467919347,
      "loss": 0.3375,
      "num_input_tokens_seen": 11839112,
      "step": 18120
    },
    {
      "epoch": 9.499475890985325,
      "grad_norm": 0.11363525688648224,
      "learning_rate": 0.0006294978777540542,
      "loss": 0.4253,
      "num_input_tokens_seen": 11843592,
      "step": 18125
    },
    {
      "epoch": 9.5020964360587,
      "grad_norm": 0.1906343698501587,
      "learning_rate": 0.000629276981626695,
      "loss": 0.4712,
      "num_input_tokens_seen": 11846088,
      "step": 18130
    },
    {
      "epoch": 9.504716981132075,
      "grad_norm": 0.09200630336999893,
      "learning_rate": 0.0006290560584560661,
      "loss": 0.5646,
      "num_input_tokens_seen": 11848872,
      "step": 18135
    },
    {
      "epoch": 9.50733752620545,
      "grad_norm": 0.14981114864349365,
      "learning_rate": 0.0006288351082883822,
      "loss": 0.4279,
      "num_input_tokens_seen": 11852136,
      "step": 18140
    },
    {
      "epoch": 9.509958071278826,
      "grad_norm": 0.02025671675801277,
      "learning_rate": 0.0006286141311698633,
      "loss": 0.3502,
      "num_input_tokens_seen": 11858600,
      "step": 18145
    },
    {
      "epoch": 9.5125786163522,
      "grad_norm": 0.07591388374567032,
      "learning_rate": 0.0006283931271467355,
      "loss": 0.5787,
      "num_input_tokens_seen": 11862344,
      "step": 18150
    },
    {
      "epoch": 9.515199161425576,
      "grad_norm": 0.09164459258317947,
      "learning_rate": 0.0006281720962652305,
      "loss": 0.4079,
      "num_input_tokens_seen": 11864808,
      "step": 18155
    },
    {
      "epoch": 9.517819706498951,
      "grad_norm": 0.11072513461112976,
      "learning_rate": 0.0006279510385715849,
      "loss": 0.4741,
      "num_input_tokens_seen": 11867880,
      "step": 18160
    },
    {
      "epoch": 9.520440251572326,
      "grad_norm": 0.1181836947798729,
      "learning_rate": 0.0006277299541120419,
      "loss": 0.3434,
      "num_input_tokens_seen": 11871304,
      "step": 18165
    },
    {
      "epoch": 9.523060796645701,
      "grad_norm": 0.09312457591295242,
      "learning_rate": 0.0006275088429328499,
      "loss": 0.4371,
      "num_input_tokens_seen": 11874312,
      "step": 18170
    },
    {
      "epoch": 9.525681341719078,
      "grad_norm": 0.16202864050865173,
      "learning_rate": 0.0006272877050802623,
      "loss": 0.4534,
      "num_input_tokens_seen": 11878408,
      "step": 18175
    },
    {
      "epoch": 9.528301886792454,
      "grad_norm": 0.2691597640514374,
      "learning_rate": 0.0006270665406005393,
      "loss": 0.4975,
      "num_input_tokens_seen": 11882408,
      "step": 18180
    },
    {
      "epoch": 9.530922431865829,
      "grad_norm": 0.10497798770666122,
      "learning_rate": 0.0006268453495399455,
      "loss": 0.3972,
      "num_input_tokens_seen": 11885640,
      "step": 18185
    },
    {
      "epoch": 9.533542976939204,
      "grad_norm": 0.13444486260414124,
      "learning_rate": 0.0006266241319447517,
      "loss": 0.4355,
      "num_input_tokens_seen": 11889064,
      "step": 18190
    },
    {
      "epoch": 9.536163522012579,
      "grad_norm": 0.10344197601079941,
      "learning_rate": 0.0006264028878612343,
      "loss": 0.5922,
      "num_input_tokens_seen": 11892264,
      "step": 18195
    },
    {
      "epoch": 9.538784067085954,
      "grad_norm": 0.10817928612232208,
      "learning_rate": 0.0006261816173356746,
      "loss": 0.3136,
      "num_input_tokens_seen": 11896200,
      "step": 18200
    },
    {
      "epoch": 9.54140461215933,
      "grad_norm": 0.10957735776901245,
      "learning_rate": 0.0006259603204143602,
      "loss": 0.4483,
      "num_input_tokens_seen": 11899048,
      "step": 18205
    },
    {
      "epoch": 9.544025157232705,
      "grad_norm": 0.3009074628353119,
      "learning_rate": 0.0006257389971435839,
      "loss": 0.3618,
      "num_input_tokens_seen": 11901416,
      "step": 18210
    },
    {
      "epoch": 9.54664570230608,
      "grad_norm": 0.12479683756828308,
      "learning_rate": 0.0006255176475696437,
      "loss": 0.3333,
      "num_input_tokens_seen": 11905224,
      "step": 18215
    },
    {
      "epoch": 9.549266247379455,
      "grad_norm": 0.1236313208937645,
      "learning_rate": 0.0006252962717388438,
      "loss": 0.4779,
      "num_input_tokens_seen": 11909224,
      "step": 18220
    },
    {
      "epoch": 9.55188679245283,
      "grad_norm": 0.09193558990955353,
      "learning_rate": 0.0006250748696974932,
      "loss": 0.4869,
      "num_input_tokens_seen": 11912520,
      "step": 18225
    },
    {
      "epoch": 9.554507337526205,
      "grad_norm": 0.12887555360794067,
      "learning_rate": 0.0006248534414919067,
      "loss": 0.4465,
      "num_input_tokens_seen": 11916392,
      "step": 18230
    },
    {
      "epoch": 9.55712788259958,
      "grad_norm": 0.08587122708559036,
      "learning_rate": 0.0006246319871684047,
      "loss": 0.4078,
      "num_input_tokens_seen": 11918824,
      "step": 18235
    },
    {
      "epoch": 9.559748427672956,
      "grad_norm": 0.07189339399337769,
      "learning_rate": 0.000624410506773313,
      "loss": 0.3513,
      "num_input_tokens_seen": 11921864,
      "step": 18240
    },
    {
      "epoch": 9.56236897274633,
      "grad_norm": 0.08252087235450745,
      "learning_rate": 0.0006241890003529626,
      "loss": 0.5185,
      "num_input_tokens_seen": 11924904,
      "step": 18245
    },
    {
      "epoch": 9.564989517819706,
      "grad_norm": 0.10817395150661469,
      "learning_rate": 0.00062396746795369,
      "loss": 0.3975,
      "num_input_tokens_seen": 11930152,
      "step": 18250
    },
    {
      "epoch": 9.567610062893081,
      "grad_norm": 0.1405998021364212,
      "learning_rate": 0.0006237459096218375,
      "loss": 0.4795,
      "num_input_tokens_seen": 11933288,
      "step": 18255
    },
    {
      "epoch": 9.570230607966456,
      "grad_norm": 0.17909859120845795,
      "learning_rate": 0.0006235243254037525,
      "loss": 0.4047,
      "num_input_tokens_seen": 11936744,
      "step": 18260
    },
    {
      "epoch": 9.572851153039831,
      "grad_norm": 0.16319189965724945,
      "learning_rate": 0.0006233027153457878,
      "loss": 0.4309,
      "num_input_tokens_seen": 11939912,
      "step": 18265
    },
    {
      "epoch": 9.575471698113208,
      "grad_norm": 0.11155351251363754,
      "learning_rate": 0.0006230810794943017,
      "loss": 0.4384,
      "num_input_tokens_seen": 11942568,
      "step": 18270
    },
    {
      "epoch": 9.578092243186584,
      "grad_norm": 0.17420415580272675,
      "learning_rate": 0.0006228594178956581,
      "loss": 0.37,
      "num_input_tokens_seen": 11945768,
      "step": 18275
    },
    {
      "epoch": 9.580712788259959,
      "grad_norm": 0.1159982904791832,
      "learning_rate": 0.0006226377305962259,
      "loss": 0.4124,
      "num_input_tokens_seen": 11948904,
      "step": 18280
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.09015024453401566,
      "learning_rate": 0.0006224160176423796,
      "loss": 0.3716,
      "num_input_tokens_seen": 11953256,
      "step": 18285
    },
    {
      "epoch": 9.585953878406709,
      "grad_norm": 0.10047385841608047,
      "learning_rate": 0.0006221942790804989,
      "loss": 0.3958,
      "num_input_tokens_seen": 11956328,
      "step": 18290
    },
    {
      "epoch": 9.588574423480084,
      "grad_norm": 0.1457705795764923,
      "learning_rate": 0.0006219725149569691,
      "loss": 0.2703,
      "num_input_tokens_seen": 11958728,
      "step": 18295
    },
    {
      "epoch": 9.59119496855346,
      "grad_norm": 0.12425900995731354,
      "learning_rate": 0.0006217507253181809,
      "loss": 0.4954,
      "num_input_tokens_seen": 11961736,
      "step": 18300
    },
    {
      "epoch": 9.593815513626835,
      "grad_norm": 0.1588204950094223,
      "learning_rate": 0.0006215289102105297,
      "loss": 0.752,
      "num_input_tokens_seen": 11964456,
      "step": 18305
    },
    {
      "epoch": 9.59643605870021,
      "grad_norm": 0.08756956458091736,
      "learning_rate": 0.0006213070696804171,
      "loss": 0.4752,
      "num_input_tokens_seen": 11967272,
      "step": 18310
    },
    {
      "epoch": 9.599056603773585,
      "grad_norm": 0.08615164458751678,
      "learning_rate": 0.0006210852037742495,
      "loss": 0.5206,
      "num_input_tokens_seen": 11970760,
      "step": 18315
    },
    {
      "epoch": 9.60167714884696,
      "grad_norm": 0.11248285323381424,
      "learning_rate": 0.0006208633125384385,
      "loss": 0.4345,
      "num_input_tokens_seen": 11974632,
      "step": 18320
    },
    {
      "epoch": 9.604297693920335,
      "grad_norm": 0.11516853421926498,
      "learning_rate": 0.0006206413960194017,
      "loss": 0.3921,
      "num_input_tokens_seen": 11978568,
      "step": 18325
    },
    {
      "epoch": 9.60691823899371,
      "grad_norm": 0.07920905202627182,
      "learning_rate": 0.000620419454263561,
      "loss": 0.3575,
      "num_input_tokens_seen": 11981992,
      "step": 18330
    },
    {
      "epoch": 9.609538784067086,
      "grad_norm": 0.08246206492185593,
      "learning_rate": 0.0006201974873173443,
      "loss": 0.3522,
      "num_input_tokens_seen": 11984616,
      "step": 18335
    },
    {
      "epoch": 9.61215932914046,
      "grad_norm": 0.09851673245429993,
      "learning_rate": 0.0006199754952271847,
      "loss": 0.3983,
      "num_input_tokens_seen": 11990280,
      "step": 18340
    },
    {
      "epoch": 9.614779874213836,
      "grad_norm": 0.055284034460783005,
      "learning_rate": 0.00061975347803952,
      "loss": 0.373,
      "num_input_tokens_seen": 11993608,
      "step": 18345
    },
    {
      "epoch": 9.617400419287211,
      "grad_norm": 0.09061669558286667,
      "learning_rate": 0.000619531435800794,
      "loss": 0.4441,
      "num_input_tokens_seen": 11996840,
      "step": 18350
    },
    {
      "epoch": 9.620020964360586,
      "grad_norm": 0.07646099478006363,
      "learning_rate": 0.0006193093685574553,
      "loss": 0.5003,
      "num_input_tokens_seen": 12000392,
      "step": 18355
    },
    {
      "epoch": 9.622641509433961,
      "grad_norm": 0.09076326340436935,
      "learning_rate": 0.0006190872763559578,
      "loss": 0.4302,
      "num_input_tokens_seen": 12002888,
      "step": 18360
    },
    {
      "epoch": 9.625262054507338,
      "grad_norm": 0.1944127231836319,
      "learning_rate": 0.0006188651592427609,
      "loss": 0.5974,
      "num_input_tokens_seen": 12005160,
      "step": 18365
    },
    {
      "epoch": 9.627882599580714,
      "grad_norm": 0.10134141147136688,
      "learning_rate": 0.0006186430172643287,
      "loss": 0.4545,
      "num_input_tokens_seen": 12007240,
      "step": 18370
    },
    {
      "epoch": 9.630503144654089,
      "grad_norm": 0.05629749596118927,
      "learning_rate": 0.0006184208504671307,
      "loss": 0.3672,
      "num_input_tokens_seen": 12011720,
      "step": 18375
    },
    {
      "epoch": 9.633123689727464,
      "grad_norm": 0.13990181684494019,
      "learning_rate": 0.000618198658897642,
      "loss": 0.5673,
      "num_input_tokens_seen": 12014216,
      "step": 18380
    },
    {
      "epoch": 9.635744234800839,
      "grad_norm": 0.12893857061862946,
      "learning_rate": 0.0006179764426023422,
      "loss": 0.4105,
      "num_input_tokens_seen": 12018504,
      "step": 18385
    },
    {
      "epoch": 9.638364779874214,
      "grad_norm": 0.14646178483963013,
      "learning_rate": 0.0006177542016277167,
      "loss": 0.4511,
      "num_input_tokens_seen": 12021128,
      "step": 18390
    },
    {
      "epoch": 9.64098532494759,
      "grad_norm": 0.15271081030368805,
      "learning_rate": 0.0006175319360202556,
      "loss": 0.5127,
      "num_input_tokens_seen": 12023432,
      "step": 18395
    },
    {
      "epoch": 9.643605870020965,
      "grad_norm": 0.09185149520635605,
      "learning_rate": 0.0006173096458264542,
      "loss": 0.489,
      "num_input_tokens_seen": 12025768,
      "step": 18400
    },
    {
      "epoch": 9.64622641509434,
      "grad_norm": 0.0848424881696701,
      "learning_rate": 0.0006170873310928133,
      "loss": 0.4844,
      "num_input_tokens_seen": 12029064,
      "step": 18405
    },
    {
      "epoch": 9.648846960167715,
      "grad_norm": 0.06666860729455948,
      "learning_rate": 0.0006168649918658387,
      "loss": 0.3507,
      "num_input_tokens_seen": 12031944,
      "step": 18410
    },
    {
      "epoch": 9.65146750524109,
      "grad_norm": 0.09728255122900009,
      "learning_rate": 0.0006166426281920407,
      "loss": 0.4683,
      "num_input_tokens_seen": 12034792,
      "step": 18415
    },
    {
      "epoch": 9.654088050314465,
      "grad_norm": 0.0588565319776535,
      "learning_rate": 0.000616420240117936,
      "loss": 0.3189,
      "num_input_tokens_seen": 12038632,
      "step": 18420
    },
    {
      "epoch": 9.65670859538784,
      "grad_norm": 0.2432306557893753,
      "learning_rate": 0.000616197827690045,
      "loss": 0.6172,
      "num_input_tokens_seen": 12041672,
      "step": 18425
    },
    {
      "epoch": 9.659329140461216,
      "grad_norm": 0.1325550079345703,
      "learning_rate": 0.0006159753909548943,
      "loss": 0.4283,
      "num_input_tokens_seen": 12044392,
      "step": 18430
    },
    {
      "epoch": 9.66194968553459,
      "grad_norm": 0.13222645223140717,
      "learning_rate": 0.0006157529299590148,
      "loss": 0.432,
      "num_input_tokens_seen": 12048520,
      "step": 18435
    },
    {
      "epoch": 9.664570230607966,
      "grad_norm": 0.0705789178609848,
      "learning_rate": 0.000615530444748943,
      "loss": 0.4293,
      "num_input_tokens_seen": 12051496,
      "step": 18440
    },
    {
      "epoch": 9.667190775681341,
      "grad_norm": 0.13759247958660126,
      "learning_rate": 0.0006153079353712201,
      "loss": 0.5004,
      "num_input_tokens_seen": 12054472,
      "step": 18445
    },
    {
      "epoch": 9.669811320754716,
      "grad_norm": 0.1549195796251297,
      "learning_rate": 0.0006150854018723926,
      "loss": 0.4938,
      "num_input_tokens_seen": 12057512,
      "step": 18450
    },
    {
      "epoch": 9.672431865828091,
      "grad_norm": 0.09367349743843079,
      "learning_rate": 0.0006148628442990122,
      "loss": 0.4367,
      "num_input_tokens_seen": 12062856,
      "step": 18455
    },
    {
      "epoch": 9.675052410901468,
      "grad_norm": 0.1329321563243866,
      "learning_rate": 0.0006146402626976351,
      "loss": 0.4962,
      "num_input_tokens_seen": 12065672,
      "step": 18460
    },
    {
      "epoch": 9.677672955974844,
      "grad_norm": 0.1343640238046646,
      "learning_rate": 0.0006144176571148228,
      "loss": 0.4986,
      "num_input_tokens_seen": 12068328,
      "step": 18465
    },
    {
      "epoch": 9.680293501048219,
      "grad_norm": 0.08136071264743805,
      "learning_rate": 0.0006141950275971422,
      "loss": 0.3905,
      "num_input_tokens_seen": 12070984,
      "step": 18470
    },
    {
      "epoch": 9.682914046121594,
      "grad_norm": 0.09681741148233414,
      "learning_rate": 0.0006139723741911644,
      "loss": 0.42,
      "num_input_tokens_seen": 12073896,
      "step": 18475
    },
    {
      "epoch": 9.685534591194969,
      "grad_norm": 0.11999616771936417,
      "learning_rate": 0.0006137496969434664,
      "loss": 0.4851,
      "num_input_tokens_seen": 12077704,
      "step": 18480
    },
    {
      "epoch": 9.688155136268344,
      "grad_norm": 0.19718186557292938,
      "learning_rate": 0.0006135269959006294,
      "loss": 0.7206,
      "num_input_tokens_seen": 12080584,
      "step": 18485
    },
    {
      "epoch": 9.69077568134172,
      "grad_norm": 0.09090586751699448,
      "learning_rate": 0.00061330427110924,
      "loss": 0.4128,
      "num_input_tokens_seen": 12083688,
      "step": 18490
    },
    {
      "epoch": 9.693396226415095,
      "grad_norm": 0.12050968408584595,
      "learning_rate": 0.0006130815226158899,
      "loss": 0.5076,
      "num_input_tokens_seen": 12088552,
      "step": 18495
    },
    {
      "epoch": 9.69601677148847,
      "grad_norm": 0.081824891269207,
      "learning_rate": 0.0006128587504671753,
      "loss": 0.3679,
      "num_input_tokens_seen": 12091848,
      "step": 18500
    },
    {
      "epoch": 9.698637316561845,
      "grad_norm": 0.1602357178926468,
      "learning_rate": 0.0006126359547096974,
      "loss": 0.3922,
      "num_input_tokens_seen": 12094568,
      "step": 18505
    },
    {
      "epoch": 9.70125786163522,
      "grad_norm": 0.1579963117837906,
      "learning_rate": 0.0006124131353900632,
      "loss": 0.4812,
      "num_input_tokens_seen": 12098312,
      "step": 18510
    },
    {
      "epoch": 9.703878406708595,
      "grad_norm": 0.15406478941440582,
      "learning_rate": 0.0006121902925548833,
      "loss": 0.4384,
      "num_input_tokens_seen": 12101512,
      "step": 18515
    },
    {
      "epoch": 9.70649895178197,
      "grad_norm": 0.09001903235912323,
      "learning_rate": 0.0006119674262507743,
      "loss": 0.5858,
      "num_input_tokens_seen": 12104200,
      "step": 18520
    },
    {
      "epoch": 9.709119496855346,
      "grad_norm": 0.08029200881719589,
      "learning_rate": 0.0006117445365243571,
      "loss": 0.4522,
      "num_input_tokens_seen": 12107112,
      "step": 18525
    },
    {
      "epoch": 9.71174004192872,
      "grad_norm": 0.10728249698877335,
      "learning_rate": 0.0006115216234222575,
      "loss": 0.5002,
      "num_input_tokens_seen": 12110376,
      "step": 18530
    },
    {
      "epoch": 9.714360587002096,
      "grad_norm": 0.1519658863544464,
      "learning_rate": 0.0006112986869911068,
      "loss": 0.536,
      "num_input_tokens_seen": 12113448,
      "step": 18535
    },
    {
      "epoch": 9.716981132075471,
      "grad_norm": 0.08194267749786377,
      "learning_rate": 0.0006110757272775405,
      "loss": 0.5382,
      "num_input_tokens_seen": 12117576,
      "step": 18540
    },
    {
      "epoch": 9.719601677148846,
      "grad_norm": 0.08317922055721283,
      "learning_rate": 0.0006108527443281992,
      "loss": 0.447,
      "num_input_tokens_seen": 12121416,
      "step": 18545
    },
    {
      "epoch": 9.722222222222221,
      "grad_norm": 0.0820876955986023,
      "learning_rate": 0.0006106297381897284,
      "loss": 0.4513,
      "num_input_tokens_seen": 12124072,
      "step": 18550
    },
    {
      "epoch": 9.724842767295598,
      "grad_norm": 0.09644775092601776,
      "learning_rate": 0.0006104067089087787,
      "loss": 0.4283,
      "num_input_tokens_seen": 12127272,
      "step": 18555
    },
    {
      "epoch": 9.727463312368974,
      "grad_norm": 0.0908053070306778,
      "learning_rate": 0.0006101836565320049,
      "loss": 0.3866,
      "num_input_tokens_seen": 12131240,
      "step": 18560
    },
    {
      "epoch": 9.730083857442349,
      "grad_norm": 0.08069098740816116,
      "learning_rate": 0.0006099605811060673,
      "loss": 0.3611,
      "num_input_tokens_seen": 12134664,
      "step": 18565
    },
    {
      "epoch": 9.732704402515724,
      "grad_norm": 0.11786329746246338,
      "learning_rate": 0.0006097374826776307,
      "loss": 0.4547,
      "num_input_tokens_seen": 12137352,
      "step": 18570
    },
    {
      "epoch": 9.735324947589099,
      "grad_norm": 0.0847427174448967,
      "learning_rate": 0.0006095143612933646,
      "loss": 0.5589,
      "num_input_tokens_seen": 12140776,
      "step": 18575
    },
    {
      "epoch": 9.737945492662474,
      "grad_norm": 0.15787172317504883,
      "learning_rate": 0.0006092912169999435,
      "loss": 0.5884,
      "num_input_tokens_seen": 12143112,
      "step": 18580
    },
    {
      "epoch": 9.74056603773585,
      "grad_norm": 0.3239252269268036,
      "learning_rate": 0.0006090680498440465,
      "loss": 0.5331,
      "num_input_tokens_seen": 12145992,
      "step": 18585
    },
    {
      "epoch": 9.743186582809225,
      "grad_norm": 0.08504386991262436,
      "learning_rate": 0.0006088448598723581,
      "loss": 0.5331,
      "num_input_tokens_seen": 12149672,
      "step": 18590
    },
    {
      "epoch": 9.7458071278826,
      "grad_norm": 0.1006057858467102,
      "learning_rate": 0.0006086216471315666,
      "loss": 0.4251,
      "num_input_tokens_seen": 12152872,
      "step": 18595
    },
    {
      "epoch": 9.748427672955975,
      "grad_norm": 0.12890318036079407,
      "learning_rate": 0.0006083984116683659,
      "loss": 0.3554,
      "num_input_tokens_seen": 12155656,
      "step": 18600
    },
    {
      "epoch": 9.75104821802935,
      "grad_norm": 0.08963236957788467,
      "learning_rate": 0.0006081751535294539,
      "loss": 0.6893,
      "num_input_tokens_seen": 12159528,
      "step": 18605
    },
    {
      "epoch": 9.753668763102725,
      "grad_norm": 0.0938195288181305,
      "learning_rate": 0.0006079518727615341,
      "loss": 0.5077,
      "num_input_tokens_seen": 12163208,
      "step": 18610
    },
    {
      "epoch": 9.7562893081761,
      "grad_norm": 0.10602736473083496,
      "learning_rate": 0.0006077285694113141,
      "loss": 0.4134,
      "num_input_tokens_seen": 12166504,
      "step": 18615
    },
    {
      "epoch": 9.758909853249476,
      "grad_norm": 0.10243280977010727,
      "learning_rate": 0.0006075052435255062,
      "loss": 0.4493,
      "num_input_tokens_seen": 12169928,
      "step": 18620
    },
    {
      "epoch": 9.76153039832285,
      "grad_norm": 0.07725578546524048,
      "learning_rate": 0.000607281895150828,
      "loss": 0.4598,
      "num_input_tokens_seen": 12176232,
      "step": 18625
    },
    {
      "epoch": 9.764150943396226,
      "grad_norm": 0.10311155021190643,
      "learning_rate": 0.0006070585243340013,
      "loss": 0.5407,
      "num_input_tokens_seen": 12179592,
      "step": 18630
    },
    {
      "epoch": 9.766771488469601,
      "grad_norm": 0.07231491804122925,
      "learning_rate": 0.0006068351311217526,
      "loss": 0.4927,
      "num_input_tokens_seen": 12183240,
      "step": 18635
    },
    {
      "epoch": 9.769392033542976,
      "grad_norm": 0.09280858933925629,
      "learning_rate": 0.0006066117155608135,
      "loss": 0.4116,
      "num_input_tokens_seen": 12186280,
      "step": 18640
    },
    {
      "epoch": 9.772012578616351,
      "grad_norm": 0.0963599681854248,
      "learning_rate": 0.0006063882776979196,
      "loss": 0.4931,
      "num_input_tokens_seen": 12189160,
      "step": 18645
    },
    {
      "epoch": 9.774633123689728,
      "grad_norm": 0.07694748789072037,
      "learning_rate": 0.0006061648175798117,
      "loss": 0.4141,
      "num_input_tokens_seen": 12191784,
      "step": 18650
    },
    {
      "epoch": 9.777253668763104,
      "grad_norm": 0.061206284910440445,
      "learning_rate": 0.0006059413352532355,
      "loss": 0.5197,
      "num_input_tokens_seen": 12195080,
      "step": 18655
    },
    {
      "epoch": 9.779874213836479,
      "grad_norm": 0.1788748800754547,
      "learning_rate": 0.0006057178307649402,
      "loss": 0.4168,
      "num_input_tokens_seen": 12197736,
      "step": 18660
    },
    {
      "epoch": 9.782494758909854,
      "grad_norm": 0.1643768697977066,
      "learning_rate": 0.000605494304161681,
      "loss": 0.5263,
      "num_input_tokens_seen": 12200392,
      "step": 18665
    },
    {
      "epoch": 9.785115303983229,
      "grad_norm": 0.05669619143009186,
      "learning_rate": 0.0006052707554902169,
      "loss": 0.3278,
      "num_input_tokens_seen": 12203816,
      "step": 18670
    },
    {
      "epoch": 9.787735849056604,
      "grad_norm": 0.09551538527011871,
      "learning_rate": 0.0006050471847973117,
      "loss": 0.4197,
      "num_input_tokens_seen": 12208264,
      "step": 18675
    },
    {
      "epoch": 9.79035639412998,
      "grad_norm": 0.09366921335458755,
      "learning_rate": 0.000604823592129734,
      "loss": 0.4154,
      "num_input_tokens_seen": 12211048,
      "step": 18680
    },
    {
      "epoch": 9.792976939203355,
      "grad_norm": 0.0766887366771698,
      "learning_rate": 0.0006045999775342566,
      "loss": 0.5738,
      "num_input_tokens_seen": 12213928,
      "step": 18685
    },
    {
      "epoch": 9.79559748427673,
      "grad_norm": 0.1117621660232544,
      "learning_rate": 0.0006043763410576572,
      "loss": 0.5441,
      "num_input_tokens_seen": 12217032,
      "step": 18690
    },
    {
      "epoch": 9.798218029350105,
      "grad_norm": 0.21121972799301147,
      "learning_rate": 0.0006041526827467182,
      "loss": 0.4433,
      "num_input_tokens_seen": 12220456,
      "step": 18695
    },
    {
      "epoch": 9.80083857442348,
      "grad_norm": 0.09297984093427658,
      "learning_rate": 0.000603929002648226,
      "loss": 0.5328,
      "num_input_tokens_seen": 12223336,
      "step": 18700
    },
    {
      "epoch": 9.803459119496855,
      "grad_norm": 0.11185623705387115,
      "learning_rate": 0.0006037053008089723,
      "loss": 0.5383,
      "num_input_tokens_seen": 12226632,
      "step": 18705
    },
    {
      "epoch": 9.80607966457023,
      "grad_norm": 0.11073675006628036,
      "learning_rate": 0.0006034815772757528,
      "loss": 0.4365,
      "num_input_tokens_seen": 12229512,
      "step": 18710
    },
    {
      "epoch": 9.808700209643606,
      "grad_norm": 0.14200618863105774,
      "learning_rate": 0.0006032578320953678,
      "loss": 0.3387,
      "num_input_tokens_seen": 12232808,
      "step": 18715
    },
    {
      "epoch": 9.81132075471698,
      "grad_norm": 0.22474899888038635,
      "learning_rate": 0.0006030340653146224,
      "loss": 0.3592,
      "num_input_tokens_seen": 12237288,
      "step": 18720
    },
    {
      "epoch": 9.813941299790356,
      "grad_norm": 0.08168677240610123,
      "learning_rate": 0.0006028102769803261,
      "loss": 0.3089,
      "num_input_tokens_seen": 12241096,
      "step": 18725
    },
    {
      "epoch": 9.816561844863731,
      "grad_norm": 0.1390296071767807,
      "learning_rate": 0.0006025864671392925,
      "loss": 0.51,
      "num_input_tokens_seen": 12244552,
      "step": 18730
    },
    {
      "epoch": 9.819182389937106,
      "grad_norm": 0.1941221058368683,
      "learning_rate": 0.0006023626358383406,
      "loss": 0.5658,
      "num_input_tokens_seen": 12247016,
      "step": 18735
    },
    {
      "epoch": 9.821802935010481,
      "grad_norm": 0.07129978388547897,
      "learning_rate": 0.0006021387831242932,
      "loss": 0.4271,
      "num_input_tokens_seen": 12250184,
      "step": 18740
    },
    {
      "epoch": 9.824423480083858,
      "grad_norm": 0.07766378670930862,
      "learning_rate": 0.0006019149090439774,
      "loss": 0.4281,
      "num_input_tokens_seen": 12253064,
      "step": 18745
    },
    {
      "epoch": 9.827044025157234,
      "grad_norm": 0.06805960088968277,
      "learning_rate": 0.0006016910136442254,
      "loss": 0.4242,
      "num_input_tokens_seen": 12256328,
      "step": 18750
    },
    {
      "epoch": 9.829664570230609,
      "grad_norm": 0.11275254935026169,
      "learning_rate": 0.0006014670969718735,
      "loss": 0.4352,
      "num_input_tokens_seen": 12258888,
      "step": 18755
    },
    {
      "epoch": 9.832285115303984,
      "grad_norm": 0.08165647834539413,
      "learning_rate": 0.0006012431590737625,
      "loss": 0.4044,
      "num_input_tokens_seen": 12262536,
      "step": 18760
    },
    {
      "epoch": 9.834905660377359,
      "grad_norm": 0.11927330493927002,
      "learning_rate": 0.0006010191999967378,
      "loss": 0.5023,
      "num_input_tokens_seen": 12266760,
      "step": 18765
    },
    {
      "epoch": 9.837526205450734,
      "grad_norm": 0.09847842156887054,
      "learning_rate": 0.0006007952197876487,
      "loss": 0.4699,
      "num_input_tokens_seen": 12269576,
      "step": 18770
    },
    {
      "epoch": 9.84014675052411,
      "grad_norm": 0.08382835239171982,
      "learning_rate": 0.0006005712184933498,
      "loss": 0.439,
      "num_input_tokens_seen": 12273544,
      "step": 18775
    },
    {
      "epoch": 9.842767295597485,
      "grad_norm": 0.08510919660329819,
      "learning_rate": 0.0006003471961606992,
      "loss": 0.6321,
      "num_input_tokens_seen": 12276456,
      "step": 18780
    },
    {
      "epoch": 9.84538784067086,
      "grad_norm": 0.1327340304851532,
      "learning_rate": 0.0006001231528365601,
      "loss": 0.4934,
      "num_input_tokens_seen": 12279368,
      "step": 18785
    },
    {
      "epoch": 9.848008385744235,
      "grad_norm": 0.08179966360330582,
      "learning_rate": 0.0005998990885677996,
      "loss": 0.5306,
      "num_input_tokens_seen": 12282280,
      "step": 18790
    },
    {
      "epoch": 9.85062893081761,
      "grad_norm": 0.1755007952451706,
      "learning_rate": 0.0005996750034012895,
      "loss": 0.5728,
      "num_input_tokens_seen": 12286600,
      "step": 18795
    },
    {
      "epoch": 9.853249475890985,
      "grad_norm": 0.07845824211835861,
      "learning_rate": 0.0005994508973839058,
      "loss": 0.2881,
      "num_input_tokens_seen": 12289992,
      "step": 18800
    },
    {
      "epoch": 9.85587002096436,
      "grad_norm": 0.08364317566156387,
      "learning_rate": 0.0005992267705625289,
      "loss": 0.5304,
      "num_input_tokens_seen": 12294248,
      "step": 18805
    },
    {
      "epoch": 9.858490566037736,
      "grad_norm": 0.06667941808700562,
      "learning_rate": 0.0005990026229840439,
      "loss": 0.3205,
      "num_input_tokens_seen": 12299560,
      "step": 18810
    },
    {
      "epoch": 9.86111111111111,
      "grad_norm": 0.17143790423870087,
      "learning_rate": 0.0005987784546953394,
      "loss": 0.4177,
      "num_input_tokens_seen": 12302632,
      "step": 18815
    },
    {
      "epoch": 9.863731656184486,
      "grad_norm": 0.15251308679580688,
      "learning_rate": 0.0005985542657433091,
      "loss": 0.3836,
      "num_input_tokens_seen": 12305576,
      "step": 18820
    },
    {
      "epoch": 9.866352201257861,
      "grad_norm": 0.14477397501468658,
      "learning_rate": 0.000598330056174851,
      "loss": 0.4793,
      "num_input_tokens_seen": 12308456,
      "step": 18825
    },
    {
      "epoch": 9.868972746331236,
      "grad_norm": 0.085185207426548,
      "learning_rate": 0.0005981058260368668,
      "loss": 0.3869,
      "num_input_tokens_seen": 12312040,
      "step": 18830
    },
    {
      "epoch": 9.871593291404611,
      "grad_norm": 0.09191170334815979,
      "learning_rate": 0.0005978815753762632,
      "loss": 0.6303,
      "num_input_tokens_seen": 12315528,
      "step": 18835
    },
    {
      "epoch": 9.874213836477988,
      "grad_norm": 0.08262666314840317,
      "learning_rate": 0.0005976573042399505,
      "loss": 0.432,
      "num_input_tokens_seen": 12318632,
      "step": 18840
    },
    {
      "epoch": 9.876834381551364,
      "grad_norm": 0.05612999573349953,
      "learning_rate": 0.000597433012674844,
      "loss": 0.6785,
      "num_input_tokens_seen": 12321480,
      "step": 18845
    },
    {
      "epoch": 9.879454926624739,
      "grad_norm": 0.08553565293550491,
      "learning_rate": 0.0005972087007278628,
      "loss": 0.4359,
      "num_input_tokens_seen": 12325288,
      "step": 18850
    },
    {
      "epoch": 9.882075471698114,
      "grad_norm": 0.10710591077804565,
      "learning_rate": 0.0005969843684459305,
      "loss": 0.5241,
      "num_input_tokens_seen": 12328040,
      "step": 18855
    },
    {
      "epoch": 9.884696016771489,
      "grad_norm": 0.07284431159496307,
      "learning_rate": 0.0005967600158759746,
      "loss": 0.4144,
      "num_input_tokens_seen": 12331848,
      "step": 18860
    },
    {
      "epoch": 9.887316561844864,
      "grad_norm": 0.08582321554422379,
      "learning_rate": 0.0005965356430649276,
      "loss": 0.5148,
      "num_input_tokens_seen": 12334664,
      "step": 18865
    },
    {
      "epoch": 9.88993710691824,
      "grad_norm": 0.09179256856441498,
      "learning_rate": 0.0005963112500597251,
      "loss": 0.4516,
      "num_input_tokens_seen": 12338152,
      "step": 18870
    },
    {
      "epoch": 9.892557651991615,
      "grad_norm": 0.09503205865621567,
      "learning_rate": 0.0005960868369073079,
      "loss": 0.3979,
      "num_input_tokens_seen": 12342568,
      "step": 18875
    },
    {
      "epoch": 9.89517819706499,
      "grad_norm": 0.11277227848768234,
      "learning_rate": 0.0005958624036546208,
      "loss": 0.5492,
      "num_input_tokens_seen": 12346088,
      "step": 18880
    },
    {
      "epoch": 9.897798742138365,
      "grad_norm": 0.0660247877240181,
      "learning_rate": 0.0005956379503486123,
      "loss": 0.428,
      "num_input_tokens_seen": 12349384,
      "step": 18885
    },
    {
      "epoch": 9.90041928721174,
      "grad_norm": 0.08606504648923874,
      "learning_rate": 0.0005954134770362359,
      "loss": 0.4664,
      "num_input_tokens_seen": 12351912,
      "step": 18890
    },
    {
      "epoch": 9.903039832285115,
      "grad_norm": 0.10581362992525101,
      "learning_rate": 0.0005951889837644486,
      "loss": 0.3621,
      "num_input_tokens_seen": 12355592,
      "step": 18895
    },
    {
      "epoch": 9.90566037735849,
      "grad_norm": 0.1391569972038269,
      "learning_rate": 0.0005949644705802116,
      "loss": 0.4776,
      "num_input_tokens_seen": 12358856,
      "step": 18900
    },
    {
      "epoch": 9.908280922431866,
      "grad_norm": 0.16008716821670532,
      "learning_rate": 0.0005947399375304909,
      "loss": 0.4754,
      "num_input_tokens_seen": 12361800,
      "step": 18905
    },
    {
      "epoch": 9.91090146750524,
      "grad_norm": 0.06950545310974121,
      "learning_rate": 0.0005945153846622563,
      "loss": 0.4611,
      "num_input_tokens_seen": 12364936,
      "step": 18910
    },
    {
      "epoch": 9.913522012578616,
      "grad_norm": 0.0894957035779953,
      "learning_rate": 0.0005942908120224815,
      "loss": 0.3873,
      "num_input_tokens_seen": 12367592,
      "step": 18915
    },
    {
      "epoch": 9.916142557651991,
      "grad_norm": 0.08063095808029175,
      "learning_rate": 0.0005940662196581443,
      "loss": 0.3849,
      "num_input_tokens_seen": 12371176,
      "step": 18920
    },
    {
      "epoch": 9.918763102725366,
      "grad_norm": 0.05870731174945831,
      "learning_rate": 0.0005938416076162273,
      "loss": 0.4223,
      "num_input_tokens_seen": 12375464,
      "step": 18925
    },
    {
      "epoch": 9.921383647798741,
      "grad_norm": 0.12414474785327911,
      "learning_rate": 0.0005936169759437165,
      "loss": 0.4778,
      "num_input_tokens_seen": 12378248,
      "step": 18930
    },
    {
      "epoch": 9.924004192872118,
      "grad_norm": 0.11362864077091217,
      "learning_rate": 0.0005933923246876024,
      "loss": 0.5278,
      "num_input_tokens_seen": 12381288,
      "step": 18935
    },
    {
      "epoch": 9.926624737945493,
      "grad_norm": 0.055320415645837784,
      "learning_rate": 0.0005931676538948795,
      "loss": 0.3899,
      "num_input_tokens_seen": 12385192,
      "step": 18940
    },
    {
      "epoch": 9.929245283018869,
      "grad_norm": 0.07793846726417542,
      "learning_rate": 0.0005929429636125463,
      "loss": 0.32,
      "num_input_tokens_seen": 12388392,
      "step": 18945
    },
    {
      "epoch": 9.931865828092244,
      "grad_norm": 0.09966251999139786,
      "learning_rate": 0.0005927182538876055,
      "loss": 0.3225,
      "num_input_tokens_seen": 12391112,
      "step": 18950
    },
    {
      "epoch": 9.934486373165619,
      "grad_norm": 0.1533137708902359,
      "learning_rate": 0.0005924935247670637,
      "loss": 0.3949,
      "num_input_tokens_seen": 12394088,
      "step": 18955
    },
    {
      "epoch": 9.937106918238994,
      "grad_norm": 0.10903998464345932,
      "learning_rate": 0.0005922687762979317,
      "loss": 0.6841,
      "num_input_tokens_seen": 12396840,
      "step": 18960
    },
    {
      "epoch": 9.93972746331237,
      "grad_norm": 0.10611612349748611,
      "learning_rate": 0.0005920440085272245,
      "loss": 0.4435,
      "num_input_tokens_seen": 12400776,
      "step": 18965
    },
    {
      "epoch": 9.942348008385745,
      "grad_norm": 0.07335475832223892,
      "learning_rate": 0.0005918192215019608,
      "loss": 0.3981,
      "num_input_tokens_seen": 12403848,
      "step": 18970
    },
    {
      "epoch": 9.94496855345912,
      "grad_norm": 0.12532614171504974,
      "learning_rate": 0.0005915944152691633,
      "loss": 0.4121,
      "num_input_tokens_seen": 12407016,
      "step": 18975
    },
    {
      "epoch": 9.947589098532495,
      "grad_norm": 0.09203173965215683,
      "learning_rate": 0.0005913695898758593,
      "loss": 0.4153,
      "num_input_tokens_seen": 12410312,
      "step": 18980
    },
    {
      "epoch": 9.95020964360587,
      "grad_norm": 0.09162154793739319,
      "learning_rate": 0.0005911447453690793,
      "loss": 0.4325,
      "num_input_tokens_seen": 12413672,
      "step": 18985
    },
    {
      "epoch": 9.952830188679245,
      "grad_norm": 0.07408502697944641,
      "learning_rate": 0.0005909198817958585,
      "loss": 0.4206,
      "num_input_tokens_seen": 12416936,
      "step": 18990
    },
    {
      "epoch": 9.95545073375262,
      "grad_norm": 0.07068878412246704,
      "learning_rate": 0.0005906949992032359,
      "loss": 0.4752,
      "num_input_tokens_seen": 12419368,
      "step": 18995
    },
    {
      "epoch": 9.958071278825996,
      "grad_norm": 0.08258805423974991,
      "learning_rate": 0.0005904700976382539,
      "loss": 0.3488,
      "num_input_tokens_seen": 12422152,
      "step": 19000
    },
    {
      "epoch": 9.96069182389937,
      "grad_norm": 0.24268728494644165,
      "learning_rate": 0.0005902451771479596,
      "loss": 0.3393,
      "num_input_tokens_seen": 12424840,
      "step": 19005
    },
    {
      "epoch": 9.963312368972746,
      "grad_norm": 0.055917683988809586,
      "learning_rate": 0.000590020237779404,
      "loss": 0.4033,
      "num_input_tokens_seen": 12429576,
      "step": 19010
    },
    {
      "epoch": 9.965932914046121,
      "grad_norm": 0.10818292945623398,
      "learning_rate": 0.0005897952795796415,
      "loss": 0.5727,
      "num_input_tokens_seen": 12433096,
      "step": 19015
    },
    {
      "epoch": 9.968553459119496,
      "grad_norm": 0.08143465220928192,
      "learning_rate": 0.0005895703025957311,
      "loss": 0.3415,
      "num_input_tokens_seen": 12436744,
      "step": 19020
    },
    {
      "epoch": 9.971174004192871,
      "grad_norm": 0.23682284355163574,
      "learning_rate": 0.0005893453068747352,
      "loss": 0.516,
      "num_input_tokens_seen": 12439464,
      "step": 19025
    },
    {
      "epoch": 9.973794549266248,
      "grad_norm": 0.06812601536512375,
      "learning_rate": 0.0005891202924637202,
      "loss": 0.445,
      "num_input_tokens_seen": 12442920,
      "step": 19030
    },
    {
      "epoch": 9.976415094339622,
      "grad_norm": 0.16477233171463013,
      "learning_rate": 0.0005888952594097572,
      "loss": 0.4421,
      "num_input_tokens_seen": 12446920,
      "step": 19035
    },
    {
      "epoch": 9.979035639412999,
      "grad_norm": 0.14022772014141083,
      "learning_rate": 0.0005886702077599197,
      "loss": 0.5214,
      "num_input_tokens_seen": 12449768,
      "step": 19040
    },
    {
      "epoch": 9.981656184486374,
      "grad_norm": 0.19512635469436646,
      "learning_rate": 0.0005884451375612865,
      "loss": 0.4689,
      "num_input_tokens_seen": 12452712,
      "step": 19045
    },
    {
      "epoch": 9.984276729559749,
      "grad_norm": 0.10449804365634918,
      "learning_rate": 0.0005882200488609396,
      "loss": 0.5076,
      "num_input_tokens_seen": 12456008,
      "step": 19050
    },
    {
      "epoch": 9.986897274633124,
      "grad_norm": 0.19874808192253113,
      "learning_rate": 0.0005879949417059649,
      "loss": 0.5684,
      "num_input_tokens_seen": 12458792,
      "step": 19055
    },
    {
      "epoch": 9.9895178197065,
      "grad_norm": 0.09014716744422913,
      "learning_rate": 0.0005877698161434522,
      "loss": 0.3111,
      "num_input_tokens_seen": 12461896,
      "step": 19060
    },
    {
      "epoch": 9.992138364779874,
      "grad_norm": 0.08301796764135361,
      "learning_rate": 0.0005875446722204955,
      "loss": 0.4454,
      "num_input_tokens_seen": 12464616,
      "step": 19065
    },
    {
      "epoch": 9.99475890985325,
      "grad_norm": 0.12801334261894226,
      "learning_rate": 0.0005873195099841919,
      "loss": 0.5896,
      "num_input_tokens_seen": 12467880,
      "step": 19070
    },
    {
      "epoch": 9.997379454926625,
      "grad_norm": 0.11777966469526291,
      "learning_rate": 0.0005870943294816431,
      "loss": 0.4295,
      "num_input_tokens_seen": 12470760,
      "step": 19075
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.08972466737031937,
      "learning_rate": 0.0005868691307599543,
      "loss": 0.4537,
      "num_input_tokens_seen": 12474576,
      "step": 19080
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.4763091206550598,
      "eval_runtime": 13.5353,
      "eval_samples_per_second": 62.651,
      "eval_steps_per_second": 15.663,
      "num_input_tokens_seen": 12474576,
      "step": 19080
    },
    {
      "epoch": 10.002620545073375,
      "grad_norm": 0.13360893726348877,
      "learning_rate": 0.0005866439138662343,
      "loss": 0.2939,
      "num_input_tokens_seen": 12477296,
      "step": 19085
    },
    {
      "epoch": 10.00524109014675,
      "grad_norm": 0.08246516436338425,
      "learning_rate": 0.000586418678847596,
      "loss": 0.5107,
      "num_input_tokens_seen": 12482608,
      "step": 19090
    },
    {
      "epoch": 10.007861635220126,
      "grad_norm": 0.0646742731332779,
      "learning_rate": 0.000586193425751156,
      "loss": 0.3865,
      "num_input_tokens_seen": 12485328,
      "step": 19095
    },
    {
      "epoch": 10.0104821802935,
      "grad_norm": 0.07910534739494324,
      "learning_rate": 0.0005859681546240348,
      "loss": 0.4537,
      "num_input_tokens_seen": 12488944,
      "step": 19100
    },
    {
      "epoch": 10.013102725366876,
      "grad_norm": 0.10758327692747116,
      "learning_rate": 0.0005857428655133562,
      "loss": 0.4638,
      "num_input_tokens_seen": 12491952,
      "step": 19105
    },
    {
      "epoch": 10.015723270440251,
      "grad_norm": 0.1604875773191452,
      "learning_rate": 0.0005855175584662485,
      "loss": 0.4121,
      "num_input_tokens_seen": 12495600,
      "step": 19110
    },
    {
      "epoch": 10.018343815513626,
      "grad_norm": 0.13330917060375214,
      "learning_rate": 0.0005852922335298433,
      "loss": 0.3239,
      "num_input_tokens_seen": 12499152,
      "step": 19115
    },
    {
      "epoch": 10.020964360587001,
      "grad_norm": 0.14782726764678955,
      "learning_rate": 0.0005850668907512757,
      "loss": 0.4904,
      "num_input_tokens_seen": 12502032,
      "step": 19120
    },
    {
      "epoch": 10.023584905660377,
      "grad_norm": 0.08769811689853668,
      "learning_rate": 0.0005848415301776852,
      "loss": 0.4915,
      "num_input_tokens_seen": 12505264,
      "step": 19125
    },
    {
      "epoch": 10.026205450733753,
      "grad_norm": 0.0865805447101593,
      "learning_rate": 0.0005846161518562144,
      "loss": 0.4723,
      "num_input_tokens_seen": 12510384,
      "step": 19130
    },
    {
      "epoch": 10.028825995807129,
      "grad_norm": 0.10941583663225174,
      "learning_rate": 0.00058439075583401,
      "loss": 0.693,
      "num_input_tokens_seen": 12513680,
      "step": 19135
    },
    {
      "epoch": 10.031446540880504,
      "grad_norm": 0.12172530591487885,
      "learning_rate": 0.0005841653421582223,
      "loss": 0.5617,
      "num_input_tokens_seen": 12517328,
      "step": 19140
    },
    {
      "epoch": 10.034067085953879,
      "grad_norm": 0.10980743169784546,
      "learning_rate": 0.0005839399108760052,
      "loss": 0.4439,
      "num_input_tokens_seen": 12521872,
      "step": 19145
    },
    {
      "epoch": 10.036687631027254,
      "grad_norm": 0.11468006670475006,
      "learning_rate": 0.0005837144620345165,
      "loss": 0.4529,
      "num_input_tokens_seen": 12524752,
      "step": 19150
    },
    {
      "epoch": 10.03930817610063,
      "grad_norm": 0.21462509036064148,
      "learning_rate": 0.0005834889956809173,
      "loss": 0.5016,
      "num_input_tokens_seen": 12527216,
      "step": 19155
    },
    {
      "epoch": 10.041928721174004,
      "grad_norm": 0.15259316563606262,
      "learning_rate": 0.0005832635118623726,
      "loss": 0.4511,
      "num_input_tokens_seen": 12530416,
      "step": 19160
    },
    {
      "epoch": 10.04454926624738,
      "grad_norm": 0.16281923651695251,
      "learning_rate": 0.0005830380106260513,
      "loss": 0.4263,
      "num_input_tokens_seen": 12534064,
      "step": 19165
    },
    {
      "epoch": 10.047169811320755,
      "grad_norm": 0.09316201508045197,
      "learning_rate": 0.0005828124920191255,
      "loss": 0.3626,
      "num_input_tokens_seen": 12536816,
      "step": 19170
    },
    {
      "epoch": 10.04979035639413,
      "grad_norm": 0.12099119275808334,
      "learning_rate": 0.000582586956088771,
      "loss": 0.3279,
      "num_input_tokens_seen": 12540048,
      "step": 19175
    },
    {
      "epoch": 10.052410901467505,
      "grad_norm": 0.06718233227729797,
      "learning_rate": 0.0005823614028821677,
      "loss": 0.3718,
      "num_input_tokens_seen": 12542992,
      "step": 19180
    },
    {
      "epoch": 10.05503144654088,
      "grad_norm": 0.07791464030742645,
      "learning_rate": 0.0005821358324464985,
      "loss": 0.554,
      "num_input_tokens_seen": 12547504,
      "step": 19185
    },
    {
      "epoch": 10.057651991614255,
      "grad_norm": 0.14917245507240295,
      "learning_rate": 0.0005819102448289501,
      "loss": 0.3856,
      "num_input_tokens_seen": 12549904,
      "step": 19190
    },
    {
      "epoch": 10.06027253668763,
      "grad_norm": 0.12683430314064026,
      "learning_rate": 0.000581684640076713,
      "loss": 0.3551,
      "num_input_tokens_seen": 12552912,
      "step": 19195
    },
    {
      "epoch": 10.062893081761006,
      "grad_norm": 0.13267500698566437,
      "learning_rate": 0.0005814590182369811,
      "loss": 0.3541,
      "num_input_tokens_seen": 12556560,
      "step": 19200
    },
    {
      "epoch": 10.065513626834381,
      "grad_norm": 0.06114644184708595,
      "learning_rate": 0.000581233379356952,
      "loss": 0.4778,
      "num_input_tokens_seen": 12559600,
      "step": 19205
    },
    {
      "epoch": 10.068134171907756,
      "grad_norm": 0.060463860630989075,
      "learning_rate": 0.0005810077234838267,
      "loss": 0.376,
      "num_input_tokens_seen": 12563056,
      "step": 19210
    },
    {
      "epoch": 10.070754716981131,
      "grad_norm": 0.10149749368429184,
      "learning_rate": 0.0005807820506648097,
      "loss": 0.3856,
      "num_input_tokens_seen": 12567088,
      "step": 19215
    },
    {
      "epoch": 10.073375262054507,
      "grad_norm": 0.08653461933135986,
      "learning_rate": 0.0005805563609471095,
      "loss": 0.3245,
      "num_input_tokens_seen": 12571024,
      "step": 19220
    },
    {
      "epoch": 10.075995807127883,
      "grad_norm": 0.09195102751255035,
      "learning_rate": 0.0005803306543779375,
      "loss": 0.4258,
      "num_input_tokens_seen": 12573392,
      "step": 19225
    },
    {
      "epoch": 10.078616352201259,
      "grad_norm": 0.11482448875904083,
      "learning_rate": 0.000580104931004509,
      "loss": 0.4185,
      "num_input_tokens_seen": 12576752,
      "step": 19230
    },
    {
      "epoch": 10.081236897274634,
      "grad_norm": 0.06513632833957672,
      "learning_rate": 0.000579879190874043,
      "loss": 0.3921,
      "num_input_tokens_seen": 12581648,
      "step": 19235
    },
    {
      "epoch": 10.083857442348009,
      "grad_norm": 0.07395855337381363,
      "learning_rate": 0.0005796534340337614,
      "loss": 0.5117,
      "num_input_tokens_seen": 12585744,
      "step": 19240
    },
    {
      "epoch": 10.086477987421384,
      "grad_norm": 0.07152753323316574,
      "learning_rate": 0.0005794276605308902,
      "loss": 0.3204,
      "num_input_tokens_seen": 12591216,
      "step": 19245
    },
    {
      "epoch": 10.08909853249476,
      "grad_norm": 0.1068168580532074,
      "learning_rate": 0.0005792018704126586,
      "loss": 0.5928,
      "num_input_tokens_seen": 12595152,
      "step": 19250
    },
    {
      "epoch": 10.091719077568134,
      "grad_norm": 0.1297302395105362,
      "learning_rate": 0.0005789760637262992,
      "loss": 0.376,
      "num_input_tokens_seen": 12598096,
      "step": 19255
    },
    {
      "epoch": 10.09433962264151,
      "grad_norm": 0.10347457975149155,
      "learning_rate": 0.0005787502405190483,
      "loss": 0.4757,
      "num_input_tokens_seen": 12601424,
      "step": 19260
    },
    {
      "epoch": 10.096960167714885,
      "grad_norm": 0.08780308067798615,
      "learning_rate": 0.0005785244008381456,
      "loss": 0.3575,
      "num_input_tokens_seen": 12605040,
      "step": 19265
    },
    {
      "epoch": 10.09958071278826,
      "grad_norm": 0.14028355479240417,
      "learning_rate": 0.0005782985447308341,
      "loss": 0.4403,
      "num_input_tokens_seen": 12607984,
      "step": 19270
    },
    {
      "epoch": 10.102201257861635,
      "grad_norm": 0.10153911262750626,
      "learning_rate": 0.0005780726722443602,
      "loss": 0.3786,
      "num_input_tokens_seen": 12611728,
      "step": 19275
    },
    {
      "epoch": 10.10482180293501,
      "grad_norm": 0.09390506893396378,
      "learning_rate": 0.0005778467834259741,
      "loss": 0.4722,
      "num_input_tokens_seen": 12614960,
      "step": 19280
    },
    {
      "epoch": 10.107442348008385,
      "grad_norm": 0.29109856486320496,
      "learning_rate": 0.000577620878322929,
      "loss": 0.6049,
      "num_input_tokens_seen": 12617872,
      "step": 19285
    },
    {
      "epoch": 10.11006289308176,
      "grad_norm": 0.17783115804195404,
      "learning_rate": 0.0005773949569824816,
      "loss": 0.6083,
      "num_input_tokens_seen": 12620528,
      "step": 19290
    },
    {
      "epoch": 10.112683438155136,
      "grad_norm": 0.07262447476387024,
      "learning_rate": 0.0005771690194518922,
      "loss": 0.3549,
      "num_input_tokens_seen": 12623152,
      "step": 19295
    },
    {
      "epoch": 10.115303983228511,
      "grad_norm": 0.0784400999546051,
      "learning_rate": 0.0005769430657784245,
      "loss": 0.3406,
      "num_input_tokens_seen": 12626832,
      "step": 19300
    },
    {
      "epoch": 10.117924528301886,
      "grad_norm": 0.16271056234836578,
      "learning_rate": 0.0005767170960093449,
      "loss": 0.6167,
      "num_input_tokens_seen": 12629456,
      "step": 19305
    },
    {
      "epoch": 10.120545073375261,
      "grad_norm": 0.08075934648513794,
      "learning_rate": 0.0005764911101919244,
      "loss": 0.4303,
      "num_input_tokens_seen": 12632912,
      "step": 19310
    },
    {
      "epoch": 10.123165618448636,
      "grad_norm": 0.11985097825527191,
      "learning_rate": 0.0005762651083734363,
      "loss": 0.5777,
      "num_input_tokens_seen": 12636272,
      "step": 19315
    },
    {
      "epoch": 10.125786163522013,
      "grad_norm": 0.088014155626297,
      "learning_rate": 0.0005760390906011574,
      "loss": 0.5297,
      "num_input_tokens_seen": 12639152,
      "step": 19320
    },
    {
      "epoch": 10.128406708595389,
      "grad_norm": 0.1437350958585739,
      "learning_rate": 0.0005758130569223684,
      "loss": 0.5662,
      "num_input_tokens_seen": 12641552,
      "step": 19325
    },
    {
      "epoch": 10.131027253668764,
      "grad_norm": 0.219486802816391,
      "learning_rate": 0.0005755870073843527,
      "loss": 0.4889,
      "num_input_tokens_seen": 12644976,
      "step": 19330
    },
    {
      "epoch": 10.133647798742139,
      "grad_norm": 0.11131397634744644,
      "learning_rate": 0.0005753609420343973,
      "loss": 0.4575,
      "num_input_tokens_seen": 12649072,
      "step": 19335
    },
    {
      "epoch": 10.136268343815514,
      "grad_norm": 0.06345351785421371,
      "learning_rate": 0.0005751348609197929,
      "loss": 0.4045,
      "num_input_tokens_seen": 12651760,
      "step": 19340
    },
    {
      "epoch": 10.13888888888889,
      "grad_norm": 0.07907234877347946,
      "learning_rate": 0.0005749087640878325,
      "loss": 0.5189,
      "num_input_tokens_seen": 12654576,
      "step": 19345
    },
    {
      "epoch": 10.141509433962264,
      "grad_norm": 0.209893599152565,
      "learning_rate": 0.0005746826515858135,
      "loss": 0.4614,
      "num_input_tokens_seen": 12657520,
      "step": 19350
    },
    {
      "epoch": 10.14412997903564,
      "grad_norm": 0.08815524727106094,
      "learning_rate": 0.0005744565234610356,
      "loss": 0.428,
      "num_input_tokens_seen": 12660560,
      "step": 19355
    },
    {
      "epoch": 10.146750524109015,
      "grad_norm": 0.09589368104934692,
      "learning_rate": 0.0005742303797608023,
      "loss": 0.4565,
      "num_input_tokens_seen": 12664080,
      "step": 19360
    },
    {
      "epoch": 10.14937106918239,
      "grad_norm": 0.0977223739027977,
      "learning_rate": 0.0005740042205324208,
      "loss": 0.612,
      "num_input_tokens_seen": 12667792,
      "step": 19365
    },
    {
      "epoch": 10.151991614255765,
      "grad_norm": 0.12192223221063614,
      "learning_rate": 0.0005737780458232004,
      "loss": 0.3678,
      "num_input_tokens_seen": 12670704,
      "step": 19370
    },
    {
      "epoch": 10.15461215932914,
      "grad_norm": 0.25291895866394043,
      "learning_rate": 0.0005735518556804546,
      "loss": 0.4787,
      "num_input_tokens_seen": 12673136,
      "step": 19375
    },
    {
      "epoch": 10.157232704402515,
      "grad_norm": 0.15595367550849915,
      "learning_rate": 0.0005733256501514999,
      "loss": 0.5615,
      "num_input_tokens_seen": 12677040,
      "step": 19380
    },
    {
      "epoch": 10.15985324947589,
      "grad_norm": 0.44151416420936584,
      "learning_rate": 0.0005730994292836555,
      "loss": 0.4476,
      "num_input_tokens_seen": 12679984,
      "step": 19385
    },
    {
      "epoch": 10.162473794549266,
      "grad_norm": 0.08718301355838776,
      "learning_rate": 0.0005728731931242445,
      "loss": 0.424,
      "num_input_tokens_seen": 12682832,
      "step": 19390
    },
    {
      "epoch": 10.165094339622641,
      "grad_norm": 0.14301681518554688,
      "learning_rate": 0.0005726469417205928,
      "loss": 0.4724,
      "num_input_tokens_seen": 12685968,
      "step": 19395
    },
    {
      "epoch": 10.167714884696016,
      "grad_norm": 0.1282418668270111,
      "learning_rate": 0.0005724206751200297,
      "loss": 0.4417,
      "num_input_tokens_seen": 12688624,
      "step": 19400
    },
    {
      "epoch": 10.170335429769391,
      "grad_norm": 0.1752290427684784,
      "learning_rate": 0.0005721943933698879,
      "loss": 0.5599,
      "num_input_tokens_seen": 12691728,
      "step": 19405
    },
    {
      "epoch": 10.172955974842766,
      "grad_norm": 0.09618808329105377,
      "learning_rate": 0.0005719680965175023,
      "loss": 0.3872,
      "num_input_tokens_seen": 12694416,
      "step": 19410
    },
    {
      "epoch": 10.175576519916143,
      "grad_norm": 0.07540810108184814,
      "learning_rate": 0.000571741784610212,
      "loss": 0.4167,
      "num_input_tokens_seen": 12697360,
      "step": 19415
    },
    {
      "epoch": 10.178197064989519,
      "grad_norm": 0.0741458386182785,
      "learning_rate": 0.0005715154576953589,
      "loss": 0.3198,
      "num_input_tokens_seen": 12700560,
      "step": 19420
    },
    {
      "epoch": 10.180817610062894,
      "grad_norm": 0.1356682926416397,
      "learning_rate": 0.0005712891158202879,
      "loss": 0.4742,
      "num_input_tokens_seen": 12703024,
      "step": 19425
    },
    {
      "epoch": 10.183438155136269,
      "grad_norm": 0.13018129765987396,
      "learning_rate": 0.0005710627590323473,
      "loss": 0.4738,
      "num_input_tokens_seen": 12706864,
      "step": 19430
    },
    {
      "epoch": 10.186058700209644,
      "grad_norm": 0.11477822065353394,
      "learning_rate": 0.0005708363873788882,
      "loss": 0.387,
      "num_input_tokens_seen": 12709776,
      "step": 19435
    },
    {
      "epoch": 10.18867924528302,
      "grad_norm": 0.12576238811016083,
      "learning_rate": 0.0005706100009072649,
      "loss": 0.4384,
      "num_input_tokens_seen": 12713392,
      "step": 19440
    },
    {
      "epoch": 10.191299790356394,
      "grad_norm": 0.09613536298274994,
      "learning_rate": 0.000570383599664835,
      "loss": 0.4372,
      "num_input_tokens_seen": 12716112,
      "step": 19445
    },
    {
      "epoch": 10.19392033542977,
      "grad_norm": 0.1851678341627121,
      "learning_rate": 0.0005701571836989591,
      "loss": 0.423,
      "num_input_tokens_seen": 12721392,
      "step": 19450
    },
    {
      "epoch": 10.196540880503145,
      "grad_norm": 0.06392188370227814,
      "learning_rate": 0.0005699307530570008,
      "loss": 0.5089,
      "num_input_tokens_seen": 12724592,
      "step": 19455
    },
    {
      "epoch": 10.19916142557652,
      "grad_norm": 0.08301020413637161,
      "learning_rate": 0.0005697043077863267,
      "loss": 0.3757,
      "num_input_tokens_seen": 12728176,
      "step": 19460
    },
    {
      "epoch": 10.201781970649895,
      "grad_norm": 0.0876052975654602,
      "learning_rate": 0.0005694778479343065,
      "loss": 0.3983,
      "num_input_tokens_seen": 12732176,
      "step": 19465
    },
    {
      "epoch": 10.20440251572327,
      "grad_norm": 0.08349067717790604,
      "learning_rate": 0.0005692513735483134,
      "loss": 0.456,
      "num_input_tokens_seen": 12734864,
      "step": 19470
    },
    {
      "epoch": 10.207023060796645,
      "grad_norm": 0.10777582228183746,
      "learning_rate": 0.0005690248846757228,
      "loss": 0.3434,
      "num_input_tokens_seen": 12737968,
      "step": 19475
    },
    {
      "epoch": 10.20964360587002,
      "grad_norm": 0.09456703811883926,
      "learning_rate": 0.0005687983813639139,
      "loss": 0.4767,
      "num_input_tokens_seen": 12741968,
      "step": 19480
    },
    {
      "epoch": 10.212264150943396,
      "grad_norm": 0.18013568222522736,
      "learning_rate": 0.0005685718636602685,
      "loss": 0.4988,
      "num_input_tokens_seen": 12744976,
      "step": 19485
    },
    {
      "epoch": 10.214884696016771,
      "grad_norm": 0.12221918255090714,
      "learning_rate": 0.0005683453316121716,
      "loss": 0.5092,
      "num_input_tokens_seen": 12748176,
      "step": 19490
    },
    {
      "epoch": 10.217505241090146,
      "grad_norm": 0.10606546700000763,
      "learning_rate": 0.0005681187852670111,
      "loss": 0.3194,
      "num_input_tokens_seen": 12750640,
      "step": 19495
    },
    {
      "epoch": 10.220125786163521,
      "grad_norm": 0.09104293584823608,
      "learning_rate": 0.0005678922246721777,
      "loss": 0.3463,
      "num_input_tokens_seen": 12753552,
      "step": 19500
    },
    {
      "epoch": 10.222746331236896,
      "grad_norm": 0.15783128142356873,
      "learning_rate": 0.0005676656498750656,
      "loss": 0.5358,
      "num_input_tokens_seen": 12756400,
      "step": 19505
    },
    {
      "epoch": 10.225366876310272,
      "grad_norm": 0.10321279615163803,
      "learning_rate": 0.0005674390609230715,
      "loss": 0.4129,
      "num_input_tokens_seen": 12759632,
      "step": 19510
    },
    {
      "epoch": 10.227987421383649,
      "grad_norm": 0.10663755983114243,
      "learning_rate": 0.0005672124578635951,
      "loss": 0.3851,
      "num_input_tokens_seen": 12762672,
      "step": 19515
    },
    {
      "epoch": 10.230607966457024,
      "grad_norm": 0.10299444198608398,
      "learning_rate": 0.0005669858407440394,
      "loss": 0.352,
      "num_input_tokens_seen": 12766192,
      "step": 19520
    },
    {
      "epoch": 10.233228511530399,
      "grad_norm": 0.07600227743387222,
      "learning_rate": 0.00056675920961181,
      "loss": 0.4119,
      "num_input_tokens_seen": 12770064,
      "step": 19525
    },
    {
      "epoch": 10.235849056603774,
      "grad_norm": 0.10776747018098831,
      "learning_rate": 0.0005665325645143155,
      "loss": 0.5258,
      "num_input_tokens_seen": 12773488,
      "step": 19530
    },
    {
      "epoch": 10.23846960167715,
      "grad_norm": 0.11744838207960129,
      "learning_rate": 0.0005663059054989679,
      "loss": 0.4859,
      "num_input_tokens_seen": 12776080,
      "step": 19535
    },
    {
      "epoch": 10.241090146750524,
      "grad_norm": 0.08533931523561478,
      "learning_rate": 0.0005660792326131809,
      "loss": 0.3057,
      "num_input_tokens_seen": 12779280,
      "step": 19540
    },
    {
      "epoch": 10.2437106918239,
      "grad_norm": 0.08180973678827286,
      "learning_rate": 0.0005658525459043725,
      "loss": 0.5042,
      "num_input_tokens_seen": 12783120,
      "step": 19545
    },
    {
      "epoch": 10.246331236897275,
      "grad_norm": 0.08666927367448807,
      "learning_rate": 0.000565625845419963,
      "loss": 0.5854,
      "num_input_tokens_seen": 12785968,
      "step": 19550
    },
    {
      "epoch": 10.24895178197065,
      "grad_norm": 0.1278316229581833,
      "learning_rate": 0.000565399131207375,
      "loss": 0.4931,
      "num_input_tokens_seen": 12789168,
      "step": 19555
    },
    {
      "epoch": 10.251572327044025,
      "grad_norm": 0.07000134140253067,
      "learning_rate": 0.000565172403314035,
      "loss": 0.3929,
      "num_input_tokens_seen": 12793328,
      "step": 19560
    },
    {
      "epoch": 10.2541928721174,
      "grad_norm": 0.11221765726804733,
      "learning_rate": 0.0005649456617873717,
      "loss": 0.4627,
      "num_input_tokens_seen": 12796048,
      "step": 19565
    },
    {
      "epoch": 10.256813417190775,
      "grad_norm": 0.10040481388568878,
      "learning_rate": 0.0005647189066748169,
      "loss": 0.4095,
      "num_input_tokens_seen": 12800336,
      "step": 19570
    },
    {
      "epoch": 10.25943396226415,
      "grad_norm": 0.10580644756555557,
      "learning_rate": 0.0005644921380238052,
      "loss": 0.4512,
      "num_input_tokens_seen": 12803088,
      "step": 19575
    },
    {
      "epoch": 10.262054507337526,
      "grad_norm": 0.12344583123922348,
      "learning_rate": 0.000564265355881774,
      "loss": 0.5611,
      "num_input_tokens_seen": 12806320,
      "step": 19580
    },
    {
      "epoch": 10.264675052410901,
      "grad_norm": 0.14794471859931946,
      "learning_rate": 0.0005640385602961634,
      "loss": 0.4983,
      "num_input_tokens_seen": 12809488,
      "step": 19585
    },
    {
      "epoch": 10.267295597484276,
      "grad_norm": 0.1512949913740158,
      "learning_rate": 0.0005638117513144168,
      "loss": 0.446,
      "num_input_tokens_seen": 12813232,
      "step": 19590
    },
    {
      "epoch": 10.269916142557651,
      "grad_norm": 0.15960346162319183,
      "learning_rate": 0.0005635849289839797,
      "loss": 0.5388,
      "num_input_tokens_seen": 12816048,
      "step": 19595
    },
    {
      "epoch": 10.272536687631026,
      "grad_norm": 0.18515288829803467,
      "learning_rate": 0.000563358093352301,
      "loss": 0.4418,
      "num_input_tokens_seen": 12818960,
      "step": 19600
    },
    {
      "epoch": 10.275157232704402,
      "grad_norm": 0.1801651269197464,
      "learning_rate": 0.0005631312444668318,
      "loss": 0.451,
      "num_input_tokens_seen": 12822384,
      "step": 19605
    },
    {
      "epoch": 10.277777777777779,
      "grad_norm": 0.13087031245231628,
      "learning_rate": 0.0005629043823750266,
      "loss": 0.4373,
      "num_input_tokens_seen": 12825136,
      "step": 19610
    },
    {
      "epoch": 10.280398322851154,
      "grad_norm": 0.0720021054148674,
      "learning_rate": 0.0005626775071243423,
      "loss": 0.351,
      "num_input_tokens_seen": 12829488,
      "step": 19615
    },
    {
      "epoch": 10.283018867924529,
      "grad_norm": 0.09647238999605179,
      "learning_rate": 0.0005624506187622384,
      "loss": 0.4565,
      "num_input_tokens_seen": 12832432,
      "step": 19620
    },
    {
      "epoch": 10.285639412997904,
      "grad_norm": 0.10075057297945023,
      "learning_rate": 0.0005622237173361777,
      "loss": 0.4646,
      "num_input_tokens_seen": 12835824,
      "step": 19625
    },
    {
      "epoch": 10.28825995807128,
      "grad_norm": 0.10659272968769073,
      "learning_rate": 0.0005619968028936252,
      "loss": 0.5806,
      "num_input_tokens_seen": 12839504,
      "step": 19630
    },
    {
      "epoch": 10.290880503144654,
      "grad_norm": 0.08954153954982758,
      "learning_rate": 0.0005617698754820489,
      "loss": 0.4317,
      "num_input_tokens_seen": 12842448,
      "step": 19635
    },
    {
      "epoch": 10.29350104821803,
      "grad_norm": 0.07690851390361786,
      "learning_rate": 0.0005615429351489192,
      "loss": 0.4349,
      "num_input_tokens_seen": 12845392,
      "step": 19640
    },
    {
      "epoch": 10.296121593291405,
      "grad_norm": 0.08976740390062332,
      "learning_rate": 0.0005613159819417095,
      "loss": 0.5177,
      "num_input_tokens_seen": 12849424,
      "step": 19645
    },
    {
      "epoch": 10.29874213836478,
      "grad_norm": 0.11586545407772064,
      "learning_rate": 0.0005610890159078961,
      "loss": 0.3279,
      "num_input_tokens_seen": 12852368,
      "step": 19650
    },
    {
      "epoch": 10.301362683438155,
      "grad_norm": 0.09192158281803131,
      "learning_rate": 0.0005608620370949575,
      "loss": 0.5073,
      "num_input_tokens_seen": 12855920,
      "step": 19655
    },
    {
      "epoch": 10.30398322851153,
      "grad_norm": 0.12113162875175476,
      "learning_rate": 0.000560635045550375,
      "loss": 0.4211,
      "num_input_tokens_seen": 12859056,
      "step": 19660
    },
    {
      "epoch": 10.306603773584905,
      "grad_norm": 0.09586942940950394,
      "learning_rate": 0.0005604080413216328,
      "loss": 0.4,
      "num_input_tokens_seen": 12861712,
      "step": 19665
    },
    {
      "epoch": 10.30922431865828,
      "grad_norm": 0.09365739673376083,
      "learning_rate": 0.0005601810244562175,
      "loss": 0.409,
      "num_input_tokens_seen": 12864880,
      "step": 19670
    },
    {
      "epoch": 10.311844863731656,
      "grad_norm": 0.09595797955989838,
      "learning_rate": 0.0005599539950016184,
      "loss": 0.38,
      "num_input_tokens_seen": 12867664,
      "step": 19675
    },
    {
      "epoch": 10.314465408805031,
      "grad_norm": 0.0756753534078598,
      "learning_rate": 0.0005597269530053277,
      "loss": 0.4413,
      "num_input_tokens_seen": 12872112,
      "step": 19680
    },
    {
      "epoch": 10.317085953878406,
      "grad_norm": 0.09868689626455307,
      "learning_rate": 0.0005594998985148398,
      "loss": 0.4592,
      "num_input_tokens_seen": 12874928,
      "step": 19685
    },
    {
      "epoch": 10.319706498951781,
      "grad_norm": 0.08811179548501968,
      "learning_rate": 0.0005592728315776519,
      "loss": 0.6626,
      "num_input_tokens_seen": 12878224,
      "step": 19690
    },
    {
      "epoch": 10.322327044025156,
      "grad_norm": 0.12480254471302032,
      "learning_rate": 0.0005590457522412638,
      "loss": 0.4643,
      "num_input_tokens_seen": 12882128,
      "step": 19695
    },
    {
      "epoch": 10.324947589098532,
      "grad_norm": 0.1192944273352623,
      "learning_rate": 0.000558818660553178,
      "loss": 0.4494,
      "num_input_tokens_seen": 12885360,
      "step": 19700
    },
    {
      "epoch": 10.327568134171909,
      "grad_norm": 0.11831967532634735,
      "learning_rate": 0.0005585915565608995,
      "loss": 0.3501,
      "num_input_tokens_seen": 12888656,
      "step": 19705
    },
    {
      "epoch": 10.330188679245284,
      "grad_norm": 0.06365630030632019,
      "learning_rate": 0.0005583644403119357,
      "loss": 0.4373,
      "num_input_tokens_seen": 12892400,
      "step": 19710
    },
    {
      "epoch": 10.332809224318659,
      "grad_norm": 0.07894867658615112,
      "learning_rate": 0.0005581373118537969,
      "loss": 0.5167,
      "num_input_tokens_seen": 12895088,
      "step": 19715
    },
    {
      "epoch": 10.335429769392034,
      "grad_norm": 0.14928415417671204,
      "learning_rate": 0.0005579101712339957,
      "loss": 0.4442,
      "num_input_tokens_seen": 12897712,
      "step": 19720
    },
    {
      "epoch": 10.33805031446541,
      "grad_norm": 0.13616403937339783,
      "learning_rate": 0.0005576830185000474,
      "loss": 0.4547,
      "num_input_tokens_seen": 12901520,
      "step": 19725
    },
    {
      "epoch": 10.340670859538784,
      "grad_norm": 0.13294880092144012,
      "learning_rate": 0.0005574558536994698,
      "loss": 0.4967,
      "num_input_tokens_seen": 12906064,
      "step": 19730
    },
    {
      "epoch": 10.34329140461216,
      "grad_norm": 0.22038845717906952,
      "learning_rate": 0.0005572286768797829,
      "loss": 0.5777,
      "num_input_tokens_seen": 12908400,
      "step": 19735
    },
    {
      "epoch": 10.345911949685535,
      "grad_norm": 0.11552722752094269,
      "learning_rate": 0.0005570014880885098,
      "loss": 0.3428,
      "num_input_tokens_seen": 12911088,
      "step": 19740
    },
    {
      "epoch": 10.34853249475891,
      "grad_norm": 0.0968005433678627,
      "learning_rate": 0.0005567742873731757,
      "loss": 0.5488,
      "num_input_tokens_seen": 12913424,
      "step": 19745
    },
    {
      "epoch": 10.351153039832285,
      "grad_norm": 0.09607304632663727,
      "learning_rate": 0.0005565470747813085,
      "loss": 0.523,
      "num_input_tokens_seen": 12917104,
      "step": 19750
    },
    {
      "epoch": 10.35377358490566,
      "grad_norm": 0.09990393370389938,
      "learning_rate": 0.0005563198503604382,
      "loss": 0.2896,
      "num_input_tokens_seen": 12919984,
      "step": 19755
    },
    {
      "epoch": 10.356394129979035,
      "grad_norm": 0.06797996908426285,
      "learning_rate": 0.0005560926141580978,
      "loss": 0.4785,
      "num_input_tokens_seen": 12923792,
      "step": 19760
    },
    {
      "epoch": 10.35901467505241,
      "grad_norm": 0.09845811873674393,
      "learning_rate": 0.0005558653662218225,
      "loss": 0.502,
      "num_input_tokens_seen": 12926320,
      "step": 19765
    },
    {
      "epoch": 10.361635220125786,
      "grad_norm": 0.10438854992389679,
      "learning_rate": 0.00055563810659915,
      "loss": 0.4511,
      "num_input_tokens_seen": 12929104,
      "step": 19770
    },
    {
      "epoch": 10.364255765199161,
      "grad_norm": 0.08343116194009781,
      "learning_rate": 0.0005554108353376201,
      "loss": 0.3679,
      "num_input_tokens_seen": 12932496,
      "step": 19775
    },
    {
      "epoch": 10.366876310272536,
      "grad_norm": 0.09370770305395126,
      "learning_rate": 0.0005551835524847757,
      "loss": 0.4059,
      "num_input_tokens_seen": 12935760,
      "step": 19780
    },
    {
      "epoch": 10.369496855345911,
      "grad_norm": 0.0987706184387207,
      "learning_rate": 0.0005549562580881618,
      "loss": 0.3737,
      "num_input_tokens_seen": 12938736,
      "step": 19785
    },
    {
      "epoch": 10.372117400419286,
      "grad_norm": 0.09530018270015717,
      "learning_rate": 0.0005547289521953257,
      "loss": 0.4152,
      "num_input_tokens_seen": 12941616,
      "step": 19790
    },
    {
      "epoch": 10.374737945492662,
      "grad_norm": 0.12550057470798492,
      "learning_rate": 0.000554501634853817,
      "loss": 0.3627,
      "num_input_tokens_seen": 12944368,
      "step": 19795
    },
    {
      "epoch": 10.377358490566039,
      "grad_norm": 0.15765036642551422,
      "learning_rate": 0.0005542743061111883,
      "loss": 0.5253,
      "num_input_tokens_seen": 12950224,
      "step": 19800
    },
    {
      "epoch": 10.379979035639414,
      "grad_norm": 0.16001009941101074,
      "learning_rate": 0.0005540469660149938,
      "loss": 0.4225,
      "num_input_tokens_seen": 12952656,
      "step": 19805
    },
    {
      "epoch": 10.382599580712789,
      "grad_norm": 0.09870000183582306,
      "learning_rate": 0.0005538196146127907,
      "loss": 0.2973,
      "num_input_tokens_seen": 12957520,
      "step": 19810
    },
    {
      "epoch": 10.385220125786164,
      "grad_norm": 0.07593478262424469,
      "learning_rate": 0.0005535922519521381,
      "loss": 0.4621,
      "num_input_tokens_seen": 12961392,
      "step": 19815
    },
    {
      "epoch": 10.38784067085954,
      "grad_norm": 0.1560942828655243,
      "learning_rate": 0.0005533648780805979,
      "loss": 0.4995,
      "num_input_tokens_seen": 12968784,
      "step": 19820
    },
    {
      "epoch": 10.390461215932914,
      "grad_norm": 0.07088615745306015,
      "learning_rate": 0.000553137493045734,
      "loss": 0.3918,
      "num_input_tokens_seen": 12972176,
      "step": 19825
    },
    {
      "epoch": 10.39308176100629,
      "grad_norm": 0.10480821132659912,
      "learning_rate": 0.0005529100968951127,
      "loss": 0.4027,
      "num_input_tokens_seen": 12974672,
      "step": 19830
    },
    {
      "epoch": 10.395702306079665,
      "grad_norm": 0.08440323919057846,
      "learning_rate": 0.0005526826896763029,
      "loss": 0.4332,
      "num_input_tokens_seen": 12978224,
      "step": 19835
    },
    {
      "epoch": 10.39832285115304,
      "grad_norm": 0.09403510391712189,
      "learning_rate": 0.0005524552714368753,
      "loss": 0.3779,
      "num_input_tokens_seen": 12981840,
      "step": 19840
    },
    {
      "epoch": 10.400943396226415,
      "grad_norm": 0.12574869394302368,
      "learning_rate": 0.0005522278422244035,
      "loss": 0.5528,
      "num_input_tokens_seen": 12984496,
      "step": 19845
    },
    {
      "epoch": 10.40356394129979,
      "grad_norm": 0.08983893692493439,
      "learning_rate": 0.0005520004020864631,
      "loss": 0.4915,
      "num_input_tokens_seen": 12986992,
      "step": 19850
    },
    {
      "epoch": 10.406184486373165,
      "grad_norm": 0.1252162754535675,
      "learning_rate": 0.0005517729510706315,
      "loss": 0.545,
      "num_input_tokens_seen": 12989968,
      "step": 19855
    },
    {
      "epoch": 10.40880503144654,
      "grad_norm": 0.05911495164036751,
      "learning_rate": 0.0005515454892244892,
      "loss": 0.4589,
      "num_input_tokens_seen": 12993200,
      "step": 19860
    },
    {
      "epoch": 10.411425576519916,
      "grad_norm": 0.11422491073608398,
      "learning_rate": 0.0005513180165956189,
      "loss": 0.3485,
      "num_input_tokens_seen": 12996432,
      "step": 19865
    },
    {
      "epoch": 10.414046121593291,
      "grad_norm": 0.10643923282623291,
      "learning_rate": 0.0005510905332316049,
      "loss": 0.5659,
      "num_input_tokens_seen": 12999600,
      "step": 19870
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.10845894366502762,
      "learning_rate": 0.0005508630391800341,
      "loss": 0.4432,
      "num_input_tokens_seen": 13002800,
      "step": 19875
    },
    {
      "epoch": 10.419287211740041,
      "grad_norm": 0.1110261008143425,
      "learning_rate": 0.0005506355344884959,
      "loss": 0.3633,
      "num_input_tokens_seen": 13005680,
      "step": 19880
    },
    {
      "epoch": 10.421907756813416,
      "grad_norm": 0.11988436430692673,
      "learning_rate": 0.0005504080192045813,
      "loss": 0.5352,
      "num_input_tokens_seen": 13008784,
      "step": 19885
    },
    {
      "epoch": 10.424528301886792,
      "grad_norm": 0.3420734703540802,
      "learning_rate": 0.0005501804933758846,
      "loss": 0.4425,
      "num_input_tokens_seen": 13011824,
      "step": 19890
    },
    {
      "epoch": 10.427148846960169,
      "grad_norm": 0.08168098330497742,
      "learning_rate": 0.0005499529570500009,
      "loss": 0.3848,
      "num_input_tokens_seen": 13015568,
      "step": 19895
    },
    {
      "epoch": 10.429769392033544,
      "grad_norm": 0.13224029541015625,
      "learning_rate": 0.0005497254102745285,
      "loss": 0.4067,
      "num_input_tokens_seen": 13018320,
      "step": 19900
    },
    {
      "epoch": 10.432389937106919,
      "grad_norm": 0.14342033863067627,
      "learning_rate": 0.0005494978530970676,
      "loss": 0.3009,
      "num_input_tokens_seen": 13020816,
      "step": 19905
    },
    {
      "epoch": 10.435010482180294,
      "grad_norm": 0.10870448499917984,
      "learning_rate": 0.0005492702855652206,
      "loss": 0.503,
      "num_input_tokens_seen": 13023920,
      "step": 19910
    },
    {
      "epoch": 10.43763102725367,
      "grad_norm": 0.09359117597341537,
      "learning_rate": 0.000549042707726592,
      "loss": 0.3832,
      "num_input_tokens_seen": 13027312,
      "step": 19915
    },
    {
      "epoch": 10.440251572327044,
      "grad_norm": 0.05899885669350624,
      "learning_rate": 0.0005488151196287882,
      "loss": 0.391,
      "num_input_tokens_seen": 13032560,
      "step": 19920
    },
    {
      "epoch": 10.44287211740042,
      "grad_norm": 0.23380808532238007,
      "learning_rate": 0.0005485875213194184,
      "loss": 0.5027,
      "num_input_tokens_seen": 13034544,
      "step": 19925
    },
    {
      "epoch": 10.445492662473795,
      "grad_norm": 0.08582593500614166,
      "learning_rate": 0.0005483599128460935,
      "loss": 0.4752,
      "num_input_tokens_seen": 13038096,
      "step": 19930
    },
    {
      "epoch": 10.44811320754717,
      "grad_norm": 0.0965573862195015,
      "learning_rate": 0.0005481322942564266,
      "loss": 0.5501,
      "num_input_tokens_seen": 13041168,
      "step": 19935
    },
    {
      "epoch": 10.450733752620545,
      "grad_norm": 0.09046926349401474,
      "learning_rate": 0.0005479046655980327,
      "loss": 0.4812,
      "num_input_tokens_seen": 13044240,
      "step": 19940
    },
    {
      "epoch": 10.45335429769392,
      "grad_norm": 0.08637753129005432,
      "learning_rate": 0.0005476770269185295,
      "loss": 0.4545,
      "num_input_tokens_seen": 13047888,
      "step": 19945
    },
    {
      "epoch": 10.455974842767295,
      "grad_norm": 0.14550116658210754,
      "learning_rate": 0.0005474493782655361,
      "loss": 0.5035,
      "num_input_tokens_seen": 13051120,
      "step": 19950
    },
    {
      "epoch": 10.45859538784067,
      "grad_norm": 0.09696877002716064,
      "learning_rate": 0.0005472217196866742,
      "loss": 0.336,
      "num_input_tokens_seen": 13054320,
      "step": 19955
    },
    {
      "epoch": 10.461215932914046,
      "grad_norm": 0.059672676026821136,
      "learning_rate": 0.0005469940512295671,
      "loss": 0.4083,
      "num_input_tokens_seen": 13058736,
      "step": 19960
    },
    {
      "epoch": 10.463836477987421,
      "grad_norm": 0.09891606122255325,
      "learning_rate": 0.0005467663729418406,
      "loss": 0.3978,
      "num_input_tokens_seen": 13061904,
      "step": 19965
    },
    {
      "epoch": 10.466457023060796,
      "grad_norm": 0.10109357535839081,
      "learning_rate": 0.0005465386848711225,
      "loss": 0.3802,
      "num_input_tokens_seen": 13064976,
      "step": 19970
    },
    {
      "epoch": 10.469077568134171,
      "grad_norm": 0.14230065047740936,
      "learning_rate": 0.0005463109870650426,
      "loss": 0.4218,
      "num_input_tokens_seen": 13067472,
      "step": 19975
    },
    {
      "epoch": 10.471698113207546,
      "grad_norm": 0.1022554486989975,
      "learning_rate": 0.0005460832795712323,
      "loss": 0.5851,
      "num_input_tokens_seen": 13070224,
      "step": 19980
    },
    {
      "epoch": 10.474318658280922,
      "grad_norm": 0.10493283718824387,
      "learning_rate": 0.0005458555624373258,
      "loss": 0.2899,
      "num_input_tokens_seen": 13073008,
      "step": 19985
    },
    {
      "epoch": 10.476939203354299,
      "grad_norm": 0.17389582097530365,
      "learning_rate": 0.0005456278357109589,
      "loss": 0.4188,
      "num_input_tokens_seen": 13076752,
      "step": 19990
    },
    {
      "epoch": 10.479559748427674,
      "grad_norm": 0.07533363997936249,
      "learning_rate": 0.0005454000994397691,
      "loss": 0.3373,
      "num_input_tokens_seen": 13081040,
      "step": 19995
    },
    {
      "epoch": 10.482180293501049,
      "grad_norm": 0.12460032850503922,
      "learning_rate": 0.0005451723536713965,
      "loss": 0.3905,
      "num_input_tokens_seen": 13083632,
      "step": 20000
    },
    {
      "epoch": 10.484800838574424,
      "grad_norm": 0.10000024735927582,
      "learning_rate": 0.0005449445984534828,
      "loss": 0.4247,
      "num_input_tokens_seen": 13086928,
      "step": 20005
    },
    {
      "epoch": 10.4874213836478,
      "grad_norm": 0.10958893597126007,
      "learning_rate": 0.0005447168338336721,
      "loss": 0.3838,
      "num_input_tokens_seen": 13089424,
      "step": 20010
    },
    {
      "epoch": 10.490041928721174,
      "grad_norm": 0.11424639075994492,
      "learning_rate": 0.0005444890598596098,
      "loss": 0.4435,
      "num_input_tokens_seen": 13092688,
      "step": 20015
    },
    {
      "epoch": 10.49266247379455,
      "grad_norm": 0.08423877507448196,
      "learning_rate": 0.0005442612765789437,
      "loss": 0.3472,
      "num_input_tokens_seen": 13096048,
      "step": 20020
    },
    {
      "epoch": 10.495283018867925,
      "grad_norm": 0.11704613268375397,
      "learning_rate": 0.0005440334840393235,
      "loss": 0.5671,
      "num_input_tokens_seen": 13099760,
      "step": 20025
    },
    {
      "epoch": 10.4979035639413,
      "grad_norm": 0.10476864874362946,
      "learning_rate": 0.0005438056822884007,
      "loss": 0.3561,
      "num_input_tokens_seen": 13103856,
      "step": 20030
    },
    {
      "epoch": 10.500524109014675,
      "grad_norm": 0.15604886412620544,
      "learning_rate": 0.0005435778713738292,
      "loss": 0.4197,
      "num_input_tokens_seen": 13106288,
      "step": 20035
    },
    {
      "epoch": 10.50314465408805,
      "grad_norm": 0.15093675255775452,
      "learning_rate": 0.0005433500513432639,
      "loss": 0.4776,
      "num_input_tokens_seen": 13108752,
      "step": 20040
    },
    {
      "epoch": 10.505765199161425,
      "grad_norm": 0.09054069966077805,
      "learning_rate": 0.0005431222222443626,
      "loss": 0.4812,
      "num_input_tokens_seen": 13111600,
      "step": 20045
    },
    {
      "epoch": 10.5083857442348,
      "grad_norm": 0.08361370861530304,
      "learning_rate": 0.0005428943841247843,
      "loss": 0.4059,
      "num_input_tokens_seen": 13114352,
      "step": 20050
    },
    {
      "epoch": 10.511006289308176,
      "grad_norm": 0.09668534249067307,
      "learning_rate": 0.0005426665370321901,
      "loss": 0.4321,
      "num_input_tokens_seen": 13117552,
      "step": 20055
    },
    {
      "epoch": 10.51362683438155,
      "grad_norm": 0.09790972620248795,
      "learning_rate": 0.0005424386810142433,
      "loss": 0.3163,
      "num_input_tokens_seen": 13120368,
      "step": 20060
    },
    {
      "epoch": 10.516247379454926,
      "grad_norm": 0.07681717723608017,
      "learning_rate": 0.0005422108161186086,
      "loss": 0.412,
      "num_input_tokens_seen": 13123728,
      "step": 20065
    },
    {
      "epoch": 10.518867924528301,
      "grad_norm": 0.11388549208641052,
      "learning_rate": 0.0005419829423929525,
      "loss": 0.4652,
      "num_input_tokens_seen": 13127440,
      "step": 20070
    },
    {
      "epoch": 10.521488469601676,
      "grad_norm": 0.11294105648994446,
      "learning_rate": 0.0005417550598849441,
      "loss": 0.4621,
      "num_input_tokens_seen": 13130320,
      "step": 20075
    },
    {
      "epoch": 10.524109014675052,
      "grad_norm": 0.09705588966608047,
      "learning_rate": 0.0005415271686422534,
      "loss": 0.4202,
      "num_input_tokens_seen": 13133424,
      "step": 20080
    },
    {
      "epoch": 10.526729559748428,
      "grad_norm": 0.1080857589840889,
      "learning_rate": 0.0005412992687125527,
      "loss": 0.546,
      "num_input_tokens_seen": 13137136,
      "step": 20085
    },
    {
      "epoch": 10.529350104821804,
      "grad_norm": 0.09554098546504974,
      "learning_rate": 0.0005410713601435164,
      "loss": 0.4206,
      "num_input_tokens_seen": 13141264,
      "step": 20090
    },
    {
      "epoch": 10.531970649895179,
      "grad_norm": 0.09764166921377182,
      "learning_rate": 0.0005408434429828199,
      "loss": 0.5339,
      "num_input_tokens_seen": 13144624,
      "step": 20095
    },
    {
      "epoch": 10.534591194968554,
      "grad_norm": 0.14547541737556458,
      "learning_rate": 0.0005406155172781412,
      "loss": 0.3981,
      "num_input_tokens_seen": 13147216,
      "step": 20100
    },
    {
      "epoch": 10.53721174004193,
      "grad_norm": 0.18322041630744934,
      "learning_rate": 0.0005403875830771596,
      "loss": 0.5044,
      "num_input_tokens_seen": 13149296,
      "step": 20105
    },
    {
      "epoch": 10.539832285115304,
      "grad_norm": 0.12409302592277527,
      "learning_rate": 0.0005401596404275564,
      "loss": 0.426,
      "num_input_tokens_seen": 13153904,
      "step": 20110
    },
    {
      "epoch": 10.54245283018868,
      "grad_norm": 0.10267042368650436,
      "learning_rate": 0.0005399316893770147,
      "loss": 0.4315,
      "num_input_tokens_seen": 13157104,
      "step": 20115
    },
    {
      "epoch": 10.545073375262055,
      "grad_norm": 0.19311857223510742,
      "learning_rate": 0.0005397037299732189,
      "loss": 0.4539,
      "num_input_tokens_seen": 13159376,
      "step": 20120
    },
    {
      "epoch": 10.54769392033543,
      "grad_norm": 0.1746598780155182,
      "learning_rate": 0.000539475762263856,
      "loss": 0.5521,
      "num_input_tokens_seen": 13162384,
      "step": 20125
    },
    {
      "epoch": 10.550314465408805,
      "grad_norm": 0.12186495214700699,
      "learning_rate": 0.0005392477862966138,
      "loss": 0.4256,
      "num_input_tokens_seen": 13165744,
      "step": 20130
    },
    {
      "epoch": 10.55293501048218,
      "grad_norm": 0.05994444340467453,
      "learning_rate": 0.0005390198021191827,
      "loss": 0.5244,
      "num_input_tokens_seen": 13169808,
      "step": 20135
    },
    {
      "epoch": 10.555555555555555,
      "grad_norm": 0.2298707664012909,
      "learning_rate": 0.000538791809779254,
      "loss": 0.5651,
      "num_input_tokens_seen": 13172624,
      "step": 20140
    },
    {
      "epoch": 10.55817610062893,
      "grad_norm": 0.09383752197027206,
      "learning_rate": 0.0005385638093245213,
      "loss": 0.4773,
      "num_input_tokens_seen": 13176208,
      "step": 20145
    },
    {
      "epoch": 10.560796645702306,
      "grad_norm": 0.15380476415157318,
      "learning_rate": 0.0005383358008026795,
      "loss": 0.4695,
      "num_input_tokens_seen": 13179216,
      "step": 20150
    },
    {
      "epoch": 10.56341719077568,
      "grad_norm": 0.1073630154132843,
      "learning_rate": 0.0005381077842614257,
      "loss": 0.4918,
      "num_input_tokens_seen": 13182960,
      "step": 20155
    },
    {
      "epoch": 10.566037735849056,
      "grad_norm": 0.10758231580257416,
      "learning_rate": 0.0005378797597484582,
      "loss": 0.2871,
      "num_input_tokens_seen": 13186384,
      "step": 20160
    },
    {
      "epoch": 10.568658280922431,
      "grad_norm": 0.07566418498754501,
      "learning_rate": 0.0005376517273114771,
      "loss": 0.2701,
      "num_input_tokens_seen": 13189712,
      "step": 20165
    },
    {
      "epoch": 10.571278825995806,
      "grad_norm": 0.07944080233573914,
      "learning_rate": 0.0005374236869981841,
      "loss": 0.4785,
      "num_input_tokens_seen": 13193424,
      "step": 20170
    },
    {
      "epoch": 10.573899371069182,
      "grad_norm": 0.09591969847679138,
      "learning_rate": 0.0005371956388562827,
      "loss": 0.3639,
      "num_input_tokens_seen": 13196400,
      "step": 20175
    },
    {
      "epoch": 10.576519916142558,
      "grad_norm": 0.09417932480573654,
      "learning_rate": 0.0005369675829334782,
      "loss": 0.4777,
      "num_input_tokens_seen": 13200048,
      "step": 20180
    },
    {
      "epoch": 10.579140461215934,
      "grad_norm": 0.12700992822647095,
      "learning_rate": 0.0005367395192774769,
      "loss": 0.4881,
      "num_input_tokens_seen": 13202896,
      "step": 20185
    },
    {
      "epoch": 10.581761006289309,
      "grad_norm": 0.09752273559570312,
      "learning_rate": 0.0005365114479359875,
      "loss": 0.4382,
      "num_input_tokens_seen": 13205520,
      "step": 20190
    },
    {
      "epoch": 10.584381551362684,
      "grad_norm": 0.2484527975320816,
      "learning_rate": 0.0005362833689567197,
      "loss": 0.4042,
      "num_input_tokens_seen": 13208784,
      "step": 20195
    },
    {
      "epoch": 10.58700209643606,
      "grad_norm": 0.10122301429510117,
      "learning_rate": 0.0005360552823873849,
      "loss": 0.383,
      "num_input_tokens_seen": 13211952,
      "step": 20200
    },
    {
      "epoch": 10.589622641509434,
      "grad_norm": 0.11846350133419037,
      "learning_rate": 0.0005358271882756966,
      "loss": 0.386,
      "num_input_tokens_seen": 13214960,
      "step": 20205
    },
    {
      "epoch": 10.59224318658281,
      "grad_norm": 0.1013234555721283,
      "learning_rate": 0.0005355990866693689,
      "loss": 0.3841,
      "num_input_tokens_seen": 13219312,
      "step": 20210
    },
    {
      "epoch": 10.594863731656185,
      "grad_norm": 0.1291189342737198,
      "learning_rate": 0.0005353709776161187,
      "loss": 0.5806,
      "num_input_tokens_seen": 13222192,
      "step": 20215
    },
    {
      "epoch": 10.59748427672956,
      "grad_norm": 0.12985040247440338,
      "learning_rate": 0.0005351428611636636,
      "loss": 0.4816,
      "num_input_tokens_seen": 13225360,
      "step": 20220
    },
    {
      "epoch": 10.600104821802935,
      "grad_norm": 0.08218854665756226,
      "learning_rate": 0.0005349147373597226,
      "loss": 0.3544,
      "num_input_tokens_seen": 13227792,
      "step": 20225
    },
    {
      "epoch": 10.60272536687631,
      "grad_norm": 0.074201799929142,
      "learning_rate": 0.000534686606252017,
      "loss": 0.3877,
      "num_input_tokens_seen": 13231376,
      "step": 20230
    },
    {
      "epoch": 10.605345911949685,
      "grad_norm": 0.1384575217962265,
      "learning_rate": 0.0005344584678882692,
      "loss": 0.4181,
      "num_input_tokens_seen": 13234224,
      "step": 20235
    },
    {
      "epoch": 10.60796645702306,
      "grad_norm": 0.19433534145355225,
      "learning_rate": 0.0005342303223162027,
      "loss": 0.3712,
      "num_input_tokens_seen": 13239056,
      "step": 20240
    },
    {
      "epoch": 10.610587002096436,
      "grad_norm": 0.08937541395425797,
      "learning_rate": 0.0005340021695835437,
      "loss": 0.4807,
      "num_input_tokens_seen": 13242672,
      "step": 20245
    },
    {
      "epoch": 10.61320754716981,
      "grad_norm": 0.17228838801383972,
      "learning_rate": 0.0005337740097380184,
      "loss": 0.365,
      "num_input_tokens_seen": 13246736,
      "step": 20250
    },
    {
      "epoch": 10.615828092243186,
      "grad_norm": 0.16918812692165375,
      "learning_rate": 0.0005335458428273557,
      "loss": 0.5352,
      "num_input_tokens_seen": 13249456,
      "step": 20255
    },
    {
      "epoch": 10.618448637316561,
      "grad_norm": 0.11196526885032654,
      "learning_rate": 0.0005333176688992855,
      "loss": 0.5007,
      "num_input_tokens_seen": 13252400,
      "step": 20260
    },
    {
      "epoch": 10.621069182389936,
      "grad_norm": 0.11927324533462524,
      "learning_rate": 0.000533089488001539,
      "loss": 0.355,
      "num_input_tokens_seen": 13255696,
      "step": 20265
    },
    {
      "epoch": 10.623689727463312,
      "grad_norm": 0.13398364186286926,
      "learning_rate": 0.0005328613001818492,
      "loss": 0.4725,
      "num_input_tokens_seen": 13259888,
      "step": 20270
    },
    {
      "epoch": 10.626310272536688,
      "grad_norm": 0.07860983908176422,
      "learning_rate": 0.0005326331054879502,
      "loss": 0.449,
      "num_input_tokens_seen": 13263472,
      "step": 20275
    },
    {
      "epoch": 10.628930817610064,
      "grad_norm": 0.11445692181587219,
      "learning_rate": 0.0005324049039675778,
      "loss": 0.5253,
      "num_input_tokens_seen": 13266224,
      "step": 20280
    },
    {
      "epoch": 10.631551362683439,
      "grad_norm": 0.16769415140151978,
      "learning_rate": 0.0005321766956684693,
      "loss": 0.5755,
      "num_input_tokens_seen": 13268880,
      "step": 20285
    },
    {
      "epoch": 10.634171907756814,
      "grad_norm": 0.08004815876483917,
      "learning_rate": 0.0005319484806383631,
      "loss": 0.4188,
      "num_input_tokens_seen": 13271760,
      "step": 20290
    },
    {
      "epoch": 10.63679245283019,
      "grad_norm": 0.08840951323509216,
      "learning_rate": 0.0005317202589249991,
      "loss": 0.3403,
      "num_input_tokens_seen": 13275152,
      "step": 20295
    },
    {
      "epoch": 10.639412997903564,
      "grad_norm": 0.15366047620773315,
      "learning_rate": 0.0005314920305761191,
      "loss": 0.3866,
      "num_input_tokens_seen": 13278480,
      "step": 20300
    },
    {
      "epoch": 10.64203354297694,
      "grad_norm": 0.12041846662759781,
      "learning_rate": 0.0005312637956394654,
      "loss": 0.3855,
      "num_input_tokens_seen": 13281552,
      "step": 20305
    },
    {
      "epoch": 10.644654088050315,
      "grad_norm": 0.07209902256727219,
      "learning_rate": 0.0005310355541627824,
      "loss": 0.5313,
      "num_input_tokens_seen": 13284816,
      "step": 20310
    },
    {
      "epoch": 10.64727463312369,
      "grad_norm": 0.1548357903957367,
      "learning_rate": 0.0005308073061938153,
      "loss": 0.3358,
      "num_input_tokens_seen": 13287600,
      "step": 20315
    },
    {
      "epoch": 10.649895178197065,
      "grad_norm": 0.21545851230621338,
      "learning_rate": 0.0005305790517803115,
      "loss": 0.3812,
      "num_input_tokens_seen": 13290512,
      "step": 20320
    },
    {
      "epoch": 10.65251572327044,
      "grad_norm": 0.13787053525447845,
      "learning_rate": 0.0005303507909700189,
      "loss": 0.414,
      "num_input_tokens_seen": 13293392,
      "step": 20325
    },
    {
      "epoch": 10.655136268343815,
      "grad_norm": 0.1275073140859604,
      "learning_rate": 0.000530122523810687,
      "loss": 0.5827,
      "num_input_tokens_seen": 13296816,
      "step": 20330
    },
    {
      "epoch": 10.65775681341719,
      "grad_norm": 0.13004836440086365,
      "learning_rate": 0.0005298942503500668,
      "loss": 0.3773,
      "num_input_tokens_seen": 13300336,
      "step": 20335
    },
    {
      "epoch": 10.660377358490566,
      "grad_norm": 0.14033293724060059,
      "learning_rate": 0.0005296659706359105,
      "loss": 0.6631,
      "num_input_tokens_seen": 13303312,
      "step": 20340
    },
    {
      "epoch": 10.66299790356394,
      "grad_norm": 0.0711798220872879,
      "learning_rate": 0.0005294376847159716,
      "loss": 0.2857,
      "num_input_tokens_seen": 13305968,
      "step": 20345
    },
    {
      "epoch": 10.665618448637316,
      "grad_norm": 0.1705457717180252,
      "learning_rate": 0.0005292093926380049,
      "loss": 0.3813,
      "num_input_tokens_seen": 13309392,
      "step": 20350
    },
    {
      "epoch": 10.668238993710691,
      "grad_norm": 0.14371532201766968,
      "learning_rate": 0.0005289810944497663,
      "loss": 0.4098,
      "num_input_tokens_seen": 13312336,
      "step": 20355
    },
    {
      "epoch": 10.670859538784066,
      "grad_norm": 0.13246919214725494,
      "learning_rate": 0.0005287527901990137,
      "loss": 0.4402,
      "num_input_tokens_seen": 13315312,
      "step": 20360
    },
    {
      "epoch": 10.673480083857442,
      "grad_norm": 0.10288229584693909,
      "learning_rate": 0.0005285244799335053,
      "loss": 0.4565,
      "num_input_tokens_seen": 13318384,
      "step": 20365
    },
    {
      "epoch": 10.676100628930818,
      "grad_norm": 0.0996081605553627,
      "learning_rate": 0.0005282961637010009,
      "loss": 0.4811,
      "num_input_tokens_seen": 13322224,
      "step": 20370
    },
    {
      "epoch": 10.678721174004194,
      "grad_norm": 0.22424200177192688,
      "learning_rate": 0.0005280678415492621,
      "loss": 0.6944,
      "num_input_tokens_seen": 13324368,
      "step": 20375
    },
    {
      "epoch": 10.681341719077569,
      "grad_norm": 0.11897172778844833,
      "learning_rate": 0.0005278395135260512,
      "loss": 0.3758,
      "num_input_tokens_seen": 13327632,
      "step": 20380
    },
    {
      "epoch": 10.683962264150944,
      "grad_norm": 0.16336151957511902,
      "learning_rate": 0.0005276111796791314,
      "loss": 0.4305,
      "num_input_tokens_seen": 13330064,
      "step": 20385
    },
    {
      "epoch": 10.68658280922432,
      "grad_norm": 0.07785195857286453,
      "learning_rate": 0.000527382840056268,
      "loss": 0.5768,
      "num_input_tokens_seen": 13336944,
      "step": 20390
    },
    {
      "epoch": 10.689203354297694,
      "grad_norm": 0.11735659837722778,
      "learning_rate": 0.0005271544947052267,
      "loss": 0.477,
      "num_input_tokens_seen": 13340048,
      "step": 20395
    },
    {
      "epoch": 10.69182389937107,
      "grad_norm": 0.21618977189064026,
      "learning_rate": 0.000526926143673775,
      "loss": 0.4421,
      "num_input_tokens_seen": 13343024,
      "step": 20400
    },
    {
      "epoch": 10.694444444444445,
      "grad_norm": 0.13255126774311066,
      "learning_rate": 0.0005266977870096813,
      "loss": 0.4076,
      "num_input_tokens_seen": 13345968,
      "step": 20405
    },
    {
      "epoch": 10.69706498951782,
      "grad_norm": 0.08720987290143967,
      "learning_rate": 0.000526469424760715,
      "loss": 0.4836,
      "num_input_tokens_seen": 13349776,
      "step": 20410
    },
    {
      "epoch": 10.699685534591195,
      "grad_norm": 0.1572212427854538,
      "learning_rate": 0.0005262410569746471,
      "loss": 0.3865,
      "num_input_tokens_seen": 13352080,
      "step": 20415
    },
    {
      "epoch": 10.70230607966457,
      "grad_norm": 0.17206795513629913,
      "learning_rate": 0.0005260126836992495,
      "loss": 0.4251,
      "num_input_tokens_seen": 13354672,
      "step": 20420
    },
    {
      "epoch": 10.704926624737945,
      "grad_norm": 0.08849430084228516,
      "learning_rate": 0.000525784304982295,
      "loss": 0.3378,
      "num_input_tokens_seen": 13357776,
      "step": 20425
    },
    {
      "epoch": 10.70754716981132,
      "grad_norm": 0.1063152328133583,
      "learning_rate": 0.0005255559208715585,
      "loss": 0.408,
      "num_input_tokens_seen": 13360240,
      "step": 20430
    },
    {
      "epoch": 10.710167714884696,
      "grad_norm": 0.10447622090578079,
      "learning_rate": 0.0005253275314148145,
      "loss": 0.4446,
      "num_input_tokens_seen": 13363280,
      "step": 20435
    },
    {
      "epoch": 10.71278825995807,
      "grad_norm": 0.14268936216831207,
      "learning_rate": 0.0005250991366598401,
      "loss": 0.522,
      "num_input_tokens_seen": 13366256,
      "step": 20440
    },
    {
      "epoch": 10.715408805031446,
      "grad_norm": 0.0730779767036438,
      "learning_rate": 0.0005248707366544126,
      "loss": 0.4579,
      "num_input_tokens_seen": 13369968,
      "step": 20445
    },
    {
      "epoch": 10.718029350104821,
      "grad_norm": 0.07629238814115524,
      "learning_rate": 0.0005246423314463106,
      "loss": 0.4297,
      "num_input_tokens_seen": 13372784,
      "step": 20450
    },
    {
      "epoch": 10.720649895178196,
      "grad_norm": 0.10633382946252823,
      "learning_rate": 0.000524413921083314,
      "loss": 0.4923,
      "num_input_tokens_seen": 13375984,
      "step": 20455
    },
    {
      "epoch": 10.723270440251572,
      "grad_norm": 0.08739462494850159,
      "learning_rate": 0.0005241855056132039,
      "loss": 0.4033,
      "num_input_tokens_seen": 13379120,
      "step": 20460
    },
    {
      "epoch": 10.725890985324948,
      "grad_norm": 0.24859100580215454,
      "learning_rate": 0.0005239570850837617,
      "loss": 0.4691,
      "num_input_tokens_seen": 13383664,
      "step": 20465
    },
    {
      "epoch": 10.728511530398324,
      "grad_norm": 0.1354992389678955,
      "learning_rate": 0.0005237286595427709,
      "loss": 0.4478,
      "num_input_tokens_seen": 13386736,
      "step": 20470
    },
    {
      "epoch": 10.731132075471699,
      "grad_norm": 0.08983274549245834,
      "learning_rate": 0.000523500229038015,
      "loss": 0.4229,
      "num_input_tokens_seen": 13390480,
      "step": 20475
    },
    {
      "epoch": 10.733752620545074,
      "grad_norm": 0.1688999980688095,
      "learning_rate": 0.0005232717936172794,
      "loss": 0.4557,
      "num_input_tokens_seen": 13393680,
      "step": 20480
    },
    {
      "epoch": 10.73637316561845,
      "grad_norm": 0.12979763746261597,
      "learning_rate": 0.0005230433533283498,
      "loss": 0.318,
      "num_input_tokens_seen": 13399760,
      "step": 20485
    },
    {
      "epoch": 10.738993710691824,
      "grad_norm": 0.1197306290268898,
      "learning_rate": 0.0005228149082190139,
      "loss": 0.4995,
      "num_input_tokens_seen": 13402064,
      "step": 20490
    },
    {
      "epoch": 10.7416142557652,
      "grad_norm": 0.09577669203281403,
      "learning_rate": 0.0005225864583370594,
      "loss": 0.3374,
      "num_input_tokens_seen": 13405456,
      "step": 20495
    },
    {
      "epoch": 10.744234800838575,
      "grad_norm": 0.15832535922527313,
      "learning_rate": 0.0005223580037302754,
      "loss": 0.3919,
      "num_input_tokens_seen": 13408368,
      "step": 20500
    },
    {
      "epoch": 10.74685534591195,
      "grad_norm": 0.09838209301233292,
      "learning_rate": 0.0005221295444464522,
      "loss": 0.455,
      "num_input_tokens_seen": 13411504,
      "step": 20505
    },
    {
      "epoch": 10.749475890985325,
      "grad_norm": 0.1352594792842865,
      "learning_rate": 0.0005219010805333807,
      "loss": 0.5306,
      "num_input_tokens_seen": 13414672,
      "step": 20510
    },
    {
      "epoch": 10.7520964360587,
      "grad_norm": 0.19744354486465454,
      "learning_rate": 0.000521672612038853,
      "loss": 0.4616,
      "num_input_tokens_seen": 13417232,
      "step": 20515
    },
    {
      "epoch": 10.754716981132075,
      "grad_norm": 0.15217716991901398,
      "learning_rate": 0.0005214441390106624,
      "loss": 0.4501,
      "num_input_tokens_seen": 13420688,
      "step": 20520
    },
    {
      "epoch": 10.75733752620545,
      "grad_norm": 0.17864617705345154,
      "learning_rate": 0.0005212156614966022,
      "loss": 0.3209,
      "num_input_tokens_seen": 13423920,
      "step": 20525
    },
    {
      "epoch": 10.759958071278826,
      "grad_norm": 0.13771018385887146,
      "learning_rate": 0.0005209871795444678,
      "loss": 0.4418,
      "num_input_tokens_seen": 13426672,
      "step": 20530
    },
    {
      "epoch": 10.7625786163522,
      "grad_norm": 0.1460513025522232,
      "learning_rate": 0.000520758693202055,
      "loss": 0.4664,
      "num_input_tokens_seen": 13429904,
      "step": 20535
    },
    {
      "epoch": 10.765199161425576,
      "grad_norm": 0.09155745804309845,
      "learning_rate": 0.0005205302025171601,
      "loss": 0.4815,
      "num_input_tokens_seen": 13433168,
      "step": 20540
    },
    {
      "epoch": 10.767819706498951,
      "grad_norm": 0.06274152547121048,
      "learning_rate": 0.0005203017075375812,
      "loss": 0.2916,
      "num_input_tokens_seen": 13436624,
      "step": 20545
    },
    {
      "epoch": 10.770440251572326,
      "grad_norm": 0.09397861361503601,
      "learning_rate": 0.0005200732083111169,
      "loss": 0.4604,
      "num_input_tokens_seen": 13439984,
      "step": 20550
    },
    {
      "epoch": 10.773060796645701,
      "grad_norm": 0.07656978815793991,
      "learning_rate": 0.000519844704885566,
      "loss": 0.5065,
      "num_input_tokens_seen": 13443760,
      "step": 20555
    },
    {
      "epoch": 10.775681341719078,
      "grad_norm": 0.19536346197128296,
      "learning_rate": 0.0005196161973087297,
      "loss": 0.4735,
      "num_input_tokens_seen": 13446288,
      "step": 20560
    },
    {
      "epoch": 10.778301886792454,
      "grad_norm": 0.08114082366228104,
      "learning_rate": 0.0005193876856284084,
      "loss": 0.4164,
      "num_input_tokens_seen": 13449168,
      "step": 20565
    },
    {
      "epoch": 10.780922431865829,
      "grad_norm": 0.17077358067035675,
      "learning_rate": 0.0005191591698924046,
      "loss": 0.5395,
      "num_input_tokens_seen": 13452432,
      "step": 20570
    },
    {
      "epoch": 10.783542976939204,
      "grad_norm": 0.09164471924304962,
      "learning_rate": 0.0005189306501485211,
      "loss": 0.4452,
      "num_input_tokens_seen": 13455728,
      "step": 20575
    },
    {
      "epoch": 10.786163522012579,
      "grad_norm": 0.1347263753414154,
      "learning_rate": 0.0005187021264445613,
      "loss": 0.4176,
      "num_input_tokens_seen": 13458832,
      "step": 20580
    },
    {
      "epoch": 10.788784067085954,
      "grad_norm": 0.08672165870666504,
      "learning_rate": 0.0005184735988283302,
      "loss": 0.6042,
      "num_input_tokens_seen": 13462928,
      "step": 20585
    },
    {
      "epoch": 10.79140461215933,
      "grad_norm": 0.06844274699687958,
      "learning_rate": 0.000518245067347633,
      "loss": 0.476,
      "num_input_tokens_seen": 13465968,
      "step": 20590
    },
    {
      "epoch": 10.794025157232705,
      "grad_norm": 0.18196378648281097,
      "learning_rate": 0.0005180165320502756,
      "loss": 0.5012,
      "num_input_tokens_seen": 13469072,
      "step": 20595
    },
    {
      "epoch": 10.79664570230608,
      "grad_norm": 0.0766090378165245,
      "learning_rate": 0.0005177879929840655,
      "loss": 0.5144,
      "num_input_tokens_seen": 13472368,
      "step": 20600
    },
    {
      "epoch": 10.799266247379455,
      "grad_norm": 0.10859248787164688,
      "learning_rate": 0.0005175594501968103,
      "loss": 0.4105,
      "num_input_tokens_seen": 13475440,
      "step": 20605
    },
    {
      "epoch": 10.80188679245283,
      "grad_norm": 0.07974006980657578,
      "learning_rate": 0.0005173309037363182,
      "loss": 0.4789,
      "num_input_tokens_seen": 13478864,
      "step": 20610
    },
    {
      "epoch": 10.804507337526205,
      "grad_norm": 0.13627395033836365,
      "learning_rate": 0.0005171023536503991,
      "loss": 0.6491,
      "num_input_tokens_seen": 13482448,
      "step": 20615
    },
    {
      "epoch": 10.80712788259958,
      "grad_norm": 0.10436376184225082,
      "learning_rate": 0.0005168737999868624,
      "loss": 0.3696,
      "num_input_tokens_seen": 13485776,
      "step": 20620
    },
    {
      "epoch": 10.809748427672956,
      "grad_norm": 0.10518185794353485,
      "learning_rate": 0.0005166452427935193,
      "loss": 0.3919,
      "num_input_tokens_seen": 13488848,
      "step": 20625
    },
    {
      "epoch": 10.81236897274633,
      "grad_norm": 0.08872850984334946,
      "learning_rate": 0.0005164166821181814,
      "loss": 0.4023,
      "num_input_tokens_seen": 13492432,
      "step": 20630
    },
    {
      "epoch": 10.814989517819706,
      "grad_norm": 0.0860336422920227,
      "learning_rate": 0.0005161881180086607,
      "loss": 0.4083,
      "num_input_tokens_seen": 13496432,
      "step": 20635
    },
    {
      "epoch": 10.817610062893081,
      "grad_norm": 0.09196361899375916,
      "learning_rate": 0.0005159595505127705,
      "loss": 0.4178,
      "num_input_tokens_seen": 13499408,
      "step": 20640
    },
    {
      "epoch": 10.820230607966456,
      "grad_norm": 0.10799285024404526,
      "learning_rate": 0.0005157309796783246,
      "loss": 0.5126,
      "num_input_tokens_seen": 13503312,
      "step": 20645
    },
    {
      "epoch": 10.822851153039831,
      "grad_norm": 0.10018709301948547,
      "learning_rate": 0.000515502405553137,
      "loss": 0.3222,
      "num_input_tokens_seen": 13506096,
      "step": 20650
    },
    {
      "epoch": 10.825471698113208,
      "grad_norm": 0.14066238701343536,
      "learning_rate": 0.0005152738281850231,
      "loss": 0.3741,
      "num_input_tokens_seen": 13508688,
      "step": 20655
    },
    {
      "epoch": 10.828092243186584,
      "grad_norm": 0.08785887807607651,
      "learning_rate": 0.0005150452476217986,
      "loss": 0.3438,
      "num_input_tokens_seen": 13512112,
      "step": 20660
    },
    {
      "epoch": 10.830712788259959,
      "grad_norm": 0.1165466383099556,
      "learning_rate": 0.0005148166639112799,
      "loss": 0.5531,
      "num_input_tokens_seen": 13516304,
      "step": 20665
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.14563974738121033,
      "learning_rate": 0.0005145880771012842,
      "loss": 0.4817,
      "num_input_tokens_seen": 13520368,
      "step": 20670
    },
    {
      "epoch": 10.835953878406709,
      "grad_norm": 0.07942532747983932,
      "learning_rate": 0.0005143594872396291,
      "loss": 0.4181,
      "num_input_tokens_seen": 13523600,
      "step": 20675
    },
    {
      "epoch": 10.838574423480084,
      "grad_norm": 0.11947468668222427,
      "learning_rate": 0.0005141308943741333,
      "loss": 0.4708,
      "num_input_tokens_seen": 13527088,
      "step": 20680
    },
    {
      "epoch": 10.84119496855346,
      "grad_norm": 0.09993568807840347,
      "learning_rate": 0.0005139022985526154,
      "loss": 0.432,
      "num_input_tokens_seen": 13530384,
      "step": 20685
    },
    {
      "epoch": 10.843815513626835,
      "grad_norm": 0.1049220860004425,
      "learning_rate": 0.0005136736998228952,
      "loss": 0.4081,
      "num_input_tokens_seen": 13533520,
      "step": 20690
    },
    {
      "epoch": 10.84643605870021,
      "grad_norm": 0.12746529281139374,
      "learning_rate": 0.0005134450982327933,
      "loss": 0.4102,
      "num_input_tokens_seen": 13536560,
      "step": 20695
    },
    {
      "epoch": 10.849056603773585,
      "grad_norm": 0.06896073371171951,
      "learning_rate": 0.0005132164938301299,
      "loss": 0.4192,
      "num_input_tokens_seen": 13539504,
      "step": 20700
    },
    {
      "epoch": 10.85167714884696,
      "grad_norm": 0.0956515520811081,
      "learning_rate": 0.0005129878866627271,
      "loss": 0.3701,
      "num_input_tokens_seen": 13542864,
      "step": 20705
    },
    {
      "epoch": 10.854297693920335,
      "grad_norm": 0.13644416630268097,
      "learning_rate": 0.0005127592767784063,
      "loss": 0.4729,
      "num_input_tokens_seen": 13545328,
      "step": 20710
    },
    {
      "epoch": 10.85691823899371,
      "grad_norm": 0.058955494314432144,
      "learning_rate": 0.0005125306642249905,
      "loss": 0.5056,
      "num_input_tokens_seen": 13549072,
      "step": 20715
    },
    {
      "epoch": 10.859538784067086,
      "grad_norm": 0.15214239060878754,
      "learning_rate": 0.0005123020490503027,
      "loss": 0.3863,
      "num_input_tokens_seen": 13551760,
      "step": 20720
    },
    {
      "epoch": 10.86215932914046,
      "grad_norm": 0.13982461392879486,
      "learning_rate": 0.0005120734313021665,
      "loss": 0.5211,
      "num_input_tokens_seen": 13554896,
      "step": 20725
    },
    {
      "epoch": 10.864779874213836,
      "grad_norm": 0.11022590845823288,
      "learning_rate": 0.0005118448110284063,
      "loss": 0.407,
      "num_input_tokens_seen": 13557712,
      "step": 20730
    },
    {
      "epoch": 10.867400419287211,
      "grad_norm": 0.09659382700920105,
      "learning_rate": 0.0005116161882768469,
      "loss": 0.4348,
      "num_input_tokens_seen": 13561296,
      "step": 20735
    },
    {
      "epoch": 10.870020964360586,
      "grad_norm": 0.12465552240610123,
      "learning_rate": 0.0005113875630953131,
      "loss": 0.5143,
      "num_input_tokens_seen": 13564368,
      "step": 20740
    },
    {
      "epoch": 10.872641509433961,
      "grad_norm": 0.1137704849243164,
      "learning_rate": 0.0005111589355316314,
      "loss": 0.3734,
      "num_input_tokens_seen": 13566832,
      "step": 20745
    },
    {
      "epoch": 10.875262054507338,
      "grad_norm": 0.06239810958504677,
      "learning_rate": 0.0005109303056336274,
      "loss": 0.4744,
      "num_input_tokens_seen": 13570544,
      "step": 20750
    },
    {
      "epoch": 10.877882599580714,
      "grad_norm": 0.1259906142950058,
      "learning_rate": 0.0005107016734491281,
      "loss": 0.5684,
      "num_input_tokens_seen": 13575376,
      "step": 20755
    },
    {
      "epoch": 10.880503144654089,
      "grad_norm": 0.08196968585252762,
      "learning_rate": 0.0005104730390259611,
      "loss": 0.4053,
      "num_input_tokens_seen": 13578320,
      "step": 20760
    },
    {
      "epoch": 10.883123689727464,
      "grad_norm": 0.18472932279109955,
      "learning_rate": 0.0005102444024119537,
      "loss": 0.4124,
      "num_input_tokens_seen": 13581520,
      "step": 20765
    },
    {
      "epoch": 10.885744234800839,
      "grad_norm": 0.12002554535865784,
      "learning_rate": 0.0005100157636549342,
      "loss": 0.5158,
      "num_input_tokens_seen": 13584304,
      "step": 20770
    },
    {
      "epoch": 10.888364779874214,
      "grad_norm": 0.07641216367483139,
      "learning_rate": 0.0005097871228027312,
      "loss": 0.3972,
      "num_input_tokens_seen": 13587376,
      "step": 20775
    },
    {
      "epoch": 10.89098532494759,
      "grad_norm": 0.07742314040660858,
      "learning_rate": 0.0005095584799031736,
      "loss": 0.4722,
      "num_input_tokens_seen": 13590160,
      "step": 20780
    },
    {
      "epoch": 10.893605870020965,
      "grad_norm": 0.21535742282867432,
      "learning_rate": 0.0005093298350040912,
      "loss": 0.4984,
      "num_input_tokens_seen": 13593328,
      "step": 20785
    },
    {
      "epoch": 10.89622641509434,
      "grad_norm": 0.10319618880748749,
      "learning_rate": 0.0005091011881533139,
      "loss": 0.4374,
      "num_input_tokens_seen": 13596496,
      "step": 20790
    },
    {
      "epoch": 10.898846960167715,
      "grad_norm": 0.11559250205755234,
      "learning_rate": 0.0005088725393986716,
      "loss": 0.4532,
      "num_input_tokens_seen": 13599728,
      "step": 20795
    },
    {
      "epoch": 10.90146750524109,
      "grad_norm": 0.17660388350486755,
      "learning_rate": 0.0005086438887879955,
      "loss": 0.4764,
      "num_input_tokens_seen": 13602544,
      "step": 20800
    },
    {
      "epoch": 10.904088050314465,
      "grad_norm": 0.1528492420911789,
      "learning_rate": 0.0005084152363691164,
      "loss": 0.5769,
      "num_input_tokens_seen": 13605360,
      "step": 20805
    },
    {
      "epoch": 10.90670859538784,
      "grad_norm": 0.11377809196710587,
      "learning_rate": 0.0005081865821898658,
      "loss": 0.4101,
      "num_input_tokens_seen": 13608272,
      "step": 20810
    },
    {
      "epoch": 10.909329140461216,
      "grad_norm": 0.11455468088388443,
      "learning_rate": 0.0005079579262980756,
      "loss": 0.3129,
      "num_input_tokens_seen": 13611504,
      "step": 20815
    },
    {
      "epoch": 10.91194968553459,
      "grad_norm": 0.08448880165815353,
      "learning_rate": 0.0005077292687415781,
      "loss": 0.3763,
      "num_input_tokens_seen": 13615024,
      "step": 20820
    },
    {
      "epoch": 10.914570230607966,
      "grad_norm": 0.1391264796257019,
      "learning_rate": 0.0005075006095682056,
      "loss": 0.3884,
      "num_input_tokens_seen": 13618320,
      "step": 20825
    },
    {
      "epoch": 10.917190775681341,
      "grad_norm": 0.11559124290943146,
      "learning_rate": 0.0005072719488257914,
      "loss": 0.4317,
      "num_input_tokens_seen": 13621488,
      "step": 20830
    },
    {
      "epoch": 10.919811320754716,
      "grad_norm": 0.1153673306107521,
      "learning_rate": 0.0005070432865621683,
      "loss": 0.4995,
      "num_input_tokens_seen": 13624624,
      "step": 20835
    },
    {
      "epoch": 10.922431865828091,
      "grad_norm": 0.11029831320047379,
      "learning_rate": 0.00050681462282517,
      "loss": 0.4696,
      "num_input_tokens_seen": 13627408,
      "step": 20840
    },
    {
      "epoch": 10.925052410901468,
      "grad_norm": 0.13978932797908783,
      "learning_rate": 0.0005065859576626304,
      "loss": 0.4471,
      "num_input_tokens_seen": 13630160,
      "step": 20845
    },
    {
      "epoch": 10.927672955974844,
      "grad_norm": 0.09073396027088165,
      "learning_rate": 0.0005063572911223836,
      "loss": 0.7769,
      "num_input_tokens_seen": 13634320,
      "step": 20850
    },
    {
      "epoch": 10.930293501048219,
      "grad_norm": 0.0778157189488411,
      "learning_rate": 0.0005061286232522639,
      "loss": 0.4213,
      "num_input_tokens_seen": 13638608,
      "step": 20855
    },
    {
      "epoch": 10.932914046121594,
      "grad_norm": 0.10231438279151917,
      "learning_rate": 0.0005058999541001064,
      "loss": 0.3433,
      "num_input_tokens_seen": 13641616,
      "step": 20860
    },
    {
      "epoch": 10.935534591194969,
      "grad_norm": 0.08654867857694626,
      "learning_rate": 0.0005056712837137456,
      "loss": 0.471,
      "num_input_tokens_seen": 13644496,
      "step": 20865
    },
    {
      "epoch": 10.938155136268344,
      "grad_norm": 0.06576238572597504,
      "learning_rate": 0.000505442612141017,
      "loss": 0.5535,
      "num_input_tokens_seen": 13647696,
      "step": 20870
    },
    {
      "epoch": 10.94077568134172,
      "grad_norm": 0.1388673186302185,
      "learning_rate": 0.000505213939429756,
      "loss": 0.4725,
      "num_input_tokens_seen": 13650256,
      "step": 20875
    },
    {
      "epoch": 10.943396226415095,
      "grad_norm": 0.13743309676647186,
      "learning_rate": 0.0005049852656277984,
      "loss": 0.5305,
      "num_input_tokens_seen": 13652816,
      "step": 20880
    },
    {
      "epoch": 10.94601677148847,
      "grad_norm": 0.07688569277524948,
      "learning_rate": 0.0005047565907829801,
      "loss": 0.3891,
      "num_input_tokens_seen": 13655216,
      "step": 20885
    },
    {
      "epoch": 10.948637316561845,
      "grad_norm": 0.05860167369246483,
      "learning_rate": 0.0005045279149431374,
      "loss": 0.3946,
      "num_input_tokens_seen": 13658704,
      "step": 20890
    },
    {
      "epoch": 10.95125786163522,
      "grad_norm": 0.11926306039094925,
      "learning_rate": 0.0005042992381561063,
      "loss": 0.5596,
      "num_input_tokens_seen": 13661936,
      "step": 20895
    },
    {
      "epoch": 10.953878406708595,
      "grad_norm": 0.20967243611812592,
      "learning_rate": 0.0005040705604697238,
      "loss": 0.4308,
      "num_input_tokens_seen": 13665136,
      "step": 20900
    },
    {
      "epoch": 10.95649895178197,
      "grad_norm": 0.29654461145401,
      "learning_rate": 0.0005038418819318265,
      "loss": 0.3543,
      "num_input_tokens_seen": 13668112,
      "step": 20905
    },
    {
      "epoch": 10.959119496855346,
      "grad_norm": 0.10982482135295868,
      "learning_rate": 0.0005036132025902511,
      "loss": 0.4013,
      "num_input_tokens_seen": 13671344,
      "step": 20910
    },
    {
      "epoch": 10.96174004192872,
      "grad_norm": 0.08484020829200745,
      "learning_rate": 0.0005033845224928352,
      "loss": 0.5772,
      "num_input_tokens_seen": 13674608,
      "step": 20915
    },
    {
      "epoch": 10.964360587002096,
      "grad_norm": 0.1140633076429367,
      "learning_rate": 0.0005031558416874156,
      "loss": 0.4114,
      "num_input_tokens_seen": 13678000,
      "step": 20920
    },
    {
      "epoch": 10.966981132075471,
      "grad_norm": 0.15954598784446716,
      "learning_rate": 0.0005029271602218301,
      "loss": 0.5209,
      "num_input_tokens_seen": 13681008,
      "step": 20925
    },
    {
      "epoch": 10.969601677148846,
      "grad_norm": 0.12364835292100906,
      "learning_rate": 0.0005026984781439162,
      "loss": 0.4915,
      "num_input_tokens_seen": 13684656,
      "step": 20930
    },
    {
      "epoch": 10.972222222222221,
      "grad_norm": 0.13842226564884186,
      "learning_rate": 0.0005024697955015112,
      "loss": 0.5391,
      "num_input_tokens_seen": 13688016,
      "step": 20935
    },
    {
      "epoch": 10.974842767295598,
      "grad_norm": 0.07403290271759033,
      "learning_rate": 0.0005022411123424532,
      "loss": 0.4736,
      "num_input_tokens_seen": 13691344,
      "step": 20940
    },
    {
      "epoch": 10.977463312368974,
      "grad_norm": 0.13261164724826813,
      "learning_rate": 0.00050201242871458,
      "loss": 0.6951,
      "num_input_tokens_seen": 13694768,
      "step": 20945
    },
    {
      "epoch": 10.980083857442349,
      "grad_norm": 0.12205220758914948,
      "learning_rate": 0.0005017837446657298,
      "loss": 0.4217,
      "num_input_tokens_seen": 13698224,
      "step": 20950
    },
    {
      "epoch": 10.982704402515724,
      "grad_norm": 0.13761107623577118,
      "learning_rate": 0.0005015550602437405,
      "loss": 0.4421,
      "num_input_tokens_seen": 13701008,
      "step": 20955
    },
    {
      "epoch": 10.985324947589099,
      "grad_norm": 0.14526185393333435,
      "learning_rate": 0.0005013263754964504,
      "loss": 0.6373,
      "num_input_tokens_seen": 13703920,
      "step": 20960
    },
    {
      "epoch": 10.987945492662474,
      "grad_norm": 0.2505125403404236,
      "learning_rate": 0.0005010976904716977,
      "loss": 0.4848,
      "num_input_tokens_seen": 13706448,
      "step": 20965
    },
    {
      "epoch": 10.99056603773585,
      "grad_norm": 0.07808136194944382,
      "learning_rate": 0.0005008690052173206,
      "loss": 0.523,
      "num_input_tokens_seen": 13710128,
      "step": 20970
    },
    {
      "epoch": 10.993186582809225,
      "grad_norm": 0.15591908991336823,
      "learning_rate": 0.0005006403197811575,
      "loss": 0.3551,
      "num_input_tokens_seen": 13712880,
      "step": 20975
    },
    {
      "epoch": 10.9958071278826,
      "grad_norm": 0.20549099147319794,
      "learning_rate": 0.0005004116342110469,
      "loss": 0.4906,
      "num_input_tokens_seen": 13716336,
      "step": 20980
    },
    {
      "epoch": 10.998427672955975,
      "grad_norm": 0.15596912801265717,
      "learning_rate": 0.0005001829485548272,
      "loss": 0.3392,
      "num_input_tokens_seen": 13719088,
      "step": 20985
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.475684255361557,
      "eval_runtime": 13.5183,
      "eval_samples_per_second": 62.73,
      "eval_steps_per_second": 15.682,
      "num_input_tokens_seen": 13719896,
      "step": 20988
    },
    {
      "epoch": 11.00104821802935,
      "grad_norm": 0.08504639565944672,
      "learning_rate": 0.0004999542628603364,
      "loss": 0.5631,
      "num_input_tokens_seen": 13722872,
      "step": 20990
    },
    {
      "epoch": 11.003668763102725,
      "grad_norm": 0.06874239444732666,
      "learning_rate": 0.0004997255771754136,
      "loss": 0.445,
      "num_input_tokens_seen": 13729624,
      "step": 20995
    },
    {
      "epoch": 11.0062893081761,
      "grad_norm": 0.1375078409910202,
      "learning_rate": 0.0004994968915478969,
      "loss": 0.3801,
      "num_input_tokens_seen": 13731896,
      "step": 21000
    },
    {
      "epoch": 11.008909853249476,
      "grad_norm": 0.10310884565114975,
      "learning_rate": 0.0004992682060256246,
      "loss": 0.4571,
      "num_input_tokens_seen": 13735160,
      "step": 21005
    },
    {
      "epoch": 11.01153039832285,
      "grad_norm": 0.1057867556810379,
      "learning_rate": 0.0004990395206564353,
      "loss": 0.3798,
      "num_input_tokens_seen": 13738488,
      "step": 21010
    },
    {
      "epoch": 11.014150943396226,
      "grad_norm": 0.1101999282836914,
      "learning_rate": 0.0004988108354881674,
      "loss": 0.4483,
      "num_input_tokens_seen": 13741752,
      "step": 21015
    },
    {
      "epoch": 11.016771488469601,
      "grad_norm": 0.0917770192027092,
      "learning_rate": 0.0004985821505686591,
      "loss": 0.3145,
      "num_input_tokens_seen": 13744248,
      "step": 21020
    },
    {
      "epoch": 11.019392033542976,
      "grad_norm": 0.14688740670681,
      "learning_rate": 0.0004983534659457489,
      "loss": 0.4462,
      "num_input_tokens_seen": 13748056,
      "step": 21025
    },
    {
      "epoch": 11.022012578616351,
      "grad_norm": 0.09403859823942184,
      "learning_rate": 0.0004981247816672745,
      "loss": 0.4699,
      "num_input_tokens_seen": 13751512,
      "step": 21030
    },
    {
      "epoch": 11.024633123689727,
      "grad_norm": 0.22704407572746277,
      "learning_rate": 0.0004978960977810746,
      "loss": 0.5528,
      "num_input_tokens_seen": 13755384,
      "step": 21035
    },
    {
      "epoch": 11.027253668763104,
      "grad_norm": 0.15987452864646912,
      "learning_rate": 0.0004976674143349869,
      "loss": 0.4879,
      "num_input_tokens_seen": 13758904,
      "step": 21040
    },
    {
      "epoch": 11.029874213836479,
      "grad_norm": 0.084786556661129,
      "learning_rate": 0.0004974387313768497,
      "loss": 0.4689,
      "num_input_tokens_seen": 13762712,
      "step": 21045
    },
    {
      "epoch": 11.032494758909854,
      "grad_norm": 0.1154228001832962,
      "learning_rate": 0.0004972100489545007,
      "loss": 0.4581,
      "num_input_tokens_seen": 13765784,
      "step": 21050
    },
    {
      "epoch": 11.035115303983229,
      "grad_norm": 0.09591463953256607,
      "learning_rate": 0.0004969813671157774,
      "loss": 0.4398,
      "num_input_tokens_seen": 13769304,
      "step": 21055
    },
    {
      "epoch": 11.037735849056604,
      "grad_norm": 0.10214737802743912,
      "learning_rate": 0.0004967526859085177,
      "loss": 0.5287,
      "num_input_tokens_seen": 13772920,
      "step": 21060
    },
    {
      "epoch": 11.04035639412998,
      "grad_norm": 0.08912718296051025,
      "learning_rate": 0.0004965240053805591,
      "loss": 0.4457,
      "num_input_tokens_seen": 13776088,
      "step": 21065
    },
    {
      "epoch": 11.042976939203355,
      "grad_norm": 0.06887726485729218,
      "learning_rate": 0.000496295325579739,
      "loss": 0.3758,
      "num_input_tokens_seen": 13780824,
      "step": 21070
    },
    {
      "epoch": 11.04559748427673,
      "grad_norm": 0.06765013188123703,
      "learning_rate": 0.0004960666465538945,
      "loss": 0.429,
      "num_input_tokens_seen": 13784696,
      "step": 21075
    },
    {
      "epoch": 11.048218029350105,
      "grad_norm": 0.061831604689359665,
      "learning_rate": 0.0004958379683508627,
      "loss": 0.3269,
      "num_input_tokens_seen": 13789432,
      "step": 21080
    },
    {
      "epoch": 11.05083857442348,
      "grad_norm": 0.146749809384346,
      "learning_rate": 0.0004956092910184803,
      "loss": 0.4619,
      "num_input_tokens_seen": 13792632,
      "step": 21085
    },
    {
      "epoch": 11.053459119496855,
      "grad_norm": 0.15400977432727814,
      "learning_rate": 0.0004953806146045843,
      "loss": 0.4693,
      "num_input_tokens_seen": 13795640,
      "step": 21090
    },
    {
      "epoch": 11.05607966457023,
      "grad_norm": 0.10265624523162842,
      "learning_rate": 0.0004951519391570108,
      "loss": 0.3311,
      "num_input_tokens_seen": 13798680,
      "step": 21095
    },
    {
      "epoch": 11.058700209643606,
      "grad_norm": 0.15655405819416046,
      "learning_rate": 0.0004949232647235964,
      "loss": 0.43,
      "num_input_tokens_seen": 13801272,
      "step": 21100
    },
    {
      "epoch": 11.06132075471698,
      "grad_norm": 0.0929134264588356,
      "learning_rate": 0.0004946945913521771,
      "loss": 0.3757,
      "num_input_tokens_seen": 13804376,
      "step": 21105
    },
    {
      "epoch": 11.063941299790356,
      "grad_norm": 0.11248103529214859,
      "learning_rate": 0.0004944659190905889,
      "loss": 0.3825,
      "num_input_tokens_seen": 13809272,
      "step": 21110
    },
    {
      "epoch": 11.066561844863731,
      "grad_norm": 0.1749955266714096,
      "learning_rate": 0.0004942372479866674,
      "loss": 0.4349,
      "num_input_tokens_seen": 13812312,
      "step": 21115
    },
    {
      "epoch": 11.069182389937106,
      "grad_norm": 0.10067585110664368,
      "learning_rate": 0.0004940085780882475,
      "loss": 0.4584,
      "num_input_tokens_seen": 13815096,
      "step": 21120
    },
    {
      "epoch": 11.071802935010481,
      "grad_norm": 0.17349568009376526,
      "learning_rate": 0.0004937799094431649,
      "loss": 0.5205,
      "num_input_tokens_seen": 13818424,
      "step": 21125
    },
    {
      "epoch": 11.074423480083857,
      "grad_norm": 0.0983443483710289,
      "learning_rate": 0.0004935512420992542,
      "loss": 0.4235,
      "num_input_tokens_seen": 13821656,
      "step": 21130
    },
    {
      "epoch": 11.077044025157234,
      "grad_norm": 0.12062536925077438,
      "learning_rate": 0.0004933225761043502,
      "loss": 0.3725,
      "num_input_tokens_seen": 13824376,
      "step": 21135
    },
    {
      "epoch": 11.079664570230609,
      "grad_norm": 0.18131566047668457,
      "learning_rate": 0.0004930939115062872,
      "loss": 0.5497,
      "num_input_tokens_seen": 13827320,
      "step": 21140
    },
    {
      "epoch": 11.082285115303984,
      "grad_norm": 0.16223323345184326,
      "learning_rate": 0.0004928652483528989,
      "loss": 0.3781,
      "num_input_tokens_seen": 13829912,
      "step": 21145
    },
    {
      "epoch": 11.084905660377359,
      "grad_norm": 0.09620882570743561,
      "learning_rate": 0.0004926365866920193,
      "loss": 0.3372,
      "num_input_tokens_seen": 13832536,
      "step": 21150
    },
    {
      "epoch": 11.087526205450734,
      "grad_norm": 0.0906735435128212,
      "learning_rate": 0.0004924079265714817,
      "loss": 0.3466,
      "num_input_tokens_seen": 13836088,
      "step": 21155
    },
    {
      "epoch": 11.09014675052411,
      "grad_norm": 0.18608058989048004,
      "learning_rate": 0.0004921792680391193,
      "loss": 0.5266,
      "num_input_tokens_seen": 13839160,
      "step": 21160
    },
    {
      "epoch": 11.092767295597485,
      "grad_norm": 0.11412504315376282,
      "learning_rate": 0.0004919506111427649,
      "loss": 0.4462,
      "num_input_tokens_seen": 13841560,
      "step": 21165
    },
    {
      "epoch": 11.09538784067086,
      "grad_norm": 0.18099763989448547,
      "learning_rate": 0.0004917219559302507,
      "loss": 0.4356,
      "num_input_tokens_seen": 13844248,
      "step": 21170
    },
    {
      "epoch": 11.098008385744235,
      "grad_norm": 0.07757994532585144,
      "learning_rate": 0.0004914933024494089,
      "loss": 0.4545,
      "num_input_tokens_seen": 13847960,
      "step": 21175
    },
    {
      "epoch": 11.10062893081761,
      "grad_norm": 0.10852530598640442,
      "learning_rate": 0.0004912646507480713,
      "loss": 0.4105,
      "num_input_tokens_seen": 13851000,
      "step": 21180
    },
    {
      "epoch": 11.103249475890985,
      "grad_norm": 0.13871793448925018,
      "learning_rate": 0.0004910360008740689,
      "loss": 0.3807,
      "num_input_tokens_seen": 13853304,
      "step": 21185
    },
    {
      "epoch": 11.10587002096436,
      "grad_norm": 0.08733586966991425,
      "learning_rate": 0.0004908073528752329,
      "loss": 0.3818,
      "num_input_tokens_seen": 13856344,
      "step": 21190
    },
    {
      "epoch": 11.108490566037736,
      "grad_norm": 0.14832332730293274,
      "learning_rate": 0.0004905787067993941,
      "loss": 0.5147,
      "num_input_tokens_seen": 13859672,
      "step": 21195
    },
    {
      "epoch": 11.11111111111111,
      "grad_norm": 0.12870310246944427,
      "learning_rate": 0.000490350062694382,
      "loss": 0.6287,
      "num_input_tokens_seen": 13862328,
      "step": 21200
    },
    {
      "epoch": 11.113731656184486,
      "grad_norm": 0.1618238091468811,
      "learning_rate": 0.0004901214206080269,
      "loss": 0.3804,
      "num_input_tokens_seen": 13865592,
      "step": 21205
    },
    {
      "epoch": 11.116352201257861,
      "grad_norm": 0.13562339544296265,
      "learning_rate": 0.0004898927805881577,
      "loss": 0.5946,
      "num_input_tokens_seen": 13868920,
      "step": 21210
    },
    {
      "epoch": 11.118972746331236,
      "grad_norm": 0.17404837906360626,
      "learning_rate": 0.0004896641426826036,
      "loss": 0.4912,
      "num_input_tokens_seen": 13872024,
      "step": 21215
    },
    {
      "epoch": 11.121593291404611,
      "grad_norm": 0.13113674521446228,
      "learning_rate": 0.0004894355069391931,
      "loss": 0.3552,
      "num_input_tokens_seen": 13875352,
      "step": 21220
    },
    {
      "epoch": 11.124213836477987,
      "grad_norm": 0.15694747865200043,
      "learning_rate": 0.0004892068734057538,
      "loss": 0.3569,
      "num_input_tokens_seen": 13879672,
      "step": 21225
    },
    {
      "epoch": 11.126834381551364,
      "grad_norm": 0.1361851990222931,
      "learning_rate": 0.0004889782421301134,
      "loss": 0.3422,
      "num_input_tokens_seen": 13882552,
      "step": 21230
    },
    {
      "epoch": 11.129454926624739,
      "grad_norm": 0.10201442986726761,
      "learning_rate": 0.0004887496131600991,
      "loss": 0.4974,
      "num_input_tokens_seen": 13887928,
      "step": 21235
    },
    {
      "epoch": 11.132075471698114,
      "grad_norm": 0.1686200052499771,
      "learning_rate": 0.0004885209865435373,
      "loss": 0.4634,
      "num_input_tokens_seen": 13890808,
      "step": 21240
    },
    {
      "epoch": 11.134696016771489,
      "grad_norm": 0.08378909528255463,
      "learning_rate": 0.0004882923623282543,
      "loss": 0.5182,
      "num_input_tokens_seen": 13894520,
      "step": 21245
    },
    {
      "epoch": 11.137316561844864,
      "grad_norm": 0.07065314054489136,
      "learning_rate": 0.0004880637405620756,
      "loss": 0.3375,
      "num_input_tokens_seen": 13897976,
      "step": 21250
    },
    {
      "epoch": 11.13993710691824,
      "grad_norm": 0.08506037294864655,
      "learning_rate": 0.00048783512129282604,
      "loss": 0.4816,
      "num_input_tokens_seen": 13901528,
      "step": 21255
    },
    {
      "epoch": 11.142557651991615,
      "grad_norm": 0.12294299900531769,
      "learning_rate": 0.00048760650456833033,
      "loss": 0.4732,
      "num_input_tokens_seen": 13905272,
      "step": 21260
    },
    {
      "epoch": 11.14517819706499,
      "grad_norm": 0.1420397162437439,
      "learning_rate": 0.0004873778904364125,
      "loss": 0.3949,
      "num_input_tokens_seen": 13908760,
      "step": 21265
    },
    {
      "epoch": 11.147798742138365,
      "grad_norm": 0.13130734860897064,
      "learning_rate": 0.00048714927894489597,
      "loss": 0.3756,
      "num_input_tokens_seen": 13912312,
      "step": 21270
    },
    {
      "epoch": 11.15041928721174,
      "grad_norm": 0.0864834263920784,
      "learning_rate": 0.00048692067014160357,
      "loss": 0.4798,
      "num_input_tokens_seen": 13914712,
      "step": 21275
    },
    {
      "epoch": 11.153039832285115,
      "grad_norm": 0.05587698891758919,
      "learning_rate": 0.00048669206407435806,
      "loss": 0.459,
      "num_input_tokens_seen": 13917784,
      "step": 21280
    },
    {
      "epoch": 11.15566037735849,
      "grad_norm": 0.11169301718473434,
      "learning_rate": 0.00048646346079098075,
      "loss": 0.5085,
      "num_input_tokens_seen": 13920760,
      "step": 21285
    },
    {
      "epoch": 11.158280922431866,
      "grad_norm": 0.13567128777503967,
      "learning_rate": 0.0004862348603392929,
      "loss": 0.4114,
      "num_input_tokens_seen": 13923864,
      "step": 21290
    },
    {
      "epoch": 11.16090146750524,
      "grad_norm": 0.16016173362731934,
      "learning_rate": 0.0004860062627671154,
      "loss": 0.4235,
      "num_input_tokens_seen": 13926616,
      "step": 21295
    },
    {
      "epoch": 11.163522012578616,
      "grad_norm": 0.08028693497180939,
      "learning_rate": 0.0004857776681222679,
      "loss": 0.5704,
      "num_input_tokens_seen": 13931128,
      "step": 21300
    },
    {
      "epoch": 11.166142557651991,
      "grad_norm": 0.12005988508462906,
      "learning_rate": 0.00048554907645257024,
      "loss": 0.3264,
      "num_input_tokens_seen": 13934616,
      "step": 21305
    },
    {
      "epoch": 11.168763102725366,
      "grad_norm": 0.08832801133394241,
      "learning_rate": 0.0004853204878058407,
      "loss": 0.3602,
      "num_input_tokens_seen": 13936952,
      "step": 21310
    },
    {
      "epoch": 11.171383647798741,
      "grad_norm": 0.11547290533781052,
      "learning_rate": 0.0004850919022298977,
      "loss": 0.6758,
      "num_input_tokens_seen": 13940376,
      "step": 21315
    },
    {
      "epoch": 11.174004192872117,
      "grad_norm": 0.16435235738754272,
      "learning_rate": 0.0004848633197725586,
      "loss": 0.5227,
      "num_input_tokens_seen": 13943000,
      "step": 21320
    },
    {
      "epoch": 11.176624737945493,
      "grad_norm": 0.18668633699417114,
      "learning_rate": 0.0004846347404816404,
      "loss": 0.3959,
      "num_input_tokens_seen": 13946776,
      "step": 21325
    },
    {
      "epoch": 11.179245283018869,
      "grad_norm": 0.11470790207386017,
      "learning_rate": 0.0004844061644049591,
      "loss": 0.4624,
      "num_input_tokens_seen": 13949112,
      "step": 21330
    },
    {
      "epoch": 11.181865828092244,
      "grad_norm": 0.09755431860685349,
      "learning_rate": 0.0004841775915903305,
      "loss": 0.4721,
      "num_input_tokens_seen": 13951896,
      "step": 21335
    },
    {
      "epoch": 11.184486373165619,
      "grad_norm": 0.12517957389354706,
      "learning_rate": 0.00048394902208556917,
      "loss": 0.4429,
      "num_input_tokens_seen": 13955672,
      "step": 21340
    },
    {
      "epoch": 11.187106918238994,
      "grad_norm": 0.09065563231706619,
      "learning_rate": 0.0004837204559384892,
      "loss": 0.3955,
      "num_input_tokens_seen": 13959512,
      "step": 21345
    },
    {
      "epoch": 11.18972746331237,
      "grad_norm": 0.11964678019285202,
      "learning_rate": 0.0004834918931969042,
      "loss": 0.5817,
      "num_input_tokens_seen": 13963768,
      "step": 21350
    },
    {
      "epoch": 11.192348008385745,
      "grad_norm": 0.13331687450408936,
      "learning_rate": 0.0004832633339086267,
      "loss": 0.3855,
      "num_input_tokens_seen": 13967032,
      "step": 21355
    },
    {
      "epoch": 11.19496855345912,
      "grad_norm": 0.10424937307834625,
      "learning_rate": 0.0004830347781214689,
      "loss": 0.3434,
      "num_input_tokens_seen": 13970648,
      "step": 21360
    },
    {
      "epoch": 11.197589098532495,
      "grad_norm": 0.11528004705905914,
      "learning_rate": 0.0004828062258832421,
      "loss": 0.4016,
      "num_input_tokens_seen": 13973080,
      "step": 21365
    },
    {
      "epoch": 11.20020964360587,
      "grad_norm": 0.154884934425354,
      "learning_rate": 0.0004825776772417564,
      "loss": 0.4755,
      "num_input_tokens_seen": 13976696,
      "step": 21370
    },
    {
      "epoch": 11.202830188679245,
      "grad_norm": 0.09575476497411728,
      "learning_rate": 0.00048234913224482205,
      "loss": 0.3599,
      "num_input_tokens_seen": 13980248,
      "step": 21375
    },
    {
      "epoch": 11.20545073375262,
      "grad_norm": 0.13106437027454376,
      "learning_rate": 0.00048212059094024774,
      "loss": 0.5471,
      "num_input_tokens_seen": 13983320,
      "step": 21380
    },
    {
      "epoch": 11.208071278825996,
      "grad_norm": 0.08011772483587265,
      "learning_rate": 0.0004818920533758418,
      "loss": 0.4359,
      "num_input_tokens_seen": 13986680,
      "step": 21385
    },
    {
      "epoch": 11.21069182389937,
      "grad_norm": 0.0777704045176506,
      "learning_rate": 0.00048166351959941185,
      "loss": 0.3969,
      "num_input_tokens_seen": 13992504,
      "step": 21390
    },
    {
      "epoch": 11.213312368972746,
      "grad_norm": 0.113919697701931,
      "learning_rate": 0.0004814349896587645,
      "loss": 0.4221,
      "num_input_tokens_seen": 13995416,
      "step": 21395
    },
    {
      "epoch": 11.215932914046121,
      "grad_norm": 0.07215385884046555,
      "learning_rate": 0.0004812064636017053,
      "loss": 0.4269,
      "num_input_tokens_seen": 13999320,
      "step": 21400
    },
    {
      "epoch": 11.218553459119496,
      "grad_norm": 0.14150552451610565,
      "learning_rate": 0.0004809779414760396,
      "loss": 0.5168,
      "num_input_tokens_seen": 14002552,
      "step": 21405
    },
    {
      "epoch": 11.221174004192871,
      "grad_norm": 0.16944049298763275,
      "learning_rate": 0.00048074942332957136,
      "loss": 0.4584,
      "num_input_tokens_seen": 14006040,
      "step": 21410
    },
    {
      "epoch": 11.223794549266247,
      "grad_norm": 0.12746562063694,
      "learning_rate": 0.00048052090921010435,
      "loss": 0.4329,
      "num_input_tokens_seen": 14009400,
      "step": 21415
    },
    {
      "epoch": 11.226415094339623,
      "grad_norm": 0.133353129029274,
      "learning_rate": 0.00048029239916544094,
      "loss": 0.4548,
      "num_input_tokens_seen": 14012824,
      "step": 21420
    },
    {
      "epoch": 11.229035639412999,
      "grad_norm": 0.14199212193489075,
      "learning_rate": 0.0004800638932433826,
      "loss": 0.4658,
      "num_input_tokens_seen": 14016792,
      "step": 21425
    },
    {
      "epoch": 11.231656184486374,
      "grad_norm": 0.08119504153728485,
      "learning_rate": 0.00047983539149173043,
      "loss": 0.4683,
      "num_input_tokens_seen": 14019864,
      "step": 21430
    },
    {
      "epoch": 11.234276729559749,
      "grad_norm": 0.1847064048051834,
      "learning_rate": 0.0004796068939582843,
      "loss": 0.4329,
      "num_input_tokens_seen": 14022552,
      "step": 21435
    },
    {
      "epoch": 11.236897274633124,
      "grad_norm": 0.2125283032655716,
      "learning_rate": 0.00047937840069084333,
      "loss": 0.4856,
      "num_input_tokens_seen": 14025592,
      "step": 21440
    },
    {
      "epoch": 11.2395178197065,
      "grad_norm": 0.09494751691818237,
      "learning_rate": 0.0004791499117372056,
      "loss": 0.4737,
      "num_input_tokens_seen": 14029720,
      "step": 21445
    },
    {
      "epoch": 11.242138364779874,
      "grad_norm": 0.11192210763692856,
      "learning_rate": 0.0004789214271451686,
      "loss": 0.4063,
      "num_input_tokens_seen": 14032824,
      "step": 21450
    },
    {
      "epoch": 11.24475890985325,
      "grad_norm": 0.07490762323141098,
      "learning_rate": 0.00047869294696252854,
      "loss": 0.3167,
      "num_input_tokens_seen": 14035352,
      "step": 21455
    },
    {
      "epoch": 11.247379454926625,
      "grad_norm": 0.12743906676769257,
      "learning_rate": 0.0004784644712370807,
      "loss": 0.3613,
      "num_input_tokens_seen": 14039928,
      "step": 21460
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.24416092038154602,
      "learning_rate": 0.00047823600001661984,
      "loss": 0.4334,
      "num_input_tokens_seen": 14042296,
      "step": 21465
    },
    {
      "epoch": 11.252620545073375,
      "grad_norm": 0.14240223169326782,
      "learning_rate": 0.0004780075333489396,
      "loss": 0.4741,
      "num_input_tokens_seen": 14045624,
      "step": 21470
    },
    {
      "epoch": 11.25524109014675,
      "grad_norm": 0.15281429886817932,
      "learning_rate": 0.00047777907128183233,
      "loss": 0.3035,
      "num_input_tokens_seen": 14048248,
      "step": 21475
    },
    {
      "epoch": 11.257861635220126,
      "grad_norm": 0.09825734794139862,
      "learning_rate": 0.0004775506138630901,
      "loss": 0.3783,
      "num_input_tokens_seen": 14050904,
      "step": 21480
    },
    {
      "epoch": 11.2604821802935,
      "grad_norm": 0.24228918552398682,
      "learning_rate": 0.0004773221611405032,
      "loss": 0.3795,
      "num_input_tokens_seen": 14054424,
      "step": 21485
    },
    {
      "epoch": 11.263102725366876,
      "grad_norm": 0.0787898451089859,
      "learning_rate": 0.0004770937131618614,
      "loss": 0.6224,
      "num_input_tokens_seen": 14057592,
      "step": 21490
    },
    {
      "epoch": 11.265723270440251,
      "grad_norm": 0.02683640643954277,
      "learning_rate": 0.0004768652699749535,
      "loss": 0.4321,
      "num_input_tokens_seen": 14063160,
      "step": 21495
    },
    {
      "epoch": 11.268343815513626,
      "grad_norm": 0.1617690771818161,
      "learning_rate": 0.00047663683162756717,
      "loss": 0.5263,
      "num_input_tokens_seen": 14065880,
      "step": 21500
    },
    {
      "epoch": 11.270964360587001,
      "grad_norm": 0.1466858983039856,
      "learning_rate": 0.00047640839816748926,
      "loss": 0.4863,
      "num_input_tokens_seen": 14069688,
      "step": 21505
    },
    {
      "epoch": 11.273584905660377,
      "grad_norm": 0.20040851831436157,
      "learning_rate": 0.00047617996964250525,
      "loss": 0.4009,
      "num_input_tokens_seen": 14072248,
      "step": 21510
    },
    {
      "epoch": 11.276205450733753,
      "grad_norm": 0.14203466475009918,
      "learning_rate": 0.0004759515461003997,
      "loss": 0.4337,
      "num_input_tokens_seen": 14075672,
      "step": 21515
    },
    {
      "epoch": 11.278825995807129,
      "grad_norm": 0.12238665670156479,
      "learning_rate": 0.00047572312758895654,
      "loss": 0.4719,
      "num_input_tokens_seen": 14079128,
      "step": 21520
    },
    {
      "epoch": 11.281446540880504,
      "grad_norm": 0.08249808102846146,
      "learning_rate": 0.0004754947141559579,
      "loss": 0.4825,
      "num_input_tokens_seen": 14082584,
      "step": 21525
    },
    {
      "epoch": 11.284067085953879,
      "grad_norm": 0.10870948433876038,
      "learning_rate": 0.0004752663058491856,
      "loss": 0.4619,
      "num_input_tokens_seen": 14085720,
      "step": 21530
    },
    {
      "epoch": 11.286687631027254,
      "grad_norm": 0.09083537757396698,
      "learning_rate": 0.0004750379027164201,
      "loss": 0.4186,
      "num_input_tokens_seen": 14089432,
      "step": 21535
    },
    {
      "epoch": 11.28930817610063,
      "grad_norm": 0.10899299383163452,
      "learning_rate": 0.00047480950480544037,
      "loss": 0.4825,
      "num_input_tokens_seen": 14092440,
      "step": 21540
    },
    {
      "epoch": 11.291928721174004,
      "grad_norm": 0.14730370044708252,
      "learning_rate": 0.00047458111216402483,
      "loss": 0.483,
      "num_input_tokens_seen": 14095320,
      "step": 21545
    },
    {
      "epoch": 11.29454926624738,
      "grad_norm": 0.12496135383844376,
      "learning_rate": 0.00047435272483995074,
      "loss": 0.4189,
      "num_input_tokens_seen": 14098232,
      "step": 21550
    },
    {
      "epoch": 11.297169811320755,
      "grad_norm": 0.14093497395515442,
      "learning_rate": 0.00047412434288099386,
      "loss": 0.4284,
      "num_input_tokens_seen": 14101528,
      "step": 21555
    },
    {
      "epoch": 11.29979035639413,
      "grad_norm": 0.17741340398788452,
      "learning_rate": 0.0004738959663349294,
      "loss": 0.4918,
      "num_input_tokens_seen": 14104376,
      "step": 21560
    },
    {
      "epoch": 11.302410901467505,
      "grad_norm": 0.10242603719234467,
      "learning_rate": 0.0004736675952495311,
      "loss": 0.3624,
      "num_input_tokens_seen": 14107864,
      "step": 21565
    },
    {
      "epoch": 11.30503144654088,
      "grad_norm": 0.11650661379098892,
      "learning_rate": 0.0004734392296725712,
      "loss": 0.4708,
      "num_input_tokens_seen": 14110360,
      "step": 21570
    },
    {
      "epoch": 11.307651991614255,
      "grad_norm": 0.07729896157979965,
      "learning_rate": 0.00047321086965182153,
      "loss": 0.2946,
      "num_input_tokens_seen": 14114200,
      "step": 21575
    },
    {
      "epoch": 11.31027253668763,
      "grad_norm": 0.1359214186668396,
      "learning_rate": 0.0004729825152350522,
      "loss": 0.5885,
      "num_input_tokens_seen": 14118616,
      "step": 21580
    },
    {
      "epoch": 11.312893081761006,
      "grad_norm": 0.1246853619813919,
      "learning_rate": 0.00047275416647003256,
      "loss": 0.3869,
      "num_input_tokens_seen": 14121496,
      "step": 21585
    },
    {
      "epoch": 11.315513626834381,
      "grad_norm": 0.11994382739067078,
      "learning_rate": 0.0004725258234045306,
      "loss": 0.4569,
      "num_input_tokens_seen": 14124280,
      "step": 21590
    },
    {
      "epoch": 11.318134171907756,
      "grad_norm": 0.13496612012386322,
      "learning_rate": 0.0004722974860863127,
      "loss": 0.4817,
      "num_input_tokens_seen": 14128216,
      "step": 21595
    },
    {
      "epoch": 11.320754716981131,
      "grad_norm": 0.12420576810836792,
      "learning_rate": 0.00047206915456314476,
      "loss": 0.5055,
      "num_input_tokens_seen": 14130456,
      "step": 21600
    },
    {
      "epoch": 11.323375262054507,
      "grad_norm": 0.08662419766187668,
      "learning_rate": 0.00047184082888279097,
      "loss": 0.4388,
      "num_input_tokens_seen": 14133720,
      "step": 21605
    },
    {
      "epoch": 11.325995807127883,
      "grad_norm": 0.11236260831356049,
      "learning_rate": 0.00047161250909301454,
      "loss": 0.4399,
      "num_input_tokens_seen": 14137176,
      "step": 21610
    },
    {
      "epoch": 11.328616352201259,
      "grad_norm": 0.11718321591615677,
      "learning_rate": 0.00047138419524157734,
      "loss": 0.6678,
      "num_input_tokens_seen": 14141240,
      "step": 21615
    },
    {
      "epoch": 11.331236897274634,
      "grad_norm": 0.12470808625221252,
      "learning_rate": 0.0004711558873762402,
      "loss": 0.4204,
      "num_input_tokens_seen": 14144728,
      "step": 21620
    },
    {
      "epoch": 11.333857442348009,
      "grad_norm": 0.13859347999095917,
      "learning_rate": 0.0004709275855447621,
      "loss": 0.3982,
      "num_input_tokens_seen": 14148760,
      "step": 21625
    },
    {
      "epoch": 11.336477987421384,
      "grad_norm": 0.10602806508541107,
      "learning_rate": 0.0004706992897949016,
      "loss": 0.4072,
      "num_input_tokens_seen": 14151704,
      "step": 21630
    },
    {
      "epoch": 11.33909853249476,
      "grad_norm": 0.11196217685937881,
      "learning_rate": 0.00047047100017441525,
      "loss": 0.3877,
      "num_input_tokens_seen": 14154456,
      "step": 21635
    },
    {
      "epoch": 11.341719077568134,
      "grad_norm": 0.09124121069908142,
      "learning_rate": 0.0004702427167310589,
      "loss": 0.5704,
      "num_input_tokens_seen": 14157016,
      "step": 21640
    },
    {
      "epoch": 11.34433962264151,
      "grad_norm": 0.11471288651227951,
      "learning_rate": 0.0004700144395125866,
      "loss": 0.3429,
      "num_input_tokens_seen": 14159384,
      "step": 21645
    },
    {
      "epoch": 11.346960167714885,
      "grad_norm": 0.1344003975391388,
      "learning_rate": 0.00046978616856675173,
      "loss": 0.6338,
      "num_input_tokens_seen": 14162360,
      "step": 21650
    },
    {
      "epoch": 11.34958071278826,
      "grad_norm": 0.12882187962532043,
      "learning_rate": 0.0004695579039413055,
      "loss": 0.6026,
      "num_input_tokens_seen": 14165592,
      "step": 21655
    },
    {
      "epoch": 11.352201257861635,
      "grad_norm": 0.12300781160593033,
      "learning_rate": 0.0004693296456839984,
      "loss": 0.4357,
      "num_input_tokens_seen": 14168088,
      "step": 21660
    },
    {
      "epoch": 11.35482180293501,
      "grad_norm": 0.12045028060674667,
      "learning_rate": 0.0004691013938425796,
      "loss": 0.4694,
      "num_input_tokens_seen": 14171032,
      "step": 21665
    },
    {
      "epoch": 11.357442348008385,
      "grad_norm": 0.1127908006310463,
      "learning_rate": 0.00046887314846479663,
      "loss": 0.5307,
      "num_input_tokens_seen": 14173720,
      "step": 21670
    },
    {
      "epoch": 11.36006289308176,
      "grad_norm": 0.12937413156032562,
      "learning_rate": 0.000468644909598396,
      "loss": 0.4712,
      "num_input_tokens_seen": 14176664,
      "step": 21675
    },
    {
      "epoch": 11.362683438155136,
      "grad_norm": 0.10400225222110748,
      "learning_rate": 0.00046841667729112264,
      "loss": 0.4838,
      "num_input_tokens_seen": 14180024,
      "step": 21680
    },
    {
      "epoch": 11.365303983228511,
      "grad_norm": 0.1260148584842682,
      "learning_rate": 0.00046818845159071987,
      "loss": 0.3727,
      "num_input_tokens_seen": 14182328,
      "step": 21685
    },
    {
      "epoch": 11.367924528301886,
      "grad_norm": 0.13432641327381134,
      "learning_rate": 0.0004679602325449302,
      "loss": 0.5079,
      "num_input_tokens_seen": 14185784,
      "step": 21690
    },
    {
      "epoch": 11.370545073375261,
      "grad_norm": 0.12488353252410889,
      "learning_rate": 0.00046773202020149423,
      "loss": 0.4071,
      "num_input_tokens_seen": 14188536,
      "step": 21695
    },
    {
      "epoch": 11.373165618448636,
      "grad_norm": 0.08779970556497574,
      "learning_rate": 0.0004675038146081516,
      "loss": 0.4372,
      "num_input_tokens_seen": 14192504,
      "step": 21700
    },
    {
      "epoch": 11.375786163522013,
      "grad_norm": 0.11262767761945724,
      "learning_rate": 0.0004672756158126403,
      "loss": 0.4631,
      "num_input_tokens_seen": 14195256,
      "step": 21705
    },
    {
      "epoch": 11.378406708595389,
      "grad_norm": 0.08598741143941879,
      "learning_rate": 0.0004670474238626968,
      "loss": 0.3675,
      "num_input_tokens_seen": 14198296,
      "step": 21710
    },
    {
      "epoch": 11.381027253668764,
      "grad_norm": 0.10418017953634262,
      "learning_rate": 0.00046681923880605614,
      "loss": 0.3968,
      "num_input_tokens_seen": 14201880,
      "step": 21715
    },
    {
      "epoch": 11.383647798742139,
      "grad_norm": 0.10670077055692673,
      "learning_rate": 0.0004665910606904523,
      "loss": 0.5576,
      "num_input_tokens_seen": 14204792,
      "step": 21720
    },
    {
      "epoch": 11.386268343815514,
      "grad_norm": 0.1857123076915741,
      "learning_rate": 0.0004663628895636173,
      "loss": 0.3541,
      "num_input_tokens_seen": 14212216,
      "step": 21725
    },
    {
      "epoch": 11.38888888888889,
      "grad_norm": 0.11495891213417053,
      "learning_rate": 0.0004661347254732822,
      "loss": 0.4697,
      "num_input_tokens_seen": 14215384,
      "step": 21730
    },
    {
      "epoch": 11.391509433962264,
      "grad_norm": 0.108129121363163,
      "learning_rate": 0.0004659065684671762,
      "loss": 0.3727,
      "num_input_tokens_seen": 14219736,
      "step": 21735
    },
    {
      "epoch": 11.39412997903564,
      "grad_norm": 0.08918607234954834,
      "learning_rate": 0.00046567841859302696,
      "loss": 0.3799,
      "num_input_tokens_seen": 14222232,
      "step": 21740
    },
    {
      "epoch": 11.396750524109015,
      "grad_norm": 0.1236058697104454,
      "learning_rate": 0.0004654502758985611,
      "loss": 0.3849,
      "num_input_tokens_seen": 14225016,
      "step": 21745
    },
    {
      "epoch": 11.39937106918239,
      "grad_norm": 0.1381620615720749,
      "learning_rate": 0.00046522214043150323,
      "loss": 0.5032,
      "num_input_tokens_seen": 14228568,
      "step": 21750
    },
    {
      "epoch": 11.401991614255765,
      "grad_norm": 0.1852196902036667,
      "learning_rate": 0.00046499401223957696,
      "loss": 0.3978,
      "num_input_tokens_seen": 14231960,
      "step": 21755
    },
    {
      "epoch": 11.40461215932914,
      "grad_norm": 0.1234426274895668,
      "learning_rate": 0.0004647658913705038,
      "loss": 0.6038,
      "num_input_tokens_seen": 14236344,
      "step": 21760
    },
    {
      "epoch": 11.407232704402515,
      "grad_norm": 0.11859922111034393,
      "learning_rate": 0.00046453777787200444,
      "loss": 0.396,
      "num_input_tokens_seen": 14239640,
      "step": 21765
    },
    {
      "epoch": 11.40985324947589,
      "grad_norm": 0.11155299097299576,
      "learning_rate": 0.0004643096717917973,
      "loss": 0.5146,
      "num_input_tokens_seen": 14242488,
      "step": 21770
    },
    {
      "epoch": 11.412473794549266,
      "grad_norm": 0.1500127613544464,
      "learning_rate": 0.0004640815731775995,
      "loss": 0.4516,
      "num_input_tokens_seen": 14245784,
      "step": 21775
    },
    {
      "epoch": 11.415094339622641,
      "grad_norm": 0.12646949291229248,
      "learning_rate": 0.0004638534820771267,
      "loss": 0.4742,
      "num_input_tokens_seen": 14248792,
      "step": 21780
    },
    {
      "epoch": 11.417714884696016,
      "grad_norm": 0.13635995984077454,
      "learning_rate": 0.0004636253985380934,
      "loss": 0.4471,
      "num_input_tokens_seen": 14252216,
      "step": 21785
    },
    {
      "epoch": 11.420335429769391,
      "grad_norm": 0.10183002799749374,
      "learning_rate": 0.00046339732260821173,
      "loss": 0.3743,
      "num_input_tokens_seen": 14255384,
      "step": 21790
    },
    {
      "epoch": 11.422955974842766,
      "grad_norm": 0.09887102246284485,
      "learning_rate": 0.0004631692543351924,
      "loss": 0.3282,
      "num_input_tokens_seen": 14257656,
      "step": 21795
    },
    {
      "epoch": 11.425576519916142,
      "grad_norm": 0.10955639183521271,
      "learning_rate": 0.00046294119376674486,
      "loss": 0.4595,
      "num_input_tokens_seen": 14260664,
      "step": 21800
    },
    {
      "epoch": 11.428197064989519,
      "grad_norm": 0.124271459877491,
      "learning_rate": 0.0004627131409505768,
      "loss": 0.4488,
      "num_input_tokens_seen": 14263032,
      "step": 21805
    },
    {
      "epoch": 11.430817610062894,
      "grad_norm": 0.1228780671954155,
      "learning_rate": 0.0004624850959343944,
      "loss": 0.4443,
      "num_input_tokens_seen": 14265784,
      "step": 21810
    },
    {
      "epoch": 11.433438155136269,
      "grad_norm": 0.10345739871263504,
      "learning_rate": 0.00046225705876590175,
      "loss": 0.4157,
      "num_input_tokens_seen": 14269080,
      "step": 21815
    },
    {
      "epoch": 11.436058700209644,
      "grad_norm": 0.16663092374801636,
      "learning_rate": 0.00046202902949280206,
      "loss": 0.3903,
      "num_input_tokens_seen": 14272120,
      "step": 21820
    },
    {
      "epoch": 11.43867924528302,
      "grad_norm": 0.06449967622756958,
      "learning_rate": 0.00046180100816279614,
      "loss": 0.3414,
      "num_input_tokens_seen": 14275256,
      "step": 21825
    },
    {
      "epoch": 11.441299790356394,
      "grad_norm": 0.1421222686767578,
      "learning_rate": 0.0004615729948235833,
      "loss": 0.4388,
      "num_input_tokens_seen": 14279096,
      "step": 21830
    },
    {
      "epoch": 11.44392033542977,
      "grad_norm": 0.11334656924009323,
      "learning_rate": 0.00046134498952286174,
      "loss": 0.352,
      "num_input_tokens_seen": 14282072,
      "step": 21835
    },
    {
      "epoch": 11.446540880503145,
      "grad_norm": 0.12560313940048218,
      "learning_rate": 0.00046111699230832727,
      "loss": 0.4526,
      "num_input_tokens_seen": 14285080,
      "step": 21840
    },
    {
      "epoch": 11.44916142557652,
      "grad_norm": 0.08699323982000351,
      "learning_rate": 0.00046088900322767434,
      "loss": 0.3978,
      "num_input_tokens_seen": 14288600,
      "step": 21845
    },
    {
      "epoch": 11.451781970649895,
      "grad_norm": 0.10172800719738007,
      "learning_rate": 0.0004606610223285961,
      "loss": 0.4443,
      "num_input_tokens_seen": 14291928,
      "step": 21850
    },
    {
      "epoch": 11.45440251572327,
      "grad_norm": 0.14880889654159546,
      "learning_rate": 0.00046043304965878284,
      "loss": 0.3341,
      "num_input_tokens_seen": 14294840,
      "step": 21855
    },
    {
      "epoch": 11.457023060796645,
      "grad_norm": 0.08518020808696747,
      "learning_rate": 0.00046020508526592425,
      "loss": 0.3637,
      "num_input_tokens_seen": 14297944,
      "step": 21860
    },
    {
      "epoch": 11.45964360587002,
      "grad_norm": 0.1477895826101303,
      "learning_rate": 0.0004599771291977079,
      "loss": 0.4965,
      "num_input_tokens_seen": 14300952,
      "step": 21865
    },
    {
      "epoch": 11.462264150943396,
      "grad_norm": 0.16057239472866058,
      "learning_rate": 0.0004597491815018194,
      "loss": 0.4791,
      "num_input_tokens_seen": 14303704,
      "step": 21870
    },
    {
      "epoch": 11.464884696016771,
      "grad_norm": 0.08025245368480682,
      "learning_rate": 0.0004595212422259431,
      "loss": 0.3371,
      "num_input_tokens_seen": 14307320,
      "step": 21875
    },
    {
      "epoch": 11.467505241090146,
      "grad_norm": 0.0960814505815506,
      "learning_rate": 0.00045929331141776104,
      "loss": 0.436,
      "num_input_tokens_seen": 14310136,
      "step": 21880
    },
    {
      "epoch": 11.470125786163521,
      "grad_norm": 0.11351969838142395,
      "learning_rate": 0.0004590653891249537,
      "loss": 0.4207,
      "num_input_tokens_seen": 14313016,
      "step": 21885
    },
    {
      "epoch": 11.472746331236896,
      "grad_norm": 0.09055256098508835,
      "learning_rate": 0.0004588374753952001,
      "loss": 0.4547,
      "num_input_tokens_seen": 14316152,
      "step": 21890
    },
    {
      "epoch": 11.475366876310272,
      "grad_norm": 0.13439728319644928,
      "learning_rate": 0.0004586095702761769,
      "loss": 0.5065,
      "num_input_tokens_seen": 14319672,
      "step": 21895
    },
    {
      "epoch": 11.477987421383649,
      "grad_norm": 0.09740796685218811,
      "learning_rate": 0.0004583816738155595,
      "loss": 0.3498,
      "num_input_tokens_seen": 14323192,
      "step": 21900
    },
    {
      "epoch": 11.480607966457024,
      "grad_norm": 0.15979871153831482,
      "learning_rate": 0.0004581537860610213,
      "loss": 0.415,
      "num_input_tokens_seen": 14326392,
      "step": 21905
    },
    {
      "epoch": 11.483228511530399,
      "grad_norm": 0.09776446968317032,
      "learning_rate": 0.0004579259070602333,
      "loss": 0.4058,
      "num_input_tokens_seen": 14329688,
      "step": 21910
    },
    {
      "epoch": 11.485849056603774,
      "grad_norm": 0.15352590382099152,
      "learning_rate": 0.0004576980368608658,
      "loss": 0.4901,
      "num_input_tokens_seen": 14332504,
      "step": 21915
    },
    {
      "epoch": 11.48846960167715,
      "grad_norm": 0.11508236080408096,
      "learning_rate": 0.0004574701755105862,
      "loss": 0.3955,
      "num_input_tokens_seen": 14335736,
      "step": 21920
    },
    {
      "epoch": 11.491090146750524,
      "grad_norm": 0.08765994757413864,
      "learning_rate": 0.00045724232305706066,
      "loss": 0.4311,
      "num_input_tokens_seen": 14338392,
      "step": 21925
    },
    {
      "epoch": 11.4937106918239,
      "grad_norm": 0.11807043105363846,
      "learning_rate": 0.00045701447954795343,
      "loss": 0.3939,
      "num_input_tokens_seen": 14341656,
      "step": 21930
    },
    {
      "epoch": 11.496331236897275,
      "grad_norm": 0.08491798490285873,
      "learning_rate": 0.0004567866450309268,
      "loss": 0.4554,
      "num_input_tokens_seen": 14345304,
      "step": 21935
    },
    {
      "epoch": 11.49895178197065,
      "grad_norm": 0.11178643256425858,
      "learning_rate": 0.00045655881955364086,
      "loss": 0.4648,
      "num_input_tokens_seen": 14348568,
      "step": 21940
    },
    {
      "epoch": 11.501572327044025,
      "grad_norm": 0.10097429901361465,
      "learning_rate": 0.0004563310031637543,
      "loss": 0.5434,
      "num_input_tokens_seen": 14351960,
      "step": 21945
    },
    {
      "epoch": 11.5041928721174,
      "grad_norm": 0.18148039281368256,
      "learning_rate": 0.00045610319590892365,
      "loss": 0.4065,
      "num_input_tokens_seen": 14355192,
      "step": 21950
    },
    {
      "epoch": 11.506813417190775,
      "grad_norm": 0.11606764048337936,
      "learning_rate": 0.00045587539783680366,
      "loss": 0.4144,
      "num_input_tokens_seen": 14357816,
      "step": 21955
    },
    {
      "epoch": 11.50943396226415,
      "grad_norm": 0.10665437579154968,
      "learning_rate": 0.00045564760899504715,
      "loss": 0.4107,
      "num_input_tokens_seen": 14360536,
      "step": 21960
    },
    {
      "epoch": 11.512054507337526,
      "grad_norm": 0.13178448379039764,
      "learning_rate": 0.00045541982943130466,
      "loss": 0.4243,
      "num_input_tokens_seen": 14364248,
      "step": 21965
    },
    {
      "epoch": 11.514675052410901,
      "grad_norm": 0.08651763200759888,
      "learning_rate": 0.00045519205919322534,
      "loss": 0.3868,
      "num_input_tokens_seen": 14367736,
      "step": 21970
    },
    {
      "epoch": 11.517295597484276,
      "grad_norm": 0.10565271228551865,
      "learning_rate": 0.00045496429832845594,
      "loss": 0.4176,
      "num_input_tokens_seen": 14370808,
      "step": 21975
    },
    {
      "epoch": 11.519916142557651,
      "grad_norm": 0.19764594733715057,
      "learning_rate": 0.0004547365468846416,
      "loss": 0.448,
      "num_input_tokens_seen": 14373752,
      "step": 21980
    },
    {
      "epoch": 11.522536687631026,
      "grad_norm": 0.10879914462566376,
      "learning_rate": 0.0004545088049094252,
      "loss": 0.4638,
      "num_input_tokens_seen": 14377336,
      "step": 21985
    },
    {
      "epoch": 11.525157232704402,
      "grad_norm": 0.21670441329479218,
      "learning_rate": 0.00045428107245044805,
      "loss": 0.2636,
      "num_input_tokens_seen": 14379768,
      "step": 21990
    },
    {
      "epoch": 11.527777777777779,
      "grad_norm": 0.19443279504776,
      "learning_rate": 0.0004540533495553488,
      "loss": 0.4649,
      "num_input_tokens_seen": 14381944,
      "step": 21995
    },
    {
      "epoch": 11.530398322851154,
      "grad_norm": 0.11190461367368698,
      "learning_rate": 0.00045382563627176454,
      "loss": 0.595,
      "num_input_tokens_seen": 14385048,
      "step": 22000
    },
    {
      "epoch": 11.533018867924529,
      "grad_norm": 0.08988390862941742,
      "learning_rate": 0.0004535979326473304,
      "loss": 0.3877,
      "num_input_tokens_seen": 14388120,
      "step": 22005
    },
    {
      "epoch": 11.535639412997904,
      "grad_norm": 0.09971900284290314,
      "learning_rate": 0.00045337023872967945,
      "loss": 0.4053,
      "num_input_tokens_seen": 14391032,
      "step": 22010
    },
    {
      "epoch": 11.53825995807128,
      "grad_norm": 0.11600632220506668,
      "learning_rate": 0.0004531425545664425,
      "loss": 0.4088,
      "num_input_tokens_seen": 14394392,
      "step": 22015
    },
    {
      "epoch": 11.540880503144654,
      "grad_norm": 0.1071205884218216,
      "learning_rate": 0.0004529148802052488,
      "loss": 0.4057,
      "num_input_tokens_seen": 14397208,
      "step": 22020
    },
    {
      "epoch": 11.54350104821803,
      "grad_norm": 0.10408394038677216,
      "learning_rate": 0.00045268721569372483,
      "loss": 0.4328,
      "num_input_tokens_seen": 14400632,
      "step": 22025
    },
    {
      "epoch": 11.546121593291405,
      "grad_norm": 0.1544494777917862,
      "learning_rate": 0.00045245956107949547,
      "loss": 0.4444,
      "num_input_tokens_seen": 14403192,
      "step": 22030
    },
    {
      "epoch": 11.54874213836478,
      "grad_norm": 0.11727966368198395,
      "learning_rate": 0.0004522319164101837,
      "loss": 0.4052,
      "num_input_tokens_seen": 14407224,
      "step": 22035
    },
    {
      "epoch": 11.551362683438155,
      "grad_norm": 0.08319389820098877,
      "learning_rate": 0.00045200428173340987,
      "loss": 0.4536,
      "num_input_tokens_seen": 14410040,
      "step": 22040
    },
    {
      "epoch": 11.55398322851153,
      "grad_norm": 0.11293633282184601,
      "learning_rate": 0.00045177665709679286,
      "loss": 0.4507,
      "num_input_tokens_seen": 14413816,
      "step": 22045
    },
    {
      "epoch": 11.556603773584905,
      "grad_norm": 0.1928253471851349,
      "learning_rate": 0.0004515490425479492,
      "loss": 0.5416,
      "num_input_tokens_seen": 14416536,
      "step": 22050
    },
    {
      "epoch": 11.55922431865828,
      "grad_norm": 0.12407364696264267,
      "learning_rate": 0.0004513214381344928,
      "loss": 0.4606,
      "num_input_tokens_seen": 14419672,
      "step": 22055
    },
    {
      "epoch": 11.561844863731656,
      "grad_norm": 0.11089108884334564,
      "learning_rate": 0.00045109384390403635,
      "loss": 0.4954,
      "num_input_tokens_seen": 14424344,
      "step": 22060
    },
    {
      "epoch": 11.564465408805031,
      "grad_norm": 0.13244588673114777,
      "learning_rate": 0.0004508662599041896,
      "loss": 0.5781,
      "num_input_tokens_seen": 14426968,
      "step": 22065
    },
    {
      "epoch": 11.567085953878406,
      "grad_norm": 0.11872076243162155,
      "learning_rate": 0.0004506386861825609,
      "loss": 0.4486,
      "num_input_tokens_seen": 14429752,
      "step": 22070
    },
    {
      "epoch": 11.569706498951781,
      "grad_norm": 0.10635434836149216,
      "learning_rate": 0.00045041112278675603,
      "loss": 0.401,
      "num_input_tokens_seen": 14434488,
      "step": 22075
    },
    {
      "epoch": 11.572327044025156,
      "grad_norm": 0.2064804881811142,
      "learning_rate": 0.00045018356976437836,
      "loss": 0.537,
      "num_input_tokens_seen": 14437592,
      "step": 22080
    },
    {
      "epoch": 11.574947589098532,
      "grad_norm": 0.1727360486984253,
      "learning_rate": 0.0004499560271630295,
      "loss": 0.4271,
      "num_input_tokens_seen": 14441144,
      "step": 22085
    },
    {
      "epoch": 11.577568134171909,
      "grad_norm": 0.11041558533906937,
      "learning_rate": 0.00044972849503030894,
      "loss": 0.3843,
      "num_input_tokens_seen": 14444472,
      "step": 22090
    },
    {
      "epoch": 11.580188679245284,
      "grad_norm": 0.10579026490449905,
      "learning_rate": 0.00044950097341381356,
      "loss": 0.4835,
      "num_input_tokens_seen": 14448120,
      "step": 22095
    },
    {
      "epoch": 11.582809224318659,
      "grad_norm": 0.07388484477996826,
      "learning_rate": 0.0004492734623611385,
      "loss": 0.4258,
      "num_input_tokens_seen": 14451672,
      "step": 22100
    },
    {
      "epoch": 11.585429769392034,
      "grad_norm": 0.11220695823431015,
      "learning_rate": 0.0004490459619198766,
      "loss": 0.3393,
      "num_input_tokens_seen": 14454552,
      "step": 22105
    },
    {
      "epoch": 11.58805031446541,
      "grad_norm": 0.07185844331979752,
      "learning_rate": 0.00044881847213761787,
      "loss": 0.4272,
      "num_input_tokens_seen": 14458296,
      "step": 22110
    },
    {
      "epoch": 11.590670859538784,
      "grad_norm": 0.12886935472488403,
      "learning_rate": 0.000448590993061951,
      "loss": 0.4913,
      "num_input_tokens_seen": 14462072,
      "step": 22115
    },
    {
      "epoch": 11.59329140461216,
      "grad_norm": 0.07753073424100876,
      "learning_rate": 0.00044836352474046177,
      "loss": 0.4859,
      "num_input_tokens_seen": 14465688,
      "step": 22120
    },
    {
      "epoch": 11.595911949685535,
      "grad_norm": 0.1015520915389061,
      "learning_rate": 0.00044813606722073415,
      "loss": 0.4133,
      "num_input_tokens_seen": 14471576,
      "step": 22125
    },
    {
      "epoch": 11.59853249475891,
      "grad_norm": 0.1263086348772049,
      "learning_rate": 0.00044790862055034945,
      "loss": 0.5325,
      "num_input_tokens_seen": 14475288,
      "step": 22130
    },
    {
      "epoch": 11.601153039832285,
      "grad_norm": 0.11572273075580597,
      "learning_rate": 0.00044768118477688727,
      "loss": 0.3908,
      "num_input_tokens_seen": 14477816,
      "step": 22135
    },
    {
      "epoch": 11.60377358490566,
      "grad_norm": 0.15954269468784332,
      "learning_rate": 0.00044745375994792425,
      "loss": 0.4361,
      "num_input_tokens_seen": 14481112,
      "step": 22140
    },
    {
      "epoch": 11.606394129979035,
      "grad_norm": 0.08874668180942535,
      "learning_rate": 0.00044722634611103507,
      "loss": 0.4544,
      "num_input_tokens_seen": 14484408,
      "step": 22145
    },
    {
      "epoch": 11.60901467505241,
      "grad_norm": 0.12480635941028595,
      "learning_rate": 0.0004469989433137923,
      "loss": 0.4617,
      "num_input_tokens_seen": 14487448,
      "step": 22150
    },
    {
      "epoch": 11.611635220125786,
      "grad_norm": 0.10209715366363525,
      "learning_rate": 0.00044677155160376586,
      "loss": 0.4681,
      "num_input_tokens_seen": 14490680,
      "step": 22155
    },
    {
      "epoch": 11.614255765199161,
      "grad_norm": 0.12952522933483124,
      "learning_rate": 0.00044654417102852375,
      "loss": 0.5047,
      "num_input_tokens_seen": 14493496,
      "step": 22160
    },
    {
      "epoch": 11.616876310272536,
      "grad_norm": 0.16185840964317322,
      "learning_rate": 0.0004463168016356309,
      "loss": 0.4231,
      "num_input_tokens_seen": 14496472,
      "step": 22165
    },
    {
      "epoch": 11.619496855345911,
      "grad_norm": 0.15466253459453583,
      "learning_rate": 0.00044608944347265095,
      "loss": 0.5739,
      "num_input_tokens_seen": 14500120,
      "step": 22170
    },
    {
      "epoch": 11.622117400419286,
      "grad_norm": 0.1029631644487381,
      "learning_rate": 0.0004458620965871442,
      "loss": 0.4403,
      "num_input_tokens_seen": 14502968,
      "step": 22175
    },
    {
      "epoch": 11.624737945492662,
      "grad_norm": 0.07997000217437744,
      "learning_rate": 0.00044563476102666935,
      "loss": 0.3284,
      "num_input_tokens_seen": 14505720,
      "step": 22180
    },
    {
      "epoch": 11.627358490566039,
      "grad_norm": 0.13304831087589264,
      "learning_rate": 0.0004454074368387821,
      "loss": 0.4006,
      "num_input_tokens_seen": 14508728,
      "step": 22185
    },
    {
      "epoch": 11.629979035639414,
      "grad_norm": 0.11188811808824539,
      "learning_rate": 0.0004451801240710365,
      "loss": 0.4366,
      "num_input_tokens_seen": 14512344,
      "step": 22190
    },
    {
      "epoch": 11.632599580712789,
      "grad_norm": 0.1882675737142563,
      "learning_rate": 0.0004449528227709834,
      "loss": 0.4518,
      "num_input_tokens_seen": 14515032,
      "step": 22195
    },
    {
      "epoch": 11.635220125786164,
      "grad_norm": 0.09586682170629501,
      "learning_rate": 0.0004447255329861716,
      "loss": 0.3901,
      "num_input_tokens_seen": 14517560,
      "step": 22200
    },
    {
      "epoch": 11.63784067085954,
      "grad_norm": 0.12326418608427048,
      "learning_rate": 0.0004444982547641479,
      "loss": 0.6375,
      "num_input_tokens_seen": 14521720,
      "step": 22205
    },
    {
      "epoch": 11.640461215932914,
      "grad_norm": 0.12110599130392075,
      "learning_rate": 0.00044427098815245594,
      "loss": 0.2764,
      "num_input_tokens_seen": 14524216,
      "step": 22210
    },
    {
      "epoch": 11.64308176100629,
      "grad_norm": 0.12367970496416092,
      "learning_rate": 0.00044404373319863763,
      "loss": 0.4797,
      "num_input_tokens_seen": 14526744,
      "step": 22215
    },
    {
      "epoch": 11.645702306079665,
      "grad_norm": 0.11821730434894562,
      "learning_rate": 0.000443816489950232,
      "loss": 0.5114,
      "num_input_tokens_seen": 14530840,
      "step": 22220
    },
    {
      "epoch": 11.64832285115304,
      "grad_norm": 0.18680687248706818,
      "learning_rate": 0.00044358925845477547,
      "loss": 0.4534,
      "num_input_tokens_seen": 14533784,
      "step": 22225
    },
    {
      "epoch": 11.650943396226415,
      "grad_norm": 0.1121782511472702,
      "learning_rate": 0.0004433620387598027,
      "loss": 0.4526,
      "num_input_tokens_seen": 14536856,
      "step": 22230
    },
    {
      "epoch": 11.65356394129979,
      "grad_norm": 0.1433565467596054,
      "learning_rate": 0.00044313483091284507,
      "loss": 0.5848,
      "num_input_tokens_seen": 14539992,
      "step": 22235
    },
    {
      "epoch": 11.656184486373165,
      "grad_norm": 0.09859184175729752,
      "learning_rate": 0.0004429076349614321,
      "loss": 0.4234,
      "num_input_tokens_seen": 14543672,
      "step": 22240
    },
    {
      "epoch": 11.65880503144654,
      "grad_norm": 0.08935047686100006,
      "learning_rate": 0.0004426804509530907,
      "loss": 0.3147,
      "num_input_tokens_seen": 14546744,
      "step": 22245
    },
    {
      "epoch": 11.661425576519916,
      "grad_norm": 0.11215049028396606,
      "learning_rate": 0.000442453278935345,
      "loss": 0.4191,
      "num_input_tokens_seen": 14549688,
      "step": 22250
    },
    {
      "epoch": 11.664046121593291,
      "grad_norm": 0.1320485919713974,
      "learning_rate": 0.0004422261189557167,
      "loss": 0.4285,
      "num_input_tokens_seen": 14552440,
      "step": 22255
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.11897166818380356,
      "learning_rate": 0.00044199897106172526,
      "loss": 0.3558,
      "num_input_tokens_seen": 14555160,
      "step": 22260
    },
    {
      "epoch": 11.669287211740041,
      "grad_norm": 0.07354516535997391,
      "learning_rate": 0.0004417718353008873,
      "loss": 0.3582,
      "num_input_tokens_seen": 14558360,
      "step": 22265
    },
    {
      "epoch": 11.671907756813416,
      "grad_norm": 0.10593371093273163,
      "learning_rate": 0.0004415447117207172,
      "loss": 0.3675,
      "num_input_tokens_seen": 14561208,
      "step": 22270
    },
    {
      "epoch": 11.674528301886792,
      "grad_norm": 0.07112918794155121,
      "learning_rate": 0.00044131760036872657,
      "loss": 0.4098,
      "num_input_tokens_seen": 14565208,
      "step": 22275
    },
    {
      "epoch": 11.677148846960169,
      "grad_norm": 0.09968172758817673,
      "learning_rate": 0.00044109050129242434,
      "loss": 0.3788,
      "num_input_tokens_seen": 14568088,
      "step": 22280
    },
    {
      "epoch": 11.679769392033544,
      "grad_norm": 0.12745490670204163,
      "learning_rate": 0.00044086341453931715,
      "loss": 0.5354,
      "num_input_tokens_seen": 14571480,
      "step": 22285
    },
    {
      "epoch": 11.682389937106919,
      "grad_norm": 0.1637764275074005,
      "learning_rate": 0.00044063634015690893,
      "loss": 0.2706,
      "num_input_tokens_seen": 14574040,
      "step": 22290
    },
    {
      "epoch": 11.685010482180294,
      "grad_norm": 0.1349029392004013,
      "learning_rate": 0.0004404092781927012,
      "loss": 0.5705,
      "num_input_tokens_seen": 14576312,
      "step": 22295
    },
    {
      "epoch": 11.68763102725367,
      "grad_norm": 0.1317204385995865,
      "learning_rate": 0.00044018222869419255,
      "loss": 0.4155,
      "num_input_tokens_seen": 14579608,
      "step": 22300
    },
    {
      "epoch": 11.690251572327044,
      "grad_norm": 0.12261855602264404,
      "learning_rate": 0.00043995519170887936,
      "loss": 0.487,
      "num_input_tokens_seen": 14582392,
      "step": 22305
    },
    {
      "epoch": 11.69287211740042,
      "grad_norm": 0.23642705380916595,
      "learning_rate": 0.00043972816728425504,
      "loss": 0.5813,
      "num_input_tokens_seen": 14585016,
      "step": 22310
    },
    {
      "epoch": 11.695492662473795,
      "grad_norm": 0.16585825383663177,
      "learning_rate": 0.0004395011554678103,
      "loss": 0.3897,
      "num_input_tokens_seen": 14588344,
      "step": 22315
    },
    {
      "epoch": 11.69811320754717,
      "grad_norm": 0.132914200425148,
      "learning_rate": 0.00043927415630703364,
      "loss": 0.4112,
      "num_input_tokens_seen": 14590744,
      "step": 22320
    },
    {
      "epoch": 11.700733752620545,
      "grad_norm": 0.1429867148399353,
      "learning_rate": 0.0004390471698494108,
      "loss": 0.4235,
      "num_input_tokens_seen": 14594136,
      "step": 22325
    },
    {
      "epoch": 11.70335429769392,
      "grad_norm": 0.10500477999448776,
      "learning_rate": 0.0004388201961424248,
      "loss": 0.5142,
      "num_input_tokens_seen": 14597208,
      "step": 22330
    },
    {
      "epoch": 11.705974842767295,
      "grad_norm": 0.12205503135919571,
      "learning_rate": 0.0004385932352335555,
      "loss": 0.4504,
      "num_input_tokens_seen": 14600888,
      "step": 22335
    },
    {
      "epoch": 11.70859538784067,
      "grad_norm": 0.23117657005786896,
      "learning_rate": 0.000438366287170281,
      "loss": 0.4122,
      "num_input_tokens_seen": 14604376,
      "step": 22340
    },
    {
      "epoch": 11.711215932914046,
      "grad_norm": 0.10639958083629608,
      "learning_rate": 0.0004381393520000759,
      "loss": 0.3257,
      "num_input_tokens_seen": 14607448,
      "step": 22345
    },
    {
      "epoch": 11.713836477987421,
      "grad_norm": 0.1738923192024231,
      "learning_rate": 0.0004379124297704127,
      "loss": 0.5334,
      "num_input_tokens_seen": 14610520,
      "step": 22350
    },
    {
      "epoch": 11.716457023060796,
      "grad_norm": 0.07835225760936737,
      "learning_rate": 0.0004376855205287609,
      "loss": 0.3857,
      "num_input_tokens_seen": 14613752,
      "step": 22355
    },
    {
      "epoch": 11.719077568134171,
      "grad_norm": 0.11336442083120346,
      "learning_rate": 0.0004374586243225874,
      "loss": 0.4785,
      "num_input_tokens_seen": 14618136,
      "step": 22360
    },
    {
      "epoch": 11.721698113207546,
      "grad_norm": 0.07273292541503906,
      "learning_rate": 0.00043723174119935607,
      "loss": 0.5508,
      "num_input_tokens_seen": 14621880,
      "step": 22365
    },
    {
      "epoch": 11.724318658280922,
      "grad_norm": 0.08432885259389877,
      "learning_rate": 0.00043700487120652826,
      "loss": 0.3786,
      "num_input_tokens_seen": 14624696,
      "step": 22370
    },
    {
      "epoch": 11.726939203354299,
      "grad_norm": 0.14753566682338715,
      "learning_rate": 0.00043677801439156284,
      "loss": 0.3419,
      "num_input_tokens_seen": 14628440,
      "step": 22375
    },
    {
      "epoch": 11.729559748427674,
      "grad_norm": 0.13535600900650024,
      "learning_rate": 0.00043655117080191545,
      "loss": 0.4386,
      "num_input_tokens_seen": 14631544,
      "step": 22380
    },
    {
      "epoch": 11.732180293501049,
      "grad_norm": 0.14029595255851746,
      "learning_rate": 0.00043632434048503934,
      "loss": 0.5529,
      "num_input_tokens_seen": 14634744,
      "step": 22385
    },
    {
      "epoch": 11.734800838574424,
      "grad_norm": 0.09680964797735214,
      "learning_rate": 0.00043609752348838484,
      "loss": 0.3722,
      "num_input_tokens_seen": 14637272,
      "step": 22390
    },
    {
      "epoch": 11.7374213836478,
      "grad_norm": 0.2610786557197571,
      "learning_rate": 0.0004358707198593992,
      "loss": 0.4507,
      "num_input_tokens_seen": 14639544,
      "step": 22395
    },
    {
      "epoch": 11.740041928721174,
      "grad_norm": 0.09876672923564911,
      "learning_rate": 0.0004356439296455273,
      "loss": 0.5846,
      "num_input_tokens_seen": 14642648,
      "step": 22400
    },
    {
      "epoch": 11.74266247379455,
      "grad_norm": 0.15164564549922943,
      "learning_rate": 0.0004354171528942113,
      "loss": 0.6125,
      "num_input_tokens_seen": 14646168,
      "step": 22405
    },
    {
      "epoch": 11.745283018867925,
      "grad_norm": 0.17373308539390564,
      "learning_rate": 0.00043519038965288994,
      "loss": 0.5691,
      "num_input_tokens_seen": 14648760,
      "step": 22410
    },
    {
      "epoch": 11.7479035639413,
      "grad_norm": 0.13467994332313538,
      "learning_rate": 0.0004349636399689998,
      "loss": 0.4378,
      "num_input_tokens_seen": 14651768,
      "step": 22415
    },
    {
      "epoch": 11.750524109014675,
      "grad_norm": 0.21649502217769623,
      "learning_rate": 0.00043473690388997434,
      "loss": 0.4661,
      "num_input_tokens_seen": 14654168,
      "step": 22420
    },
    {
      "epoch": 11.75314465408805,
      "grad_norm": 0.14677105844020844,
      "learning_rate": 0.0004345101814632438,
      "loss": 0.2937,
      "num_input_tokens_seen": 14657112,
      "step": 22425
    },
    {
      "epoch": 11.755765199161425,
      "grad_norm": 0.13835635781288147,
      "learning_rate": 0.0004342834727362362,
      "loss": 0.4334,
      "num_input_tokens_seen": 14662008,
      "step": 22430
    },
    {
      "epoch": 11.7583857442348,
      "grad_norm": 0.1292729377746582,
      "learning_rate": 0.00043405677775637633,
      "loss": 0.6263,
      "num_input_tokens_seen": 14665304,
      "step": 22435
    },
    {
      "epoch": 11.761006289308176,
      "grad_norm": 0.10789474844932556,
      "learning_rate": 0.0004338300965710863,
      "loss": 0.4669,
      "num_input_tokens_seen": 14668920,
      "step": 22440
    },
    {
      "epoch": 11.76362683438155,
      "grad_norm": 0.1107897236943245,
      "learning_rate": 0.0004336034292277853,
      "loss": 0.6222,
      "num_input_tokens_seen": 14671608,
      "step": 22445
    },
    {
      "epoch": 11.766247379454926,
      "grad_norm": 0.14001674950122833,
      "learning_rate": 0.00043337677577388916,
      "loss": 0.4277,
      "num_input_tokens_seen": 14674680,
      "step": 22450
    },
    {
      "epoch": 11.768867924528301,
      "grad_norm": 0.11567990481853485,
      "learning_rate": 0.0004331501362568116,
      "loss": 0.4038,
      "num_input_tokens_seen": 14677720,
      "step": 22455
    },
    {
      "epoch": 11.771488469601676,
      "grad_norm": 0.19693920016288757,
      "learning_rate": 0.00043292351072396273,
      "loss": 0.37,
      "num_input_tokens_seen": 14680888,
      "step": 22460
    },
    {
      "epoch": 11.774109014675052,
      "grad_norm": 0.13949108123779297,
      "learning_rate": 0.0004326968992227503,
      "loss": 0.3793,
      "num_input_tokens_seen": 14685144,
      "step": 22465
    },
    {
      "epoch": 11.776729559748428,
      "grad_norm": 0.1034715324640274,
      "learning_rate": 0.0004324703018005786,
      "loss": 0.5631,
      "num_input_tokens_seen": 14689336,
      "step": 22470
    },
    {
      "epoch": 11.779350104821804,
      "grad_norm": 0.13617181777954102,
      "learning_rate": 0.00043224371850484955,
      "loss": 0.3263,
      "num_input_tokens_seen": 14692344,
      "step": 22475
    },
    {
      "epoch": 11.781970649895179,
      "grad_norm": 0.07923661917448044,
      "learning_rate": 0.0004320171493829614,
      "loss": 0.3671,
      "num_input_tokens_seen": 14696152,
      "step": 22480
    },
    {
      "epoch": 11.784591194968554,
      "grad_norm": 0.08228450268507004,
      "learning_rate": 0.00043179059448231004,
      "loss": 0.5096,
      "num_input_tokens_seen": 14699480,
      "step": 22485
    },
    {
      "epoch": 11.78721174004193,
      "grad_norm": 0.19249776005744934,
      "learning_rate": 0.0004315640538502881,
      "loss": 0.384,
      "num_input_tokens_seen": 14702264,
      "step": 22490
    },
    {
      "epoch": 11.789832285115304,
      "grad_norm": 0.08065437525510788,
      "learning_rate": 0.00043133752753428547,
      "loss": 0.4311,
      "num_input_tokens_seen": 14705720,
      "step": 22495
    },
    {
      "epoch": 11.79245283018868,
      "grad_norm": 0.09388448297977448,
      "learning_rate": 0.0004311110155816886,
      "loss": 0.4737,
      "num_input_tokens_seen": 14708600,
      "step": 22500
    },
    {
      "epoch": 11.795073375262055,
      "grad_norm": 0.07083190977573395,
      "learning_rate": 0.00043088451803988153,
      "loss": 0.5509,
      "num_input_tokens_seen": 14711992,
      "step": 22505
    },
    {
      "epoch": 11.79769392033543,
      "grad_norm": 0.16030797362327576,
      "learning_rate": 0.00043065803495624465,
      "loss": 0.452,
      "num_input_tokens_seen": 14715736,
      "step": 22510
    },
    {
      "epoch": 11.800314465408805,
      "grad_norm": 0.1145612895488739,
      "learning_rate": 0.00043043156637815575,
      "loss": 0.3852,
      "num_input_tokens_seen": 14718840,
      "step": 22515
    },
    {
      "epoch": 11.80293501048218,
      "grad_norm": 0.09119489043951035,
      "learning_rate": 0.00043020511235298956,
      "loss": 0.3583,
      "num_input_tokens_seen": 14721496,
      "step": 22520
    },
    {
      "epoch": 11.805555555555555,
      "grad_norm": 0.09702585637569427,
      "learning_rate": 0.00042997867292811744,
      "loss": 0.3916,
      "num_input_tokens_seen": 14728824,
      "step": 22525
    },
    {
      "epoch": 11.80817610062893,
      "grad_norm": 0.0711066722869873,
      "learning_rate": 0.00042975224815090834,
      "loss": 0.4169,
      "num_input_tokens_seen": 14731608,
      "step": 22530
    },
    {
      "epoch": 11.810796645702306,
      "grad_norm": 0.13371345400810242,
      "learning_rate": 0.0004295258380687274,
      "loss": 0.4725,
      "num_input_tokens_seen": 14735192,
      "step": 22535
    },
    {
      "epoch": 11.81341719077568,
      "grad_norm": 0.10041751712560654,
      "learning_rate": 0.000429299442728937,
      "loss": 0.4894,
      "num_input_tokens_seen": 14738744,
      "step": 22540
    },
    {
      "epoch": 11.816037735849056,
      "grad_norm": 0.11616212874650955,
      "learning_rate": 0.0004290730621788967,
      "loss": 0.5102,
      "num_input_tokens_seen": 14742360,
      "step": 22545
    },
    {
      "epoch": 11.818658280922431,
      "grad_norm": 0.16979874670505524,
      "learning_rate": 0.0004288466964659625,
      "loss": 0.3747,
      "num_input_tokens_seen": 14745560,
      "step": 22550
    },
    {
      "epoch": 11.821278825995806,
      "grad_norm": 0.11370796710252762,
      "learning_rate": 0.0004286203456374877,
      "loss": 0.4782,
      "num_input_tokens_seen": 14750168,
      "step": 22555
    },
    {
      "epoch": 11.823899371069182,
      "grad_norm": 0.1015891283750534,
      "learning_rate": 0.0004283940097408224,
      "loss": 0.4033,
      "num_input_tokens_seen": 14753880,
      "step": 22560
    },
    {
      "epoch": 11.826519916142558,
      "grad_norm": 0.10840223729610443,
      "learning_rate": 0.00042816768882331324,
      "loss": 0.472,
      "num_input_tokens_seen": 14757400,
      "step": 22565
    },
    {
      "epoch": 11.829140461215934,
      "grad_norm": 0.10398457944393158,
      "learning_rate": 0.000427941382932304,
      "loss": 0.5929,
      "num_input_tokens_seen": 14760664,
      "step": 22570
    },
    {
      "epoch": 11.831761006289309,
      "grad_norm": 0.08398706465959549,
      "learning_rate": 0.0004277150921151354,
      "loss": 0.3446,
      "num_input_tokens_seen": 14763672,
      "step": 22575
    },
    {
      "epoch": 11.834381551362684,
      "grad_norm": 0.10007937252521515,
      "learning_rate": 0.0004274888164191448,
      "loss": 0.4025,
      "num_input_tokens_seen": 14767384,
      "step": 22580
    },
    {
      "epoch": 11.83700209643606,
      "grad_norm": 0.13239097595214844,
      "learning_rate": 0.00042726255589166666,
      "loss": 0.6521,
      "num_input_tokens_seen": 14770552,
      "step": 22585
    },
    {
      "epoch": 11.839622641509434,
      "grad_norm": 0.20096227526664734,
      "learning_rate": 0.0004270363105800321,
      "loss": 0.4239,
      "num_input_tokens_seen": 14773688,
      "step": 22590
    },
    {
      "epoch": 11.84224318658281,
      "grad_norm": 0.08989690989255905,
      "learning_rate": 0.0004268100805315688,
      "loss": 0.3836,
      "num_input_tokens_seen": 14776568,
      "step": 22595
    },
    {
      "epoch": 11.844863731656185,
      "grad_norm": 0.11445724964141846,
      "learning_rate": 0.00042658386579360165,
      "loss": 0.4849,
      "num_input_tokens_seen": 14779256,
      "step": 22600
    },
    {
      "epoch": 11.84748427672956,
      "grad_norm": 0.18971432745456696,
      "learning_rate": 0.00042635766641345213,
      "loss": 0.5326,
      "num_input_tokens_seen": 14782200,
      "step": 22605
    },
    {
      "epoch": 11.850104821802935,
      "grad_norm": 0.08896796405315399,
      "learning_rate": 0.0004261314824384388,
      "loss": 0.3171,
      "num_input_tokens_seen": 14784600,
      "step": 22610
    },
    {
      "epoch": 11.85272536687631,
      "grad_norm": 0.10445359349250793,
      "learning_rate": 0.00042590531391587666,
      "loss": 0.47,
      "num_input_tokens_seen": 14788440,
      "step": 22615
    },
    {
      "epoch": 11.855345911949685,
      "grad_norm": 0.15146960318088531,
      "learning_rate": 0.00042567916089307733,
      "loss": 0.568,
      "num_input_tokens_seen": 14791512,
      "step": 22620
    },
    {
      "epoch": 11.85796645702306,
      "grad_norm": 0.113885298371315,
      "learning_rate": 0.00042545302341734977,
      "loss": 0.4722,
      "num_input_tokens_seen": 14794712,
      "step": 22625
    },
    {
      "epoch": 11.860587002096436,
      "grad_norm": 0.08336344361305237,
      "learning_rate": 0.0004252269015359991,
      "loss": 0.5599,
      "num_input_tokens_seen": 14798520,
      "step": 22630
    },
    {
      "epoch": 11.86320754716981,
      "grad_norm": 0.1321967989206314,
      "learning_rate": 0.00042500079529632763,
      "loss": 0.4425,
      "num_input_tokens_seen": 14802456,
      "step": 22635
    },
    {
      "epoch": 11.865828092243186,
      "grad_norm": 0.09689376503229141,
      "learning_rate": 0.0004247747047456342,
      "loss": 0.3468,
      "num_input_tokens_seen": 14808184,
      "step": 22640
    },
    {
      "epoch": 11.868448637316561,
      "grad_norm": 0.14600573480129242,
      "learning_rate": 0.0004245486299312144,
      "loss": 0.4308,
      "num_input_tokens_seen": 14810552,
      "step": 22645
    },
    {
      "epoch": 11.871069182389936,
      "grad_norm": 0.09134134650230408,
      "learning_rate": 0.0004243225709003602,
      "loss": 0.41,
      "num_input_tokens_seen": 14814456,
      "step": 22650
    },
    {
      "epoch": 11.873689727463312,
      "grad_norm": 0.12471462786197662,
      "learning_rate": 0.000424096527700361,
      "loss": 0.4259,
      "num_input_tokens_seen": 14818072,
      "step": 22655
    },
    {
      "epoch": 11.876310272536688,
      "grad_norm": 0.12570782005786896,
      "learning_rate": 0.0004238705003785021,
      "loss": 0.399,
      "num_input_tokens_seen": 14821016,
      "step": 22660
    },
    {
      "epoch": 11.878930817610064,
      "grad_norm": 0.07907766103744507,
      "learning_rate": 0.0004236444889820661,
      "loss": 0.4419,
      "num_input_tokens_seen": 14824792,
      "step": 22665
    },
    {
      "epoch": 11.881551362683439,
      "grad_norm": 0.14345820248126984,
      "learning_rate": 0.0004234184935583318,
      "loss": 0.3975,
      "num_input_tokens_seen": 14828376,
      "step": 22670
    },
    {
      "epoch": 11.884171907756814,
      "grad_norm": 0.08409570902585983,
      "learning_rate": 0.00042319251415457517,
      "loss": 0.4098,
      "num_input_tokens_seen": 14831608,
      "step": 22675
    },
    {
      "epoch": 11.88679245283019,
      "grad_norm": 0.23820658028125763,
      "learning_rate": 0.0004229665508180681,
      "loss": 0.5068,
      "num_input_tokens_seen": 14834200,
      "step": 22680
    },
    {
      "epoch": 11.889412997903564,
      "grad_norm": 0.10888157784938812,
      "learning_rate": 0.0004227406035960798,
      "loss": 0.3931,
      "num_input_tokens_seen": 14837624,
      "step": 22685
    },
    {
      "epoch": 11.89203354297694,
      "grad_norm": 0.10981062054634094,
      "learning_rate": 0.0004225146725358758,
      "loss": 0.4021,
      "num_input_tokens_seen": 14840728,
      "step": 22690
    },
    {
      "epoch": 11.894654088050315,
      "grad_norm": 0.14270327985286713,
      "learning_rate": 0.0004222887576847183,
      "loss": 0.5062,
      "num_input_tokens_seen": 14843160,
      "step": 22695
    },
    {
      "epoch": 11.89727463312369,
      "grad_norm": 0.08470037579536438,
      "learning_rate": 0.00042206285908986626,
      "loss": 0.4951,
      "num_input_tokens_seen": 14845976,
      "step": 22700
    },
    {
      "epoch": 11.899895178197065,
      "grad_norm": 0.10432206094264984,
      "learning_rate": 0.00042183697679857484,
      "loss": 0.419,
      "num_input_tokens_seen": 14849048,
      "step": 22705
    },
    {
      "epoch": 11.90251572327044,
      "grad_norm": 0.16098284721374512,
      "learning_rate": 0.00042161111085809604,
      "loss": 0.4657,
      "num_input_tokens_seen": 14852536,
      "step": 22710
    },
    {
      "epoch": 11.905136268343815,
      "grad_norm": 0.15824800729751587,
      "learning_rate": 0.00042138526131567855,
      "loss": 0.4092,
      "num_input_tokens_seen": 14855128,
      "step": 22715
    },
    {
      "epoch": 11.90775681341719,
      "grad_norm": 0.07686194032430649,
      "learning_rate": 0.0004211594282185677,
      "loss": 0.4833,
      "num_input_tokens_seen": 14859224,
      "step": 22720
    },
    {
      "epoch": 11.910377358490566,
      "grad_norm": 0.09782835096120834,
      "learning_rate": 0.0004209336116140048,
      "loss": 0.456,
      "num_input_tokens_seen": 14863288,
      "step": 22725
    },
    {
      "epoch": 11.91299790356394,
      "grad_norm": 0.13140517473220825,
      "learning_rate": 0.00042070781154922857,
      "loss": 0.471,
      "num_input_tokens_seen": 14867032,
      "step": 22730
    },
    {
      "epoch": 11.915618448637316,
      "grad_norm": 0.17700476944446564,
      "learning_rate": 0.0004204820280714734,
      "loss": 0.3457,
      "num_input_tokens_seen": 14869752,
      "step": 22735
    },
    {
      "epoch": 11.918238993710691,
      "grad_norm": 0.12710873782634735,
      "learning_rate": 0.00042025626122797066,
      "loss": 0.4745,
      "num_input_tokens_seen": 14872856,
      "step": 22740
    },
    {
      "epoch": 11.920859538784066,
      "grad_norm": 0.07293572276830673,
      "learning_rate": 0.0004200305110659484,
      "loss": 0.5051,
      "num_input_tokens_seen": 14878648,
      "step": 22745
    },
    {
      "epoch": 11.923480083857442,
      "grad_norm": 0.06585486233234406,
      "learning_rate": 0.0004198047776326308,
      "loss": 0.4245,
      "num_input_tokens_seen": 14882072,
      "step": 22750
    },
    {
      "epoch": 11.926100628930818,
      "grad_norm": 0.13104385137557983,
      "learning_rate": 0.00041957906097523897,
      "loss": 0.4904,
      "num_input_tokens_seen": 14884344,
      "step": 22755
    },
    {
      "epoch": 11.928721174004194,
      "grad_norm": 0.15795046091079712,
      "learning_rate": 0.00041935336114099013,
      "loss": 0.4627,
      "num_input_tokens_seen": 14886584,
      "step": 22760
    },
    {
      "epoch": 11.931341719077569,
      "grad_norm": 0.1384611874818802,
      "learning_rate": 0.0004191276781770979,
      "loss": 0.5196,
      "num_input_tokens_seen": 14889784,
      "step": 22765
    },
    {
      "epoch": 11.933962264150944,
      "grad_norm": 0.11792562156915665,
      "learning_rate": 0.00041890201213077286,
      "loss": 0.3797,
      "num_input_tokens_seen": 14892664,
      "step": 22770
    },
    {
      "epoch": 11.93658280922432,
      "grad_norm": 0.09643594920635223,
      "learning_rate": 0.00041867636304922153,
      "loss": 0.3894,
      "num_input_tokens_seen": 14895576,
      "step": 22775
    },
    {
      "epoch": 11.939203354297694,
      "grad_norm": 0.12410104274749756,
      "learning_rate": 0.00041845073097964737,
      "loss": 0.4262,
      "num_input_tokens_seen": 14898136,
      "step": 22780
    },
    {
      "epoch": 11.94182389937107,
      "grad_norm": 0.07600059360265732,
      "learning_rate": 0.0004182251159692498,
      "loss": 0.4309,
      "num_input_tokens_seen": 14901112,
      "step": 22785
    },
    {
      "epoch": 11.944444444444445,
      "grad_norm": 0.24669769406318665,
      "learning_rate": 0.0004179995180652253,
      "loss": 0.3644,
      "num_input_tokens_seen": 14904056,
      "step": 22790
    },
    {
      "epoch": 11.94706498951782,
      "grad_norm": 0.08432874083518982,
      "learning_rate": 0.00041777393731476587,
      "loss": 0.346,
      "num_input_tokens_seen": 14907352,
      "step": 22795
    },
    {
      "epoch": 11.949685534591195,
      "grad_norm": 0.14087434113025665,
      "learning_rate": 0.0004175483737650608,
      "loss": 0.4882,
      "num_input_tokens_seen": 14910712,
      "step": 22800
    },
    {
      "epoch": 11.95230607966457,
      "grad_norm": 0.1788758933544159,
      "learning_rate": 0.0004173228274632951,
      "loss": 0.4408,
      "num_input_tokens_seen": 14913080,
      "step": 22805
    },
    {
      "epoch": 11.954926624737945,
      "grad_norm": 0.12348953634500504,
      "learning_rate": 0.00041709729845665084,
      "loss": 0.4237,
      "num_input_tokens_seen": 14916152,
      "step": 22810
    },
    {
      "epoch": 11.95754716981132,
      "grad_norm": 0.15361644327640533,
      "learning_rate": 0.0004168717867923061,
      "loss": 0.5593,
      "num_input_tokens_seen": 14918584,
      "step": 22815
    },
    {
      "epoch": 11.960167714884696,
      "grad_norm": 0.07076960057020187,
      "learning_rate": 0.00041664629251743487,
      "loss": 0.4756,
      "num_input_tokens_seen": 14921784,
      "step": 22820
    },
    {
      "epoch": 11.96278825995807,
      "grad_norm": 0.13783742487430573,
      "learning_rate": 0.0004164208156792084,
      "loss": 0.3512,
      "num_input_tokens_seen": 14924664,
      "step": 22825
    },
    {
      "epoch": 11.965408805031446,
      "grad_norm": 0.1496656984090805,
      "learning_rate": 0.00041619535632479374,
      "loss": 0.4406,
      "num_input_tokens_seen": 14927384,
      "step": 22830
    },
    {
      "epoch": 11.968029350104821,
      "grad_norm": 0.09639907628297806,
      "learning_rate": 0.00041596991450135445,
      "loss": 0.4862,
      "num_input_tokens_seen": 14930232,
      "step": 22835
    },
    {
      "epoch": 11.970649895178196,
      "grad_norm": 0.10257157683372498,
      "learning_rate": 0.0004157444902560504,
      "loss": 0.3734,
      "num_input_tokens_seen": 14933272,
      "step": 22840
    },
    {
      "epoch": 11.973270440251572,
      "grad_norm": 0.11047130078077316,
      "learning_rate": 0.00041551908363603786,
      "loss": 0.4831,
      "num_input_tokens_seen": 14937208,
      "step": 22845
    },
    {
      "epoch": 11.975890985324948,
      "grad_norm": 0.10118584334850311,
      "learning_rate": 0.00041529369468846914,
      "loss": 0.3286,
      "num_input_tokens_seen": 14940120,
      "step": 22850
    },
    {
      "epoch": 11.978511530398324,
      "grad_norm": 0.21680864691734314,
      "learning_rate": 0.00041506832346049303,
      "loss": 0.4495,
      "num_input_tokens_seen": 14942968,
      "step": 22855
    },
    {
      "epoch": 11.981132075471699,
      "grad_norm": 0.12439398467540741,
      "learning_rate": 0.00041484296999925476,
      "loss": 0.4211,
      "num_input_tokens_seen": 14945784,
      "step": 22860
    },
    {
      "epoch": 11.983752620545074,
      "grad_norm": 0.12339208275079727,
      "learning_rate": 0.00041461763435189555,
      "loss": 0.3997,
      "num_input_tokens_seen": 14949432,
      "step": 22865
    },
    {
      "epoch": 11.98637316561845,
      "grad_norm": 0.09445594996213913,
      "learning_rate": 0.00041439231656555315,
      "loss": 0.4473,
      "num_input_tokens_seen": 14952344,
      "step": 22870
    },
    {
      "epoch": 11.988993710691824,
      "grad_norm": 0.1802167296409607,
      "learning_rate": 0.0004141670166873617,
      "loss": 0.4526,
      "num_input_tokens_seen": 14955288,
      "step": 22875
    },
    {
      "epoch": 11.9916142557652,
      "grad_norm": 0.18183527886867523,
      "learning_rate": 0.00041394173476445097,
      "loss": 0.51,
      "num_input_tokens_seen": 14958776,
      "step": 22880
    },
    {
      "epoch": 11.994234800838575,
      "grad_norm": 0.10844837874174118,
      "learning_rate": 0.00041371647084394744,
      "loss": 0.36,
      "num_input_tokens_seen": 14961624,
      "step": 22885
    },
    {
      "epoch": 11.99685534591195,
      "grad_norm": 0.09295371174812317,
      "learning_rate": 0.00041349122497297394,
      "loss": 0.4646,
      "num_input_tokens_seen": 14966392,
      "step": 22890
    },
    {
      "epoch": 11.999475890985325,
      "grad_norm": 0.09403502196073532,
      "learning_rate": 0.0004132659971986491,
      "loss": 0.5766,
      "num_input_tokens_seen": 14969976,
      "step": 22895
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.4784584045410156,
      "eval_runtime": 13.5716,
      "eval_samples_per_second": 62.483,
      "eval_steps_per_second": 15.621,
      "num_input_tokens_seen": 14970024,
      "step": 22896
    },
    {
      "epoch": 12.0020964360587,
      "grad_norm": 0.2723032236099243,
      "learning_rate": 0.00041304078756808837,
      "loss": 0.2129,
      "num_input_tokens_seen": 14972840,
      "step": 22900
    },
    {
      "epoch": 12.004716981132075,
      "grad_norm": 0.1299019604921341,
      "learning_rate": 0.0004128155961284027,
      "loss": 0.397,
      "num_input_tokens_seen": 14975720,
      "step": 22905
    },
    {
      "epoch": 12.00733752620545,
      "grad_norm": 0.11493027955293655,
      "learning_rate": 0.0004125904229266996,
      "loss": 0.4925,
      "num_input_tokens_seen": 14979016,
      "step": 22910
    },
    {
      "epoch": 12.009958071278826,
      "grad_norm": 0.1186535507440567,
      "learning_rate": 0.0004123652680100828,
      "loss": 0.525,
      "num_input_tokens_seen": 14982472,
      "step": 22915
    },
    {
      "epoch": 12.0125786163522,
      "grad_norm": 0.09826982021331787,
      "learning_rate": 0.0004121401314256521,
      "loss": 0.4042,
      "num_input_tokens_seen": 14986184,
      "step": 22920
    },
    {
      "epoch": 12.015199161425576,
      "grad_norm": 0.13263191282749176,
      "learning_rate": 0.00041191501322050363,
      "loss": 0.4234,
      "num_input_tokens_seen": 14988904,
      "step": 22925
    },
    {
      "epoch": 12.017819706498951,
      "grad_norm": 0.11657484620809555,
      "learning_rate": 0.0004116899134417296,
      "loss": 0.4355,
      "num_input_tokens_seen": 14991432,
      "step": 22930
    },
    {
      "epoch": 12.020440251572326,
      "grad_norm": 0.11909051984548569,
      "learning_rate": 0.00041146483213641793,
      "loss": 0.3275,
      "num_input_tokens_seen": 14994184,
      "step": 22935
    },
    {
      "epoch": 12.023060796645701,
      "grad_norm": 0.09260762482881546,
      "learning_rate": 0.00041123976935165355,
      "loss": 0.437,
      "num_input_tokens_seen": 14998280,
      "step": 22940
    },
    {
      "epoch": 12.025681341719078,
      "grad_norm": 0.1826419085264206,
      "learning_rate": 0.0004110147251345165,
      "loss": 0.6002,
      "num_input_tokens_seen": 15001224,
      "step": 22945
    },
    {
      "epoch": 12.028301886792454,
      "grad_norm": 0.0990491658449173,
      "learning_rate": 0.0004107896995320839,
      "loss": 0.4485,
      "num_input_tokens_seen": 15004392,
      "step": 22950
    },
    {
      "epoch": 12.030922431865829,
      "grad_norm": 0.20164182782173157,
      "learning_rate": 0.0004105646925914284,
      "loss": 0.4271,
      "num_input_tokens_seen": 15007272,
      "step": 22955
    },
    {
      "epoch": 12.033542976939204,
      "grad_norm": 0.1278008073568344,
      "learning_rate": 0.00041033970435961904,
      "loss": 0.3649,
      "num_input_tokens_seen": 15011048,
      "step": 22960
    },
    {
      "epoch": 12.036163522012579,
      "grad_norm": 0.10951352119445801,
      "learning_rate": 0.00041011473488372044,
      "loss": 0.5329,
      "num_input_tokens_seen": 15014376,
      "step": 22965
    },
    {
      "epoch": 12.038784067085954,
      "grad_norm": 0.1326400488615036,
      "learning_rate": 0.0004098897842107939,
      "loss": 0.4995,
      "num_input_tokens_seen": 15018408,
      "step": 22970
    },
    {
      "epoch": 12.04140461215933,
      "grad_norm": 0.1276916265487671,
      "learning_rate": 0.00040966485238789634,
      "loss": 0.3874,
      "num_input_tokens_seen": 15021512,
      "step": 22975
    },
    {
      "epoch": 12.044025157232705,
      "grad_norm": 0.1963135302066803,
      "learning_rate": 0.00040943993946208126,
      "loss": 0.3855,
      "num_input_tokens_seen": 15023688,
      "step": 22980
    },
    {
      "epoch": 12.04664570230608,
      "grad_norm": 0.11587672680616379,
      "learning_rate": 0.00040921504548039765,
      "loss": 0.3645,
      "num_input_tokens_seen": 15026760,
      "step": 22985
    },
    {
      "epoch": 12.049266247379455,
      "grad_norm": 0.13213077187538147,
      "learning_rate": 0.00040899017048989073,
      "loss": 0.415,
      "num_input_tokens_seen": 15030248,
      "step": 22990
    },
    {
      "epoch": 12.05188679245283,
      "grad_norm": 0.17799389362335205,
      "learning_rate": 0.00040876531453760186,
      "loss": 0.4127,
      "num_input_tokens_seen": 15032872,
      "step": 22995
    },
    {
      "epoch": 12.054507337526205,
      "grad_norm": 0.16748641431331635,
      "learning_rate": 0.00040854047767056824,
      "loss": 0.4848,
      "num_input_tokens_seen": 15035560,
      "step": 23000
    },
    {
      "epoch": 12.05712788259958,
      "grad_norm": 0.10691680759191513,
      "learning_rate": 0.00040831565993582335,
      "loss": 0.4524,
      "num_input_tokens_seen": 15038504,
      "step": 23005
    },
    {
      "epoch": 12.059748427672956,
      "grad_norm": 0.11593438684940338,
      "learning_rate": 0.0004080908613803964,
      "loss": 0.5154,
      "num_input_tokens_seen": 15041352,
      "step": 23010
    },
    {
      "epoch": 12.06236897274633,
      "grad_norm": 0.1908978372812271,
      "learning_rate": 0.0004078660820513128,
      "loss": 0.4613,
      "num_input_tokens_seen": 15044584,
      "step": 23015
    },
    {
      "epoch": 12.064989517819706,
      "grad_norm": 0.15039831399917603,
      "learning_rate": 0.0004076413219955937,
      "loss": 0.3188,
      "num_input_tokens_seen": 15047496,
      "step": 23020
    },
    {
      "epoch": 12.067610062893081,
      "grad_norm": 0.10053898394107819,
      "learning_rate": 0.00040741658126025614,
      "loss": 0.463,
      "num_input_tokens_seen": 15050408,
      "step": 23025
    },
    {
      "epoch": 12.070230607966456,
      "grad_norm": 0.11399371176958084,
      "learning_rate": 0.0004071918598923136,
      "loss": 0.3987,
      "num_input_tokens_seen": 15053128,
      "step": 23030
    },
    {
      "epoch": 12.072851153039831,
      "grad_norm": 0.12496502697467804,
      "learning_rate": 0.0004069671579387753,
      "loss": 0.3935,
      "num_input_tokens_seen": 15056040,
      "step": 23035
    },
    {
      "epoch": 12.075471698113208,
      "grad_norm": 0.12243868410587311,
      "learning_rate": 0.000406742475446646,
      "loss": 0.3904,
      "num_input_tokens_seen": 15059208,
      "step": 23040
    },
    {
      "epoch": 12.078092243186584,
      "grad_norm": 0.17670850455760956,
      "learning_rate": 0.0004065178124629272,
      "loss": 0.4074,
      "num_input_tokens_seen": 15062472,
      "step": 23045
    },
    {
      "epoch": 12.080712788259959,
      "grad_norm": 0.12218121439218521,
      "learning_rate": 0.0004062931690346153,
      "loss": 0.4764,
      "num_input_tokens_seen": 15066120,
      "step": 23050
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.1048317477107048,
      "learning_rate": 0.0004060685452087034,
      "loss": 0.3952,
      "num_input_tokens_seen": 15069544,
      "step": 23055
    },
    {
      "epoch": 12.085953878406709,
      "grad_norm": 0.12299586832523346,
      "learning_rate": 0.00040584394103218026,
      "loss": 0.5248,
      "num_input_tokens_seen": 15073096,
      "step": 23060
    },
    {
      "epoch": 12.088574423480084,
      "grad_norm": 0.12081020325422287,
      "learning_rate": 0.0004056193565520304,
      "loss": 0.5114,
      "num_input_tokens_seen": 15076296,
      "step": 23065
    },
    {
      "epoch": 12.09119496855346,
      "grad_norm": 0.15571044385433197,
      "learning_rate": 0.0004053947918152344,
      "loss": 0.4204,
      "num_input_tokens_seen": 15079176,
      "step": 23070
    },
    {
      "epoch": 12.093815513626835,
      "grad_norm": 0.14242643117904663,
      "learning_rate": 0.0004051702468687688,
      "loss": 0.4715,
      "num_input_tokens_seen": 15082312,
      "step": 23075
    },
    {
      "epoch": 12.09643605870021,
      "grad_norm": 0.11631505936384201,
      "learning_rate": 0.0004049457217596055,
      "loss": 0.5584,
      "num_input_tokens_seen": 15084872,
      "step": 23080
    },
    {
      "epoch": 12.099056603773585,
      "grad_norm": 0.08361358940601349,
      "learning_rate": 0.0004047212165347129,
      "loss": 0.3695,
      "num_input_tokens_seen": 15089896,
      "step": 23085
    },
    {
      "epoch": 12.10167714884696,
      "grad_norm": 0.13011379539966583,
      "learning_rate": 0.00040449673124105464,
      "loss": 0.5513,
      "num_input_tokens_seen": 15092424,
      "step": 23090
    },
    {
      "epoch": 12.104297693920335,
      "grad_norm": 0.17890118062496185,
      "learning_rate": 0.00040427226592559064,
      "loss": 0.4061,
      "num_input_tokens_seen": 15096392,
      "step": 23095
    },
    {
      "epoch": 12.10691823899371,
      "grad_norm": 0.09076114743947983,
      "learning_rate": 0.00040404782063527684,
      "loss": 0.452,
      "num_input_tokens_seen": 15099464,
      "step": 23100
    },
    {
      "epoch": 12.109538784067086,
      "grad_norm": 0.16297584772109985,
      "learning_rate": 0.00040382339541706393,
      "loss": 0.3647,
      "num_input_tokens_seen": 15102088,
      "step": 23105
    },
    {
      "epoch": 12.11215932914046,
      "grad_norm": 0.15222595632076263,
      "learning_rate": 0.0004035989903178995,
      "loss": 0.4826,
      "num_input_tokens_seen": 15105288,
      "step": 23110
    },
    {
      "epoch": 12.114779874213836,
      "grad_norm": 0.12108108401298523,
      "learning_rate": 0.0004033746053847266,
      "loss": 0.3564,
      "num_input_tokens_seen": 15107592,
      "step": 23115
    },
    {
      "epoch": 12.117400419287211,
      "grad_norm": 0.14666201174259186,
      "learning_rate": 0.00040315024066448374,
      "loss": 0.3972,
      "num_input_tokens_seen": 15109960,
      "step": 23120
    },
    {
      "epoch": 12.120020964360586,
      "grad_norm": 0.09955555200576782,
      "learning_rate": 0.00040292589620410577,
      "loss": 0.3104,
      "num_input_tokens_seen": 15113576,
      "step": 23125
    },
    {
      "epoch": 12.122641509433961,
      "grad_norm": 0.16660043597221375,
      "learning_rate": 0.0004027015720505229,
      "loss": 0.5389,
      "num_input_tokens_seen": 15116392,
      "step": 23130
    },
    {
      "epoch": 12.125262054507338,
      "grad_norm": 0.11595518887042999,
      "learning_rate": 0.0004024772682506609,
      "loss": 0.3301,
      "num_input_tokens_seen": 15118920,
      "step": 23135
    },
    {
      "epoch": 12.127882599580714,
      "grad_norm": 0.13703152537345886,
      "learning_rate": 0.0004022529848514419,
      "loss": 0.4057,
      "num_input_tokens_seen": 15123752,
      "step": 23140
    },
    {
      "epoch": 12.130503144654089,
      "grad_norm": 0.13680203258991241,
      "learning_rate": 0.00040202872189978324,
      "loss": 0.3598,
      "num_input_tokens_seen": 15127784,
      "step": 23145
    },
    {
      "epoch": 12.133123689727464,
      "grad_norm": 0.11516525596380234,
      "learning_rate": 0.0004018044794425983,
      "loss": 0.4329,
      "num_input_tokens_seen": 15131080,
      "step": 23150
    },
    {
      "epoch": 12.135744234800839,
      "grad_norm": 0.23159022629261017,
      "learning_rate": 0.00040158025752679596,
      "loss": 0.4544,
      "num_input_tokens_seen": 15134792,
      "step": 23155
    },
    {
      "epoch": 12.138364779874214,
      "grad_norm": 0.18174193799495697,
      "learning_rate": 0.0004013560561992811,
      "loss": 0.4885,
      "num_input_tokens_seen": 15138216,
      "step": 23160
    },
    {
      "epoch": 12.14098532494759,
      "grad_norm": 0.125325545668602,
      "learning_rate": 0.0004011318755069537,
      "loss": 0.3676,
      "num_input_tokens_seen": 15142408,
      "step": 23165
    },
    {
      "epoch": 12.143605870020965,
      "grad_norm": 0.12569931149482727,
      "learning_rate": 0.00040090771549670994,
      "loss": 0.3684,
      "num_input_tokens_seen": 15145768,
      "step": 23170
    },
    {
      "epoch": 12.14622641509434,
      "grad_norm": 0.12217056751251221,
      "learning_rate": 0.00040068357621544167,
      "loss": 0.3172,
      "num_input_tokens_seen": 15148872,
      "step": 23175
    },
    {
      "epoch": 12.148846960167715,
      "grad_norm": 0.09673336893320084,
      "learning_rate": 0.00040045945771003625,
      "loss": 0.4047,
      "num_input_tokens_seen": 15151560,
      "step": 23180
    },
    {
      "epoch": 12.15146750524109,
      "grad_norm": 0.1508149951696396,
      "learning_rate": 0.0004002353600273767,
      "loss": 0.4951,
      "num_input_tokens_seen": 15153992,
      "step": 23185
    },
    {
      "epoch": 12.154088050314465,
      "grad_norm": 0.1267775297164917,
      "learning_rate": 0.0004000112832143415,
      "loss": 0.542,
      "num_input_tokens_seen": 15158248,
      "step": 23190
    },
    {
      "epoch": 12.15670859538784,
      "grad_norm": 0.1411927342414856,
      "learning_rate": 0.00039978722731780523,
      "loss": 0.4066,
      "num_input_tokens_seen": 15160776,
      "step": 23195
    },
    {
      "epoch": 12.159329140461216,
      "grad_norm": 0.0973324105143547,
      "learning_rate": 0.00039956319238463754,
      "loss": 0.3999,
      "num_input_tokens_seen": 15163816,
      "step": 23200
    },
    {
      "epoch": 12.16194968553459,
      "grad_norm": 0.11585351824760437,
      "learning_rate": 0.00039933917846170436,
      "loss": 0.4272,
      "num_input_tokens_seen": 15168424,
      "step": 23205
    },
    {
      "epoch": 12.164570230607966,
      "grad_norm": 0.13562437891960144,
      "learning_rate": 0.0003991151855958665,
      "loss": 0.45,
      "num_input_tokens_seen": 15171560,
      "step": 23210
    },
    {
      "epoch": 12.167190775681341,
      "grad_norm": 0.11891643702983856,
      "learning_rate": 0.00039889121383398113,
      "loss": 0.5145,
      "num_input_tokens_seen": 15174536,
      "step": 23215
    },
    {
      "epoch": 12.169811320754716,
      "grad_norm": 0.12059217691421509,
      "learning_rate": 0.00039866726322290014,
      "loss": 0.4143,
      "num_input_tokens_seen": 15177800,
      "step": 23220
    },
    {
      "epoch": 12.172431865828091,
      "grad_norm": 0.12551338970661163,
      "learning_rate": 0.0003984433338094715,
      "loss": 0.3995,
      "num_input_tokens_seen": 15180872,
      "step": 23225
    },
    {
      "epoch": 12.175052410901468,
      "grad_norm": 0.11172940582036972,
      "learning_rate": 0.000398219425640539,
      "loss": 0.4847,
      "num_input_tokens_seen": 15183912,
      "step": 23230
    },
    {
      "epoch": 12.177672955974844,
      "grad_norm": 0.19364352524280548,
      "learning_rate": 0.0003979955387629413,
      "loss": 0.4015,
      "num_input_tokens_seen": 15186664,
      "step": 23235
    },
    {
      "epoch": 12.180293501048219,
      "grad_norm": 0.18949663639068604,
      "learning_rate": 0.0003977716732235133,
      "loss": 0.4451,
      "num_input_tokens_seen": 15190248,
      "step": 23240
    },
    {
      "epoch": 12.182914046121594,
      "grad_norm": 0.06280505657196045,
      "learning_rate": 0.000397547829069085,
      "loss": 0.3572,
      "num_input_tokens_seen": 15193736,
      "step": 23245
    },
    {
      "epoch": 12.185534591194969,
      "grad_norm": 0.12799374759197235,
      "learning_rate": 0.000397324006346482,
      "loss": 0.4701,
      "num_input_tokens_seen": 15196296,
      "step": 23250
    },
    {
      "epoch": 12.188155136268344,
      "grad_norm": 0.12278777360916138,
      "learning_rate": 0.0003971002051025253,
      "loss": 0.4562,
      "num_input_tokens_seen": 15199272,
      "step": 23255
    },
    {
      "epoch": 12.19077568134172,
      "grad_norm": 0.08680180460214615,
      "learning_rate": 0.000396876425384032,
      "loss": 0.4661,
      "num_input_tokens_seen": 15202152,
      "step": 23260
    },
    {
      "epoch": 12.193396226415095,
      "grad_norm": 0.204636812210083,
      "learning_rate": 0.00039665266723781377,
      "loss": 0.4484,
      "num_input_tokens_seen": 15205320,
      "step": 23265
    },
    {
      "epoch": 12.19601677148847,
      "grad_norm": 0.1397632658481598,
      "learning_rate": 0.00039642893071067877,
      "loss": 0.3911,
      "num_input_tokens_seen": 15208936,
      "step": 23270
    },
    {
      "epoch": 12.198637316561845,
      "grad_norm": 0.09166528284549713,
      "learning_rate": 0.0003962052158494298,
      "loss": 0.3687,
      "num_input_tokens_seen": 15212392,
      "step": 23275
    },
    {
      "epoch": 12.20125786163522,
      "grad_norm": 0.04813213646411896,
      "learning_rate": 0.00039598152270086534,
      "loss": 0.3331,
      "num_input_tokens_seen": 15216328,
      "step": 23280
    },
    {
      "epoch": 12.203878406708595,
      "grad_norm": 0.07523420453071594,
      "learning_rate": 0.00039575785131177975,
      "loss": 0.4753,
      "num_input_tokens_seen": 15220136,
      "step": 23285
    },
    {
      "epoch": 12.20649895178197,
      "grad_norm": 0.0919262170791626,
      "learning_rate": 0.0003955342017289624,
      "loss": 0.4131,
      "num_input_tokens_seen": 15222792,
      "step": 23290
    },
    {
      "epoch": 12.209119496855346,
      "grad_norm": 0.08655944466590881,
      "learning_rate": 0.0003953105739991982,
      "loss": 0.5174,
      "num_input_tokens_seen": 15225512,
      "step": 23295
    },
    {
      "epoch": 12.21174004192872,
      "grad_norm": 0.1057739406824112,
      "learning_rate": 0.0003950869681692678,
      "loss": 0.4186,
      "num_input_tokens_seen": 15228648,
      "step": 23300
    },
    {
      "epoch": 12.214360587002096,
      "grad_norm": 0.092233806848526,
      "learning_rate": 0.0003948633842859465,
      "loss": 0.5248,
      "num_input_tokens_seen": 15231784,
      "step": 23305
    },
    {
      "epoch": 12.216981132075471,
      "grad_norm": 0.1500389277935028,
      "learning_rate": 0.00039463982239600575,
      "loss": 0.3655,
      "num_input_tokens_seen": 15234760,
      "step": 23310
    },
    {
      "epoch": 12.219601677148846,
      "grad_norm": 0.09180905669927597,
      "learning_rate": 0.00039441628254621215,
      "loss": 0.2815,
      "num_input_tokens_seen": 15237800,
      "step": 23315
    },
    {
      "epoch": 12.222222222222221,
      "grad_norm": 0.13343532383441925,
      "learning_rate": 0.00039419276478332773,
      "loss": 0.4011,
      "num_input_tokens_seen": 15241544,
      "step": 23320
    },
    {
      "epoch": 12.224842767295598,
      "grad_norm": 0.08269070088863373,
      "learning_rate": 0.0003939692691541097,
      "loss": 0.5588,
      "num_input_tokens_seen": 15246760,
      "step": 23325
    },
    {
      "epoch": 12.227463312368974,
      "grad_norm": 0.07945328205823898,
      "learning_rate": 0.00039374579570531114,
      "loss": 0.3875,
      "num_input_tokens_seen": 15250184,
      "step": 23330
    },
    {
      "epoch": 12.230083857442349,
      "grad_norm": 0.13049596548080444,
      "learning_rate": 0.0003935223444836797,
      "loss": 0.4649,
      "num_input_tokens_seen": 15253576,
      "step": 23335
    },
    {
      "epoch": 12.232704402515724,
      "grad_norm": 0.1984514594078064,
      "learning_rate": 0.0003932989155359591,
      "loss": 0.4302,
      "num_input_tokens_seen": 15256808,
      "step": 23340
    },
    {
      "epoch": 12.235324947589099,
      "grad_norm": 0.12305785715579987,
      "learning_rate": 0.000393075508908888,
      "loss": 0.4443,
      "num_input_tokens_seen": 15260040,
      "step": 23345
    },
    {
      "epoch": 12.237945492662474,
      "grad_norm": 0.13124781847000122,
      "learning_rate": 0.00039285212464920064,
      "loss": 0.3914,
      "num_input_tokens_seen": 15262664,
      "step": 23350
    },
    {
      "epoch": 12.24056603773585,
      "grad_norm": 0.16018514335155487,
      "learning_rate": 0.0003926287628036265,
      "loss": 0.4609,
      "num_input_tokens_seen": 15265768,
      "step": 23355
    },
    {
      "epoch": 12.243186582809225,
      "grad_norm": 0.07914772629737854,
      "learning_rate": 0.00039240542341889003,
      "loss": 0.4517,
      "num_input_tokens_seen": 15269352,
      "step": 23360
    },
    {
      "epoch": 12.2458071278826,
      "grad_norm": 0.21672342717647552,
      "learning_rate": 0.0003921821065417116,
      "loss": 0.6954,
      "num_input_tokens_seen": 15272392,
      "step": 23365
    },
    {
      "epoch": 12.248427672955975,
      "grad_norm": 0.1713666319847107,
      "learning_rate": 0.0003919588122188063,
      "loss": 0.4311,
      "num_input_tokens_seen": 15275176,
      "step": 23370
    },
    {
      "epoch": 12.25104821802935,
      "grad_norm": 0.1219005361199379,
      "learning_rate": 0.000391735540496885,
      "loss": 0.7387,
      "num_input_tokens_seen": 15278536,
      "step": 23375
    },
    {
      "epoch": 12.253668763102725,
      "grad_norm": 0.11396276950836182,
      "learning_rate": 0.00039151229142265337,
      "loss": 0.3394,
      "num_input_tokens_seen": 15282152,
      "step": 23380
    },
    {
      "epoch": 12.2562893081761,
      "grad_norm": 0.11037732660770416,
      "learning_rate": 0.00039128906504281295,
      "loss": 0.367,
      "num_input_tokens_seen": 15285832,
      "step": 23385
    },
    {
      "epoch": 12.258909853249476,
      "grad_norm": 0.12808826565742493,
      "learning_rate": 0.00039106586140405964,
      "loss": 0.5267,
      "num_input_tokens_seen": 15289064,
      "step": 23390
    },
    {
      "epoch": 12.26153039832285,
      "grad_norm": 0.18551497161388397,
      "learning_rate": 0.00039084268055308537,
      "loss": 0.4844,
      "num_input_tokens_seen": 15292104,
      "step": 23395
    },
    {
      "epoch": 12.264150943396226,
      "grad_norm": 0.16487044095993042,
      "learning_rate": 0.00039061952253657703,
      "loss": 0.4455,
      "num_input_tokens_seen": 15295496,
      "step": 23400
    },
    {
      "epoch": 12.266771488469601,
      "grad_norm": 0.1111062690615654,
      "learning_rate": 0.0003903963874012166,
      "loss": 0.3029,
      "num_input_tokens_seen": 15298472,
      "step": 23405
    },
    {
      "epoch": 12.269392033542976,
      "grad_norm": 0.10752496868371964,
      "learning_rate": 0.0003901732751936815,
      "loss": 0.4108,
      "num_input_tokens_seen": 15302408,
      "step": 23410
    },
    {
      "epoch": 12.272012578616351,
      "grad_norm": 0.09228339046239853,
      "learning_rate": 0.00038995018596064447,
      "loss": 0.4558,
      "num_input_tokens_seen": 15306440,
      "step": 23415
    },
    {
      "epoch": 12.274633123689728,
      "grad_norm": 0.1687573790550232,
      "learning_rate": 0.00038972711974877294,
      "loss": 0.6287,
      "num_input_tokens_seen": 15310920,
      "step": 23420
    },
    {
      "epoch": 12.277253668763104,
      "grad_norm": 0.11392292380332947,
      "learning_rate": 0.0003895040766047298,
      "loss": 0.3866,
      "num_input_tokens_seen": 15313384,
      "step": 23425
    },
    {
      "epoch": 12.279874213836479,
      "grad_norm": 0.2604055404663086,
      "learning_rate": 0.0003892810565751733,
      "loss": 0.4923,
      "num_input_tokens_seen": 15316520,
      "step": 23430
    },
    {
      "epoch": 12.282494758909854,
      "grad_norm": 0.0915205255150795,
      "learning_rate": 0.0003890580597067566,
      "loss": 0.4373,
      "num_input_tokens_seen": 15319240,
      "step": 23435
    },
    {
      "epoch": 12.285115303983229,
      "grad_norm": 0.09868349879980087,
      "learning_rate": 0.0003888350860461281,
      "loss": 0.4192,
      "num_input_tokens_seen": 15322120,
      "step": 23440
    },
    {
      "epoch": 12.287735849056604,
      "grad_norm": 0.1520134061574936,
      "learning_rate": 0.0003886121356399315,
      "loss": 0.4152,
      "num_input_tokens_seen": 15326376,
      "step": 23445
    },
    {
      "epoch": 12.29035639412998,
      "grad_norm": 0.12001345306634903,
      "learning_rate": 0.0003883892085348052,
      "loss": 0.3866,
      "num_input_tokens_seen": 15330280,
      "step": 23450
    },
    {
      "epoch": 12.292976939203355,
      "grad_norm": 0.1551234871149063,
      "learning_rate": 0.0003881663047773832,
      "loss": 0.356,
      "num_input_tokens_seen": 15333128,
      "step": 23455
    },
    {
      "epoch": 12.29559748427673,
      "grad_norm": 0.08259561657905579,
      "learning_rate": 0.00038794342441429426,
      "loss": 0.3416,
      "num_input_tokens_seen": 15335944,
      "step": 23460
    },
    {
      "epoch": 12.298218029350105,
      "grad_norm": 0.11000730842351913,
      "learning_rate": 0.00038772056749216267,
      "loss": 0.3878,
      "num_input_tokens_seen": 15338568,
      "step": 23465
    },
    {
      "epoch": 12.30083857442348,
      "grad_norm": 0.11832951009273529,
      "learning_rate": 0.00038749773405760744,
      "loss": 0.4384,
      "num_input_tokens_seen": 15343400,
      "step": 23470
    },
    {
      "epoch": 12.303459119496855,
      "grad_norm": 0.1638018786907196,
      "learning_rate": 0.00038727492415724265,
      "loss": 0.353,
      "num_input_tokens_seen": 15346472,
      "step": 23475
    },
    {
      "epoch": 12.30607966457023,
      "grad_norm": 0.10584542900323868,
      "learning_rate": 0.00038705213783767767,
      "loss": 0.4901,
      "num_input_tokens_seen": 15350024,
      "step": 23480
    },
    {
      "epoch": 12.308700209643606,
      "grad_norm": 0.11863632500171661,
      "learning_rate": 0.00038682937514551686,
      "loss": 0.5089,
      "num_input_tokens_seen": 15352488,
      "step": 23485
    },
    {
      "epoch": 12.31132075471698,
      "grad_norm": 0.12027932703495026,
      "learning_rate": 0.0003866066361273596,
      "loss": 0.3506,
      "num_input_tokens_seen": 15355560,
      "step": 23490
    },
    {
      "epoch": 12.313941299790356,
      "grad_norm": 0.2661467492580414,
      "learning_rate": 0.00038638392082980056,
      "loss": 0.3388,
      "num_input_tokens_seen": 15358216,
      "step": 23495
    },
    {
      "epoch": 12.316561844863731,
      "grad_norm": 0.10180916637182236,
      "learning_rate": 0.0003861612292994292,
      "loss": 0.3792,
      "num_input_tokens_seen": 15361864,
      "step": 23500
    },
    {
      "epoch": 12.319182389937106,
      "grad_norm": 0.10552176088094711,
      "learning_rate": 0.0003859385615828297,
      "loss": 0.3449,
      "num_input_tokens_seen": 15367592,
      "step": 23505
    },
    {
      "epoch": 12.321802935010481,
      "grad_norm": 0.24799485504627228,
      "learning_rate": 0.00038571591772658186,
      "loss": 0.5428,
      "num_input_tokens_seen": 15370184,
      "step": 23510
    },
    {
      "epoch": 12.324423480083858,
      "grad_norm": 0.11590410768985748,
      "learning_rate": 0.0003854932977772602,
      "loss": 0.485,
      "num_input_tokens_seen": 15372840,
      "step": 23515
    },
    {
      "epoch": 12.327044025157234,
      "grad_norm": 0.23840977251529694,
      "learning_rate": 0.00038527070178143435,
      "loss": 0.4006,
      "num_input_tokens_seen": 15375624,
      "step": 23520
    },
    {
      "epoch": 12.329664570230609,
      "grad_norm": 0.18195606768131256,
      "learning_rate": 0.00038504812978566873,
      "loss": 0.315,
      "num_input_tokens_seen": 15379144,
      "step": 23525
    },
    {
      "epoch": 12.332285115303984,
      "grad_norm": 0.16203086078166962,
      "learning_rate": 0.00038482558183652307,
      "loss": 0.4566,
      "num_input_tokens_seen": 15381672,
      "step": 23530
    },
    {
      "epoch": 12.334905660377359,
      "grad_norm": 0.12459263950586319,
      "learning_rate": 0.00038460305798055164,
      "loss": 0.3681,
      "num_input_tokens_seen": 15385064,
      "step": 23535
    },
    {
      "epoch": 12.337526205450734,
      "grad_norm": 0.1179102212190628,
      "learning_rate": 0.00038438055826430385,
      "loss": 0.3512,
      "num_input_tokens_seen": 15387592,
      "step": 23540
    },
    {
      "epoch": 12.34014675052411,
      "grad_norm": 0.31984981894493103,
      "learning_rate": 0.0003841580827343243,
      "loss": 0.4147,
      "num_input_tokens_seen": 15391528,
      "step": 23545
    },
    {
      "epoch": 12.342767295597485,
      "grad_norm": 0.1934199035167694,
      "learning_rate": 0.00038393563143715215,
      "loss": 0.4801,
      "num_input_tokens_seen": 15394760,
      "step": 23550
    },
    {
      "epoch": 12.34538784067086,
      "grad_norm": 0.15054310858249664,
      "learning_rate": 0.00038371320441932195,
      "loss": 0.3335,
      "num_input_tokens_seen": 15397992,
      "step": 23555
    },
    {
      "epoch": 12.348008385744235,
      "grad_norm": 0.1402910351753235,
      "learning_rate": 0.00038349080172736267,
      "loss": 0.7646,
      "num_input_tokens_seen": 15400776,
      "step": 23560
    },
    {
      "epoch": 12.35062893081761,
      "grad_norm": 0.1583895981311798,
      "learning_rate": 0.00038326842340779833,
      "loss": 0.401,
      "num_input_tokens_seen": 15404136,
      "step": 23565
    },
    {
      "epoch": 12.353249475890985,
      "grad_norm": 0.10074283927679062,
      "learning_rate": 0.00038304606950714803,
      "loss": 0.5011,
      "num_input_tokens_seen": 15407688,
      "step": 23570
    },
    {
      "epoch": 12.35587002096436,
      "grad_norm": 0.1056467592716217,
      "learning_rate": 0.0003828237400719259,
      "loss": 0.451,
      "num_input_tokens_seen": 15412360,
      "step": 23575
    },
    {
      "epoch": 12.358490566037736,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.00038260143514864037,
      "loss": 0.4236,
      "num_input_tokens_seen": 15416264,
      "step": 23580
    },
    {
      "epoch": 12.36111111111111,
      "grad_norm": 0.10045583546161652,
      "learning_rate": 0.0003823791547837955,
      "loss": 0.3689,
      "num_input_tokens_seen": 15419528,
      "step": 23585
    },
    {
      "epoch": 12.363731656184486,
      "grad_norm": 0.11446093022823334,
      "learning_rate": 0.0003821568990238894,
      "loss": 0.3355,
      "num_input_tokens_seen": 15422792,
      "step": 23590
    },
    {
      "epoch": 12.366352201257861,
      "grad_norm": 0.2061024159193039,
      "learning_rate": 0.0003819346679154155,
      "loss": 0.4177,
      "num_input_tokens_seen": 15425416,
      "step": 23595
    },
    {
      "epoch": 12.368972746331236,
      "grad_norm": 0.09444068372249603,
      "learning_rate": 0.0003817124615048623,
      "loss": 0.6321,
      "num_input_tokens_seen": 15430504,
      "step": 23600
    },
    {
      "epoch": 12.371593291404611,
      "grad_norm": 0.12930648028850555,
      "learning_rate": 0.00038149027983871243,
      "loss": 0.4854,
      "num_input_tokens_seen": 15433512,
      "step": 23605
    },
    {
      "epoch": 12.374213836477987,
      "grad_norm": 0.16511651873588562,
      "learning_rate": 0.00038126812296344415,
      "loss": 0.3399,
      "num_input_tokens_seen": 15436168,
      "step": 23610
    },
    {
      "epoch": 12.376834381551364,
      "grad_norm": 0.2900327444076538,
      "learning_rate": 0.0003810459909255301,
      "loss": 0.3765,
      "num_input_tokens_seen": 15439720,
      "step": 23615
    },
    {
      "epoch": 12.379454926624739,
      "grad_norm": 0.13385505974292755,
      "learning_rate": 0.0003808238837714374,
      "loss": 0.3319,
      "num_input_tokens_seen": 15442184,
      "step": 23620
    },
    {
      "epoch": 12.382075471698114,
      "grad_norm": 0.12880349159240723,
      "learning_rate": 0.0003806018015476287,
      "loss": 0.2626,
      "num_input_tokens_seen": 15444936,
      "step": 23625
    },
    {
      "epoch": 12.384696016771489,
      "grad_norm": 0.09117971360683441,
      "learning_rate": 0.0003803797443005609,
      "loss": 0.3261,
      "num_input_tokens_seen": 15447656,
      "step": 23630
    },
    {
      "epoch": 12.387316561844864,
      "grad_norm": 0.15230417251586914,
      "learning_rate": 0.0003801577120766859,
      "loss": 0.554,
      "num_input_tokens_seen": 15451112,
      "step": 23635
    },
    {
      "epoch": 12.38993710691824,
      "grad_norm": 0.14598797261714935,
      "learning_rate": 0.0003799357049224505,
      "loss": 0.6519,
      "num_input_tokens_seen": 15454568,
      "step": 23640
    },
    {
      "epoch": 12.392557651991615,
      "grad_norm": 0.11055227369070053,
      "learning_rate": 0.0003797137228842956,
      "loss": 0.4177,
      "num_input_tokens_seen": 15457480,
      "step": 23645
    },
    {
      "epoch": 12.39517819706499,
      "grad_norm": 0.14999550580978394,
      "learning_rate": 0.0003794917660086576,
      "loss": 0.5267,
      "num_input_tokens_seen": 15460296,
      "step": 23650
    },
    {
      "epoch": 12.397798742138365,
      "grad_norm": 0.1749335676431656,
      "learning_rate": 0.0003792698343419674,
      "loss": 0.4432,
      "num_input_tokens_seen": 15464104,
      "step": 23655
    },
    {
      "epoch": 12.40041928721174,
      "grad_norm": 0.09454195201396942,
      "learning_rate": 0.0003790479279306505,
      "loss": 0.5353,
      "num_input_tokens_seen": 15468040,
      "step": 23660
    },
    {
      "epoch": 12.403039832285115,
      "grad_norm": 0.09142763167619705,
      "learning_rate": 0.0003788260468211271,
      "loss": 0.3752,
      "num_input_tokens_seen": 15470984,
      "step": 23665
    },
    {
      "epoch": 12.40566037735849,
      "grad_norm": 0.18436937034130096,
      "learning_rate": 0.0003786041910598125,
      "loss": 0.4389,
      "num_input_tokens_seen": 15473640,
      "step": 23670
    },
    {
      "epoch": 12.408280922431866,
      "grad_norm": 0.13020601868629456,
      "learning_rate": 0.0003783823606931159,
      "loss": 0.4797,
      "num_input_tokens_seen": 15476456,
      "step": 23675
    },
    {
      "epoch": 12.41090146750524,
      "grad_norm": 0.17120303213596344,
      "learning_rate": 0.0003781605557674421,
      "loss": 0.5313,
      "num_input_tokens_seen": 15479016,
      "step": 23680
    },
    {
      "epoch": 12.413522012578616,
      "grad_norm": 0.11962755024433136,
      "learning_rate": 0.0003779387763291899,
      "loss": 0.4799,
      "num_input_tokens_seen": 15483016,
      "step": 23685
    },
    {
      "epoch": 12.416142557651991,
      "grad_norm": 0.07435759156942368,
      "learning_rate": 0.0003777170224247533,
      "loss": 0.4381,
      "num_input_tokens_seen": 15486312,
      "step": 23690
    },
    {
      "epoch": 12.418763102725366,
      "grad_norm": 0.16403339803218842,
      "learning_rate": 0.0003774952941005204,
      "loss": 0.592,
      "num_input_tokens_seen": 15490408,
      "step": 23695
    },
    {
      "epoch": 12.421383647798741,
      "grad_norm": 0.12092848867177963,
      "learning_rate": 0.00037727359140287455,
      "loss": 0.3451,
      "num_input_tokens_seen": 15493128,
      "step": 23700
    },
    {
      "epoch": 12.424004192872117,
      "grad_norm": 0.12841424345970154,
      "learning_rate": 0.00037705191437819316,
      "loss": 0.4341,
      "num_input_tokens_seen": 15496680,
      "step": 23705
    },
    {
      "epoch": 12.426624737945493,
      "grad_norm": 0.07891548424959183,
      "learning_rate": 0.00037683026307284853,
      "loss": 0.3885,
      "num_input_tokens_seen": 15500648,
      "step": 23710
    },
    {
      "epoch": 12.429245283018869,
      "grad_norm": 0.1773824393749237,
      "learning_rate": 0.0003766086375332077,
      "loss": 0.4448,
      "num_input_tokens_seen": 15503400,
      "step": 23715
    },
    {
      "epoch": 12.431865828092244,
      "grad_norm": 0.13965702056884766,
      "learning_rate": 0.0003763870378056321,
      "loss": 0.5296,
      "num_input_tokens_seen": 15506312,
      "step": 23720
    },
    {
      "epoch": 12.434486373165619,
      "grad_norm": 0.1284635066986084,
      "learning_rate": 0.00037616546393647824,
      "loss": 0.3966,
      "num_input_tokens_seen": 15509224,
      "step": 23725
    },
    {
      "epoch": 12.437106918238994,
      "grad_norm": 0.16077858209609985,
      "learning_rate": 0.0003759439159720962,
      "loss": 0.4873,
      "num_input_tokens_seen": 15511976,
      "step": 23730
    },
    {
      "epoch": 12.43972746331237,
      "grad_norm": 0.11135111004114151,
      "learning_rate": 0.0003757223939588318,
      "loss": 0.4788,
      "num_input_tokens_seen": 15514824,
      "step": 23735
    },
    {
      "epoch": 12.442348008385745,
      "grad_norm": 0.2327755242586136,
      "learning_rate": 0.00037550089794302464,
      "loss": 0.5489,
      "num_input_tokens_seen": 15517512,
      "step": 23740
    },
    {
      "epoch": 12.44496855345912,
      "grad_norm": 0.0857558324933052,
      "learning_rate": 0.0003752794279710094,
      "loss": 0.5488,
      "num_input_tokens_seen": 15521640,
      "step": 23745
    },
    {
      "epoch": 12.447589098532495,
      "grad_norm": 0.21707645058631897,
      "learning_rate": 0.0003750579840891148,
      "loss": 0.4341,
      "num_input_tokens_seen": 15524264,
      "step": 23750
    },
    {
      "epoch": 12.45020964360587,
      "grad_norm": 0.14364102482795715,
      "learning_rate": 0.0003748365663436647,
      "loss": 0.4103,
      "num_input_tokens_seen": 15526824,
      "step": 23755
    },
    {
      "epoch": 12.452830188679245,
      "grad_norm": 0.10979627817869186,
      "learning_rate": 0.0003746151747809769,
      "loss": 0.4932,
      "num_input_tokens_seen": 15529864,
      "step": 23760
    },
    {
      "epoch": 12.45545073375262,
      "grad_norm": 0.0966658890247345,
      "learning_rate": 0.000374393809447364,
      "loss": 0.4748,
      "num_input_tokens_seen": 15534056,
      "step": 23765
    },
    {
      "epoch": 12.458071278825996,
      "grad_norm": 0.19473911821842194,
      "learning_rate": 0.0003741724703891333,
      "loss": 0.4378,
      "num_input_tokens_seen": 15536840,
      "step": 23770
    },
    {
      "epoch": 12.46069182389937,
      "grad_norm": 0.10834173858165741,
      "learning_rate": 0.00037395115765258616,
      "loss": 0.4832,
      "num_input_tokens_seen": 15540040,
      "step": 23775
    },
    {
      "epoch": 12.463312368972746,
      "grad_norm": 0.12813478708267212,
      "learning_rate": 0.0003737298712840188,
      "loss": 0.3249,
      "num_input_tokens_seen": 15542728,
      "step": 23780
    },
    {
      "epoch": 12.465932914046121,
      "grad_norm": 0.1660308837890625,
      "learning_rate": 0.000373508611329722,
      "loss": 0.3879,
      "num_input_tokens_seen": 15545352,
      "step": 23785
    },
    {
      "epoch": 12.468553459119496,
      "grad_norm": 0.14025776088237762,
      "learning_rate": 0.00037328737783598036,
      "loss": 0.5513,
      "num_input_tokens_seen": 15549288,
      "step": 23790
    },
    {
      "epoch": 12.471174004192871,
      "grad_norm": 0.17028452455997467,
      "learning_rate": 0.0003730661708490738,
      "loss": 0.5167,
      "num_input_tokens_seen": 15552040,
      "step": 23795
    },
    {
      "epoch": 12.473794549266247,
      "grad_norm": 0.08476419001817703,
      "learning_rate": 0.0003728449904152761,
      "loss": 0.5086,
      "num_input_tokens_seen": 15555880,
      "step": 23800
    },
    {
      "epoch": 12.476415094339623,
      "grad_norm": 0.12851755321025848,
      "learning_rate": 0.00037262383658085563,
      "loss": 0.4606,
      "num_input_tokens_seen": 15558664,
      "step": 23805
    },
    {
      "epoch": 12.479035639412999,
      "grad_norm": 0.12033716589212418,
      "learning_rate": 0.00037240270939207555,
      "loss": 0.3638,
      "num_input_tokens_seen": 15562120,
      "step": 23810
    },
    {
      "epoch": 12.481656184486374,
      "grad_norm": 0.12827198207378387,
      "learning_rate": 0.000372181608895193,
      "loss": 0.4272,
      "num_input_tokens_seen": 15565128,
      "step": 23815
    },
    {
      "epoch": 12.484276729559749,
      "grad_norm": 0.07906822860240936,
      "learning_rate": 0.00037196053513645957,
      "loss": 0.4204,
      "num_input_tokens_seen": 15568840,
      "step": 23820
    },
    {
      "epoch": 12.486897274633124,
      "grad_norm": 0.1834571659564972,
      "learning_rate": 0.00037173948816212146,
      "loss": 0.69,
      "num_input_tokens_seen": 15571304,
      "step": 23825
    },
    {
      "epoch": 12.4895178197065,
      "grad_norm": 0.11378669738769531,
      "learning_rate": 0.00037151846801841904,
      "loss": 0.4672,
      "num_input_tokens_seen": 15574280,
      "step": 23830
    },
    {
      "epoch": 12.492138364779874,
      "grad_norm": 0.16254277527332306,
      "learning_rate": 0.00037129747475158736,
      "loss": 0.5388,
      "num_input_tokens_seen": 15577096,
      "step": 23835
    },
    {
      "epoch": 12.49475890985325,
      "grad_norm": 0.14896681904792786,
      "learning_rate": 0.0003710765084078558,
      "loss": 0.5518,
      "num_input_tokens_seen": 15580680,
      "step": 23840
    },
    {
      "epoch": 12.497379454926625,
      "grad_norm": 0.11739946901798248,
      "learning_rate": 0.0003708555690334477,
      "loss": 0.4538,
      "num_input_tokens_seen": 15584200,
      "step": 23845
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.11257605999708176,
      "learning_rate": 0.00037063465667458125,
      "loss": 0.4014,
      "num_input_tokens_seen": 15587784,
      "step": 23850
    },
    {
      "epoch": 12.502620545073375,
      "grad_norm": 0.19823260605335236,
      "learning_rate": 0.0003704137713774686,
      "loss": 0.6461,
      "num_input_tokens_seen": 15591336,
      "step": 23855
    },
    {
      "epoch": 12.50524109014675,
      "grad_norm": 0.0840090960264206,
      "learning_rate": 0.0003701929131883167,
      "loss": 0.3876,
      "num_input_tokens_seen": 15594568,
      "step": 23860
    },
    {
      "epoch": 12.507861635220126,
      "grad_norm": 0.10616640001535416,
      "learning_rate": 0.0003699720821533264,
      "loss": 0.4333,
      "num_input_tokens_seen": 15597704,
      "step": 23865
    },
    {
      "epoch": 12.5104821802935,
      "grad_norm": 0.0957966074347496,
      "learning_rate": 0.00036975127831869326,
      "loss": 0.4224,
      "num_input_tokens_seen": 15601928,
      "step": 23870
    },
    {
      "epoch": 12.513102725366876,
      "grad_norm": 0.20896384119987488,
      "learning_rate": 0.0003695305017306066,
      "loss": 0.4746,
      "num_input_tokens_seen": 15604872,
      "step": 23875
    },
    {
      "epoch": 12.515723270440251,
      "grad_norm": 0.14036263525485992,
      "learning_rate": 0.00036930975243525046,
      "loss": 0.3593,
      "num_input_tokens_seen": 15607560,
      "step": 23880
    },
    {
      "epoch": 12.518343815513626,
      "grad_norm": 0.07385686039924622,
      "learning_rate": 0.00036908903047880304,
      "loss": 0.389,
      "num_input_tokens_seen": 15611336,
      "step": 23885
    },
    {
      "epoch": 12.520964360587001,
      "grad_norm": 0.14459942281246185,
      "learning_rate": 0.00036886833590743707,
      "loss": 0.4204,
      "num_input_tokens_seen": 15614888,
      "step": 23890
    },
    {
      "epoch": 12.523584905660378,
      "grad_norm": 0.2697724401950836,
      "learning_rate": 0.00036864766876731913,
      "loss": 0.3977,
      "num_input_tokens_seen": 15618216,
      "step": 23895
    },
    {
      "epoch": 12.526205450733752,
      "grad_norm": 0.22070695459842682,
      "learning_rate": 0.00036842702910461054,
      "loss": 0.5115,
      "num_input_tokens_seen": 15622120,
      "step": 23900
    },
    {
      "epoch": 12.528825995807129,
      "grad_norm": 0.14933696389198303,
      "learning_rate": 0.0003682064169654663,
      "loss": 0.3976,
      "num_input_tokens_seen": 15625000,
      "step": 23905
    },
    {
      "epoch": 12.531446540880504,
      "grad_norm": 0.1278383582830429,
      "learning_rate": 0.00036798583239603587,
      "loss": 0.515,
      "num_input_tokens_seen": 15627496,
      "step": 23910
    },
    {
      "epoch": 12.534067085953879,
      "grad_norm": 0.1435789167881012,
      "learning_rate": 0.0003677652754424634,
      "loss": 0.4088,
      "num_input_tokens_seen": 15630888,
      "step": 23915
    },
    {
      "epoch": 12.536687631027254,
      "grad_norm": 0.10501974821090698,
      "learning_rate": 0.0003675447461508865,
      "loss": 0.419,
      "num_input_tokens_seen": 15634888,
      "step": 23920
    },
    {
      "epoch": 12.53930817610063,
      "grad_norm": 0.12981855869293213,
      "learning_rate": 0.00036732424456743784,
      "loss": 0.2972,
      "num_input_tokens_seen": 15637672,
      "step": 23925
    },
    {
      "epoch": 12.541928721174004,
      "grad_norm": 0.143550843000412,
      "learning_rate": 0.0003671037707382435,
      "loss": 0.4933,
      "num_input_tokens_seen": 15641224,
      "step": 23930
    },
    {
      "epoch": 12.54454926624738,
      "grad_norm": 0.09701332449913025,
      "learning_rate": 0.000366883324709424,
      "loss": 0.4885,
      "num_input_tokens_seen": 15644136,
      "step": 23935
    },
    {
      "epoch": 12.547169811320755,
      "grad_norm": 0.10815883427858353,
      "learning_rate": 0.00036666290652709446,
      "loss": 0.5242,
      "num_input_tokens_seen": 15648072,
      "step": 23940
    },
    {
      "epoch": 12.54979035639413,
      "grad_norm": 0.11415072530508041,
      "learning_rate": 0.0003664425162373635,
      "loss": 0.4635,
      "num_input_tokens_seen": 15650952,
      "step": 23945
    },
    {
      "epoch": 12.552410901467505,
      "grad_norm": 0.14956146478652954,
      "learning_rate": 0.0003662221538863346,
      "loss": 0.3962,
      "num_input_tokens_seen": 15654216,
      "step": 23950
    },
    {
      "epoch": 12.55503144654088,
      "grad_norm": 0.08058284223079681,
      "learning_rate": 0.0003660018195201049,
      "loss": 0.3721,
      "num_input_tokens_seen": 15658184,
      "step": 23955
    },
    {
      "epoch": 12.557651991614255,
      "grad_norm": 0.0771619975566864,
      "learning_rate": 0.0003657815131847657,
      "loss": 0.411,
      "num_input_tokens_seen": 15661672,
      "step": 23960
    },
    {
      "epoch": 12.56027253668763,
      "grad_norm": 0.15728871524333954,
      "learning_rate": 0.0003655612349264027,
      "loss": 0.3897,
      "num_input_tokens_seen": 15664104,
      "step": 23965
    },
    {
      "epoch": 12.562893081761006,
      "grad_norm": 0.08630255609750748,
      "learning_rate": 0.0003653409847910957,
      "loss": 0.4673,
      "num_input_tokens_seen": 15667560,
      "step": 23970
    },
    {
      "epoch": 12.565513626834381,
      "grad_norm": 0.11803536117076874,
      "learning_rate": 0.0003651207628249182,
      "loss": 0.3396,
      "num_input_tokens_seen": 15670952,
      "step": 23975
    },
    {
      "epoch": 12.568134171907756,
      "grad_norm": 0.12243843823671341,
      "learning_rate": 0.0003649005690739386,
      "loss": 0.3032,
      "num_input_tokens_seen": 15673640,
      "step": 23980
    },
    {
      "epoch": 12.570754716981131,
      "grad_norm": 0.15551641583442688,
      "learning_rate": 0.0003646804035842187,
      "loss": 0.5426,
      "num_input_tokens_seen": 15676456,
      "step": 23985
    },
    {
      "epoch": 12.573375262054507,
      "grad_norm": 0.10022599250078201,
      "learning_rate": 0.0003644602664018143,
      "loss": 0.4513,
      "num_input_tokens_seen": 15680008,
      "step": 23990
    },
    {
      "epoch": 12.575995807127882,
      "grad_norm": 0.11807785928249359,
      "learning_rate": 0.000364240157572776,
      "loss": 0.3931,
      "num_input_tokens_seen": 15683400,
      "step": 23995
    },
    {
      "epoch": 12.578616352201259,
      "grad_norm": 0.06017319858074188,
      "learning_rate": 0.0003640200771431478,
      "loss": 0.4402,
      "num_input_tokens_seen": 15686632,
      "step": 24000
    },
    {
      "epoch": 12.581236897274634,
      "grad_norm": 0.12449682503938675,
      "learning_rate": 0.0003638000251589683,
      "loss": 0.3785,
      "num_input_tokens_seen": 15689832,
      "step": 24005
    },
    {
      "epoch": 12.583857442348009,
      "grad_norm": 0.13644160330295563,
      "learning_rate": 0.0003635800016662696,
      "loss": 0.6825,
      "num_input_tokens_seen": 15693256,
      "step": 24010
    },
    {
      "epoch": 12.586477987421384,
      "grad_norm": 0.10858473926782608,
      "learning_rate": 0.00036336000671107816,
      "loss": 0.6181,
      "num_input_tokens_seen": 15696776,
      "step": 24015
    },
    {
      "epoch": 12.58909853249476,
      "grad_norm": 0.10527268797159195,
      "learning_rate": 0.00036314004033941445,
      "loss": 0.4501,
      "num_input_tokens_seen": 15699624,
      "step": 24020
    },
    {
      "epoch": 12.591719077568134,
      "grad_norm": 0.13896353542804718,
      "learning_rate": 0.00036292010259729283,
      "loss": 0.3682,
      "num_input_tokens_seen": 15703176,
      "step": 24025
    },
    {
      "epoch": 12.59433962264151,
      "grad_norm": 0.12293399125337601,
      "learning_rate": 0.000362700193530722,
      "loss": 0.3564,
      "num_input_tokens_seen": 15706312,
      "step": 24030
    },
    {
      "epoch": 12.596960167714885,
      "grad_norm": 0.1104338988661766,
      "learning_rate": 0.0003624803131857042,
      "loss": 0.4106,
      "num_input_tokens_seen": 15710056,
      "step": 24035
    },
    {
      "epoch": 12.59958071278826,
      "grad_norm": 0.09218333661556244,
      "learning_rate": 0.0003622604616082361,
      "loss": 0.3977,
      "num_input_tokens_seen": 15713864,
      "step": 24040
    },
    {
      "epoch": 12.602201257861635,
      "grad_norm": 0.11647554486989975,
      "learning_rate": 0.0003620406388443078,
      "loss": 0.415,
      "num_input_tokens_seen": 15717672,
      "step": 24045
    },
    {
      "epoch": 12.60482180293501,
      "grad_norm": 0.14260154962539673,
      "learning_rate": 0.00036182084493990407,
      "loss": 0.4639,
      "num_input_tokens_seen": 15720264,
      "step": 24050
    },
    {
      "epoch": 12.607442348008385,
      "grad_norm": 0.145974263548851,
      "learning_rate": 0.0003616010799410031,
      "loss": 0.4569,
      "num_input_tokens_seen": 15722952,
      "step": 24055
    },
    {
      "epoch": 12.61006289308176,
      "grad_norm": 0.07888616621494293,
      "learning_rate": 0.0003613813438935773,
      "loss": 0.4495,
      "num_input_tokens_seen": 15725832,
      "step": 24060
    },
    {
      "epoch": 12.612683438155136,
      "grad_norm": 0.09672170132398605,
      "learning_rate": 0.0003611616368435928,
      "loss": 0.4177,
      "num_input_tokens_seen": 15729704,
      "step": 24065
    },
    {
      "epoch": 12.615303983228511,
      "grad_norm": 0.15435315668582916,
      "learning_rate": 0.0003609419588370102,
      "loss": 0.4655,
      "num_input_tokens_seen": 15732424,
      "step": 24070
    },
    {
      "epoch": 12.617924528301886,
      "grad_norm": 0.1487257480621338,
      "learning_rate": 0.00036072230991978326,
      "loss": 0.5163,
      "num_input_tokens_seen": 15735144,
      "step": 24075
    },
    {
      "epoch": 12.620545073375261,
      "grad_norm": 0.1447502076625824,
      "learning_rate": 0.00036050269013785996,
      "loss": 0.4645,
      "num_input_tokens_seen": 15737704,
      "step": 24080
    },
    {
      "epoch": 12.623165618448636,
      "grad_norm": 0.1493341475725174,
      "learning_rate": 0.0003602830995371825,
      "loss": 0.3973,
      "num_input_tokens_seen": 15740904,
      "step": 24085
    },
    {
      "epoch": 12.625786163522012,
      "grad_norm": 0.1999545693397522,
      "learning_rate": 0.0003600635381636866,
      "loss": 0.4686,
      "num_input_tokens_seen": 15744072,
      "step": 24090
    },
    {
      "epoch": 12.628406708595389,
      "grad_norm": 0.13074082136154175,
      "learning_rate": 0.0003598440060633022,
      "loss": 0.4804,
      "num_input_tokens_seen": 15751176,
      "step": 24095
    },
    {
      "epoch": 12.631027253668764,
      "grad_norm": 0.18588662147521973,
      "learning_rate": 0.00035962450328195264,
      "loss": 0.6139,
      "num_input_tokens_seen": 15754216,
      "step": 24100
    },
    {
      "epoch": 12.633647798742139,
      "grad_norm": 0.14606107771396637,
      "learning_rate": 0.00035940502986555543,
      "loss": 0.3935,
      "num_input_tokens_seen": 15757224,
      "step": 24105
    },
    {
      "epoch": 12.636268343815514,
      "grad_norm": 0.11909297108650208,
      "learning_rate": 0.00035918558586002205,
      "loss": 0.4414,
      "num_input_tokens_seen": 15760680,
      "step": 24110
    },
    {
      "epoch": 12.63888888888889,
      "grad_norm": 0.1152234598994255,
      "learning_rate": 0.0003589661713112575,
      "loss": 0.4669,
      "num_input_tokens_seen": 15763464,
      "step": 24115
    },
    {
      "epoch": 12.641509433962264,
      "grad_norm": 0.10395720601081848,
      "learning_rate": 0.000358746786265161,
      "loss": 0.4128,
      "num_input_tokens_seen": 15766504,
      "step": 24120
    },
    {
      "epoch": 12.64412997903564,
      "grad_norm": 0.09467263519763947,
      "learning_rate": 0.0003585274307676254,
      "loss": 0.4211,
      "num_input_tokens_seen": 15769416,
      "step": 24125
    },
    {
      "epoch": 12.646750524109015,
      "grad_norm": 0.12437038868665695,
      "learning_rate": 0.00035830810486453725,
      "loss": 0.5203,
      "num_input_tokens_seen": 15772776,
      "step": 24130
    },
    {
      "epoch": 12.64937106918239,
      "grad_norm": 0.14237244427204132,
      "learning_rate": 0.00035808880860177696,
      "loss": 0.3851,
      "num_input_tokens_seen": 15775720,
      "step": 24135
    },
    {
      "epoch": 12.651991614255765,
      "grad_norm": 0.1418316662311554,
      "learning_rate": 0.00035786954202521895,
      "loss": 0.3812,
      "num_input_tokens_seen": 15778632,
      "step": 24140
    },
    {
      "epoch": 12.65461215932914,
      "grad_norm": 0.21867193281650543,
      "learning_rate": 0.00035765030518073116,
      "loss": 0.5848,
      "num_input_tokens_seen": 15781832,
      "step": 24145
    },
    {
      "epoch": 12.657232704402515,
      "grad_norm": 0.10600258409976959,
      "learning_rate": 0.0003574310981141756,
      "loss": 0.3327,
      "num_input_tokens_seen": 15787848,
      "step": 24150
    },
    {
      "epoch": 12.65985324947589,
      "grad_norm": 0.12041071057319641,
      "learning_rate": 0.00035721192087140796,
      "loss": 0.4061,
      "num_input_tokens_seen": 15790568,
      "step": 24155
    },
    {
      "epoch": 12.662473794549266,
      "grad_norm": 0.11081545054912567,
      "learning_rate": 0.00035699277349827724,
      "loss": 0.5518,
      "num_input_tokens_seen": 15793800,
      "step": 24160
    },
    {
      "epoch": 12.665094339622641,
      "grad_norm": 0.08262984454631805,
      "learning_rate": 0.0003567736560406269,
      "loss": 0.5048,
      "num_input_tokens_seen": 15797032,
      "step": 24165
    },
    {
      "epoch": 12.667714884696016,
      "grad_norm": 0.15147091448307037,
      "learning_rate": 0.0003565545685442936,
      "loss": 0.3992,
      "num_input_tokens_seen": 15799720,
      "step": 24170
    },
    {
      "epoch": 12.670335429769391,
      "grad_norm": 0.13742147386074066,
      "learning_rate": 0.00035633551105510806,
      "loss": 0.484,
      "num_input_tokens_seen": 15803912,
      "step": 24175
    },
    {
      "epoch": 12.672955974842766,
      "grad_norm": 0.08559003472328186,
      "learning_rate": 0.00035611648361889457,
      "loss": 0.4779,
      "num_input_tokens_seen": 15806760,
      "step": 24180
    },
    {
      "epoch": 12.675576519916142,
      "grad_norm": 0.09685316681861877,
      "learning_rate": 0.00035589748628147145,
      "loss": 0.3632,
      "num_input_tokens_seen": 15811176,
      "step": 24185
    },
    {
      "epoch": 12.678197064989519,
      "grad_norm": 0.23705996572971344,
      "learning_rate": 0.00035567851908865,
      "loss": 0.4421,
      "num_input_tokens_seen": 15814440,
      "step": 24190
    },
    {
      "epoch": 12.680817610062894,
      "grad_norm": 0.08976129442453384,
      "learning_rate": 0.0003554595820862358,
      "loss": 0.4088,
      "num_input_tokens_seen": 15818568,
      "step": 24195
    },
    {
      "epoch": 12.683438155136269,
      "grad_norm": 0.09403792768716812,
      "learning_rate": 0.00035524067532002803,
      "loss": 0.3337,
      "num_input_tokens_seen": 15822952,
      "step": 24200
    },
    {
      "epoch": 12.686058700209644,
      "grad_norm": 0.10709581524133682,
      "learning_rate": 0.00035502179883581956,
      "loss": 0.3698,
      "num_input_tokens_seen": 15826440,
      "step": 24205
    },
    {
      "epoch": 12.68867924528302,
      "grad_norm": 0.15359900891780853,
      "learning_rate": 0.0003548029526793969,
      "loss": 0.3873,
      "num_input_tokens_seen": 15830568,
      "step": 24210
    },
    {
      "epoch": 12.691299790356394,
      "grad_norm": 0.12568803131580353,
      "learning_rate": 0.0003545841368965398,
      "loss": 0.4528,
      "num_input_tokens_seen": 15834728,
      "step": 24215
    },
    {
      "epoch": 12.69392033542977,
      "grad_norm": 0.08498330414295197,
      "learning_rate": 0.00035436535153302235,
      "loss": 0.4101,
      "num_input_tokens_seen": 15837896,
      "step": 24220
    },
    {
      "epoch": 12.696540880503145,
      "grad_norm": 0.15782733261585236,
      "learning_rate": 0.0003541465966346118,
      "loss": 0.4291,
      "num_input_tokens_seen": 15841096,
      "step": 24225
    },
    {
      "epoch": 12.69916142557652,
      "grad_norm": 0.14216174185276031,
      "learning_rate": 0.00035392787224706936,
      "loss": 0.4888,
      "num_input_tokens_seen": 15844584,
      "step": 24230
    },
    {
      "epoch": 12.701781970649895,
      "grad_norm": 0.07323168218135834,
      "learning_rate": 0.0003537091784161495,
      "loss": 0.4047,
      "num_input_tokens_seen": 15848200,
      "step": 24235
    },
    {
      "epoch": 12.70440251572327,
      "grad_norm": 0.10648151487112045,
      "learning_rate": 0.0003534905151876007,
      "loss": 0.3951,
      "num_input_tokens_seen": 15850728,
      "step": 24240
    },
    {
      "epoch": 12.707023060796645,
      "grad_norm": 0.261027455329895,
      "learning_rate": 0.0003532718826071646,
      "loss": 0.4865,
      "num_input_tokens_seen": 15854152,
      "step": 24245
    },
    {
      "epoch": 12.70964360587002,
      "grad_norm": 0.08004377782344818,
      "learning_rate": 0.00035305328072057654,
      "loss": 0.4048,
      "num_input_tokens_seen": 15856744,
      "step": 24250
    },
    {
      "epoch": 12.712264150943396,
      "grad_norm": 0.18815122544765472,
      "learning_rate": 0.00035283470957356576,
      "loss": 0.455,
      "num_input_tokens_seen": 15859752,
      "step": 24255
    },
    {
      "epoch": 12.714884696016771,
      "grad_norm": 0.11650751531124115,
      "learning_rate": 0.0003526161692118548,
      "loss": 0.5216,
      "num_input_tokens_seen": 15862280,
      "step": 24260
    },
    {
      "epoch": 12.717505241090146,
      "grad_norm": 0.20191530883312225,
      "learning_rate": 0.0003523976596811597,
      "loss": 0.4396,
      "num_input_tokens_seen": 15865608,
      "step": 24265
    },
    {
      "epoch": 12.720125786163521,
      "grad_norm": 0.06758776307106018,
      "learning_rate": 0.0003521791810271906,
      "loss": 0.3633,
      "num_input_tokens_seen": 15869832,
      "step": 24270
    },
    {
      "epoch": 12.722746331236896,
      "grad_norm": 0.16710051894187927,
      "learning_rate": 0.0003519607332956501,
      "loss": 0.4733,
      "num_input_tokens_seen": 15873160,
      "step": 24275
    },
    {
      "epoch": 12.725366876310272,
      "grad_norm": 0.11324001848697662,
      "learning_rate": 0.0003517423165322353,
      "loss": 0.453,
      "num_input_tokens_seen": 15876072,
      "step": 24280
    },
    {
      "epoch": 12.727987421383649,
      "grad_norm": 0.12920939922332764,
      "learning_rate": 0.0003515239307826366,
      "loss": 0.4675,
      "num_input_tokens_seen": 15878920,
      "step": 24285
    },
    {
      "epoch": 12.730607966457024,
      "grad_norm": 0.10243247449398041,
      "learning_rate": 0.00035130557609253744,
      "loss": 0.4346,
      "num_input_tokens_seen": 15882728,
      "step": 24290
    },
    {
      "epoch": 12.733228511530399,
      "grad_norm": 0.08825838565826416,
      "learning_rate": 0.00035108725250761566,
      "loss": 0.4277,
      "num_input_tokens_seen": 15886888,
      "step": 24295
    },
    {
      "epoch": 12.735849056603774,
      "grad_norm": 0.26979291439056396,
      "learning_rate": 0.0003508689600735416,
      "loss": 0.4077,
      "num_input_tokens_seen": 15890216,
      "step": 24300
    },
    {
      "epoch": 12.73846960167715,
      "grad_norm": 0.16912966966629028,
      "learning_rate": 0.0003506506988359797,
      "loss": 0.4054,
      "num_input_tokens_seen": 15892392,
      "step": 24305
    },
    {
      "epoch": 12.741090146750524,
      "grad_norm": 0.1331578940153122,
      "learning_rate": 0.0003504324688405878,
      "loss": 0.4464,
      "num_input_tokens_seen": 15895176,
      "step": 24310
    },
    {
      "epoch": 12.7437106918239,
      "grad_norm": 0.14731813967227936,
      "learning_rate": 0.000350214270133017,
      "loss": 0.4408,
      "num_input_tokens_seen": 15898696,
      "step": 24315
    },
    {
      "epoch": 12.746331236897275,
      "grad_norm": 0.09569705277681351,
      "learning_rate": 0.00034999610275891204,
      "loss": 0.5179,
      "num_input_tokens_seen": 15902792,
      "step": 24320
    },
    {
      "epoch": 12.74895178197065,
      "grad_norm": 0.11642684787511826,
      "learning_rate": 0.0003497779667639113,
      "loss": 0.3093,
      "num_input_tokens_seen": 15905192,
      "step": 24325
    },
    {
      "epoch": 12.751572327044025,
      "grad_norm": 0.307324081659317,
      "learning_rate": 0.0003495598621936458,
      "loss": 0.6385,
      "num_input_tokens_seen": 15912008,
      "step": 24330
    },
    {
      "epoch": 12.7541928721174,
      "grad_norm": 0.16067983210086823,
      "learning_rate": 0.00034934178909374084,
      "loss": 0.603,
      "num_input_tokens_seen": 15914920,
      "step": 24335
    },
    {
      "epoch": 12.756813417190775,
      "grad_norm": 0.09970755875110626,
      "learning_rate": 0.0003491237475098148,
      "loss": 0.4322,
      "num_input_tokens_seen": 15918408,
      "step": 24340
    },
    {
      "epoch": 12.75943396226415,
      "grad_norm": 0.23068346083164215,
      "learning_rate": 0.00034890573748747945,
      "loss": 0.4161,
      "num_input_tokens_seen": 15921032,
      "step": 24345
    },
    {
      "epoch": 12.762054507337526,
      "grad_norm": 0.14560186862945557,
      "learning_rate": 0.00034868775907234017,
      "loss": 0.4898,
      "num_input_tokens_seen": 15923592,
      "step": 24350
    },
    {
      "epoch": 12.764675052410901,
      "grad_norm": 0.23027381300926208,
      "learning_rate": 0.0003484698123099956,
      "loss": 0.5214,
      "num_input_tokens_seen": 15926152,
      "step": 24355
    },
    {
      "epoch": 12.767295597484276,
      "grad_norm": 0.10883837938308716,
      "learning_rate": 0.00034825189724603723,
      "loss": 0.5111,
      "num_input_tokens_seen": 15929352,
      "step": 24360
    },
    {
      "epoch": 12.769916142557651,
      "grad_norm": 0.13278301060199738,
      "learning_rate": 0.0003480340139260509,
      "loss": 0.3921,
      "num_input_tokens_seen": 15932168,
      "step": 24365
    },
    {
      "epoch": 12.772536687631026,
      "grad_norm": 0.13587526977062225,
      "learning_rate": 0.000347816162395615,
      "loss": 0.5252,
      "num_input_tokens_seen": 15935656,
      "step": 24370
    },
    {
      "epoch": 12.775157232704402,
      "grad_norm": 0.13335870206356049,
      "learning_rate": 0.00034759834270030185,
      "loss": 0.4067,
      "num_input_tokens_seen": 15938504,
      "step": 24375
    },
    {
      "epoch": 12.777777777777779,
      "grad_norm": 0.12464366853237152,
      "learning_rate": 0.0003473805548856768,
      "loss": 0.4418,
      "num_input_tokens_seen": 15945032,
      "step": 24380
    },
    {
      "epoch": 12.780398322851154,
      "grad_norm": 0.0994291827082634,
      "learning_rate": 0.00034716279899729826,
      "loss": 0.3183,
      "num_input_tokens_seen": 15948584,
      "step": 24385
    },
    {
      "epoch": 12.783018867924529,
      "grad_norm": 0.14627230167388916,
      "learning_rate": 0.00034694507508071864,
      "loss": 0.4243,
      "num_input_tokens_seen": 15951816,
      "step": 24390
    },
    {
      "epoch": 12.785639412997904,
      "grad_norm": 0.1658482700586319,
      "learning_rate": 0.00034672738318148303,
      "loss": 0.62,
      "num_input_tokens_seen": 15954632,
      "step": 24395
    },
    {
      "epoch": 12.78825995807128,
      "grad_norm": 0.10223370790481567,
      "learning_rate": 0.00034650972334513043,
      "loss": 0.5804,
      "num_input_tokens_seen": 15958152,
      "step": 24400
    },
    {
      "epoch": 12.790880503144654,
      "grad_norm": 0.11311961710453033,
      "learning_rate": 0.00034629209561719244,
      "loss": 0.4169,
      "num_input_tokens_seen": 15961064,
      "step": 24405
    },
    {
      "epoch": 12.79350104821803,
      "grad_norm": 0.10427650809288025,
      "learning_rate": 0.0003460745000431946,
      "loss": 0.4917,
      "num_input_tokens_seen": 15964200,
      "step": 24410
    },
    {
      "epoch": 12.796121593291405,
      "grad_norm": 0.11101864278316498,
      "learning_rate": 0.00034585693666865525,
      "loss": 0.3547,
      "num_input_tokens_seen": 15967400,
      "step": 24415
    },
    {
      "epoch": 12.79874213836478,
      "grad_norm": 0.11205781996250153,
      "learning_rate": 0.00034563940553908605,
      "loss": 0.5773,
      "num_input_tokens_seen": 15971048,
      "step": 24420
    },
    {
      "epoch": 12.801362683438155,
      "grad_norm": 0.22749941051006317,
      "learning_rate": 0.00034542190669999216,
      "loss": 0.4792,
      "num_input_tokens_seen": 15973928,
      "step": 24425
    },
    {
      "epoch": 12.80398322851153,
      "grad_norm": 0.11356382071971893,
      "learning_rate": 0.000345204440196872,
      "loss": 0.4965,
      "num_input_tokens_seen": 15977704,
      "step": 24430
    },
    {
      "epoch": 12.806603773584905,
      "grad_norm": 0.1236538514494896,
      "learning_rate": 0.00034498700607521693,
      "loss": 0.4397,
      "num_input_tokens_seen": 15980616,
      "step": 24435
    },
    {
      "epoch": 12.80922431865828,
      "grad_norm": 0.07104060798883438,
      "learning_rate": 0.00034476960438051187,
      "loss": 0.4536,
      "num_input_tokens_seen": 15985064,
      "step": 24440
    },
    {
      "epoch": 12.811844863731656,
      "grad_norm": 0.2964174449443817,
      "learning_rate": 0.00034455223515823444,
      "loss": 0.4025,
      "num_input_tokens_seen": 15987816,
      "step": 24445
    },
    {
      "epoch": 12.814465408805031,
      "grad_norm": 0.10975483804941177,
      "learning_rate": 0.0003443348984538559,
      "loss": 0.3663,
      "num_input_tokens_seen": 15992072,
      "step": 24450
    },
    {
      "epoch": 12.817085953878406,
      "grad_norm": 0.1249506026506424,
      "learning_rate": 0.0003441175943128407,
      "loss": 0.409,
      "num_input_tokens_seen": 15995048,
      "step": 24455
    },
    {
      "epoch": 12.819706498951781,
      "grad_norm": 0.09060687571763992,
      "learning_rate": 0.0003439003227806464,
      "loss": 0.4197,
      "num_input_tokens_seen": 15998664,
      "step": 24460
    },
    {
      "epoch": 12.822327044025156,
      "grad_norm": 0.14129747450351715,
      "learning_rate": 0.00034368308390272386,
      "loss": 0.354,
      "num_input_tokens_seen": 16001512,
      "step": 24465
    },
    {
      "epoch": 12.824947589098532,
      "grad_norm": 0.1851588934659958,
      "learning_rate": 0.0003434658777245167,
      "loss": 0.5059,
      "num_input_tokens_seen": 16005096,
      "step": 24470
    },
    {
      "epoch": 12.827568134171909,
      "grad_norm": 0.07981421053409576,
      "learning_rate": 0.000343248704291462,
      "loss": 0.4132,
      "num_input_tokens_seen": 16008616,
      "step": 24475
    },
    {
      "epoch": 12.830188679245284,
      "grad_norm": 0.1882789433002472,
      "learning_rate": 0.00034303156364899016,
      "loss": 0.5238,
      "num_input_tokens_seen": 16012200,
      "step": 24480
    },
    {
      "epoch": 12.832809224318659,
      "grad_norm": 0.10323673486709595,
      "learning_rate": 0.00034281445584252425,
      "loss": 0.42,
      "num_input_tokens_seen": 16014824,
      "step": 24485
    },
    {
      "epoch": 12.835429769392034,
      "grad_norm": 0.11247896403074265,
      "learning_rate": 0.00034259738091748103,
      "loss": 0.4034,
      "num_input_tokens_seen": 16017736,
      "step": 24490
    },
    {
      "epoch": 12.83805031446541,
      "grad_norm": 0.11897172778844833,
      "learning_rate": 0.00034238033891927013,
      "loss": 0.3182,
      "num_input_tokens_seen": 16020552,
      "step": 24495
    },
    {
      "epoch": 12.840670859538784,
      "grad_norm": 0.12302406877279282,
      "learning_rate": 0.00034216332989329387,
      "loss": 0.4063,
      "num_input_tokens_seen": 16023528,
      "step": 24500
    },
    {
      "epoch": 12.84329140461216,
      "grad_norm": 0.09885579347610474,
      "learning_rate": 0.00034194635388494835,
      "loss": 0.359,
      "num_input_tokens_seen": 16026472,
      "step": 24505
    },
    {
      "epoch": 12.845911949685535,
      "grad_norm": 0.1795169562101364,
      "learning_rate": 0.00034172941093962237,
      "loss": 0.6812,
      "num_input_tokens_seen": 16028776,
      "step": 24510
    },
    {
      "epoch": 12.84853249475891,
      "grad_norm": 0.09241943061351776,
      "learning_rate": 0.00034151250110269805,
      "loss": 0.4591,
      "num_input_tokens_seen": 16032488,
      "step": 24515
    },
    {
      "epoch": 12.851153039832285,
      "grad_norm": 0.14596939086914062,
      "learning_rate": 0.00034129562441955044,
      "loss": 0.4736,
      "num_input_tokens_seen": 16035816,
      "step": 24520
    },
    {
      "epoch": 12.85377358490566,
      "grad_norm": 0.15093053877353668,
      "learning_rate": 0.00034107878093554765,
      "loss": 0.396,
      "num_input_tokens_seen": 16039144,
      "step": 24525
    },
    {
      "epoch": 12.856394129979035,
      "grad_norm": 0.11890842020511627,
      "learning_rate": 0.00034086197069605064,
      "loss": 0.4188,
      "num_input_tokens_seen": 16041960,
      "step": 24530
    },
    {
      "epoch": 12.85901467505241,
      "grad_norm": 0.18638908863067627,
      "learning_rate": 0.0003406451937464139,
      "loss": 0.5058,
      "num_input_tokens_seen": 16045064,
      "step": 24535
    },
    {
      "epoch": 12.861635220125786,
      "grad_norm": 0.09336230158805847,
      "learning_rate": 0.0003404284501319845,
      "loss": 0.3962,
      "num_input_tokens_seen": 16048520,
      "step": 24540
    },
    {
      "epoch": 12.864255765199161,
      "grad_norm": 0.08654206246137619,
      "learning_rate": 0.00034021173989810306,
      "loss": 0.3524,
      "num_input_tokens_seen": 16052584,
      "step": 24545
    },
    {
      "epoch": 12.866876310272536,
      "grad_norm": 0.12460096925497055,
      "learning_rate": 0.0003399950630901025,
      "loss": 0.4289,
      "num_input_tokens_seen": 16055080,
      "step": 24550
    },
    {
      "epoch": 12.869496855345911,
      "grad_norm": 0.10438085347414017,
      "learning_rate": 0.0003397784197533095,
      "loss": 0.2769,
      "num_input_tokens_seen": 16057736,
      "step": 24555
    },
    {
      "epoch": 12.872117400419286,
      "grad_norm": 0.11132152378559113,
      "learning_rate": 0.0003395618099330431,
      "loss": 0.3694,
      "num_input_tokens_seen": 16060552,
      "step": 24560
    },
    {
      "epoch": 12.874737945492662,
      "grad_norm": 0.11962772905826569,
      "learning_rate": 0.0003393452336746156,
      "loss": 0.4373,
      "num_input_tokens_seen": 16063464,
      "step": 24565
    },
    {
      "epoch": 12.877358490566039,
      "grad_norm": 0.17255344986915588,
      "learning_rate": 0.00033912869102333237,
      "loss": 0.3692,
      "num_input_tokens_seen": 16066504,
      "step": 24570
    },
    {
      "epoch": 12.879979035639414,
      "grad_norm": 0.09494433552026749,
      "learning_rate": 0.00033891218202449164,
      "loss": 0.4079,
      "num_input_tokens_seen": 16070312,
      "step": 24575
    },
    {
      "epoch": 12.882599580712789,
      "grad_norm": 0.09151504188776016,
      "learning_rate": 0.00033869570672338486,
      "loss": 0.334,
      "num_input_tokens_seen": 16073384,
      "step": 24580
    },
    {
      "epoch": 12.885220125786164,
      "grad_norm": 0.1543923318386078,
      "learning_rate": 0.00033847926516529574,
      "loss": 0.4301,
      "num_input_tokens_seen": 16076296,
      "step": 24585
    },
    {
      "epoch": 12.88784067085954,
      "grad_norm": 0.17927208542823792,
      "learning_rate": 0.0003382628573955018,
      "loss": 0.3552,
      "num_input_tokens_seen": 16080616,
      "step": 24590
    },
    {
      "epoch": 12.890461215932914,
      "grad_norm": 0.13004407286643982,
      "learning_rate": 0.00033804648345927267,
      "loss": 0.5248,
      "num_input_tokens_seen": 16084552,
      "step": 24595
    },
    {
      "epoch": 12.89308176100629,
      "grad_norm": 0.09665483981370926,
      "learning_rate": 0.00033783014340187166,
      "loss": 0.4784,
      "num_input_tokens_seen": 16087464,
      "step": 24600
    },
    {
      "epoch": 12.895702306079665,
      "grad_norm": 0.12031199038028717,
      "learning_rate": 0.0003376138372685545,
      "loss": 0.3061,
      "num_input_tokens_seen": 16090664,
      "step": 24605
    },
    {
      "epoch": 12.89832285115304,
      "grad_norm": 0.11611876636743546,
      "learning_rate": 0.00033739756510457015,
      "loss": 0.3929,
      "num_input_tokens_seen": 16094312,
      "step": 24610
    },
    {
      "epoch": 12.900943396226415,
      "grad_norm": 0.11495573818683624,
      "learning_rate": 0.00033718132695516003,
      "loss": 0.5121,
      "num_input_tokens_seen": 16097000,
      "step": 24615
    },
    {
      "epoch": 12.90356394129979,
      "grad_norm": 0.1110442504286766,
      "learning_rate": 0.00033696512286555865,
      "loss": 0.5273,
      "num_input_tokens_seen": 16100008,
      "step": 24620
    },
    {
      "epoch": 12.906184486373165,
      "grad_norm": 0.08285067975521088,
      "learning_rate": 0.0003367489528809936,
      "loss": 0.3825,
      "num_input_tokens_seen": 16102952,
      "step": 24625
    },
    {
      "epoch": 12.90880503144654,
      "grad_norm": 0.11036086082458496,
      "learning_rate": 0.00033653281704668515,
      "loss": 0.3851,
      "num_input_tokens_seen": 16105768,
      "step": 24630
    },
    {
      "epoch": 12.911425576519916,
      "grad_norm": 0.132921040058136,
      "learning_rate": 0.0003363167154078465,
      "loss": 0.5078,
      "num_input_tokens_seen": 16108296,
      "step": 24635
    },
    {
      "epoch": 12.914046121593291,
      "grad_norm": 0.14732903242111206,
      "learning_rate": 0.0003361006480096837,
      "loss": 0.413,
      "num_input_tokens_seen": 16110984,
      "step": 24640
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.1420964002609253,
      "learning_rate": 0.0003358846148973953,
      "loss": 0.3237,
      "num_input_tokens_seen": 16114536,
      "step": 24645
    },
    {
      "epoch": 12.919287211740041,
      "grad_norm": 0.10859548300504684,
      "learning_rate": 0.0003356686161161732,
      "loss": 0.325,
      "num_input_tokens_seen": 16117832,
      "step": 24650
    },
    {
      "epoch": 12.921907756813416,
      "grad_norm": 0.14772361516952515,
      "learning_rate": 0.00033545265171120163,
      "loss": 0.528,
      "num_input_tokens_seen": 16121064,
      "step": 24655
    },
    {
      "epoch": 12.924528301886792,
      "grad_norm": 0.09099771082401276,
      "learning_rate": 0.0003352367217276582,
      "loss": 0.3498,
      "num_input_tokens_seen": 16124168,
      "step": 24660
    },
    {
      "epoch": 12.927148846960169,
      "grad_norm": 0.15002678334712982,
      "learning_rate": 0.0003350208262107131,
      "loss": 0.476,
      "num_input_tokens_seen": 16127080,
      "step": 24665
    },
    {
      "epoch": 12.929769392033544,
      "grad_norm": 0.12658686935901642,
      "learning_rate": 0.00033480496520552874,
      "loss": 0.4044,
      "num_input_tokens_seen": 16131048,
      "step": 24670
    },
    {
      "epoch": 12.932389937106919,
      "grad_norm": 0.07676886767148972,
      "learning_rate": 0.00033458913875726093,
      "loss": 0.3565,
      "num_input_tokens_seen": 16134728,
      "step": 24675
    },
    {
      "epoch": 12.935010482180294,
      "grad_norm": 0.11000648885965347,
      "learning_rate": 0.00033437334691105837,
      "loss": 0.5397,
      "num_input_tokens_seen": 16140424,
      "step": 24680
    },
    {
      "epoch": 12.93763102725367,
      "grad_norm": 0.11952441930770874,
      "learning_rate": 0.0003341575897120619,
      "loss": 0.3561,
      "num_input_tokens_seen": 16143816,
      "step": 24685
    },
    {
      "epoch": 12.940251572327044,
      "grad_norm": 0.11172328144311905,
      "learning_rate": 0.00033394186720540577,
      "loss": 0.4304,
      "num_input_tokens_seen": 16147144,
      "step": 24690
    },
    {
      "epoch": 12.94287211740042,
      "grad_norm": 0.11352375149726868,
      "learning_rate": 0.00033372617943621665,
      "loss": 0.4295,
      "num_input_tokens_seen": 16151400,
      "step": 24695
    },
    {
      "epoch": 12.945492662473795,
      "grad_norm": 0.16568584740161896,
      "learning_rate": 0.00033351052644961353,
      "loss": 0.5571,
      "num_input_tokens_seen": 16154152,
      "step": 24700
    },
    {
      "epoch": 12.94811320754717,
      "grad_norm": 0.19792933762073517,
      "learning_rate": 0.00033329490829070907,
      "loss": 0.3405,
      "num_input_tokens_seen": 16157000,
      "step": 24705
    },
    {
      "epoch": 12.950733752620545,
      "grad_norm": 0.18152956664562225,
      "learning_rate": 0.0003330793250046078,
      "loss": 0.457,
      "num_input_tokens_seen": 16159592,
      "step": 24710
    },
    {
      "epoch": 12.95335429769392,
      "grad_norm": 0.07424388080835342,
      "learning_rate": 0.0003328637766364075,
      "loss": 0.2721,
      "num_input_tokens_seen": 16164488,
      "step": 24715
    },
    {
      "epoch": 12.955974842767295,
      "grad_norm": 0.11849185079336166,
      "learning_rate": 0.00033264826323119824,
      "loss": 0.391,
      "num_input_tokens_seen": 16167176,
      "step": 24720
    },
    {
      "epoch": 12.95859538784067,
      "grad_norm": 0.11204243451356888,
      "learning_rate": 0.00033243278483406326,
      "loss": 0.2951,
      "num_input_tokens_seen": 16173032,
      "step": 24725
    },
    {
      "epoch": 12.961215932914046,
      "grad_norm": 0.09570709615945816,
      "learning_rate": 0.00033221734149007785,
      "loss": 0.5141,
      "num_input_tokens_seen": 16175816,
      "step": 24730
    },
    {
      "epoch": 12.963836477987421,
      "grad_norm": 0.14448420703411102,
      "learning_rate": 0.0003320019332443104,
      "loss": 0.4447,
      "num_input_tokens_seen": 16178952,
      "step": 24735
    },
    {
      "epoch": 12.966457023060796,
      "grad_norm": 0.11248895525932312,
      "learning_rate": 0.00033178656014182185,
      "loss": 0.4495,
      "num_input_tokens_seen": 16182760,
      "step": 24740
    },
    {
      "epoch": 12.969077568134171,
      "grad_norm": 0.09935547411441803,
      "learning_rate": 0.00033157122222766597,
      "loss": 0.3988,
      "num_input_tokens_seen": 16185768,
      "step": 24745
    },
    {
      "epoch": 12.971698113207546,
      "grad_norm": 0.11788345128297806,
      "learning_rate": 0.0003313559195468889,
      "loss": 0.462,
      "num_input_tokens_seen": 16188904,
      "step": 24750
    },
    {
      "epoch": 12.974318658280922,
      "grad_norm": 0.14214757084846497,
      "learning_rate": 0.0003311406521445293,
      "loss": 0.5091,
      "num_input_tokens_seen": 16191816,
      "step": 24755
    },
    {
      "epoch": 12.976939203354299,
      "grad_norm": 0.13939787447452545,
      "learning_rate": 0.000330925420065619,
      "loss": 0.49,
      "num_input_tokens_seen": 16194792,
      "step": 24760
    },
    {
      "epoch": 12.979559748427674,
      "grad_norm": 0.09589435160160065,
      "learning_rate": 0.0003307102233551817,
      "loss": 0.4716,
      "num_input_tokens_seen": 16197608,
      "step": 24765
    },
    {
      "epoch": 12.982180293501049,
      "grad_norm": 0.1954474151134491,
      "learning_rate": 0.0003304950620582344,
      "loss": 0.5027,
      "num_input_tokens_seen": 16200904,
      "step": 24770
    },
    {
      "epoch": 12.984800838574424,
      "grad_norm": 0.09602486342191696,
      "learning_rate": 0.0003302799362197864,
      "loss": 0.4301,
      "num_input_tokens_seen": 16204136,
      "step": 24775
    },
    {
      "epoch": 12.9874213836478,
      "grad_norm": 0.12409603595733643,
      "learning_rate": 0.00033006484588483947,
      "loss": 0.4623,
      "num_input_tokens_seen": 16207624,
      "step": 24780
    },
    {
      "epoch": 12.990041928721174,
      "grad_norm": 0.1074461042881012,
      "learning_rate": 0.00032984979109838803,
      "loss": 0.4612,
      "num_input_tokens_seen": 16210856,
      "step": 24785
    },
    {
      "epoch": 12.99266247379455,
      "grad_norm": 0.083526611328125,
      "learning_rate": 0.000329634771905419,
      "loss": 0.5501,
      "num_input_tokens_seen": 16214280,
      "step": 24790
    },
    {
      "epoch": 12.995283018867925,
      "grad_norm": 0.11190007627010345,
      "learning_rate": 0.0003294197883509122,
      "loss": 0.4586,
      "num_input_tokens_seen": 16217128,
      "step": 24795
    },
    {
      "epoch": 12.9979035639413,
      "grad_norm": 0.09817057847976685,
      "learning_rate": 0.00032920484047983947,
      "loss": 0.3798,
      "num_input_tokens_seen": 16220840,
      "step": 24800
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.4775538444519043,
      "eval_runtime": 13.5989,
      "eval_samples_per_second": 62.358,
      "eval_steps_per_second": 15.59,
      "num_input_tokens_seen": 16222408,
      "step": 24804
    },
    {
      "epoch": 13.000524109014675,
      "grad_norm": 0.11410629749298096,
      "learning_rate": 0.0003289899283371657,
      "loss": 0.4378,
      "num_input_tokens_seen": 16222792,
      "step": 24805
    },
    {
      "epoch": 13.00314465408805,
      "grad_norm": 0.10356969386339188,
      "learning_rate": 0.00032877505196784795,
      "loss": 0.4281,
      "num_input_tokens_seen": 16226664,
      "step": 24810
    },
    {
      "epoch": 13.005765199161425,
      "grad_norm": 0.150367870926857,
      "learning_rate": 0.0003285602114168358,
      "loss": 0.359,
      "num_input_tokens_seen": 16230536,
      "step": 24815
    },
    {
      "epoch": 13.0083857442348,
      "grad_norm": 0.22198058664798737,
      "learning_rate": 0.00032834540672907144,
      "loss": 0.418,
      "num_input_tokens_seen": 16233160,
      "step": 24820
    },
    {
      "epoch": 13.011006289308176,
      "grad_norm": 0.09690189361572266,
      "learning_rate": 0.00032813063794948983,
      "loss": 0.3751,
      "num_input_tokens_seen": 16237160,
      "step": 24825
    },
    {
      "epoch": 13.01362683438155,
      "grad_norm": 0.0979636162519455,
      "learning_rate": 0.00032791590512301784,
      "loss": 0.3889,
      "num_input_tokens_seen": 16239720,
      "step": 24830
    },
    {
      "epoch": 13.016247379454926,
      "grad_norm": 0.09161579608917236,
      "learning_rate": 0.00032770120829457534,
      "loss": 0.4214,
      "num_input_tokens_seen": 16242440,
      "step": 24835
    },
    {
      "epoch": 13.018867924528301,
      "grad_norm": 0.10260642319917679,
      "learning_rate": 0.00032748654750907447,
      "loss": 0.3676,
      "num_input_tokens_seen": 16245416,
      "step": 24840
    },
    {
      "epoch": 13.021488469601676,
      "grad_norm": 0.16149000823497772,
      "learning_rate": 0.0003272719228114196,
      "loss": 0.382,
      "num_input_tokens_seen": 16248936,
      "step": 24845
    },
    {
      "epoch": 13.024109014675052,
      "grad_norm": 0.1363983005285263,
      "learning_rate": 0.0003270573342465079,
      "loss": 0.5188,
      "num_input_tokens_seen": 16252072,
      "step": 24850
    },
    {
      "epoch": 13.026729559748428,
      "grad_norm": 0.14229346811771393,
      "learning_rate": 0.00032684278185922877,
      "loss": 0.455,
      "num_input_tokens_seen": 16255784,
      "step": 24855
    },
    {
      "epoch": 13.029350104821804,
      "grad_norm": 0.155686616897583,
      "learning_rate": 0.0003266282656944643,
      "loss": 0.3907,
      "num_input_tokens_seen": 16259528,
      "step": 24860
    },
    {
      "epoch": 13.031970649895179,
      "grad_norm": 0.09232556819915771,
      "learning_rate": 0.0003264137857970888,
      "loss": 0.4721,
      "num_input_tokens_seen": 16262920,
      "step": 24865
    },
    {
      "epoch": 13.034591194968554,
      "grad_norm": 0.1319899708032608,
      "learning_rate": 0.0003261993422119688,
      "loss": 0.3885,
      "num_input_tokens_seen": 16266152,
      "step": 24870
    },
    {
      "epoch": 13.03721174004193,
      "grad_norm": 0.2569860517978668,
      "learning_rate": 0.00032598493498396365,
      "loss": 0.4486,
      "num_input_tokens_seen": 16269608,
      "step": 24875
    },
    {
      "epoch": 13.039832285115304,
      "grad_norm": 0.09741305559873581,
      "learning_rate": 0.0003257705641579247,
      "loss": 0.3484,
      "num_input_tokens_seen": 16274056,
      "step": 24880
    },
    {
      "epoch": 13.04245283018868,
      "grad_norm": 0.18045184016227722,
      "learning_rate": 0.00032555622977869614,
      "loss": 0.3673,
      "num_input_tokens_seen": 16276680,
      "step": 24885
    },
    {
      "epoch": 13.045073375262055,
      "grad_norm": 0.2006879597902298,
      "learning_rate": 0.00032534193189111407,
      "loss": 0.3854,
      "num_input_tokens_seen": 16278696,
      "step": 24890
    },
    {
      "epoch": 13.04769392033543,
      "grad_norm": 0.12891969084739685,
      "learning_rate": 0.0003251276705400074,
      "loss": 0.5305,
      "num_input_tokens_seen": 16281800,
      "step": 24895
    },
    {
      "epoch": 13.050314465408805,
      "grad_norm": 0.11677362769842148,
      "learning_rate": 0.0003249134457701968,
      "loss": 0.3513,
      "num_input_tokens_seen": 16284968,
      "step": 24900
    },
    {
      "epoch": 13.05293501048218,
      "grad_norm": 0.19405899941921234,
      "learning_rate": 0.000324699257626496,
      "loss": 0.398,
      "num_input_tokens_seen": 16287592,
      "step": 24905
    },
    {
      "epoch": 13.055555555555555,
      "grad_norm": 0.09803526103496552,
      "learning_rate": 0.00032448510615371045,
      "loss": 0.4715,
      "num_input_tokens_seen": 16291080,
      "step": 24910
    },
    {
      "epoch": 13.05817610062893,
      "grad_norm": 0.4924500584602356,
      "learning_rate": 0.0003242709913966384,
      "loss": 0.4644,
      "num_input_tokens_seen": 16293768,
      "step": 24915
    },
    {
      "epoch": 13.060796645702306,
      "grad_norm": 0.0919867530465126,
      "learning_rate": 0.00032405691340007,
      "loss": 0.4666,
      "num_input_tokens_seen": 16298440,
      "step": 24920
    },
    {
      "epoch": 13.06341719077568,
      "grad_norm": 0.14211733639240265,
      "learning_rate": 0.0003238428722087884,
      "loss": 0.4292,
      "num_input_tokens_seen": 16301768,
      "step": 24925
    },
    {
      "epoch": 13.066037735849056,
      "grad_norm": 0.11681917309761047,
      "learning_rate": 0.00032362886786756797,
      "loss": 0.4085,
      "num_input_tokens_seen": 16304872,
      "step": 24930
    },
    {
      "epoch": 13.068658280922431,
      "grad_norm": 0.15128587186336517,
      "learning_rate": 0.00032341490042117615,
      "loss": 0.5342,
      "num_input_tokens_seen": 16308456,
      "step": 24935
    },
    {
      "epoch": 13.071278825995806,
      "grad_norm": 0.10438138991594315,
      "learning_rate": 0.00032320096991437277,
      "loss": 0.3952,
      "num_input_tokens_seen": 16311816,
      "step": 24940
    },
    {
      "epoch": 13.073899371069182,
      "grad_norm": 0.18283100426197052,
      "learning_rate": 0.0003229870763919093,
      "loss": 0.5096,
      "num_input_tokens_seen": 16315048,
      "step": 24945
    },
    {
      "epoch": 13.076519916142558,
      "grad_norm": 0.20893383026123047,
      "learning_rate": 0.00032277321989853015,
      "loss": 0.5117,
      "num_input_tokens_seen": 16318120,
      "step": 24950
    },
    {
      "epoch": 13.079140461215934,
      "grad_norm": 0.08574390411376953,
      "learning_rate": 0.00032255940047897137,
      "loss": 0.3334,
      "num_input_tokens_seen": 16321256,
      "step": 24955
    },
    {
      "epoch": 13.081761006289309,
      "grad_norm": 0.11871186643838882,
      "learning_rate": 0.0003223456181779616,
      "loss": 0.4127,
      "num_input_tokens_seen": 16325096,
      "step": 24960
    },
    {
      "epoch": 13.084381551362684,
      "grad_norm": 0.09710158407688141,
      "learning_rate": 0.0003221318730402218,
      "loss": 0.3629,
      "num_input_tokens_seen": 16328424,
      "step": 24965
    },
    {
      "epoch": 13.08700209643606,
      "grad_norm": 0.10651640594005585,
      "learning_rate": 0.00032191816511046483,
      "loss": 0.3551,
      "num_input_tokens_seen": 16332200,
      "step": 24970
    },
    {
      "epoch": 13.089622641509434,
      "grad_norm": 0.1136784702539444,
      "learning_rate": 0.0003217044944333961,
      "loss": 0.4852,
      "num_input_tokens_seen": 16334760,
      "step": 24975
    },
    {
      "epoch": 13.09224318658281,
      "grad_norm": 0.13813312351703644,
      "learning_rate": 0.00032149086105371315,
      "loss": 0.437,
      "num_input_tokens_seen": 16337384,
      "step": 24980
    },
    {
      "epoch": 13.094863731656185,
      "grad_norm": 0.14117340743541718,
      "learning_rate": 0.00032127726501610554,
      "loss": 0.4186,
      "num_input_tokens_seen": 16340488,
      "step": 24985
    },
    {
      "epoch": 13.09748427672956,
      "grad_norm": 0.11077450215816498,
      "learning_rate": 0.00032106370636525493,
      "loss": 0.4173,
      "num_input_tokens_seen": 16343336,
      "step": 24990
    },
    {
      "epoch": 13.100104821802935,
      "grad_norm": 0.11854122579097748,
      "learning_rate": 0.00032085018514583564,
      "loss": 0.395,
      "num_input_tokens_seen": 16347176,
      "step": 24995
    },
    {
      "epoch": 13.10272536687631,
      "grad_norm": 0.11533069610595703,
      "learning_rate": 0.00032063670140251366,
      "loss": 0.3869,
      "num_input_tokens_seen": 16349864,
      "step": 25000
    },
    {
      "epoch": 13.105345911949685,
      "grad_norm": 0.17561806738376617,
      "learning_rate": 0.0003204232551799476,
      "loss": 0.5043,
      "num_input_tokens_seen": 16352904,
      "step": 25005
    },
    {
      "epoch": 13.10796645702306,
      "grad_norm": 0.14347492158412933,
      "learning_rate": 0.00032020984652278797,
      "loss": 0.5078,
      "num_input_tokens_seen": 16356072,
      "step": 25010
    },
    {
      "epoch": 13.110587002096436,
      "grad_norm": 0.10294396430253983,
      "learning_rate": 0.000319996475475677,
      "loss": 0.3744,
      "num_input_tokens_seen": 16360360,
      "step": 25015
    },
    {
      "epoch": 13.11320754716981,
      "grad_norm": 0.24577009677886963,
      "learning_rate": 0.0003197831420832499,
      "loss": 0.5593,
      "num_input_tokens_seen": 16363240,
      "step": 25020
    },
    {
      "epoch": 13.115828092243186,
      "grad_norm": 0.11657658964395523,
      "learning_rate": 0.0003195698463901334,
      "loss": 0.3453,
      "num_input_tokens_seen": 16365992,
      "step": 25025
    },
    {
      "epoch": 13.118448637316561,
      "grad_norm": 0.15226051211357117,
      "learning_rate": 0.0003193565884409466,
      "loss": 0.4544,
      "num_input_tokens_seen": 16369064,
      "step": 25030
    },
    {
      "epoch": 13.121069182389936,
      "grad_norm": 0.17619174718856812,
      "learning_rate": 0.0003191433682803008,
      "loss": 0.3794,
      "num_input_tokens_seen": 16372456,
      "step": 25035
    },
    {
      "epoch": 13.123689727463312,
      "grad_norm": 0.08035486191511154,
      "learning_rate": 0.00031893018595279877,
      "loss": 0.4472,
      "num_input_tokens_seen": 16376328,
      "step": 25040
    },
    {
      "epoch": 13.126310272536688,
      "grad_norm": 0.12189115583896637,
      "learning_rate": 0.00031871704150303624,
      "loss": 0.602,
      "num_input_tokens_seen": 16378952,
      "step": 25045
    },
    {
      "epoch": 13.128930817610064,
      "grad_norm": 0.13802334666252136,
      "learning_rate": 0.00031850393497560034,
      "loss": 0.5839,
      "num_input_tokens_seen": 16381640,
      "step": 25050
    },
    {
      "epoch": 13.131551362683439,
      "grad_norm": 0.10495036095380783,
      "learning_rate": 0.00031829086641507054,
      "loss": 0.3495,
      "num_input_tokens_seen": 16385032,
      "step": 25055
    },
    {
      "epoch": 13.134171907756814,
      "grad_norm": 0.23023883998394012,
      "learning_rate": 0.00031807783586601865,
      "loss": 0.4488,
      "num_input_tokens_seen": 16388520,
      "step": 25060
    },
    {
      "epoch": 13.13679245283019,
      "grad_norm": 0.1569565385580063,
      "learning_rate": 0.00031786484337300805,
      "loss": 0.5309,
      "num_input_tokens_seen": 16391400,
      "step": 25065
    },
    {
      "epoch": 13.139412997903564,
      "grad_norm": 0.08773649483919144,
      "learning_rate": 0.0003176518889805941,
      "loss": 0.4643,
      "num_input_tokens_seen": 16394376,
      "step": 25070
    },
    {
      "epoch": 13.14203354297694,
      "grad_norm": 0.12961135804653168,
      "learning_rate": 0.0003174389727333248,
      "loss": 0.3635,
      "num_input_tokens_seen": 16398024,
      "step": 25075
    },
    {
      "epoch": 13.144654088050315,
      "grad_norm": 0.3469902575016022,
      "learning_rate": 0.00031722609467573946,
      "loss": 0.3981,
      "num_input_tokens_seen": 16400648,
      "step": 25080
    },
    {
      "epoch": 13.14727463312369,
      "grad_norm": 0.128261998295784,
      "learning_rate": 0.0003170132548523701,
      "loss": 0.3655,
      "num_input_tokens_seen": 16404552,
      "step": 25085
    },
    {
      "epoch": 13.149895178197065,
      "grad_norm": 0.1480875164270401,
      "learning_rate": 0.00031680045330774003,
      "loss": 0.4129,
      "num_input_tokens_seen": 16407240,
      "step": 25090
    },
    {
      "epoch": 13.15251572327044,
      "grad_norm": 0.09547444432973862,
      "learning_rate": 0.00031658769008636534,
      "loss": 0.57,
      "num_input_tokens_seen": 16410344,
      "step": 25095
    },
    {
      "epoch": 13.155136268343815,
      "grad_norm": 0.17330479621887207,
      "learning_rate": 0.0003163749652327532,
      "loss": 0.431,
      "num_input_tokens_seen": 16413128,
      "step": 25100
    },
    {
      "epoch": 13.15775681341719,
      "grad_norm": 0.13527432084083557,
      "learning_rate": 0.00031616227879140347,
      "loss": 0.3555,
      "num_input_tokens_seen": 16416040,
      "step": 25105
    },
    {
      "epoch": 13.160377358490566,
      "grad_norm": 0.08989337086677551,
      "learning_rate": 0.0003159496308068077,
      "loss": 0.4387,
      "num_input_tokens_seen": 16420776,
      "step": 25110
    },
    {
      "epoch": 13.16299790356394,
      "grad_norm": 0.09748341888189316,
      "learning_rate": 0.00031573702132344926,
      "loss": 0.43,
      "num_input_tokens_seen": 16423496,
      "step": 25115
    },
    {
      "epoch": 13.165618448637316,
      "grad_norm": 0.11414232850074768,
      "learning_rate": 0.00031552445038580414,
      "loss": 0.4105,
      "num_input_tokens_seen": 16425864,
      "step": 25120
    },
    {
      "epoch": 13.168238993710691,
      "grad_norm": 0.15735512971878052,
      "learning_rate": 0.0003153119180383391,
      "loss": 0.4539,
      "num_input_tokens_seen": 16428872,
      "step": 25125
    },
    {
      "epoch": 13.170859538784066,
      "grad_norm": 0.08114147931337357,
      "learning_rate": 0.0003150994243255138,
      "loss": 0.3121,
      "num_input_tokens_seen": 16432808,
      "step": 25130
    },
    {
      "epoch": 13.173480083857442,
      "grad_norm": 0.06904889643192291,
      "learning_rate": 0.00031488696929177944,
      "loss": 0.5263,
      "num_input_tokens_seen": 16436136,
      "step": 25135
    },
    {
      "epoch": 13.176100628930818,
      "grad_norm": 0.12493664026260376,
      "learning_rate": 0.00031467455298157934,
      "loss": 0.4807,
      "num_input_tokens_seen": 16440008,
      "step": 25140
    },
    {
      "epoch": 13.178721174004194,
      "grad_norm": 0.2657742500305176,
      "learning_rate": 0.0003144621754393483,
      "loss": 0.64,
      "num_input_tokens_seen": 16443240,
      "step": 25145
    },
    {
      "epoch": 13.181341719077569,
      "grad_norm": 0.11495408415794373,
      "learning_rate": 0.0003142498367095137,
      "loss": 0.5059,
      "num_input_tokens_seen": 16446600,
      "step": 25150
    },
    {
      "epoch": 13.183962264150944,
      "grad_norm": 0.12608544528484344,
      "learning_rate": 0.00031403753683649396,
      "loss": 0.4354,
      "num_input_tokens_seen": 16449480,
      "step": 25155
    },
    {
      "epoch": 13.18658280922432,
      "grad_norm": 0.13829635083675385,
      "learning_rate": 0.0003138252758646999,
      "loss": 0.3698,
      "num_input_tokens_seen": 16452360,
      "step": 25160
    },
    {
      "epoch": 13.189203354297694,
      "grad_norm": 0.11809540539979935,
      "learning_rate": 0.00031361305383853413,
      "loss": 0.4645,
      "num_input_tokens_seen": 16455048,
      "step": 25165
    },
    {
      "epoch": 13.19182389937107,
      "grad_norm": 0.1391056478023529,
      "learning_rate": 0.00031340087080239105,
      "loss": 0.3564,
      "num_input_tokens_seen": 16458248,
      "step": 25170
    },
    {
      "epoch": 13.194444444444445,
      "grad_norm": 0.1210247129201889,
      "learning_rate": 0.0003131887268006571,
      "loss": 0.4493,
      "num_input_tokens_seen": 16461896,
      "step": 25175
    },
    {
      "epoch": 13.19706498951782,
      "grad_norm": 0.17343100905418396,
      "learning_rate": 0.00031297662187771026,
      "loss": 0.4748,
      "num_input_tokens_seen": 16464712,
      "step": 25180
    },
    {
      "epoch": 13.199685534591195,
      "grad_norm": 0.14836879074573517,
      "learning_rate": 0.0003127645560779203,
      "loss": 0.3602,
      "num_input_tokens_seen": 16467784,
      "step": 25185
    },
    {
      "epoch": 13.20230607966457,
      "grad_norm": 0.09489917755126953,
      "learning_rate": 0.0003125525294456492,
      "loss": 0.4133,
      "num_input_tokens_seen": 16471400,
      "step": 25190
    },
    {
      "epoch": 13.204926624737945,
      "grad_norm": 0.1239105835556984,
      "learning_rate": 0.0003123405420252503,
      "loss": 0.3583,
      "num_input_tokens_seen": 16475016,
      "step": 25195
    },
    {
      "epoch": 13.20754716981132,
      "grad_norm": 0.21230216324329376,
      "learning_rate": 0.00031212859386106927,
      "loss": 0.4774,
      "num_input_tokens_seen": 16479016,
      "step": 25200
    },
    {
      "epoch": 13.210167714884696,
      "grad_norm": 0.18274596333503723,
      "learning_rate": 0.00031191668499744286,
      "loss": 0.3602,
      "num_input_tokens_seen": 16482696,
      "step": 25205
    },
    {
      "epoch": 13.21278825995807,
      "grad_norm": 0.15093202888965607,
      "learning_rate": 0.00031170481547870046,
      "loss": 0.5641,
      "num_input_tokens_seen": 16486408,
      "step": 25210
    },
    {
      "epoch": 13.215408805031446,
      "grad_norm": 0.18739116191864014,
      "learning_rate": 0.00031149298534916215,
      "loss": 0.4255,
      "num_input_tokens_seen": 16489992,
      "step": 25215
    },
    {
      "epoch": 13.218029350104821,
      "grad_norm": 0.1104215532541275,
      "learning_rate": 0.00031128119465314094,
      "loss": 0.5268,
      "num_input_tokens_seen": 16493512,
      "step": 25220
    },
    {
      "epoch": 13.220649895178196,
      "grad_norm": 0.16951018571853638,
      "learning_rate": 0.0003110694434349406,
      "loss": 0.4079,
      "num_input_tokens_seen": 16499240,
      "step": 25225
    },
    {
      "epoch": 13.223270440251572,
      "grad_norm": 0.12994526326656342,
      "learning_rate": 0.0003108577317388574,
      "loss": 0.3466,
      "num_input_tokens_seen": 16502120,
      "step": 25230
    },
    {
      "epoch": 13.225890985324948,
      "grad_norm": 0.13471615314483643,
      "learning_rate": 0.00031064605960917896,
      "loss": 0.7118,
      "num_input_tokens_seen": 16505448,
      "step": 25235
    },
    {
      "epoch": 13.228511530398324,
      "grad_norm": 0.13670839369297028,
      "learning_rate": 0.00031043442709018446,
      "loss": 0.3886,
      "num_input_tokens_seen": 16507592,
      "step": 25240
    },
    {
      "epoch": 13.231132075471699,
      "grad_norm": 0.19879946112632751,
      "learning_rate": 0.0003102228342261451,
      "loss": 0.5632,
      "num_input_tokens_seen": 16510600,
      "step": 25245
    },
    {
      "epoch": 13.233752620545074,
      "grad_norm": 0.2527163326740265,
      "learning_rate": 0.0003100112810613237,
      "loss": 0.571,
      "num_input_tokens_seen": 16513288,
      "step": 25250
    },
    {
      "epoch": 13.23637316561845,
      "grad_norm": 0.14911167323589325,
      "learning_rate": 0.00030979976763997484,
      "loss": 0.4359,
      "num_input_tokens_seen": 16515752,
      "step": 25255
    },
    {
      "epoch": 13.238993710691824,
      "grad_norm": 0.08246591687202454,
      "learning_rate": 0.0003095882940063447,
      "loss": 0.4527,
      "num_input_tokens_seen": 16519496,
      "step": 25260
    },
    {
      "epoch": 13.2416142557652,
      "grad_norm": 0.12009885907173157,
      "learning_rate": 0.0003093768602046712,
      "loss": 0.4106,
      "num_input_tokens_seen": 16526120,
      "step": 25265
    },
    {
      "epoch": 13.244234800838575,
      "grad_norm": 0.1452004760503769,
      "learning_rate": 0.00030916546627918375,
      "loss": 0.4836,
      "num_input_tokens_seen": 16529544,
      "step": 25270
    },
    {
      "epoch": 13.24685534591195,
      "grad_norm": 0.09379580616950989,
      "learning_rate": 0.00030895411227410354,
      "loss": 0.4567,
      "num_input_tokens_seen": 16533288,
      "step": 25275
    },
    {
      "epoch": 13.249475890985325,
      "grad_norm": 0.0993059054017067,
      "learning_rate": 0.0003087427982336435,
      "loss": 0.3876,
      "num_input_tokens_seen": 16537256,
      "step": 25280
    },
    {
      "epoch": 13.2520964360587,
      "grad_norm": 0.18758565187454224,
      "learning_rate": 0.00030853152420200804,
      "loss": 0.3802,
      "num_input_tokens_seen": 16540744,
      "step": 25285
    },
    {
      "epoch": 13.254716981132075,
      "grad_norm": 0.06853322684764862,
      "learning_rate": 0.0003083202902233932,
      "loss": 0.4834,
      "num_input_tokens_seen": 16543784,
      "step": 25290
    },
    {
      "epoch": 13.25733752620545,
      "grad_norm": 0.13134291768074036,
      "learning_rate": 0.00030810909634198727,
      "loss": 0.4712,
      "num_input_tokens_seen": 16547368,
      "step": 25295
    },
    {
      "epoch": 13.259958071278826,
      "grad_norm": 0.11450318247079849,
      "learning_rate": 0.00030789794260196893,
      "loss": 0.4362,
      "num_input_tokens_seen": 16550952,
      "step": 25300
    },
    {
      "epoch": 13.2625786163522,
      "grad_norm": 0.14460602402687073,
      "learning_rate": 0.00030768682904750935,
      "loss": 0.4301,
      "num_input_tokens_seen": 16553960,
      "step": 25305
    },
    {
      "epoch": 13.265199161425576,
      "grad_norm": 0.14651283621788025,
      "learning_rate": 0.00030747575572277107,
      "loss": 0.3841,
      "num_input_tokens_seen": 16556680,
      "step": 25310
    },
    {
      "epoch": 13.267819706498951,
      "grad_norm": 0.10863320529460907,
      "learning_rate": 0.0003072647226719083,
      "loss": 0.4346,
      "num_input_tokens_seen": 16560680,
      "step": 25315
    },
    {
      "epoch": 13.270440251572326,
      "grad_norm": 0.11852092295885086,
      "learning_rate": 0.0003070537299390669,
      "loss": 0.39,
      "num_input_tokens_seen": 16564936,
      "step": 25320
    },
    {
      "epoch": 13.273060796645701,
      "grad_norm": 0.1556483954191208,
      "learning_rate": 0.0003068427775683838,
      "loss": 0.4294,
      "num_input_tokens_seen": 16567880,
      "step": 25325
    },
    {
      "epoch": 13.275681341719078,
      "grad_norm": 0.11871137470006943,
      "learning_rate": 0.00030663186560398793,
      "loss": 0.4322,
      "num_input_tokens_seen": 16570984,
      "step": 25330
    },
    {
      "epoch": 13.278301886792454,
      "grad_norm": 0.09262337535619736,
      "learning_rate": 0.0003064209940899998,
      "loss": 0.3274,
      "num_input_tokens_seen": 16574632,
      "step": 25335
    },
    {
      "epoch": 13.280922431865829,
      "grad_norm": 0.17883287370204926,
      "learning_rate": 0.00030621016307053105,
      "loss": 0.4061,
      "num_input_tokens_seen": 16577320,
      "step": 25340
    },
    {
      "epoch": 13.283542976939204,
      "grad_norm": 0.10564779490232468,
      "learning_rate": 0.0003059993725896855,
      "loss": 0.4481,
      "num_input_tokens_seen": 16580136,
      "step": 25345
    },
    {
      "epoch": 13.286163522012579,
      "grad_norm": 0.09840718656778336,
      "learning_rate": 0.0003057886226915581,
      "loss": 0.4287,
      "num_input_tokens_seen": 16583080,
      "step": 25350
    },
    {
      "epoch": 13.288784067085954,
      "grad_norm": 0.16387656331062317,
      "learning_rate": 0.00030557791342023476,
      "loss": 0.7693,
      "num_input_tokens_seen": 16585512,
      "step": 25355
    },
    {
      "epoch": 13.29140461215933,
      "grad_norm": 0.13784906268119812,
      "learning_rate": 0.0003053672448197941,
      "loss": 0.4263,
      "num_input_tokens_seen": 16588456,
      "step": 25360
    },
    {
      "epoch": 13.294025157232705,
      "grad_norm": 0.1031775251030922,
      "learning_rate": 0.0003051566169343052,
      "loss": 0.486,
      "num_input_tokens_seen": 16592040,
      "step": 25365
    },
    {
      "epoch": 13.29664570230608,
      "grad_norm": 0.10764260590076447,
      "learning_rate": 0.00030494602980782917,
      "loss": 0.3755,
      "num_input_tokens_seen": 16594728,
      "step": 25370
    },
    {
      "epoch": 13.299266247379455,
      "grad_norm": 0.15365689992904663,
      "learning_rate": 0.00030473548348441845,
      "loss": 0.4399,
      "num_input_tokens_seen": 16597512,
      "step": 25375
    },
    {
      "epoch": 13.30188679245283,
      "grad_norm": 0.18792246282100677,
      "learning_rate": 0.000304524978008117,
      "loss": 0.5861,
      "num_input_tokens_seen": 16601064,
      "step": 25380
    },
    {
      "epoch": 13.304507337526205,
      "grad_norm": 0.1352994441986084,
      "learning_rate": 0.0003043145134229599,
      "loss": 0.4773,
      "num_input_tokens_seen": 16603944,
      "step": 25385
    },
    {
      "epoch": 13.30712788259958,
      "grad_norm": 0.10407427698373795,
      "learning_rate": 0.0003041040897729742,
      "loss": 0.5137,
      "num_input_tokens_seen": 16608712,
      "step": 25390
    },
    {
      "epoch": 13.309748427672956,
      "grad_norm": 0.141251802444458,
      "learning_rate": 0.0003038937071021778,
      "loss": 0.489,
      "num_input_tokens_seen": 16611752,
      "step": 25395
    },
    {
      "epoch": 13.31236897274633,
      "grad_norm": 0.2767581641674042,
      "learning_rate": 0.0003036833654545808,
      "loss": 0.4604,
      "num_input_tokens_seen": 16615144,
      "step": 25400
    },
    {
      "epoch": 13.314989517819706,
      "grad_norm": 0.12521663308143616,
      "learning_rate": 0.0003034730648741841,
      "loss": 0.4519,
      "num_input_tokens_seen": 16619496,
      "step": 25405
    },
    {
      "epoch": 13.317610062893081,
      "grad_norm": 0.14789363741874695,
      "learning_rate": 0.00030326280540497996,
      "loss": 0.3799,
      "num_input_tokens_seen": 16622088,
      "step": 25410
    },
    {
      "epoch": 13.320230607966456,
      "grad_norm": 0.20543143153190613,
      "learning_rate": 0.0003030525870909525,
      "loss": 0.321,
      "num_input_tokens_seen": 16626120,
      "step": 25415
    },
    {
      "epoch": 13.322851153039831,
      "grad_norm": 0.13468463718891144,
      "learning_rate": 0.0003028424099760768,
      "loss": 0.6001,
      "num_input_tokens_seen": 16629096,
      "step": 25420
    },
    {
      "epoch": 13.325471698113208,
      "grad_norm": 0.094502292573452,
      "learning_rate": 0.0003026322741043198,
      "loss": 0.5282,
      "num_input_tokens_seen": 16632296,
      "step": 25425
    },
    {
      "epoch": 13.328092243186584,
      "grad_norm": 0.14075258374214172,
      "learning_rate": 0.0003024221795196393,
      "loss": 0.4978,
      "num_input_tokens_seen": 16635368,
      "step": 25430
    },
    {
      "epoch": 13.330712788259959,
      "grad_norm": 0.17871105670928955,
      "learning_rate": 0.0003022121262659849,
      "loss": 0.419,
      "num_input_tokens_seen": 16639080,
      "step": 25435
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.11392419785261154,
      "learning_rate": 0.00030200211438729705,
      "loss": 0.4074,
      "num_input_tokens_seen": 16642440,
      "step": 25440
    },
    {
      "epoch": 13.335953878406709,
      "grad_norm": 0.15304456651210785,
      "learning_rate": 0.000301792143927508,
      "loss": 0.3704,
      "num_input_tokens_seen": 16645928,
      "step": 25445
    },
    {
      "epoch": 13.338574423480084,
      "grad_norm": 0.08157068490982056,
      "learning_rate": 0.0003015822149305411,
      "loss": 0.323,
      "num_input_tokens_seen": 16650376,
      "step": 25450
    },
    {
      "epoch": 13.34119496855346,
      "grad_norm": 0.13795945048332214,
      "learning_rate": 0.0003013723274403113,
      "loss": 0.3612,
      "num_input_tokens_seen": 16653096,
      "step": 25455
    },
    {
      "epoch": 13.343815513626835,
      "grad_norm": 0.12960857152938843,
      "learning_rate": 0.00030116248150072444,
      "loss": 0.4256,
      "num_input_tokens_seen": 16656360,
      "step": 25460
    },
    {
      "epoch": 13.34643605870021,
      "grad_norm": 0.09887129813432693,
      "learning_rate": 0.00030095267715567816,
      "loss": 0.3688,
      "num_input_tokens_seen": 16659784,
      "step": 25465
    },
    {
      "epoch": 13.349056603773585,
      "grad_norm": 0.11371106654405594,
      "learning_rate": 0.00030074291444906085,
      "loss": 0.4257,
      "num_input_tokens_seen": 16663400,
      "step": 25470
    },
    {
      "epoch": 13.35167714884696,
      "grad_norm": 0.07386627048254013,
      "learning_rate": 0.00030053319342475247,
      "loss": 0.3858,
      "num_input_tokens_seen": 16667592,
      "step": 25475
    },
    {
      "epoch": 13.354297693920335,
      "grad_norm": 0.18307775259017944,
      "learning_rate": 0.00030032351412662465,
      "loss": 0.4912,
      "num_input_tokens_seen": 16671080,
      "step": 25480
    },
    {
      "epoch": 13.35691823899371,
      "grad_norm": 0.11351414769887924,
      "learning_rate": 0.0003001138765985394,
      "loss": 0.4335,
      "num_input_tokens_seen": 16674664,
      "step": 25485
    },
    {
      "epoch": 13.359538784067086,
      "grad_norm": 0.17097239196300507,
      "learning_rate": 0.00029990428088435097,
      "loss": 0.4325,
      "num_input_tokens_seen": 16677864,
      "step": 25490
    },
    {
      "epoch": 13.36215932914046,
      "grad_norm": 0.2140994668006897,
      "learning_rate": 0.000299694727027904,
      "loss": 0.3161,
      "num_input_tokens_seen": 16681544,
      "step": 25495
    },
    {
      "epoch": 13.364779874213836,
      "grad_norm": 0.07391968369483948,
      "learning_rate": 0.00029948521507303495,
      "loss": 0.3098,
      "num_input_tokens_seen": 16684104,
      "step": 25500
    },
    {
      "epoch": 13.367400419287211,
      "grad_norm": 0.10343890637159348,
      "learning_rate": 0.0002992757450635714,
      "loss": 0.4882,
      "num_input_tokens_seen": 16688136,
      "step": 25505
    },
    {
      "epoch": 13.370020964360586,
      "grad_norm": 0.13469383120536804,
      "learning_rate": 0.00029906631704333187,
      "loss": 0.4159,
      "num_input_tokens_seen": 16691592,
      "step": 25510
    },
    {
      "epoch": 13.372641509433961,
      "grad_norm": 0.11272025853395462,
      "learning_rate": 0.0002988569310561264,
      "loss": 0.3388,
      "num_input_tokens_seen": 16695112,
      "step": 25515
    },
    {
      "epoch": 13.375262054507338,
      "grad_norm": 0.14164559543132782,
      "learning_rate": 0.0002986475871457566,
      "loss": 0.4301,
      "num_input_tokens_seen": 16697480,
      "step": 25520
    },
    {
      "epoch": 13.377882599580714,
      "grad_norm": 0.09881030023097992,
      "learning_rate": 0.000298438285356014,
      "loss": 0.5199,
      "num_input_tokens_seen": 16700168,
      "step": 25525
    },
    {
      "epoch": 13.380503144654089,
      "grad_norm": 0.10640872269868851,
      "learning_rate": 0.00029822902573068257,
      "loss": 0.5296,
      "num_input_tokens_seen": 16703400,
      "step": 25530
    },
    {
      "epoch": 13.383123689727464,
      "grad_norm": 0.14709362387657166,
      "learning_rate": 0.0002980198083135372,
      "loss": 0.5121,
      "num_input_tokens_seen": 16706152,
      "step": 25535
    },
    {
      "epoch": 13.385744234800839,
      "grad_norm": 0.10048200935125351,
      "learning_rate": 0.0002978106331483435,
      "loss": 0.4539,
      "num_input_tokens_seen": 16709288,
      "step": 25540
    },
    {
      "epoch": 13.388364779874214,
      "grad_norm": 0.08255724608898163,
      "learning_rate": 0.00029760150027885874,
      "loss": 0.3972,
      "num_input_tokens_seen": 16712424,
      "step": 25545
    },
    {
      "epoch": 13.39098532494759,
      "grad_norm": 0.11511097103357315,
      "learning_rate": 0.0002973924097488311,
      "loss": 0.4716,
      "num_input_tokens_seen": 16716168,
      "step": 25550
    },
    {
      "epoch": 13.393605870020965,
      "grad_norm": 0.28220653533935547,
      "learning_rate": 0.00029718336160199977,
      "loss": 0.503,
      "num_input_tokens_seen": 16719464,
      "step": 25555
    },
    {
      "epoch": 13.39622641509434,
      "grad_norm": 0.11309277266263962,
      "learning_rate": 0.00029697435588209537,
      "loss": 0.3557,
      "num_input_tokens_seen": 16723368,
      "step": 25560
    },
    {
      "epoch": 13.398846960167715,
      "grad_norm": 0.12627902626991272,
      "learning_rate": 0.00029676539263283943,
      "loss": 0.4284,
      "num_input_tokens_seen": 16727080,
      "step": 25565
    },
    {
      "epoch": 13.40146750524109,
      "grad_norm": 0.11569191515445709,
      "learning_rate": 0.0002965564718979448,
      "loss": 0.3951,
      "num_input_tokens_seen": 16730600,
      "step": 25570
    },
    {
      "epoch": 13.404088050314465,
      "grad_norm": 0.1658112108707428,
      "learning_rate": 0.0002963475937211151,
      "loss": 0.4168,
      "num_input_tokens_seen": 16733352,
      "step": 25575
    },
    {
      "epoch": 13.40670859538784,
      "grad_norm": 0.07127528637647629,
      "learning_rate": 0.0002961387581460456,
      "loss": 0.3264,
      "num_input_tokens_seen": 16736232,
      "step": 25580
    },
    {
      "epoch": 13.409329140461216,
      "grad_norm": 0.15100836753845215,
      "learning_rate": 0.0002959299652164221,
      "loss": 0.3209,
      "num_input_tokens_seen": 16741288,
      "step": 25585
    },
    {
      "epoch": 13.41194968553459,
      "grad_norm": 0.10602870583534241,
      "learning_rate": 0.00029572121497592154,
      "loss": 0.5155,
      "num_input_tokens_seen": 16744424,
      "step": 25590
    },
    {
      "epoch": 13.414570230607966,
      "grad_norm": 0.13145312666893005,
      "learning_rate": 0.00029551250746821236,
      "loss": 0.5703,
      "num_input_tokens_seen": 16747880,
      "step": 25595
    },
    {
      "epoch": 13.417190775681341,
      "grad_norm": 0.25958114862442017,
      "learning_rate": 0.0002953038427369537,
      "loss": 0.5739,
      "num_input_tokens_seen": 16750984,
      "step": 25600
    },
    {
      "epoch": 13.419811320754716,
      "grad_norm": 0.15984328091144562,
      "learning_rate": 0.000295095220825796,
      "loss": 0.4171,
      "num_input_tokens_seen": 16753672,
      "step": 25605
    },
    {
      "epoch": 13.422431865828091,
      "grad_norm": 0.13032962381839752,
      "learning_rate": 0.00029488664177838023,
      "loss": 0.4,
      "num_input_tokens_seen": 16756968,
      "step": 25610
    },
    {
      "epoch": 13.425052410901468,
      "grad_norm": 0.1071850061416626,
      "learning_rate": 0.0002946781056383391,
      "loss": 0.4574,
      "num_input_tokens_seen": 16760680,
      "step": 25615
    },
    {
      "epoch": 13.427672955974844,
      "grad_norm": 0.16921454668045044,
      "learning_rate": 0.0002944696124492956,
      "loss": 0.4711,
      "num_input_tokens_seen": 16763624,
      "step": 25620
    },
    {
      "epoch": 13.430293501048219,
      "grad_norm": 0.08790034800767899,
      "learning_rate": 0.0002942611622548645,
      "loss": 0.4803,
      "num_input_tokens_seen": 16766728,
      "step": 25625
    },
    {
      "epoch": 13.432914046121594,
      "grad_norm": 0.11949329078197479,
      "learning_rate": 0.00029405275509865103,
      "loss": 0.4851,
      "num_input_tokens_seen": 16769768,
      "step": 25630
    },
    {
      "epoch": 13.435534591194969,
      "grad_norm": 0.16185063123703003,
      "learning_rate": 0.00029384439102425174,
      "loss": 0.4577,
      "num_input_tokens_seen": 16773384,
      "step": 25635
    },
    {
      "epoch": 13.438155136268344,
      "grad_norm": 0.12809476256370544,
      "learning_rate": 0.0002936360700752539,
      "loss": 0.4204,
      "num_input_tokens_seen": 16776520,
      "step": 25640
    },
    {
      "epoch": 13.44077568134172,
      "grad_norm": 0.18364346027374268,
      "learning_rate": 0.00029342779229523573,
      "loss": 0.3676,
      "num_input_tokens_seen": 16779336,
      "step": 25645
    },
    {
      "epoch": 13.443396226415095,
      "grad_norm": 0.16329817473888397,
      "learning_rate": 0.00029321955772776675,
      "loss": 0.4504,
      "num_input_tokens_seen": 16781576,
      "step": 25650
    },
    {
      "epoch": 13.44601677148847,
      "grad_norm": 0.1341918259859085,
      "learning_rate": 0.00029301136641640723,
      "loss": 0.483,
      "num_input_tokens_seen": 16785064,
      "step": 25655
    },
    {
      "epoch": 13.448637316561845,
      "grad_norm": 0.14386530220508575,
      "learning_rate": 0.0002928032184047085,
      "loss": 0.431,
      "num_input_tokens_seen": 16789128,
      "step": 25660
    },
    {
      "epoch": 13.45125786163522,
      "grad_norm": 0.1389143019914627,
      "learning_rate": 0.0002925951137362126,
      "loss": 0.3197,
      "num_input_tokens_seen": 16793064,
      "step": 25665
    },
    {
      "epoch": 13.453878406708595,
      "grad_norm": 0.1375686675310135,
      "learning_rate": 0.00029238705245445264,
      "loss": 0.5436,
      "num_input_tokens_seen": 16796200,
      "step": 25670
    },
    {
      "epoch": 13.45649895178197,
      "grad_norm": 0.1370152235031128,
      "learning_rate": 0.0002921790346029527,
      "loss": 0.4124,
      "num_input_tokens_seen": 16799016,
      "step": 25675
    },
    {
      "epoch": 13.459119496855346,
      "grad_norm": 0.13363657891750336,
      "learning_rate": 0.0002919710602252279,
      "loss": 0.5459,
      "num_input_tokens_seen": 16805608,
      "step": 25680
    },
    {
      "epoch": 13.46174004192872,
      "grad_norm": 0.10725029557943344,
      "learning_rate": 0.0002917631293647838,
      "loss": 0.4148,
      "num_input_tokens_seen": 16809448,
      "step": 25685
    },
    {
      "epoch": 13.464360587002096,
      "grad_norm": 0.10405360162258148,
      "learning_rate": 0.0002915552420651176,
      "loss": 0.4387,
      "num_input_tokens_seen": 16813160,
      "step": 25690
    },
    {
      "epoch": 13.466981132075471,
      "grad_norm": 0.17003671824932098,
      "learning_rate": 0.00029134739836971657,
      "loss": 0.5321,
      "num_input_tokens_seen": 16817384,
      "step": 25695
    },
    {
      "epoch": 13.469601677148846,
      "grad_norm": 0.11515314131975174,
      "learning_rate": 0.0002911395983220595,
      "loss": 0.4089,
      "num_input_tokens_seen": 16820136,
      "step": 25700
    },
    {
      "epoch": 13.472222222222221,
      "grad_norm": 0.1746601164340973,
      "learning_rate": 0.0002909318419656154,
      "loss": 0.5197,
      "num_input_tokens_seen": 16823240,
      "step": 25705
    },
    {
      "epoch": 13.474842767295598,
      "grad_norm": 0.18258576095104218,
      "learning_rate": 0.00029072412934384484,
      "loss": 0.5077,
      "num_input_tokens_seen": 16825928,
      "step": 25710
    },
    {
      "epoch": 13.477463312368974,
      "grad_norm": 0.15799671411514282,
      "learning_rate": 0.00029051646050019884,
      "loss": 0.4157,
      "num_input_tokens_seen": 16828808,
      "step": 25715
    },
    {
      "epoch": 13.480083857442349,
      "grad_norm": 0.22854647040367126,
      "learning_rate": 0.00029030883547811966,
      "loss": 0.3386,
      "num_input_tokens_seen": 16831336,
      "step": 25720
    },
    {
      "epoch": 13.482704402515724,
      "grad_norm": 0.1055832952260971,
      "learning_rate": 0.0002901012543210397,
      "loss": 0.429,
      "num_input_tokens_seen": 16834184,
      "step": 25725
    },
    {
      "epoch": 13.485324947589099,
      "grad_norm": 0.120162233710289,
      "learning_rate": 0.00028989371707238264,
      "loss": 0.3962,
      "num_input_tokens_seen": 16837576,
      "step": 25730
    },
    {
      "epoch": 13.487945492662474,
      "grad_norm": 0.2079220861196518,
      "learning_rate": 0.00028968622377556285,
      "loss": 0.489,
      "num_input_tokens_seen": 16840616,
      "step": 25735
    },
    {
      "epoch": 13.49056603773585,
      "grad_norm": 0.13087990880012512,
      "learning_rate": 0.00028947877447398567,
      "loss": 0.4605,
      "num_input_tokens_seen": 16843592,
      "step": 25740
    },
    {
      "epoch": 13.493186582809225,
      "grad_norm": 0.14517734944820404,
      "learning_rate": 0.00028927136921104733,
      "loss": 0.3586,
      "num_input_tokens_seen": 16846344,
      "step": 25745
    },
    {
      "epoch": 13.4958071278826,
      "grad_norm": 0.103447325527668,
      "learning_rate": 0.00028906400803013446,
      "loss": 0.4926,
      "num_input_tokens_seen": 16849000,
      "step": 25750
    },
    {
      "epoch": 13.498427672955975,
      "grad_norm": 0.17219190299510956,
      "learning_rate": 0.00028885669097462435,
      "loss": 0.4499,
      "num_input_tokens_seen": 16852232,
      "step": 25755
    },
    {
      "epoch": 13.50104821802935,
      "grad_norm": 0.15839731693267822,
      "learning_rate": 0.0002886494180878857,
      "loss": 0.2807,
      "num_input_tokens_seen": 16855944,
      "step": 25760
    },
    {
      "epoch": 13.503668763102725,
      "grad_norm": 0.12445318698883057,
      "learning_rate": 0.00028844218941327757,
      "loss": 0.3927,
      "num_input_tokens_seen": 16859976,
      "step": 25765
    },
    {
      "epoch": 13.5062893081761,
      "grad_norm": 0.1822524070739746,
      "learning_rate": 0.0002882350049941498,
      "loss": 0.3778,
      "num_input_tokens_seen": 16862440,
      "step": 25770
    },
    {
      "epoch": 13.508909853249476,
      "grad_norm": 0.11060569435358047,
      "learning_rate": 0.0002880278648738432,
      "loss": 0.4031,
      "num_input_tokens_seen": 16865992,
      "step": 25775
    },
    {
      "epoch": 13.51153039832285,
      "grad_norm": 0.07062827050685883,
      "learning_rate": 0.0002878207690956891,
      "loss": 0.4102,
      "num_input_tokens_seen": 16869064,
      "step": 25780
    },
    {
      "epoch": 13.514150943396226,
      "grad_norm": 0.16372226178646088,
      "learning_rate": 0.00028761371770300915,
      "loss": 0.4235,
      "num_input_tokens_seen": 16872296,
      "step": 25785
    },
    {
      "epoch": 13.516771488469601,
      "grad_norm": 0.10613095760345459,
      "learning_rate": 0.0002874067107391164,
      "loss": 0.4208,
      "num_input_tokens_seen": 16876136,
      "step": 25790
    },
    {
      "epoch": 13.519392033542976,
      "grad_norm": 0.2475159913301468,
      "learning_rate": 0.00028719974824731445,
      "loss": 0.4608,
      "num_input_tokens_seen": 16879592,
      "step": 25795
    },
    {
      "epoch": 13.522012578616351,
      "grad_norm": 0.1280878186225891,
      "learning_rate": 0.0002869928302708975,
      "loss": 0.5613,
      "num_input_tokens_seen": 16882248,
      "step": 25800
    },
    {
      "epoch": 13.524633123689728,
      "grad_norm": 0.44741612672805786,
      "learning_rate": 0.00028678595685315044,
      "loss": 0.3764,
      "num_input_tokens_seen": 16884712,
      "step": 25805
    },
    {
      "epoch": 13.527253668763104,
      "grad_norm": 0.19342026114463806,
      "learning_rate": 0.00028657912803734854,
      "loss": 0.4324,
      "num_input_tokens_seen": 16887528,
      "step": 25810
    },
    {
      "epoch": 13.529874213836479,
      "grad_norm": 0.11904890835285187,
      "learning_rate": 0.00028637234386675816,
      "loss": 0.4255,
      "num_input_tokens_seen": 16890856,
      "step": 25815
    },
    {
      "epoch": 13.532494758909854,
      "grad_norm": 0.11723016947507858,
      "learning_rate": 0.00028616560438463626,
      "loss": 0.3426,
      "num_input_tokens_seen": 16894600,
      "step": 25820
    },
    {
      "epoch": 13.535115303983229,
      "grad_norm": 0.13997411727905273,
      "learning_rate": 0.00028595890963423057,
      "loss": 0.4617,
      "num_input_tokens_seen": 16897416,
      "step": 25825
    },
    {
      "epoch": 13.537735849056604,
      "grad_norm": 0.16373059153556824,
      "learning_rate": 0.0002857522596587789,
      "loss": 0.3561,
      "num_input_tokens_seen": 16902664,
      "step": 25830
    },
    {
      "epoch": 13.54035639412998,
      "grad_norm": 0.0973205491900444,
      "learning_rate": 0.00028554565450151045,
      "loss": 0.3246,
      "num_input_tokens_seen": 16905608,
      "step": 25835
    },
    {
      "epoch": 13.542976939203355,
      "grad_norm": 0.16910605132579803,
      "learning_rate": 0.00028533909420564417,
      "loss": 0.5587,
      "num_input_tokens_seen": 16908552,
      "step": 25840
    },
    {
      "epoch": 13.54559748427673,
      "grad_norm": 0.245966374874115,
      "learning_rate": 0.00028513257881439047,
      "loss": 0.3439,
      "num_input_tokens_seen": 16912296,
      "step": 25845
    },
    {
      "epoch": 13.548218029350105,
      "grad_norm": 0.20856966078281403,
      "learning_rate": 0.00028492610837095003,
      "loss": 0.4675,
      "num_input_tokens_seen": 16915368,
      "step": 25850
    },
    {
      "epoch": 13.55083857442348,
      "grad_norm": 0.1418835073709488,
      "learning_rate": 0.00028471968291851407,
      "loss": 0.4027,
      "num_input_tokens_seen": 16919080,
      "step": 25855
    },
    {
      "epoch": 13.553459119496855,
      "grad_norm": 0.1416243463754654,
      "learning_rate": 0.0002845133025002645,
      "loss": 0.4006,
      "num_input_tokens_seen": 16922024,
      "step": 25860
    },
    {
      "epoch": 13.55607966457023,
      "grad_norm": 0.1769237071275711,
      "learning_rate": 0.0002843069671593734,
      "loss": 0.3838,
      "num_input_tokens_seen": 16925416,
      "step": 25865
    },
    {
      "epoch": 13.558700209643606,
      "grad_norm": 0.12855221331119537,
      "learning_rate": 0.000284100676939004,
      "loss": 0.3375,
      "num_input_tokens_seen": 16928712,
      "step": 25870
    },
    {
      "epoch": 13.56132075471698,
      "grad_norm": 0.08161389082670212,
      "learning_rate": 0.0002838944318823099,
      "loss": 0.5556,
      "num_input_tokens_seen": 16931912,
      "step": 25875
    },
    {
      "epoch": 13.563941299790356,
      "grad_norm": 0.1331356018781662,
      "learning_rate": 0.0002836882320324354,
      "loss": 0.468,
      "num_input_tokens_seen": 16935496,
      "step": 25880
    },
    {
      "epoch": 13.566561844863731,
      "grad_norm": 0.2553030252456665,
      "learning_rate": 0.00028348207743251477,
      "loss": 0.4421,
      "num_input_tokens_seen": 16938216,
      "step": 25885
    },
    {
      "epoch": 13.569182389937106,
      "grad_norm": 0.07560494542121887,
      "learning_rate": 0.0002832759681256735,
      "loss": 0.4265,
      "num_input_tokens_seen": 16941736,
      "step": 25890
    },
    {
      "epoch": 13.571802935010481,
      "grad_norm": 0.1679634153842926,
      "learning_rate": 0.000283069904155027,
      "loss": 0.3877,
      "num_input_tokens_seen": 16944776,
      "step": 25895
    },
    {
      "epoch": 13.574423480083858,
      "grad_norm": 0.07931115478277206,
      "learning_rate": 0.0002828638855636817,
      "loss": 0.4526,
      "num_input_tokens_seen": 16948456,
      "step": 25900
    },
    {
      "epoch": 13.577044025157234,
      "grad_norm": 0.12855613231658936,
      "learning_rate": 0.0002826579123947345,
      "loss": 0.3472,
      "num_input_tokens_seen": 16951208,
      "step": 25905
    },
    {
      "epoch": 13.579664570230609,
      "grad_norm": 0.11962756514549255,
      "learning_rate": 0.0002824519846912723,
      "loss": 0.4209,
      "num_input_tokens_seen": 16955208,
      "step": 25910
    },
    {
      "epoch": 13.582285115303984,
      "grad_norm": 0.1868419051170349,
      "learning_rate": 0.00028224610249637293,
      "loss": 0.4492,
      "num_input_tokens_seen": 16957992,
      "step": 25915
    },
    {
      "epoch": 13.584905660377359,
      "grad_norm": 0.09321239590644836,
      "learning_rate": 0.00028204026585310483,
      "loss": 0.3426,
      "num_input_tokens_seen": 16960872,
      "step": 25920
    },
    {
      "epoch": 13.587526205450734,
      "grad_norm": 0.1275034248828888,
      "learning_rate": 0.0002818344748045264,
      "loss": 0.4315,
      "num_input_tokens_seen": 16963816,
      "step": 25925
    },
    {
      "epoch": 13.59014675052411,
      "grad_norm": 0.09800928831100464,
      "learning_rate": 0.0002816287293936868,
      "loss": 0.4599,
      "num_input_tokens_seen": 16966920,
      "step": 25930
    },
    {
      "epoch": 13.592767295597485,
      "grad_norm": 0.17569848895072937,
      "learning_rate": 0.0002814230296636259,
      "loss": 0.392,
      "num_input_tokens_seen": 16969768,
      "step": 25935
    },
    {
      "epoch": 13.59538784067086,
      "grad_norm": 0.07529693841934204,
      "learning_rate": 0.0002812173756573734,
      "loss": 0.5745,
      "num_input_tokens_seen": 16975176,
      "step": 25940
    },
    {
      "epoch": 13.598008385744235,
      "grad_norm": 0.18000173568725586,
      "learning_rate": 0.00028101176741794984,
      "loss": 0.4507,
      "num_input_tokens_seen": 16977960,
      "step": 25945
    },
    {
      "epoch": 13.60062893081761,
      "grad_norm": 0.23930241167545319,
      "learning_rate": 0.0002808062049883664,
      "loss": 0.4839,
      "num_input_tokens_seen": 16981512,
      "step": 25950
    },
    {
      "epoch": 13.603249475890985,
      "grad_norm": 0.27306661009788513,
      "learning_rate": 0.00028060068841162403,
      "loss": 0.482,
      "num_input_tokens_seen": 16984104,
      "step": 25955
    },
    {
      "epoch": 13.60587002096436,
      "grad_norm": 0.14988721907138824,
      "learning_rate": 0.00028039521773071477,
      "loss": 0.3909,
      "num_input_tokens_seen": 16987464,
      "step": 25960
    },
    {
      "epoch": 13.608490566037736,
      "grad_norm": 0.15558753907680511,
      "learning_rate": 0.0002801897929886204,
      "loss": 0.4275,
      "num_input_tokens_seen": 16989768,
      "step": 25965
    },
    {
      "epoch": 13.61111111111111,
      "grad_norm": 0.12385690212249756,
      "learning_rate": 0.0002799844142283135,
      "loss": 0.522,
      "num_input_tokens_seen": 16992520,
      "step": 25970
    },
    {
      "epoch": 13.613731656184486,
      "grad_norm": 0.15262769162654877,
      "learning_rate": 0.00027977908149275733,
      "loss": 0.4188,
      "num_input_tokens_seen": 16995336,
      "step": 25975
    },
    {
      "epoch": 13.616352201257861,
      "grad_norm": 0.14726707339286804,
      "learning_rate": 0.00027957379482490476,
      "loss": 0.392,
      "num_input_tokens_seen": 16998088,
      "step": 25980
    },
    {
      "epoch": 13.618972746331236,
      "grad_norm": 0.26758596301078796,
      "learning_rate": 0.0002793685542676997,
      "loss": 0.5638,
      "num_input_tokens_seen": 17001128,
      "step": 25985
    },
    {
      "epoch": 13.621593291404611,
      "grad_norm": 0.15093836188316345,
      "learning_rate": 0.0002791633598640758,
      "loss": 0.3938,
      "num_input_tokens_seen": 17004808,
      "step": 25990
    },
    {
      "epoch": 13.624213836477988,
      "grad_norm": 0.1265915185213089,
      "learning_rate": 0.0002789582116569576,
      "loss": 0.4336,
      "num_input_tokens_seen": 17008488,
      "step": 25995
    },
    {
      "epoch": 13.626834381551364,
      "grad_norm": 0.18830715119838715,
      "learning_rate": 0.0002787531096892597,
      "loss": 0.4265,
      "num_input_tokens_seen": 17011720,
      "step": 26000
    },
    {
      "epoch": 13.629454926624739,
      "grad_norm": 0.24956712126731873,
      "learning_rate": 0.0002785480540038874,
      "loss": 0.322,
      "num_input_tokens_seen": 17015976,
      "step": 26005
    },
    {
      "epoch": 13.632075471698114,
      "grad_norm": 0.16532684862613678,
      "learning_rate": 0.0002783430446437355,
      "loss": 0.3421,
      "num_input_tokens_seen": 17018568,
      "step": 26010
    },
    {
      "epoch": 13.634696016771489,
      "grad_norm": 0.14546164870262146,
      "learning_rate": 0.00027813808165169006,
      "loss": 0.4164,
      "num_input_tokens_seen": 17021896,
      "step": 26015
    },
    {
      "epoch": 13.637316561844864,
      "grad_norm": 0.17882263660430908,
      "learning_rate": 0.00027793316507062667,
      "loss": 0.6372,
      "num_input_tokens_seen": 17025256,
      "step": 26020
    },
    {
      "epoch": 13.63993710691824,
      "grad_norm": 0.12506058812141418,
      "learning_rate": 0.00027772829494341163,
      "loss": 0.4974,
      "num_input_tokens_seen": 17028136,
      "step": 26025
    },
    {
      "epoch": 13.642557651991615,
      "grad_norm": 0.12781506776809692,
      "learning_rate": 0.00027752347131290147,
      "loss": 0.4193,
      "num_input_tokens_seen": 17030632,
      "step": 26030
    },
    {
      "epoch": 13.64517819706499,
      "grad_norm": 0.1550782173871994,
      "learning_rate": 0.0002773186942219431,
      "loss": 0.4562,
      "num_input_tokens_seen": 17033544,
      "step": 26035
    },
    {
      "epoch": 13.647798742138365,
      "grad_norm": 0.11525564640760422,
      "learning_rate": 0.0002771139637133735,
      "loss": 0.3631,
      "num_input_tokens_seen": 17036712,
      "step": 26040
    },
    {
      "epoch": 13.65041928721174,
      "grad_norm": 0.10122530907392502,
      "learning_rate": 0.00027690927983001966,
      "loss": 0.4229,
      "num_input_tokens_seen": 17039240,
      "step": 26045
    },
    {
      "epoch": 13.653039832285115,
      "grad_norm": 0.20598523318767548,
      "learning_rate": 0.00027670464261469937,
      "loss": 0.4455,
      "num_input_tokens_seen": 17041864,
      "step": 26050
    },
    {
      "epoch": 13.65566037735849,
      "grad_norm": 0.18216824531555176,
      "learning_rate": 0.0002765000521102203,
      "loss": 0.3533,
      "num_input_tokens_seen": 17044424,
      "step": 26055
    },
    {
      "epoch": 13.658280922431866,
      "grad_norm": 0.15358050167560577,
      "learning_rate": 0.0002762955083593807,
      "loss": 0.5042,
      "num_input_tokens_seen": 17047368,
      "step": 26060
    },
    {
      "epoch": 13.66090146750524,
      "grad_norm": 0.08157394081354141,
      "learning_rate": 0.0002760910114049686,
      "loss": 0.3602,
      "num_input_tokens_seen": 17050696,
      "step": 26065
    },
    {
      "epoch": 13.663522012578616,
      "grad_norm": 0.20253537595272064,
      "learning_rate": 0.0002758865612897623,
      "loss": 0.39,
      "num_input_tokens_seen": 17053832,
      "step": 26070
    },
    {
      "epoch": 13.666142557651991,
      "grad_norm": 0.12037242949008942,
      "learning_rate": 0.00027568215805653045,
      "loss": 0.4332,
      "num_input_tokens_seen": 17056712,
      "step": 26075
    },
    {
      "epoch": 13.668763102725366,
      "grad_norm": 0.10341429710388184,
      "learning_rate": 0.00027547780174803205,
      "loss": 0.3658,
      "num_input_tokens_seen": 17059464,
      "step": 26080
    },
    {
      "epoch": 13.671383647798741,
      "grad_norm": 0.1534930318593979,
      "learning_rate": 0.0002752734924070161,
      "loss": 0.4073,
      "num_input_tokens_seen": 17062216,
      "step": 26085
    },
    {
      "epoch": 13.674004192872118,
      "grad_norm": 0.1815231591463089,
      "learning_rate": 0.00027506923007622177,
      "loss": 0.3493,
      "num_input_tokens_seen": 17064456,
      "step": 26090
    },
    {
      "epoch": 13.676624737945493,
      "grad_norm": 0.1641324758529663,
      "learning_rate": 0.00027486501479837846,
      "loss": 0.4116,
      "num_input_tokens_seen": 17068296,
      "step": 26095
    },
    {
      "epoch": 13.679245283018869,
      "grad_norm": 0.17099300026893616,
      "learning_rate": 0.0002746608466162053,
      "loss": 0.6076,
      "num_input_tokens_seen": 17071464,
      "step": 26100
    },
    {
      "epoch": 13.681865828092244,
      "grad_norm": 0.095598004758358,
      "learning_rate": 0.0002744567255724123,
      "loss": 0.4856,
      "num_input_tokens_seen": 17075048,
      "step": 26105
    },
    {
      "epoch": 13.684486373165619,
      "grad_norm": 0.1954715996980667,
      "learning_rate": 0.0002742526517096992,
      "loss": 0.4143,
      "num_input_tokens_seen": 17077768,
      "step": 26110
    },
    {
      "epoch": 13.687106918238994,
      "grad_norm": 0.21318359673023224,
      "learning_rate": 0.000274048625070756,
      "loss": 0.2569,
      "num_input_tokens_seen": 17082344,
      "step": 26115
    },
    {
      "epoch": 13.68972746331237,
      "grad_norm": 0.2391081303358078,
      "learning_rate": 0.0002738446456982627,
      "loss": 0.3887,
      "num_input_tokens_seen": 17085352,
      "step": 26120
    },
    {
      "epoch": 13.692348008385745,
      "grad_norm": 0.13852864503860474,
      "learning_rate": 0.0002736407136348892,
      "loss": 0.3845,
      "num_input_tokens_seen": 17088360,
      "step": 26125
    },
    {
      "epoch": 13.69496855345912,
      "grad_norm": 0.15394428372383118,
      "learning_rate": 0.0002734368289232959,
      "loss": 0.4779,
      "num_input_tokens_seen": 17092008,
      "step": 26130
    },
    {
      "epoch": 13.697589098532495,
      "grad_norm": 0.08276066929101944,
      "learning_rate": 0.00027323299160613335,
      "loss": 0.4519,
      "num_input_tokens_seen": 17095752,
      "step": 26135
    },
    {
      "epoch": 13.70020964360587,
      "grad_norm": 0.17601287364959717,
      "learning_rate": 0.00027302920172604173,
      "loss": 0.6218,
      "num_input_tokens_seen": 17098664,
      "step": 26140
    },
    {
      "epoch": 13.702830188679245,
      "grad_norm": 0.13604451715946198,
      "learning_rate": 0.00027282545932565214,
      "loss": 0.4396,
      "num_input_tokens_seen": 17101736,
      "step": 26145
    },
    {
      "epoch": 13.70545073375262,
      "grad_norm": 0.22029118239879608,
      "learning_rate": 0.00027262176444758435,
      "loss": 0.3903,
      "num_input_tokens_seen": 17105544,
      "step": 26150
    },
    {
      "epoch": 13.708071278825996,
      "grad_norm": 0.09353621304035187,
      "learning_rate": 0.00027241811713444935,
      "loss": 0.329,
      "num_input_tokens_seen": 17109704,
      "step": 26155
    },
    {
      "epoch": 13.71069182389937,
      "grad_norm": 0.14092111587524414,
      "learning_rate": 0.0002722145174288478,
      "loss": 0.4771,
      "num_input_tokens_seen": 17112040,
      "step": 26160
    },
    {
      "epoch": 13.713312368972746,
      "grad_norm": 0.07508105784654617,
      "learning_rate": 0.0002720109653733706,
      "loss": 0.4244,
      "num_input_tokens_seen": 17116392,
      "step": 26165
    },
    {
      "epoch": 13.715932914046121,
      "grad_norm": 0.14771516621112823,
      "learning_rate": 0.00027180746101059856,
      "loss": 0.4016,
      "num_input_tokens_seen": 17120168,
      "step": 26170
    },
    {
      "epoch": 13.718553459119496,
      "grad_norm": 0.15500584244728088,
      "learning_rate": 0.0002716040043831023,
      "loss": 0.4179,
      "num_input_tokens_seen": 17124264,
      "step": 26175
    },
    {
      "epoch": 13.721174004192871,
      "grad_norm": 0.10592842847108841,
      "learning_rate": 0.0002714005955334424,
      "loss": 0.4466,
      "num_input_tokens_seen": 17126888,
      "step": 26180
    },
    {
      "epoch": 13.723794549266248,
      "grad_norm": 0.09242098033428192,
      "learning_rate": 0.00027119723450417,
      "loss": 0.4288,
      "num_input_tokens_seen": 17129224,
      "step": 26185
    },
    {
      "epoch": 13.726415094339622,
      "grad_norm": 0.14998821914196014,
      "learning_rate": 0.0002709939213378258,
      "loss": 0.4115,
      "num_input_tokens_seen": 17132168,
      "step": 26190
    },
    {
      "epoch": 13.729035639412999,
      "grad_norm": 0.11489501595497131,
      "learning_rate": 0.0002707906560769408,
      "loss": 0.325,
      "num_input_tokens_seen": 17134952,
      "step": 26195
    },
    {
      "epoch": 13.731656184486374,
      "grad_norm": 0.28079330921173096,
      "learning_rate": 0.0002705874387640354,
      "loss": 0.4207,
      "num_input_tokens_seen": 17137736,
      "step": 26200
    },
    {
      "epoch": 13.734276729559749,
      "grad_norm": 0.1400115042924881,
      "learning_rate": 0.00027038426944162074,
      "loss": 0.3104,
      "num_input_tokens_seen": 17140520,
      "step": 26205
    },
    {
      "epoch": 13.736897274633124,
      "grad_norm": 0.12410334497690201,
      "learning_rate": 0.0002701811481521971,
      "loss": 0.6692,
      "num_input_tokens_seen": 17143304,
      "step": 26210
    },
    {
      "epoch": 13.7395178197065,
      "grad_norm": 0.09636269509792328,
      "learning_rate": 0.0002699780749382554,
      "loss": 0.4534,
      "num_input_tokens_seen": 17146440,
      "step": 26215
    },
    {
      "epoch": 13.742138364779874,
      "grad_norm": 0.14257799088954926,
      "learning_rate": 0.0002697750498422761,
      "loss": 0.4972,
      "num_input_tokens_seen": 17149512,
      "step": 26220
    },
    {
      "epoch": 13.74475890985325,
      "grad_norm": 0.2010817974805832,
      "learning_rate": 0.0002695720729067301,
      "loss": 0.4785,
      "num_input_tokens_seen": 17152712,
      "step": 26225
    },
    {
      "epoch": 13.747379454926625,
      "grad_norm": 0.19362178444862366,
      "learning_rate": 0.00026936914417407756,
      "loss": 0.3721,
      "num_input_tokens_seen": 17155528,
      "step": 26230
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.07247281819581985,
      "learning_rate": 0.0002691662636867687,
      "loss": 0.3641,
      "num_input_tokens_seen": 17159240,
      "step": 26235
    },
    {
      "epoch": 13.752620545073375,
      "grad_norm": 0.17753802239894867,
      "learning_rate": 0.000268963431487244,
      "loss": 0.4601,
      "num_input_tokens_seen": 17162280,
      "step": 26240
    },
    {
      "epoch": 13.75524109014675,
      "grad_norm": 0.13296279311180115,
      "learning_rate": 0.0002687606476179336,
      "loss": 0.4772,
      "num_input_tokens_seen": 17165608,
      "step": 26245
    },
    {
      "epoch": 13.757861635220126,
      "grad_norm": 0.24199753999710083,
      "learning_rate": 0.0002685579121212578,
      "loss": 0.536,
      "num_input_tokens_seen": 17168392,
      "step": 26250
    },
    {
      "epoch": 13.7604821802935,
      "grad_norm": 0.09011713415384293,
      "learning_rate": 0.00026835522503962616,
      "loss": 0.3879,
      "num_input_tokens_seen": 17171432,
      "step": 26255
    },
    {
      "epoch": 13.763102725366876,
      "grad_norm": 0.09682144224643707,
      "learning_rate": 0.00026815258641543896,
      "loss": 0.5954,
      "num_input_tokens_seen": 17175496,
      "step": 26260
    },
    {
      "epoch": 13.765723270440251,
      "grad_norm": 0.1865817904472351,
      "learning_rate": 0.0002679499962910853,
      "loss": 0.5314,
      "num_input_tokens_seen": 17177960,
      "step": 26265
    },
    {
      "epoch": 13.768343815513626,
      "grad_norm": 0.10736802965402603,
      "learning_rate": 0.0002677474547089451,
      "loss": 0.4074,
      "num_input_tokens_seen": 17181160,
      "step": 26270
    },
    {
      "epoch": 13.770964360587001,
      "grad_norm": 0.12299828231334686,
      "learning_rate": 0.000267544961711388,
      "loss": 0.4992,
      "num_input_tokens_seen": 17184136,
      "step": 26275
    },
    {
      "epoch": 13.773584905660378,
      "grad_norm": 0.12132324278354645,
      "learning_rate": 0.0002673425173407726,
      "loss": 0.3372,
      "num_input_tokens_seen": 17187592,
      "step": 26280
    },
    {
      "epoch": 13.776205450733752,
      "grad_norm": 0.23873154819011688,
      "learning_rate": 0.00026714012163944826,
      "loss": 0.3849,
      "num_input_tokens_seen": 17189768,
      "step": 26285
    },
    {
      "epoch": 13.778825995807129,
      "grad_norm": 0.11804503202438354,
      "learning_rate": 0.0002669377746497541,
      "loss": 0.5219,
      "num_input_tokens_seen": 17192552,
      "step": 26290
    },
    {
      "epoch": 13.781446540880504,
      "grad_norm": 0.24329528212547302,
      "learning_rate": 0.0002667354764140184,
      "loss": 0.4375,
      "num_input_tokens_seen": 17195336,
      "step": 26295
    },
    {
      "epoch": 13.784067085953879,
      "grad_norm": 0.19321267306804657,
      "learning_rate": 0.00026653322697455987,
      "loss": 0.4424,
      "num_input_tokens_seen": 17198696,
      "step": 26300
    },
    {
      "epoch": 13.786687631027254,
      "grad_norm": 0.16329343616962433,
      "learning_rate": 0.00026633102637368684,
      "loss": 0.4233,
      "num_input_tokens_seen": 17201736,
      "step": 26305
    },
    {
      "epoch": 13.78930817610063,
      "grad_norm": 0.15374471247196198,
      "learning_rate": 0.00026612887465369704,
      "loss": 0.4334,
      "num_input_tokens_seen": 17204968,
      "step": 26310
    },
    {
      "epoch": 13.791928721174004,
      "grad_norm": 0.15410923957824707,
      "learning_rate": 0.0002659267718568786,
      "loss": 0.3805,
      "num_input_tokens_seen": 17208008,
      "step": 26315
    },
    {
      "epoch": 13.79454926624738,
      "grad_norm": 0.14074881374835968,
      "learning_rate": 0.0002657247180255091,
      "loss": 0.4196,
      "num_input_tokens_seen": 17210504,
      "step": 26320
    },
    {
      "epoch": 13.797169811320755,
      "grad_norm": 0.09237556904554367,
      "learning_rate": 0.0002655227132018558,
      "loss": 0.49,
      "num_input_tokens_seen": 17214088,
      "step": 26325
    },
    {
      "epoch": 13.79979035639413,
      "grad_norm": 0.10984549671411514,
      "learning_rate": 0.00026532075742817594,
      "loss": 0.3995,
      "num_input_tokens_seen": 17216680,
      "step": 26330
    },
    {
      "epoch": 13.802410901467505,
      "grad_norm": 0.10358726978302002,
      "learning_rate": 0.0002651188507467161,
      "loss": 0.4463,
      "num_input_tokens_seen": 17220456,
      "step": 26335
    },
    {
      "epoch": 13.80503144654088,
      "grad_norm": 0.1427331417798996,
      "learning_rate": 0.00026491699319971303,
      "loss": 0.3896,
      "num_input_tokens_seen": 17222728,
      "step": 26340
    },
    {
      "epoch": 13.807651991614255,
      "grad_norm": 0.11042094975709915,
      "learning_rate": 0.00026471518482939317,
      "loss": 0.3907,
      "num_input_tokens_seen": 17225672,
      "step": 26345
    },
    {
      "epoch": 13.81027253668763,
      "grad_norm": 0.11208079010248184,
      "learning_rate": 0.0002645134256779722,
      "loss": 0.4329,
      "num_input_tokens_seen": 17229736,
      "step": 26350
    },
    {
      "epoch": 13.812893081761006,
      "grad_norm": 0.10150738060474396,
      "learning_rate": 0.00026431171578765624,
      "loss": 0.5436,
      "num_input_tokens_seen": 17233576,
      "step": 26355
    },
    {
      "epoch": 13.815513626834381,
      "grad_norm": 0.20612451434135437,
      "learning_rate": 0.0002641100552006402,
      "loss": 0.4298,
      "num_input_tokens_seen": 17236328,
      "step": 26360
    },
    {
      "epoch": 13.818134171907756,
      "grad_norm": 0.17225812375545502,
      "learning_rate": 0.0002639084439591095,
      "loss": 0.3274,
      "num_input_tokens_seen": 17239208,
      "step": 26365
    },
    {
      "epoch": 13.820754716981131,
      "grad_norm": 0.10668810456991196,
      "learning_rate": 0.00026370688210523873,
      "loss": 0.4858,
      "num_input_tokens_seen": 17243624,
      "step": 26370
    },
    {
      "epoch": 13.823375262054507,
      "grad_norm": 0.13150224089622498,
      "learning_rate": 0.00026350536968119275,
      "loss": 0.3764,
      "num_input_tokens_seen": 17247144,
      "step": 26375
    },
    {
      "epoch": 13.825995807127882,
      "grad_norm": 0.15145164728164673,
      "learning_rate": 0.0002633039067291252,
      "loss": 0.4341,
      "num_input_tokens_seen": 17249672,
      "step": 26380
    },
    {
      "epoch": 13.828616352201259,
      "grad_norm": 0.1018831878900528,
      "learning_rate": 0.00026310249329118007,
      "loss": 0.4677,
      "num_input_tokens_seen": 17254056,
      "step": 26385
    },
    {
      "epoch": 13.831236897274634,
      "grad_norm": 0.20644883811473846,
      "learning_rate": 0.0002629011294094905,
      "loss": 0.308,
      "num_input_tokens_seen": 17257672,
      "step": 26390
    },
    {
      "epoch": 13.833857442348009,
      "grad_norm": 0.10006391257047653,
      "learning_rate": 0.0002626998151261798,
      "loss": 0.3054,
      "num_input_tokens_seen": 17260456,
      "step": 26395
    },
    {
      "epoch": 13.836477987421384,
      "grad_norm": 0.2551524341106415,
      "learning_rate": 0.0002624985504833604,
      "loss": 0.3384,
      "num_input_tokens_seen": 17262920,
      "step": 26400
    },
    {
      "epoch": 13.83909853249476,
      "grad_norm": 0.1937243938446045,
      "learning_rate": 0.0002622973355231349,
      "loss": 0.4266,
      "num_input_tokens_seen": 17265320,
      "step": 26405
    },
    {
      "epoch": 13.841719077568134,
      "grad_norm": 0.1518709808588028,
      "learning_rate": 0.00026209617028759497,
      "loss": 0.4654,
      "num_input_tokens_seen": 17268104,
      "step": 26410
    },
    {
      "epoch": 13.84433962264151,
      "grad_norm": 0.1183837279677391,
      "learning_rate": 0.00026189505481882184,
      "loss": 0.4587,
      "num_input_tokens_seen": 17273128,
      "step": 26415
    },
    {
      "epoch": 13.846960167714885,
      "grad_norm": 0.14012324810028076,
      "learning_rate": 0.00026169398915888687,
      "loss": 0.412,
      "num_input_tokens_seen": 17275624,
      "step": 26420
    },
    {
      "epoch": 13.84958071278826,
      "grad_norm": 0.11132041364908218,
      "learning_rate": 0.0002614929733498506,
      "loss": 0.4876,
      "num_input_tokens_seen": 17278696,
      "step": 26425
    },
    {
      "epoch": 13.852201257861635,
      "grad_norm": 0.08481965959072113,
      "learning_rate": 0.0002612920074337634,
      "loss": 0.4671,
      "num_input_tokens_seen": 17283112,
      "step": 26430
    },
    {
      "epoch": 13.85482180293501,
      "grad_norm": 0.1278044879436493,
      "learning_rate": 0.00026109109145266496,
      "loss": 0.4083,
      "num_input_tokens_seen": 17287272,
      "step": 26435
    },
    {
      "epoch": 13.857442348008385,
      "grad_norm": 0.5856893062591553,
      "learning_rate": 0.00026089022544858445,
      "loss": 0.3692,
      "num_input_tokens_seen": 17289608,
      "step": 26440
    },
    {
      "epoch": 13.86006289308176,
      "grad_norm": 0.17097418010234833,
      "learning_rate": 0.00026068940946354075,
      "loss": 0.4706,
      "num_input_tokens_seen": 17292936,
      "step": 26445
    },
    {
      "epoch": 13.862683438155136,
      "grad_norm": 0.11373507976531982,
      "learning_rate": 0.0002604886435395425,
      "loss": 0.4222,
      "num_input_tokens_seen": 17296392,
      "step": 26450
    },
    {
      "epoch": 13.865303983228511,
      "grad_norm": 0.11460849642753601,
      "learning_rate": 0.00026028792771858744,
      "loss": 0.3283,
      "num_input_tokens_seen": 17300104,
      "step": 26455
    },
    {
      "epoch": 13.867924528301886,
      "grad_norm": 0.1678464710712433,
      "learning_rate": 0.00026008726204266333,
      "loss": 0.3849,
      "num_input_tokens_seen": 17303080,
      "step": 26460
    },
    {
      "epoch": 13.870545073375261,
      "grad_norm": 0.1353621780872345,
      "learning_rate": 0.00025988664655374693,
      "loss": 0.3446,
      "num_input_tokens_seen": 17305288,
      "step": 26465
    },
    {
      "epoch": 13.873165618448636,
      "grad_norm": 0.1502368450164795,
      "learning_rate": 0.00025968608129380455,
      "loss": 0.4098,
      "num_input_tokens_seen": 17308200,
      "step": 26470
    },
    {
      "epoch": 13.875786163522012,
      "grad_norm": 0.07208190113306046,
      "learning_rate": 0.00025948556630479234,
      "loss": 0.6425,
      "num_input_tokens_seen": 17310888,
      "step": 26475
    },
    {
      "epoch": 13.878406708595389,
      "grad_norm": 0.1833040565252304,
      "learning_rate": 0.0002592851016286557,
      "loss": 0.4364,
      "num_input_tokens_seen": 17313384,
      "step": 26480
    },
    {
      "epoch": 13.881027253668764,
      "grad_norm": 0.16742590069770813,
      "learning_rate": 0.0002590846873073298,
      "loss": 0.3453,
      "num_input_tokens_seen": 17316104,
      "step": 26485
    },
    {
      "epoch": 13.883647798742139,
      "grad_norm": 0.23833468556404114,
      "learning_rate": 0.0002588843233827387,
      "loss": 0.423,
      "num_input_tokens_seen": 17319784,
      "step": 26490
    },
    {
      "epoch": 13.886268343815514,
      "grad_norm": 0.15228015184402466,
      "learning_rate": 0.0002586840098967963,
      "loss": 0.4437,
      "num_input_tokens_seen": 17323304,
      "step": 26495
    },
    {
      "epoch": 13.88888888888889,
      "grad_norm": 0.192612424492836,
      "learning_rate": 0.00025848374689140587,
      "loss": 0.4558,
      "num_input_tokens_seen": 17326408,
      "step": 26500
    },
    {
      "epoch": 13.891509433962264,
      "grad_norm": 0.18248175084590912,
      "learning_rate": 0.0002582835344084602,
      "loss": 0.5187,
      "num_input_tokens_seen": 17329800,
      "step": 26505
    },
    {
      "epoch": 13.89412997903564,
      "grad_norm": 0.0928744450211525,
      "learning_rate": 0.00025808337248984175,
      "loss": 0.4066,
      "num_input_tokens_seen": 17332648,
      "step": 26510
    },
    {
      "epoch": 13.896750524109015,
      "grad_norm": 0.08848696202039719,
      "learning_rate": 0.00025788326117742185,
      "loss": 0.3841,
      "num_input_tokens_seen": 17336648,
      "step": 26515
    },
    {
      "epoch": 13.89937106918239,
      "grad_norm": 0.2622780501842499,
      "learning_rate": 0.00025768320051306127,
      "loss": 0.4779,
      "num_input_tokens_seen": 17339720,
      "step": 26520
    },
    {
      "epoch": 13.901991614255765,
      "grad_norm": 0.15276938676834106,
      "learning_rate": 0.00025748319053861063,
      "loss": 0.4851,
      "num_input_tokens_seen": 17343080,
      "step": 26525
    },
    {
      "epoch": 13.90461215932914,
      "grad_norm": 0.09660200774669647,
      "learning_rate": 0.0002572832312959098,
      "loss": 0.406,
      "num_input_tokens_seen": 17346248,
      "step": 26530
    },
    {
      "epoch": 13.907232704402515,
      "grad_norm": 0.13592466711997986,
      "learning_rate": 0.0002570833228267879,
      "loss": 0.4054,
      "num_input_tokens_seen": 17349992,
      "step": 26535
    },
    {
      "epoch": 13.90985324947589,
      "grad_norm": 0.16606412827968597,
      "learning_rate": 0.00025688346517306366,
      "loss": 0.5104,
      "num_input_tokens_seen": 17352904,
      "step": 26540
    },
    {
      "epoch": 13.912473794549266,
      "grad_norm": 0.1575114130973816,
      "learning_rate": 0.00025668365837654497,
      "loss": 0.4357,
      "num_input_tokens_seen": 17356392,
      "step": 26545
    },
    {
      "epoch": 13.915094339622641,
      "grad_norm": 0.14929015934467316,
      "learning_rate": 0.0002564839024790288,
      "loss": 0.3921,
      "num_input_tokens_seen": 17359048,
      "step": 26550
    },
    {
      "epoch": 13.917714884696016,
      "grad_norm": 0.18637371063232422,
      "learning_rate": 0.000256284197522302,
      "loss": 0.3681,
      "num_input_tokens_seen": 17362664,
      "step": 26555
    },
    {
      "epoch": 13.920335429769391,
      "grad_norm": 0.09366127848625183,
      "learning_rate": 0.00025608454354814075,
      "loss": 0.6533,
      "num_input_tokens_seen": 17365352,
      "step": 26560
    },
    {
      "epoch": 13.922955974842766,
      "grad_norm": 0.08901146799325943,
      "learning_rate": 0.0002558849405983104,
      "loss": 0.2991,
      "num_input_tokens_seen": 17368392,
      "step": 26565
    },
    {
      "epoch": 13.925576519916142,
      "grad_norm": 0.09961368143558502,
      "learning_rate": 0.00025568538871456527,
      "loss": 0.4006,
      "num_input_tokens_seen": 17371304,
      "step": 26570
    },
    {
      "epoch": 13.928197064989519,
      "grad_norm": 0.20999765396118164,
      "learning_rate": 0.00025548588793864976,
      "loss": 0.3592,
      "num_input_tokens_seen": 17374600,
      "step": 26575
    },
    {
      "epoch": 13.930817610062894,
      "grad_norm": 0.14714565873146057,
      "learning_rate": 0.0002552864383122967,
      "loss": 0.4908,
      "num_input_tokens_seen": 17377448,
      "step": 26580
    },
    {
      "epoch": 13.933438155136269,
      "grad_norm": 0.10972286760807037,
      "learning_rate": 0.0002550870398772289,
      "loss": 0.3939,
      "num_input_tokens_seen": 17381704,
      "step": 26585
    },
    {
      "epoch": 13.936058700209644,
      "grad_norm": 0.11707820743322372,
      "learning_rate": 0.0002548876926751584,
      "loss": 0.4377,
      "num_input_tokens_seen": 17384424,
      "step": 26590
    },
    {
      "epoch": 13.93867924528302,
      "grad_norm": 0.13719771802425385,
      "learning_rate": 0.0002546883967477861,
      "loss": 0.4138,
      "num_input_tokens_seen": 17387976,
      "step": 26595
    },
    {
      "epoch": 13.941299790356394,
      "grad_norm": 0.12938089668750763,
      "learning_rate": 0.00025448915213680245,
      "loss": 0.3388,
      "num_input_tokens_seen": 17394472,
      "step": 26600
    },
    {
      "epoch": 13.94392033542977,
      "grad_norm": 0.14440186321735382,
      "learning_rate": 0.0002542899588838875,
      "loss": 0.5252,
      "num_input_tokens_seen": 17400712,
      "step": 26605
    },
    {
      "epoch": 13.946540880503145,
      "grad_norm": 0.27448570728302,
      "learning_rate": 0.0002540908170307097,
      "loss": 0.4603,
      "num_input_tokens_seen": 17403496,
      "step": 26610
    },
    {
      "epoch": 13.94916142557652,
      "grad_norm": 0.1629590392112732,
      "learning_rate": 0.00025389172661892753,
      "loss": 0.4809,
      "num_input_tokens_seen": 17406632,
      "step": 26615
    },
    {
      "epoch": 13.951781970649895,
      "grad_norm": 0.11406935006380081,
      "learning_rate": 0.00025369268769018856,
      "loss": 0.4334,
      "num_input_tokens_seen": 17409832,
      "step": 26620
    },
    {
      "epoch": 13.95440251572327,
      "grad_norm": 0.16702042520046234,
      "learning_rate": 0.00025349370028612914,
      "loss": 0.4071,
      "num_input_tokens_seen": 17412776,
      "step": 26625
    },
    {
      "epoch": 13.957023060796645,
      "grad_norm": 0.1462138593196869,
      "learning_rate": 0.0002532947644483755,
      "loss": 0.4332,
      "num_input_tokens_seen": 17416392,
      "step": 26630
    },
    {
      "epoch": 13.95964360587002,
      "grad_norm": 0.20021146535873413,
      "learning_rate": 0.00025309588021854237,
      "loss": 0.4398,
      "num_input_tokens_seen": 17419080,
      "step": 26635
    },
    {
      "epoch": 13.962264150943396,
      "grad_norm": 0.13370837271213531,
      "learning_rate": 0.0002528970476382343,
      "loss": 0.4765,
      "num_input_tokens_seen": 17423048,
      "step": 26640
    },
    {
      "epoch": 13.964884696016771,
      "grad_norm": 0.14812502264976501,
      "learning_rate": 0.00025269826674904493,
      "loss": 0.3789,
      "num_input_tokens_seen": 17426824,
      "step": 26645
    },
    {
      "epoch": 13.967505241090146,
      "grad_norm": 0.1529095619916916,
      "learning_rate": 0.0002524995375925566,
      "loss": 0.3442,
      "num_input_tokens_seen": 17429384,
      "step": 26650
    },
    {
      "epoch": 13.970125786163521,
      "grad_norm": 0.17033378779888153,
      "learning_rate": 0.0002523008602103414,
      "loss": 0.3135,
      "num_input_tokens_seen": 17432808,
      "step": 26655
    },
    {
      "epoch": 13.972746331236896,
      "grad_norm": 0.18165063858032227,
      "learning_rate": 0.00025210223464396055,
      "loss": 0.5218,
      "num_input_tokens_seen": 17435816,
      "step": 26660
    },
    {
      "epoch": 13.975366876310272,
      "grad_norm": 0.17653164267539978,
      "learning_rate": 0.00025190366093496376,
      "loss": 0.5747,
      "num_input_tokens_seen": 17439624,
      "step": 26665
    },
    {
      "epoch": 13.977987421383649,
      "grad_norm": 0.10316601395606995,
      "learning_rate": 0.0002517051391248909,
      "loss": 0.4269,
      "num_input_tokens_seen": 17442664,
      "step": 26670
    },
    {
      "epoch": 13.980607966457024,
      "grad_norm": 0.08538156002759933,
      "learning_rate": 0.0002515066692552701,
      "loss": 0.4258,
      "num_input_tokens_seen": 17447816,
      "step": 26675
    },
    {
      "epoch": 13.983228511530399,
      "grad_norm": 0.16574420034885406,
      "learning_rate": 0.00025130825136761916,
      "loss": 0.5269,
      "num_input_tokens_seen": 17451912,
      "step": 26680
    },
    {
      "epoch": 13.985849056603774,
      "grad_norm": 0.16799020767211914,
      "learning_rate": 0.0002511098855034447,
      "loss": 0.4546,
      "num_input_tokens_seen": 17454856,
      "step": 26685
    },
    {
      "epoch": 13.98846960167715,
      "grad_norm": 0.1233629658818245,
      "learning_rate": 0.00025091157170424296,
      "loss": 0.3786,
      "num_input_tokens_seen": 17459944,
      "step": 26690
    },
    {
      "epoch": 13.991090146750524,
      "grad_norm": 0.14420250058174133,
      "learning_rate": 0.0002507133100114984,
      "loss": 0.5572,
      "num_input_tokens_seen": 17463176,
      "step": 26695
    },
    {
      "epoch": 13.9937106918239,
      "grad_norm": 0.11336631327867508,
      "learning_rate": 0.0002505151004666857,
      "loss": 0.4019,
      "num_input_tokens_seen": 17467624,
      "step": 26700
    },
    {
      "epoch": 13.996331236897275,
      "grad_norm": 0.13706767559051514,
      "learning_rate": 0.0002503169431112674,
      "loss": 0.4326,
      "num_input_tokens_seen": 17469992,
      "step": 26705
    },
    {
      "epoch": 13.99895178197065,
      "grad_norm": 0.15343636274337769,
      "learning_rate": 0.0002501188379866961,
      "loss": 0.5339,
      "num_input_tokens_seen": 17474088,
      "step": 26710
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.4810379445552826,
      "eval_runtime": 13.5925,
      "eval_samples_per_second": 62.387,
      "eval_steps_per_second": 15.597,
      "num_input_tokens_seen": 17474664,
      "step": 26712
    },
    {
      "epoch": 14.001572327044025,
      "grad_norm": 0.16385534405708313,
      "learning_rate": 0.0002499207851344133,
      "loss": 0.4283,
      "num_input_tokens_seen": 17476712,
      "step": 26715
    },
    {
      "epoch": 14.0041928721174,
      "grad_norm": 0.1385180503129959,
      "learning_rate": 0.00024972278459584903,
      "loss": 0.5048,
      "num_input_tokens_seen": 17479528,
      "step": 26720
    },
    {
      "epoch": 14.006813417190775,
      "grad_norm": 0.1087069883942604,
      "learning_rate": 0.00024952483641242304,
      "loss": 0.3997,
      "num_input_tokens_seen": 17483560,
      "step": 26725
    },
    {
      "epoch": 14.00943396226415,
      "grad_norm": 0.2081434726715088,
      "learning_rate": 0.0002493269406255435,
      "loss": 0.5166,
      "num_input_tokens_seen": 17485832,
      "step": 26730
    },
    {
      "epoch": 14.012054507337526,
      "grad_norm": 0.13891547918319702,
      "learning_rate": 0.0002491290972766082,
      "loss": 0.2978,
      "num_input_tokens_seen": 17489192,
      "step": 26735
    },
    {
      "epoch": 14.014675052410901,
      "grad_norm": 0.17016002535820007,
      "learning_rate": 0.0002489313064070037,
      "loss": 0.6456,
      "num_input_tokens_seen": 17492072,
      "step": 26740
    },
    {
      "epoch": 14.017295597484276,
      "grad_norm": 0.12646183371543884,
      "learning_rate": 0.00024873356805810566,
      "loss": 0.4744,
      "num_input_tokens_seen": 17495656,
      "step": 26745
    },
    {
      "epoch": 14.019916142557651,
      "grad_norm": 0.14212509989738464,
      "learning_rate": 0.00024853588227127864,
      "loss": 0.3795,
      "num_input_tokens_seen": 17497960,
      "step": 26750
    },
    {
      "epoch": 14.022536687631026,
      "grad_norm": 0.13471047580242157,
      "learning_rate": 0.000248338249087876,
      "loss": 0.3755,
      "num_input_tokens_seen": 17501480,
      "step": 26755
    },
    {
      "epoch": 14.025157232704403,
      "grad_norm": 0.11175674200057983,
      "learning_rate": 0.0002481406685492405,
      "loss": 0.5277,
      "num_input_tokens_seen": 17504360,
      "step": 26760
    },
    {
      "epoch": 14.027777777777779,
      "grad_norm": 0.095451220870018,
      "learning_rate": 0.00024794314069670383,
      "loss": 0.3367,
      "num_input_tokens_seen": 17507016,
      "step": 26765
    },
    {
      "epoch": 14.030398322851154,
      "grad_norm": 0.1044306829571724,
      "learning_rate": 0.0002477456655715865,
      "loss": 0.5195,
      "num_input_tokens_seen": 17511144,
      "step": 26770
    },
    {
      "epoch": 14.033018867924529,
      "grad_norm": 0.08797024935483932,
      "learning_rate": 0.0002475482432151982,
      "loss": 0.3906,
      "num_input_tokens_seen": 17514440,
      "step": 26775
    },
    {
      "epoch": 14.035639412997904,
      "grad_norm": 0.17053520679473877,
      "learning_rate": 0.00024735087366883733,
      "loss": 0.5255,
      "num_input_tokens_seen": 17517768,
      "step": 26780
    },
    {
      "epoch": 14.03825995807128,
      "grad_norm": 0.1613580286502838,
      "learning_rate": 0.00024715355697379115,
      "loss": 0.5279,
      "num_input_tokens_seen": 17520968,
      "step": 26785
    },
    {
      "epoch": 14.040880503144654,
      "grad_norm": 0.0986434668302536,
      "learning_rate": 0.0002469562931713362,
      "loss": 0.3369,
      "num_input_tokens_seen": 17524136,
      "step": 26790
    },
    {
      "epoch": 14.04350104821803,
      "grad_norm": 0.1122085303068161,
      "learning_rate": 0.00024675908230273785,
      "loss": 0.3423,
      "num_input_tokens_seen": 17528136,
      "step": 26795
    },
    {
      "epoch": 14.046121593291405,
      "grad_norm": 0.27208980917930603,
      "learning_rate": 0.00024656192440925055,
      "loss": 0.397,
      "num_input_tokens_seen": 17530856,
      "step": 26800
    },
    {
      "epoch": 14.04874213836478,
      "grad_norm": 0.11622762680053711,
      "learning_rate": 0.0002463648195321173,
      "loss": 0.3777,
      "num_input_tokens_seen": 17534248,
      "step": 26805
    },
    {
      "epoch": 14.051362683438155,
      "grad_norm": 0.19313670694828033,
      "learning_rate": 0.00024616776771257,
      "loss": 0.3005,
      "num_input_tokens_seen": 17536648,
      "step": 26810
    },
    {
      "epoch": 14.05398322851153,
      "grad_norm": 0.12400442361831665,
      "learning_rate": 0.00024597076899182977,
      "loss": 0.406,
      "num_input_tokens_seen": 17539592,
      "step": 26815
    },
    {
      "epoch": 14.056603773584905,
      "grad_norm": 0.1107802465558052,
      "learning_rate": 0.0002457738234111066,
      "loss": 0.5321,
      "num_input_tokens_seen": 17543240,
      "step": 26820
    },
    {
      "epoch": 14.05922431865828,
      "grad_norm": 0.11721542477607727,
      "learning_rate": 0.00024557693101159937,
      "loss": 0.4492,
      "num_input_tokens_seen": 17545768,
      "step": 26825
    },
    {
      "epoch": 14.061844863731656,
      "grad_norm": 0.10845574736595154,
      "learning_rate": 0.00024538009183449553,
      "loss": 0.4281,
      "num_input_tokens_seen": 17548968,
      "step": 26830
    },
    {
      "epoch": 14.064465408805031,
      "grad_norm": 0.11804347485303879,
      "learning_rate": 0.0002451833059209715,
      "loss": 0.5144,
      "num_input_tokens_seen": 17553480,
      "step": 26835
    },
    {
      "epoch": 14.067085953878406,
      "grad_norm": 0.11076950281858444,
      "learning_rate": 0.00024498657331219274,
      "loss": 0.6203,
      "num_input_tokens_seen": 17557960,
      "step": 26840
    },
    {
      "epoch": 14.069706498951781,
      "grad_norm": 0.13036702573299408,
      "learning_rate": 0.0002447898940493135,
      "loss": 0.3369,
      "num_input_tokens_seen": 17561352,
      "step": 26845
    },
    {
      "epoch": 14.072327044025156,
      "grad_norm": 0.07340801507234573,
      "learning_rate": 0.00024459326817347684,
      "loss": 0.4249,
      "num_input_tokens_seen": 17565736,
      "step": 26850
    },
    {
      "epoch": 14.074947589098532,
      "grad_norm": 0.13429510593414307,
      "learning_rate": 0.0002443966957258148,
      "loss": 0.4655,
      "num_input_tokens_seen": 17568040,
      "step": 26855
    },
    {
      "epoch": 14.077568134171909,
      "grad_norm": 0.12293357402086258,
      "learning_rate": 0.000244200176747448,
      "loss": 0.4415,
      "num_input_tokens_seen": 17570888,
      "step": 26860
    },
    {
      "epoch": 14.080188679245284,
      "grad_norm": 0.11762518435716629,
      "learning_rate": 0.00024400371127948568,
      "loss": 0.5216,
      "num_input_tokens_seen": 17574248,
      "step": 26865
    },
    {
      "epoch": 14.082809224318659,
      "grad_norm": 0.15410247445106506,
      "learning_rate": 0.00024380729936302636,
      "loss": 0.3965,
      "num_input_tokens_seen": 17577992,
      "step": 26870
    },
    {
      "epoch": 14.085429769392034,
      "grad_norm": 0.09287340939044952,
      "learning_rate": 0.00024361094103915725,
      "loss": 0.4252,
      "num_input_tokens_seen": 17581352,
      "step": 26875
    },
    {
      "epoch": 14.08805031446541,
      "grad_norm": 0.25353923439979553,
      "learning_rate": 0.00024341463634895444,
      "loss": 0.5925,
      "num_input_tokens_seen": 17584264,
      "step": 26880
    },
    {
      "epoch": 14.090670859538784,
      "grad_norm": 0.1825009137392044,
      "learning_rate": 0.0002432183853334824,
      "loss": 0.5102,
      "num_input_tokens_seen": 17587496,
      "step": 26885
    },
    {
      "epoch": 14.09329140461216,
      "grad_norm": 0.10651788860559464,
      "learning_rate": 0.00024302218803379445,
      "loss": 0.4762,
      "num_input_tokens_seen": 17591080,
      "step": 26890
    },
    {
      "epoch": 14.095911949685535,
      "grad_norm": 0.15637774765491486,
      "learning_rate": 0.000242826044490933,
      "loss": 0.3723,
      "num_input_tokens_seen": 17593992,
      "step": 26895
    },
    {
      "epoch": 14.09853249475891,
      "grad_norm": 0.22593002021312714,
      "learning_rate": 0.00024262995474592903,
      "loss": 0.4012,
      "num_input_tokens_seen": 17596936,
      "step": 26900
    },
    {
      "epoch": 14.101153039832285,
      "grad_norm": 0.20680098235607147,
      "learning_rate": 0.0002424339188398025,
      "loss": 0.3554,
      "num_input_tokens_seen": 17599336,
      "step": 26905
    },
    {
      "epoch": 14.10377358490566,
      "grad_norm": 0.11733070015907288,
      "learning_rate": 0.00024223793681356148,
      "loss": 0.5426,
      "num_input_tokens_seen": 17603336,
      "step": 26910
    },
    {
      "epoch": 14.106394129979035,
      "grad_norm": 0.23346608877182007,
      "learning_rate": 0.00024204200870820358,
      "loss": 0.3463,
      "num_input_tokens_seen": 17606568,
      "step": 26915
    },
    {
      "epoch": 14.10901467505241,
      "grad_norm": 0.1755824089050293,
      "learning_rate": 0.0002418461345647143,
      "loss": 0.4189,
      "num_input_tokens_seen": 17609064,
      "step": 26920
    },
    {
      "epoch": 14.111635220125786,
      "grad_norm": 0.1323033720254898,
      "learning_rate": 0.00024165031442406853,
      "loss": 0.4247,
      "num_input_tokens_seen": 17611752,
      "step": 26925
    },
    {
      "epoch": 14.114255765199161,
      "grad_norm": 0.12885607779026031,
      "learning_rate": 0.00024145454832722956,
      "loss": 0.3977,
      "num_input_tokens_seen": 17614888,
      "step": 26930
    },
    {
      "epoch": 14.116876310272536,
      "grad_norm": 0.13963723182678223,
      "learning_rate": 0.00024125883631514967,
      "loss": 0.3702,
      "num_input_tokens_seen": 17617448,
      "step": 26935
    },
    {
      "epoch": 14.119496855345911,
      "grad_norm": 0.126497283577919,
      "learning_rate": 0.00024106317842876907,
      "loss": 0.3262,
      "num_input_tokens_seen": 17621480,
      "step": 26940
    },
    {
      "epoch": 14.122117400419286,
      "grad_norm": 0.17401456832885742,
      "learning_rate": 0.0002408675747090177,
      "loss": 0.3767,
      "num_input_tokens_seen": 17624488,
      "step": 26945
    },
    {
      "epoch": 14.124737945492662,
      "grad_norm": 0.0928083136677742,
      "learning_rate": 0.00024067202519681313,
      "loss": 0.5185,
      "num_input_tokens_seen": 17628008,
      "step": 26950
    },
    {
      "epoch": 14.127358490566039,
      "grad_norm": 0.1634843945503235,
      "learning_rate": 0.00024047652993306235,
      "loss": 0.4092,
      "num_input_tokens_seen": 17630696,
      "step": 26955
    },
    {
      "epoch": 14.129979035639414,
      "grad_norm": 0.11070740222930908,
      "learning_rate": 0.00024028108895866084,
      "loss": 0.4694,
      "num_input_tokens_seen": 17634216,
      "step": 26960
    },
    {
      "epoch": 14.132599580712789,
      "grad_norm": 0.1166587695479393,
      "learning_rate": 0.00024008570231449239,
      "loss": 0.5245,
      "num_input_tokens_seen": 17637832,
      "step": 26965
    },
    {
      "epoch": 14.135220125786164,
      "grad_norm": 0.0979919359087944,
      "learning_rate": 0.00023989037004142966,
      "loss": 0.4024,
      "num_input_tokens_seen": 17641640,
      "step": 26970
    },
    {
      "epoch": 14.13784067085954,
      "grad_norm": 0.16493414342403412,
      "learning_rate": 0.0002396950921803343,
      "loss": 0.4299,
      "num_input_tokens_seen": 17645256,
      "step": 26975
    },
    {
      "epoch": 14.140461215932914,
      "grad_norm": 0.14857017993927002,
      "learning_rate": 0.0002394998687720557,
      "loss": 0.4527,
      "num_input_tokens_seen": 17647944,
      "step": 26980
    },
    {
      "epoch": 14.14308176100629,
      "grad_norm": 0.11020822077989578,
      "learning_rate": 0.0002393046998574328,
      "loss": 0.488,
      "num_input_tokens_seen": 17650568,
      "step": 26985
    },
    {
      "epoch": 14.145702306079665,
      "grad_norm": 0.13816937804222107,
      "learning_rate": 0.0002391095854772924,
      "loss": 0.3937,
      "num_input_tokens_seen": 17653640,
      "step": 26990
    },
    {
      "epoch": 14.14832285115304,
      "grad_norm": 0.10867445915937424,
      "learning_rate": 0.00023891452567245027,
      "loss": 0.4942,
      "num_input_tokens_seen": 17656616,
      "step": 26995
    },
    {
      "epoch": 14.150943396226415,
      "grad_norm": 0.14733052253723145,
      "learning_rate": 0.00023871952048371093,
      "loss": 0.4274,
      "num_input_tokens_seen": 17659976,
      "step": 27000
    },
    {
      "epoch": 14.15356394129979,
      "grad_norm": 0.08941487222909927,
      "learning_rate": 0.00023852456995186684,
      "loss": 0.5187,
      "num_input_tokens_seen": 17663496,
      "step": 27005
    },
    {
      "epoch": 14.156184486373165,
      "grad_norm": 0.08789106458425522,
      "learning_rate": 0.0002383296741176997,
      "loss": 0.3177,
      "num_input_tokens_seen": 17666920,
      "step": 27010
    },
    {
      "epoch": 14.15880503144654,
      "grad_norm": 0.19177280366420746,
      "learning_rate": 0.00023813483302197964,
      "loss": 0.3758,
      "num_input_tokens_seen": 17669096,
      "step": 27015
    },
    {
      "epoch": 14.161425576519916,
      "grad_norm": 0.1547323763370514,
      "learning_rate": 0.00023794004670546476,
      "loss": 0.4116,
      "num_input_tokens_seen": 17672424,
      "step": 27020
    },
    {
      "epoch": 14.164046121593291,
      "grad_norm": 0.12484821677207947,
      "learning_rate": 0.00023774531520890242,
      "loss": 0.4496,
      "num_input_tokens_seen": 17675112,
      "step": 27025
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.15504156053066254,
      "learning_rate": 0.00023755063857302833,
      "loss": 0.4219,
      "num_input_tokens_seen": 17678376,
      "step": 27030
    },
    {
      "epoch": 14.169287211740041,
      "grad_norm": 0.08908790349960327,
      "learning_rate": 0.00023735601683856628,
      "loss": 0.4318,
      "num_input_tokens_seen": 17682280,
      "step": 27035
    },
    {
      "epoch": 14.171907756813416,
      "grad_norm": 0.11476791650056839,
      "learning_rate": 0.0002371614500462293,
      "loss": 0.3974,
      "num_input_tokens_seen": 17685000,
      "step": 27040
    },
    {
      "epoch": 14.174528301886792,
      "grad_norm": 0.07985042035579681,
      "learning_rate": 0.00023696693823671816,
      "loss": 0.4345,
      "num_input_tokens_seen": 17687944,
      "step": 27045
    },
    {
      "epoch": 14.177148846960169,
      "grad_norm": 0.13338017463684082,
      "learning_rate": 0.00023677248145072272,
      "loss": 0.4088,
      "num_input_tokens_seen": 17690792,
      "step": 27050
    },
    {
      "epoch": 14.179769392033544,
      "grad_norm": 0.08368983864784241,
      "learning_rate": 0.0002365780797289211,
      "loss": 0.4086,
      "num_input_tokens_seen": 17694984,
      "step": 27055
    },
    {
      "epoch": 14.182389937106919,
      "grad_norm": 0.22509154677391052,
      "learning_rate": 0.00023638373311198014,
      "loss": 0.4971,
      "num_input_tokens_seen": 17697352,
      "step": 27060
    },
    {
      "epoch": 14.185010482180294,
      "grad_norm": 0.18407998979091644,
      "learning_rate": 0.00023618944164055468,
      "loss": 0.4867,
      "num_input_tokens_seen": 17701928,
      "step": 27065
    },
    {
      "epoch": 14.18763102725367,
      "grad_norm": 0.171103835105896,
      "learning_rate": 0.00023599520535528813,
      "loss": 0.4505,
      "num_input_tokens_seen": 17704968,
      "step": 27070
    },
    {
      "epoch": 14.190251572327044,
      "grad_norm": 0.1332976073026657,
      "learning_rate": 0.00023580102429681266,
      "loss": 0.4354,
      "num_input_tokens_seen": 17708360,
      "step": 27075
    },
    {
      "epoch": 14.19287211740042,
      "grad_norm": 0.19024252891540527,
      "learning_rate": 0.00023560689850574885,
      "loss": 0.4721,
      "num_input_tokens_seen": 17711464,
      "step": 27080
    },
    {
      "epoch": 14.195492662473795,
      "grad_norm": 0.2098667174577713,
      "learning_rate": 0.00023541282802270563,
      "loss": 0.4857,
      "num_input_tokens_seen": 17715336,
      "step": 27085
    },
    {
      "epoch": 14.19811320754717,
      "grad_norm": 0.23441483080387115,
      "learning_rate": 0.00023521881288828005,
      "loss": 0.4598,
      "num_input_tokens_seen": 17717512,
      "step": 27090
    },
    {
      "epoch": 14.200733752620545,
      "grad_norm": 0.3635592758655548,
      "learning_rate": 0.00023502485314305828,
      "loss": 0.4039,
      "num_input_tokens_seen": 17720072,
      "step": 27095
    },
    {
      "epoch": 14.20335429769392,
      "grad_norm": 0.09786234050989151,
      "learning_rate": 0.00023483094882761397,
      "loss": 0.378,
      "num_input_tokens_seen": 17723528,
      "step": 27100
    },
    {
      "epoch": 14.205974842767295,
      "grad_norm": 0.09698808193206787,
      "learning_rate": 0.00023463709998250998,
      "loss": 0.3528,
      "num_input_tokens_seen": 17725960,
      "step": 27105
    },
    {
      "epoch": 14.20859538784067,
      "grad_norm": 0.11841868609189987,
      "learning_rate": 0.00023444330664829728,
      "loss": 0.4935,
      "num_input_tokens_seen": 17729928,
      "step": 27110
    },
    {
      "epoch": 14.211215932914046,
      "grad_norm": 0.170931875705719,
      "learning_rate": 0.00023424956886551536,
      "loss": 0.4979,
      "num_input_tokens_seen": 17732712,
      "step": 27115
    },
    {
      "epoch": 14.213836477987421,
      "grad_norm": 0.14830785989761353,
      "learning_rate": 0.0002340558866746918,
      "loss": 0.4285,
      "num_input_tokens_seen": 17736072,
      "step": 27120
    },
    {
      "epoch": 14.216457023060796,
      "grad_norm": 0.18587924540042877,
      "learning_rate": 0.0002338622601163425,
      "loss": 0.4605,
      "num_input_tokens_seen": 17739080,
      "step": 27125
    },
    {
      "epoch": 14.219077568134171,
      "grad_norm": 0.10045034438371658,
      "learning_rate": 0.00023366868923097213,
      "loss": 0.3241,
      "num_input_tokens_seen": 17742440,
      "step": 27130
    },
    {
      "epoch": 14.221698113207546,
      "grad_norm": 0.18868929147720337,
      "learning_rate": 0.0002334751740590735,
      "loss": 0.5342,
      "num_input_tokens_seen": 17745736,
      "step": 27135
    },
    {
      "epoch": 14.224318658280922,
      "grad_norm": 0.106967993080616,
      "learning_rate": 0.00023328171464112796,
      "loss": 0.3368,
      "num_input_tokens_seen": 17748552,
      "step": 27140
    },
    {
      "epoch": 14.226939203354299,
      "grad_norm": 0.11636456102132797,
      "learning_rate": 0.00023308831101760485,
      "loss": 0.4997,
      "num_input_tokens_seen": 17751592,
      "step": 27145
    },
    {
      "epoch": 14.229559748427674,
      "grad_norm": 0.11063896864652634,
      "learning_rate": 0.00023289496322896174,
      "loss": 0.4369,
      "num_input_tokens_seen": 17755080,
      "step": 27150
    },
    {
      "epoch": 14.232180293501049,
      "grad_norm": 0.09773096442222595,
      "learning_rate": 0.00023270167131564512,
      "loss": 0.3894,
      "num_input_tokens_seen": 17758504,
      "step": 27155
    },
    {
      "epoch": 14.234800838574424,
      "grad_norm": 0.13456955552101135,
      "learning_rate": 0.0002325084353180893,
      "loss": 0.4362,
      "num_input_tokens_seen": 17762888,
      "step": 27160
    },
    {
      "epoch": 14.2374213836478,
      "grad_norm": 0.12596458196640015,
      "learning_rate": 0.00023231525527671716,
      "loss": 0.2864,
      "num_input_tokens_seen": 17769384,
      "step": 27165
    },
    {
      "epoch": 14.240041928721174,
      "grad_norm": 0.0918659120798111,
      "learning_rate": 0.00023212213123193986,
      "loss": 0.619,
      "num_input_tokens_seen": 17772904,
      "step": 27170
    },
    {
      "epoch": 14.24266247379455,
      "grad_norm": 0.20068436861038208,
      "learning_rate": 0.0002319290632241566,
      "loss": 0.5567,
      "num_input_tokens_seen": 17775752,
      "step": 27175
    },
    {
      "epoch": 14.245283018867925,
      "grad_norm": 0.16897927224636078,
      "learning_rate": 0.0002317360512937548,
      "loss": 0.4565,
      "num_input_tokens_seen": 17778184,
      "step": 27180
    },
    {
      "epoch": 14.2479035639413,
      "grad_norm": 0.2221224457025528,
      "learning_rate": 0.00023154309548111058,
      "loss": 0.3794,
      "num_input_tokens_seen": 17781384,
      "step": 27185
    },
    {
      "epoch": 14.250524109014675,
      "grad_norm": 0.12214015424251556,
      "learning_rate": 0.000231350195826588,
      "loss": 0.3864,
      "num_input_tokens_seen": 17784136,
      "step": 27190
    },
    {
      "epoch": 14.25314465408805,
      "grad_norm": 0.13386058807373047,
      "learning_rate": 0.00023115735237053982,
      "loss": 0.3959,
      "num_input_tokens_seen": 17790376,
      "step": 27195
    },
    {
      "epoch": 14.255765199161425,
      "grad_norm": 0.1810614913702011,
      "learning_rate": 0.00023096456515330632,
      "loss": 0.4491,
      "num_input_tokens_seen": 17793928,
      "step": 27200
    },
    {
      "epoch": 14.2583857442348,
      "grad_norm": 0.16996212303638458,
      "learning_rate": 0.0002307718342152163,
      "loss": 0.4877,
      "num_input_tokens_seen": 17796712,
      "step": 27205
    },
    {
      "epoch": 14.261006289308176,
      "grad_norm": 0.108719602227211,
      "learning_rate": 0.0002305791595965871,
      "loss": 0.4327,
      "num_input_tokens_seen": 17799432,
      "step": 27210
    },
    {
      "epoch": 14.26362683438155,
      "grad_norm": 0.10033439099788666,
      "learning_rate": 0.00023038654133772395,
      "loss": 0.452,
      "num_input_tokens_seen": 17802888,
      "step": 27215
    },
    {
      "epoch": 14.266247379454926,
      "grad_norm": 0.17565636336803436,
      "learning_rate": 0.00023019397947892062,
      "loss": 0.4045,
      "num_input_tokens_seen": 17806408,
      "step": 27220
    },
    {
      "epoch": 14.268867924528301,
      "grad_norm": 0.0906059667468071,
      "learning_rate": 0.00023000147406045853,
      "loss": 0.3561,
      "num_input_tokens_seen": 17810632,
      "step": 27225
    },
    {
      "epoch": 14.271488469601676,
      "grad_norm": 0.15102270245552063,
      "learning_rate": 0.00022980902512260786,
      "loss": 0.4737,
      "num_input_tokens_seen": 17813480,
      "step": 27230
    },
    {
      "epoch": 14.274109014675052,
      "grad_norm": 0.1608143001794815,
      "learning_rate": 0.00022961663270562656,
      "loss": 0.4783,
      "num_input_tokens_seen": 17816968,
      "step": 27235
    },
    {
      "epoch": 14.276729559748428,
      "grad_norm": 0.12820042669773102,
      "learning_rate": 0.0002294242968497609,
      "loss": 0.5478,
      "num_input_tokens_seen": 17819944,
      "step": 27240
    },
    {
      "epoch": 14.279350104821804,
      "grad_norm": 0.15244559943675995,
      "learning_rate": 0.00022923201759524552,
      "loss": 0.4374,
      "num_input_tokens_seen": 17822984,
      "step": 27245
    },
    {
      "epoch": 14.281970649895179,
      "grad_norm": 0.13904528319835663,
      "learning_rate": 0.00022903979498230316,
      "loss": 0.4575,
      "num_input_tokens_seen": 17825832,
      "step": 27250
    },
    {
      "epoch": 14.284591194968554,
      "grad_norm": 0.10939688980579376,
      "learning_rate": 0.00022884762905114436,
      "loss": 0.3887,
      "num_input_tokens_seen": 17828936,
      "step": 27255
    },
    {
      "epoch": 14.28721174004193,
      "grad_norm": 0.12406404316425323,
      "learning_rate": 0.00022865551984196792,
      "loss": 0.3194,
      "num_input_tokens_seen": 17831848,
      "step": 27260
    },
    {
      "epoch": 14.289832285115304,
      "grad_norm": 0.13659624755382538,
      "learning_rate": 0.0002284634673949611,
      "loss": 0.3194,
      "num_input_tokens_seen": 17834856,
      "step": 27265
    },
    {
      "epoch": 14.29245283018868,
      "grad_norm": 0.1435362696647644,
      "learning_rate": 0.00022827147175029906,
      "loss": 0.5061,
      "num_input_tokens_seen": 17838856,
      "step": 27270
    },
    {
      "epoch": 14.295073375262055,
      "grad_norm": 0.1512102484703064,
      "learning_rate": 0.0002280795329481452,
      "loss": 0.325,
      "num_input_tokens_seen": 17841960,
      "step": 27275
    },
    {
      "epoch": 14.29769392033543,
      "grad_norm": 0.1360178142786026,
      "learning_rate": 0.00022788765102865066,
      "loss": 0.4135,
      "num_input_tokens_seen": 17844584,
      "step": 27280
    },
    {
      "epoch": 14.300314465408805,
      "grad_norm": 0.18282857537269592,
      "learning_rate": 0.00022769582603195533,
      "loss": 0.514,
      "num_input_tokens_seen": 17848328,
      "step": 27285
    },
    {
      "epoch": 14.30293501048218,
      "grad_norm": 0.0825752541422844,
      "learning_rate": 0.00022750405799818634,
      "loss": 0.3286,
      "num_input_tokens_seen": 17852552,
      "step": 27290
    },
    {
      "epoch": 14.305555555555555,
      "grad_norm": 0.09116959571838379,
      "learning_rate": 0.00022731234696745967,
      "loss": 0.3444,
      "num_input_tokens_seen": 17855912,
      "step": 27295
    },
    {
      "epoch": 14.30817610062893,
      "grad_norm": 0.10572218894958496,
      "learning_rate": 0.0002271206929798792,
      "loss": 0.4221,
      "num_input_tokens_seen": 17859240,
      "step": 27300
    },
    {
      "epoch": 14.310796645702306,
      "grad_norm": 0.2388221174478531,
      "learning_rate": 0.00022692909607553642,
      "loss": 0.4308,
      "num_input_tokens_seen": 17862568,
      "step": 27305
    },
    {
      "epoch": 14.31341719077568,
      "grad_norm": 0.1218327060341835,
      "learning_rate": 0.00022673755629451132,
      "loss": 0.4254,
      "num_input_tokens_seen": 17866152,
      "step": 27310
    },
    {
      "epoch": 14.316037735849056,
      "grad_norm": 0.1289464235305786,
      "learning_rate": 0.00022654607367687213,
      "loss": 0.4389,
      "num_input_tokens_seen": 17869128,
      "step": 27315
    },
    {
      "epoch": 14.318658280922431,
      "grad_norm": 0.11807194352149963,
      "learning_rate": 0.00022635464826267442,
      "loss": 0.3343,
      "num_input_tokens_seen": 17872072,
      "step": 27320
    },
    {
      "epoch": 14.321278825995806,
      "grad_norm": 0.16126668453216553,
      "learning_rate": 0.00022616328009196236,
      "loss": 0.3918,
      "num_input_tokens_seen": 17875560,
      "step": 27325
    },
    {
      "epoch": 14.323899371069182,
      "grad_norm": 0.12947003543376923,
      "learning_rate": 0.0002259719692047682,
      "loss": 0.4507,
      "num_input_tokens_seen": 17878632,
      "step": 27330
    },
    {
      "epoch": 14.326519916142558,
      "grad_norm": 0.12601712346076965,
      "learning_rate": 0.00022578071564111163,
      "loss": 0.4934,
      "num_input_tokens_seen": 17882248,
      "step": 27335
    },
    {
      "epoch": 14.329140461215934,
      "grad_norm": 0.14484375715255737,
      "learning_rate": 0.00022558951944100087,
      "loss": 0.3822,
      "num_input_tokens_seen": 17885736,
      "step": 27340
    },
    {
      "epoch": 14.331761006289309,
      "grad_norm": 0.3374614417552948,
      "learning_rate": 0.00022539838064443223,
      "loss": 0.2927,
      "num_input_tokens_seen": 17888424,
      "step": 27345
    },
    {
      "epoch": 14.334381551362684,
      "grad_norm": 0.16221439838409424,
      "learning_rate": 0.00022520729929138933,
      "loss": 0.2835,
      "num_input_tokens_seen": 17891144,
      "step": 27350
    },
    {
      "epoch": 14.33700209643606,
      "grad_norm": 0.1463942527770996,
      "learning_rate": 0.0002250162754218446,
      "loss": 0.4446,
      "num_input_tokens_seen": 17894024,
      "step": 27355
    },
    {
      "epoch": 14.339622641509434,
      "grad_norm": 0.1596692055463791,
      "learning_rate": 0.00022482530907575767,
      "loss": 0.3683,
      "num_input_tokens_seen": 17896776,
      "step": 27360
    },
    {
      "epoch": 14.34224318658281,
      "grad_norm": 0.13992196321487427,
      "learning_rate": 0.00022463440029307674,
      "loss": 0.4453,
      "num_input_tokens_seen": 17899688,
      "step": 27365
    },
    {
      "epoch": 14.344863731656185,
      "grad_norm": 0.10755407810211182,
      "learning_rate": 0.00022444354911373794,
      "loss": 0.3951,
      "num_input_tokens_seen": 17903240,
      "step": 27370
    },
    {
      "epoch": 14.34748427672956,
      "grad_norm": 0.30445021390914917,
      "learning_rate": 0.00022425275557766473,
      "loss": 0.4041,
      "num_input_tokens_seen": 17906312,
      "step": 27375
    },
    {
      "epoch": 14.350104821802935,
      "grad_norm": 0.12413416802883148,
      "learning_rate": 0.00022406201972476937,
      "loss": 0.5832,
      "num_input_tokens_seen": 17909640,
      "step": 27380
    },
    {
      "epoch": 14.35272536687631,
      "grad_norm": 0.2187081128358841,
      "learning_rate": 0.00022387134159495122,
      "loss": 0.3731,
      "num_input_tokens_seen": 17912232,
      "step": 27385
    },
    {
      "epoch": 14.355345911949685,
      "grad_norm": 0.13731548190116882,
      "learning_rate": 0.00022368072122809813,
      "loss": 0.3643,
      "num_input_tokens_seen": 17915080,
      "step": 27390
    },
    {
      "epoch": 14.35796645702306,
      "grad_norm": 0.07576536387205124,
      "learning_rate": 0.0002234901586640858,
      "loss": 0.3338,
      "num_input_tokens_seen": 17918600,
      "step": 27395
    },
    {
      "epoch": 14.360587002096436,
      "grad_norm": 0.12551943957805634,
      "learning_rate": 0.00022329965394277785,
      "loss": 0.4242,
      "num_input_tokens_seen": 17922536,
      "step": 27400
    },
    {
      "epoch": 14.36320754716981,
      "grad_norm": 0.15345127880573273,
      "learning_rate": 0.00022310920710402532,
      "loss": 0.311,
      "num_input_tokens_seen": 17927208,
      "step": 27405
    },
    {
      "epoch": 14.365828092243186,
      "grad_norm": 0.14184243977069855,
      "learning_rate": 0.00022291881818766796,
      "loss": 0.3176,
      "num_input_tokens_seen": 17930312,
      "step": 27410
    },
    {
      "epoch": 14.368448637316561,
      "grad_norm": 0.3018503189086914,
      "learning_rate": 0.00022272848723353252,
      "loss": 0.6112,
      "num_input_tokens_seen": 17933256,
      "step": 27415
    },
    {
      "epoch": 14.371069182389936,
      "grad_norm": 0.14468234777450562,
      "learning_rate": 0.00022253821428143422,
      "loss": 0.424,
      "num_input_tokens_seen": 17936264,
      "step": 27420
    },
    {
      "epoch": 14.373689727463312,
      "grad_norm": 0.15357138216495514,
      "learning_rate": 0.0002223479993711761,
      "loss": 0.6066,
      "num_input_tokens_seen": 17939432,
      "step": 27425
    },
    {
      "epoch": 14.376310272536688,
      "grad_norm": 0.11085029691457748,
      "learning_rate": 0.00022215784254254906,
      "loss": 0.4214,
      "num_input_tokens_seen": 17943848,
      "step": 27430
    },
    {
      "epoch": 14.378930817610064,
      "grad_norm": 0.09480279684066772,
      "learning_rate": 0.00022196774383533157,
      "loss": 0.4672,
      "num_input_tokens_seen": 17947368,
      "step": 27435
    },
    {
      "epoch": 14.381551362683439,
      "grad_norm": 0.130364790558815,
      "learning_rate": 0.0002217777032892899,
      "loss": 0.2921,
      "num_input_tokens_seen": 17950344,
      "step": 27440
    },
    {
      "epoch": 14.384171907756814,
      "grad_norm": 0.18858936429023743,
      "learning_rate": 0.00022158772094417863,
      "loss": 0.2799,
      "num_input_tokens_seen": 17952648,
      "step": 27445
    },
    {
      "epoch": 14.38679245283019,
      "grad_norm": 0.11706716567277908,
      "learning_rate": 0.00022139779683973983,
      "loss": 0.499,
      "num_input_tokens_seen": 17956392,
      "step": 27450
    },
    {
      "epoch": 14.389412997903564,
      "grad_norm": 0.1375921070575714,
      "learning_rate": 0.00022120793101570364,
      "loss": 0.4132,
      "num_input_tokens_seen": 17959816,
      "step": 27455
    },
    {
      "epoch": 14.39203354297694,
      "grad_norm": 0.1370166689157486,
      "learning_rate": 0.00022101812351178762,
      "loss": 0.3623,
      "num_input_tokens_seen": 17963144,
      "step": 27460
    },
    {
      "epoch": 14.394654088050315,
      "grad_norm": 0.13431185483932495,
      "learning_rate": 0.00022082837436769725,
      "loss": 0.4337,
      "num_input_tokens_seen": 17965640,
      "step": 27465
    },
    {
      "epoch": 14.39727463312369,
      "grad_norm": 0.102507583796978,
      "learning_rate": 0.00022063868362312596,
      "loss": 0.3297,
      "num_input_tokens_seen": 17968168,
      "step": 27470
    },
    {
      "epoch": 14.399895178197065,
      "grad_norm": 0.06890851259231567,
      "learning_rate": 0.00022044905131775495,
      "loss": 0.2222,
      "num_input_tokens_seen": 17971816,
      "step": 27475
    },
    {
      "epoch": 14.40251572327044,
      "grad_norm": 0.10333739221096039,
      "learning_rate": 0.00022025947749125313,
      "loss": 0.3812,
      "num_input_tokens_seen": 17974376,
      "step": 27480
    },
    {
      "epoch": 14.405136268343815,
      "grad_norm": 0.1739518791437149,
      "learning_rate": 0.0002200699621832773,
      "loss": 0.4036,
      "num_input_tokens_seen": 17977608,
      "step": 27485
    },
    {
      "epoch": 14.40775681341719,
      "grad_norm": 0.13659197092056274,
      "learning_rate": 0.0002198805054334718,
      "loss": 0.4817,
      "num_input_tokens_seen": 17980808,
      "step": 27490
    },
    {
      "epoch": 14.410377358490566,
      "grad_norm": 0.07520220428705215,
      "learning_rate": 0.00021969110728146862,
      "loss": 0.3608,
      "num_input_tokens_seen": 17984392,
      "step": 27495
    },
    {
      "epoch": 14.41299790356394,
      "grad_norm": 0.18567633628845215,
      "learning_rate": 0.00021950176776688784,
      "loss": 0.367,
      "num_input_tokens_seen": 17987432,
      "step": 27500
    },
    {
      "epoch": 14.415618448637316,
      "grad_norm": 0.14247289299964905,
      "learning_rate": 0.0002193124869293372,
      "loss": 0.3739,
      "num_input_tokens_seen": 17991400,
      "step": 27505
    },
    {
      "epoch": 14.418238993710691,
      "grad_norm": 0.10164912790060043,
      "learning_rate": 0.00021912326480841223,
      "loss": 0.493,
      "num_input_tokens_seen": 17994536,
      "step": 27510
    },
    {
      "epoch": 14.420859538784066,
      "grad_norm": 0.11324025690555573,
      "learning_rate": 0.0002189341014436958,
      "loss": 0.3297,
      "num_input_tokens_seen": 17997352,
      "step": 27515
    },
    {
      "epoch": 14.423480083857442,
      "grad_norm": 0.09448108077049255,
      "learning_rate": 0.00021874499687475857,
      "loss": 0.3333,
      "num_input_tokens_seen": 18001320,
      "step": 27520
    },
    {
      "epoch": 14.426100628930818,
      "grad_norm": 0.12906554341316223,
      "learning_rate": 0.00021855595114115935,
      "loss": 0.4219,
      "num_input_tokens_seen": 18005032,
      "step": 27525
    },
    {
      "epoch": 14.428721174004194,
      "grad_norm": 0.19361169636249542,
      "learning_rate": 0.00021836696428244418,
      "loss": 0.489,
      "num_input_tokens_seen": 18008456,
      "step": 27530
    },
    {
      "epoch": 14.431341719077569,
      "grad_norm": 0.12440494447946548,
      "learning_rate": 0.0002181780363381473,
      "loss": 0.4313,
      "num_input_tokens_seen": 18012552,
      "step": 27535
    },
    {
      "epoch": 14.433962264150944,
      "grad_norm": 0.1325889527797699,
      "learning_rate": 0.00021798916734779,
      "loss": 0.3768,
      "num_input_tokens_seen": 18017704,
      "step": 27540
    },
    {
      "epoch": 14.43658280922432,
      "grad_norm": 0.16937334835529327,
      "learning_rate": 0.00021780035735088132,
      "loss": 0.3594,
      "num_input_tokens_seen": 18021032,
      "step": 27545
    },
    {
      "epoch": 14.439203354297694,
      "grad_norm": 0.16528542339801788,
      "learning_rate": 0.0002176116063869184,
      "loss": 0.502,
      "num_input_tokens_seen": 18023944,
      "step": 27550
    },
    {
      "epoch": 14.44182389937107,
      "grad_norm": 0.1111607477068901,
      "learning_rate": 0.00021742291449538582,
      "loss": 0.4049,
      "num_input_tokens_seen": 18027816,
      "step": 27555
    },
    {
      "epoch": 14.444444444444445,
      "grad_norm": 0.15353894233703613,
      "learning_rate": 0.00021723428171575566,
      "loss": 0.3645,
      "num_input_tokens_seen": 18031080,
      "step": 27560
    },
    {
      "epoch": 14.44706498951782,
      "grad_norm": 0.1696723997592926,
      "learning_rate": 0.00021704570808748802,
      "loss": 0.2989,
      "num_input_tokens_seen": 18035496,
      "step": 27565
    },
    {
      "epoch": 14.449685534591195,
      "grad_norm": 0.17968055605888367,
      "learning_rate": 0.00021685719365003008,
      "loss": 0.4148,
      "num_input_tokens_seen": 18039720,
      "step": 27570
    },
    {
      "epoch": 14.45230607966457,
      "grad_norm": 0.17677384614944458,
      "learning_rate": 0.00021666873844281682,
      "loss": 0.4677,
      "num_input_tokens_seen": 18042696,
      "step": 27575
    },
    {
      "epoch": 14.454926624737945,
      "grad_norm": 0.08855538815259933,
      "learning_rate": 0.0002164803425052711,
      "loss": 0.441,
      "num_input_tokens_seen": 18045864,
      "step": 27580
    },
    {
      "epoch": 14.45754716981132,
      "grad_norm": 0.0980612188577652,
      "learning_rate": 0.0002162920058768031,
      "loss": 0.3906,
      "num_input_tokens_seen": 18049544,
      "step": 27585
    },
    {
      "epoch": 14.460167714884696,
      "grad_norm": 0.10419894754886627,
      "learning_rate": 0.000216103728596811,
      "loss": 0.3467,
      "num_input_tokens_seen": 18052712,
      "step": 27590
    },
    {
      "epoch": 14.46278825995807,
      "grad_norm": 0.19246450066566467,
      "learning_rate": 0.00021591551070467975,
      "loss": 0.4535,
      "num_input_tokens_seen": 18055976,
      "step": 27595
    },
    {
      "epoch": 14.465408805031446,
      "grad_norm": 0.18378153443336487,
      "learning_rate": 0.0002157273522397829,
      "loss": 0.3771,
      "num_input_tokens_seen": 18058632,
      "step": 27600
    },
    {
      "epoch": 14.468029350104821,
      "grad_norm": 0.10460082441568375,
      "learning_rate": 0.0002155392532414806,
      "loss": 0.4012,
      "num_input_tokens_seen": 18061160,
      "step": 27605
    },
    {
      "epoch": 14.470649895178196,
      "grad_norm": 0.08733304589986801,
      "learning_rate": 0.00021535121374912126,
      "loss": 0.3503,
      "num_input_tokens_seen": 18064328,
      "step": 27610
    },
    {
      "epoch": 14.473270440251572,
      "grad_norm": 0.11253568530082703,
      "learning_rate": 0.00021516323380204073,
      "loss": 0.4221,
      "num_input_tokens_seen": 18067464,
      "step": 27615
    },
    {
      "epoch": 14.475890985324948,
      "grad_norm": 0.14202986657619476,
      "learning_rate": 0.00021497531343956188,
      "loss": 0.504,
      "num_input_tokens_seen": 18071912,
      "step": 27620
    },
    {
      "epoch": 14.478511530398324,
      "grad_norm": 0.1953323632478714,
      "learning_rate": 0.00021478745270099591,
      "loss": 0.356,
      "num_input_tokens_seen": 18074728,
      "step": 27625
    },
    {
      "epoch": 14.481132075471699,
      "grad_norm": 0.0934789627790451,
      "learning_rate": 0.0002145996516256408,
      "loss": 0.4121,
      "num_input_tokens_seen": 18078568,
      "step": 27630
    },
    {
      "epoch": 14.483752620545074,
      "grad_norm": 0.1111496090888977,
      "learning_rate": 0.00021441191025278256,
      "loss": 0.3618,
      "num_input_tokens_seen": 18081128,
      "step": 27635
    },
    {
      "epoch": 14.48637316561845,
      "grad_norm": 0.14035780727863312,
      "learning_rate": 0.00021422422862169455,
      "loss": 0.3999,
      "num_input_tokens_seen": 18083976,
      "step": 27640
    },
    {
      "epoch": 14.488993710691824,
      "grad_norm": 0.08042716979980469,
      "learning_rate": 0.00021403660677163773,
      "loss": 0.4381,
      "num_input_tokens_seen": 18087720,
      "step": 27645
    },
    {
      "epoch": 14.4916142557652,
      "grad_norm": 0.15098819136619568,
      "learning_rate": 0.00021384904474186018,
      "loss": 0.5469,
      "num_input_tokens_seen": 18090536,
      "step": 27650
    },
    {
      "epoch": 14.494234800838575,
      "grad_norm": 0.11652391403913498,
      "learning_rate": 0.00021366154257159808,
      "loss": 0.3832,
      "num_input_tokens_seen": 18093960,
      "step": 27655
    },
    {
      "epoch": 14.49685534591195,
      "grad_norm": 0.1456374228000641,
      "learning_rate": 0.00021347410030007435,
      "loss": 0.5134,
      "num_input_tokens_seen": 18097128,
      "step": 27660
    },
    {
      "epoch": 14.499475890985325,
      "grad_norm": 0.11612953990697861,
      "learning_rate": 0.0002132867179665,
      "loss": 0.4391,
      "num_input_tokens_seen": 18100008,
      "step": 27665
    },
    {
      "epoch": 14.5020964360587,
      "grad_norm": 0.1247052401304245,
      "learning_rate": 0.00021309939561007341,
      "loss": 0.5759,
      "num_input_tokens_seen": 18103080,
      "step": 27670
    },
    {
      "epoch": 14.504716981132075,
      "grad_norm": 0.10714805871248245,
      "learning_rate": 0.00021291213326997998,
      "loss": 0.329,
      "num_input_tokens_seen": 18106152,
      "step": 27675
    },
    {
      "epoch": 14.50733752620545,
      "grad_norm": 0.10944966226816177,
      "learning_rate": 0.00021272493098539296,
      "loss": 0.4168,
      "num_input_tokens_seen": 18109224,
      "step": 27680
    },
    {
      "epoch": 14.509958071278826,
      "grad_norm": 0.28338822722435,
      "learning_rate": 0.0002125377887954732,
      "loss": 0.5034,
      "num_input_tokens_seen": 18112072,
      "step": 27685
    },
    {
      "epoch": 14.5125786163522,
      "grad_norm": 0.23332634568214417,
      "learning_rate": 0.00021235070673936824,
      "loss": 0.3692,
      "num_input_tokens_seen": 18114760,
      "step": 27690
    },
    {
      "epoch": 14.515199161425576,
      "grad_norm": 0.06705071032047272,
      "learning_rate": 0.00021216368485621394,
      "loss": 0.4293,
      "num_input_tokens_seen": 18121640,
      "step": 27695
    },
    {
      "epoch": 14.517819706498951,
      "grad_norm": 0.10136083513498306,
      "learning_rate": 0.00021197672318513282,
      "loss": 0.3813,
      "num_input_tokens_seen": 18124904,
      "step": 27700
    },
    {
      "epoch": 14.520440251572326,
      "grad_norm": 0.10777156054973602,
      "learning_rate": 0.00021178982176523525,
      "loss": 0.4892,
      "num_input_tokens_seen": 18127656,
      "step": 27705
    },
    {
      "epoch": 14.523060796645701,
      "grad_norm": 0.1631707102060318,
      "learning_rate": 0.0002116029806356189,
      "loss": 0.4162,
      "num_input_tokens_seen": 18130120,
      "step": 27710
    },
    {
      "epoch": 14.525681341719078,
      "grad_norm": 0.1752229630947113,
      "learning_rate": 0.00021141619983536893,
      "loss": 0.6081,
      "num_input_tokens_seen": 18132584,
      "step": 27715
    },
    {
      "epoch": 14.528301886792454,
      "grad_norm": 0.17430926859378815,
      "learning_rate": 0.00021122947940355747,
      "loss": 0.4431,
      "num_input_tokens_seen": 18138248,
      "step": 27720
    },
    {
      "epoch": 14.530922431865829,
      "grad_norm": 0.19121959805488586,
      "learning_rate": 0.00021104281937924462,
      "loss": 0.3371,
      "num_input_tokens_seen": 18140904,
      "step": 27725
    },
    {
      "epoch": 14.533542976939204,
      "grad_norm": 0.14900916814804077,
      "learning_rate": 0.00021085621980147716,
      "loss": 0.4435,
      "num_input_tokens_seen": 18144360,
      "step": 27730
    },
    {
      "epoch": 14.536163522012579,
      "grad_norm": 0.11182154715061188,
      "learning_rate": 0.00021066968070928982,
      "loss": 0.4253,
      "num_input_tokens_seen": 18148712,
      "step": 27735
    },
    {
      "epoch": 14.538784067085954,
      "grad_norm": 0.10366825014352798,
      "learning_rate": 0.00021048320214170463,
      "loss": 0.3086,
      "num_input_tokens_seen": 18151240,
      "step": 27740
    },
    {
      "epoch": 14.54140461215933,
      "grad_norm": 0.15234996378421783,
      "learning_rate": 0.00021029678413773034,
      "loss": 0.4739,
      "num_input_tokens_seen": 18154056,
      "step": 27745
    },
    {
      "epoch": 14.544025157232705,
      "grad_norm": 0.24632985889911652,
      "learning_rate": 0.0002101104267363639,
      "loss": 0.5194,
      "num_input_tokens_seen": 18158088,
      "step": 27750
    },
    {
      "epoch": 14.54664570230608,
      "grad_norm": 0.13979262113571167,
      "learning_rate": 0.00020992412997658877,
      "loss": 0.4659,
      "num_input_tokens_seen": 18161096,
      "step": 27755
    },
    {
      "epoch": 14.549266247379455,
      "grad_norm": 0.07980825006961823,
      "learning_rate": 0.0002097378938973763,
      "loss": 0.4966,
      "num_input_tokens_seen": 18164200,
      "step": 27760
    },
    {
      "epoch": 14.55188679245283,
      "grad_norm": 0.13764485716819763,
      "learning_rate": 0.0002095517185376849,
      "loss": 0.4384,
      "num_input_tokens_seen": 18168104,
      "step": 27765
    },
    {
      "epoch": 14.554507337526205,
      "grad_norm": 0.10058485716581345,
      "learning_rate": 0.0002093656039364606,
      "loss": 0.4864,
      "num_input_tokens_seen": 18171528,
      "step": 27770
    },
    {
      "epoch": 14.55712788259958,
      "grad_norm": 0.15604646503925323,
      "learning_rate": 0.00020917955013263618,
      "loss": 0.4094,
      "num_input_tokens_seen": 18174568,
      "step": 27775
    },
    {
      "epoch": 14.559748427672956,
      "grad_norm": 0.1485324203968048,
      "learning_rate": 0.00020899355716513186,
      "loss": 0.5986,
      "num_input_tokens_seen": 18177480,
      "step": 27780
    },
    {
      "epoch": 14.56236897274633,
      "grad_norm": 0.13663332164287567,
      "learning_rate": 0.00020880762507285544,
      "loss": 0.2978,
      "num_input_tokens_seen": 18180168,
      "step": 27785
    },
    {
      "epoch": 14.564989517819706,
      "grad_norm": 0.15702319145202637,
      "learning_rate": 0.00020862175389470172,
      "loss": 0.3535,
      "num_input_tokens_seen": 18183624,
      "step": 27790
    },
    {
      "epoch": 14.567610062893081,
      "grad_norm": 0.15386606752872467,
      "learning_rate": 0.00020843594366955288,
      "loss": 0.4068,
      "num_input_tokens_seen": 18186632,
      "step": 27795
    },
    {
      "epoch": 14.570230607966456,
      "grad_norm": 0.12424594163894653,
      "learning_rate": 0.0002082501944362784,
      "loss": 0.3636,
      "num_input_tokens_seen": 18189320,
      "step": 27800
    },
    {
      "epoch": 14.572851153039831,
      "grad_norm": 0.13671939074993134,
      "learning_rate": 0.00020806450623373486,
      "loss": 0.3521,
      "num_input_tokens_seen": 18192392,
      "step": 27805
    },
    {
      "epoch": 14.575471698113208,
      "grad_norm": 0.16944025456905365,
      "learning_rate": 0.00020787887910076586,
      "loss": 0.4637,
      "num_input_tokens_seen": 18195112,
      "step": 27810
    },
    {
      "epoch": 14.578092243186584,
      "grad_norm": 0.18857049942016602,
      "learning_rate": 0.00020769331307620258,
      "loss": 0.523,
      "num_input_tokens_seen": 18198664,
      "step": 27815
    },
    {
      "epoch": 14.580712788259959,
      "grad_norm": 0.2080266773700714,
      "learning_rate": 0.0002075078081988635,
      "loss": 0.4248,
      "num_input_tokens_seen": 18201800,
      "step": 27820
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.15718187391757965,
      "learning_rate": 0.00020732236450755415,
      "loss": 0.3389,
      "num_input_tokens_seen": 18205096,
      "step": 27825
    },
    {
      "epoch": 14.585953878406709,
      "grad_norm": 0.1018097847700119,
      "learning_rate": 0.00020713698204106708,
      "loss": 0.3146,
      "num_input_tokens_seen": 18208008,
      "step": 27830
    },
    {
      "epoch": 14.588574423480084,
      "grad_norm": 0.09700947999954224,
      "learning_rate": 0.00020695166083818206,
      "loss": 0.4532,
      "num_input_tokens_seen": 18211528,
      "step": 27835
    },
    {
      "epoch": 14.59119496855346,
      "grad_norm": 0.21765874326229095,
      "learning_rate": 0.0002067664009376663,
      "loss": 0.3886,
      "num_input_tokens_seen": 18214472,
      "step": 27840
    },
    {
      "epoch": 14.593815513626835,
      "grad_norm": 0.17911536991596222,
      "learning_rate": 0.0002065812023782741,
      "loss": 0.475,
      "num_input_tokens_seen": 18217064,
      "step": 27845
    },
    {
      "epoch": 14.59643605870021,
      "grad_norm": 0.10638227313756943,
      "learning_rate": 0.00020639606519874703,
      "loss": 0.4054,
      "num_input_tokens_seen": 18220168,
      "step": 27850
    },
    {
      "epoch": 14.599056603773585,
      "grad_norm": 0.19384253025054932,
      "learning_rate": 0.00020621098943781352,
      "loss": 0.3376,
      "num_input_tokens_seen": 18222888,
      "step": 27855
    },
    {
      "epoch": 14.60167714884696,
      "grad_norm": 0.22394806146621704,
      "learning_rate": 0.0002060259751341891,
      "loss": 0.3688,
      "num_input_tokens_seen": 18225128,
      "step": 27860
    },
    {
      "epoch": 14.604297693920335,
      "grad_norm": 0.08002813160419464,
      "learning_rate": 0.00020584102232657688,
      "loss": 0.3825,
      "num_input_tokens_seen": 18228168,
      "step": 27865
    },
    {
      "epoch": 14.60691823899371,
      "grad_norm": 0.2333693504333496,
      "learning_rate": 0.0002056561310536668,
      "loss": 0.4545,
      "num_input_tokens_seen": 18231816,
      "step": 27870
    },
    {
      "epoch": 14.609538784067086,
      "grad_norm": 0.17780491709709167,
      "learning_rate": 0.0002054713013541361,
      "loss": 0.4405,
      "num_input_tokens_seen": 18234120,
      "step": 27875
    },
    {
      "epoch": 14.61215932914046,
      "grad_norm": 0.15185502171516418,
      "learning_rate": 0.00020528653326664915,
      "loss": 0.3978,
      "num_input_tokens_seen": 18237320,
      "step": 27880
    },
    {
      "epoch": 14.614779874213836,
      "grad_norm": 0.15344621241092682,
      "learning_rate": 0.00020510182682985717,
      "loss": 0.533,
      "num_input_tokens_seen": 18240008,
      "step": 27885
    },
    {
      "epoch": 14.617400419287211,
      "grad_norm": 0.10126709938049316,
      "learning_rate": 0.00020491718208239847,
      "loss": 0.4189,
      "num_input_tokens_seen": 18243720,
      "step": 27890
    },
    {
      "epoch": 14.620020964360586,
      "grad_norm": 0.18464818596839905,
      "learning_rate": 0.00020473259906289877,
      "loss": 0.3653,
      "num_input_tokens_seen": 18246088,
      "step": 27895
    },
    {
      "epoch": 14.622641509433961,
      "grad_norm": 0.1244291216135025,
      "learning_rate": 0.00020454807780997077,
      "loss": 0.4879,
      "num_input_tokens_seen": 18248904,
      "step": 27900
    },
    {
      "epoch": 14.625262054507338,
      "grad_norm": 0.13710245490074158,
      "learning_rate": 0.0002043636183622144,
      "loss": 0.4305,
      "num_input_tokens_seen": 18252648,
      "step": 27905
    },
    {
      "epoch": 14.627882599580714,
      "grad_norm": 0.1522362232208252,
      "learning_rate": 0.00020417922075821626,
      "loss": 0.4918,
      "num_input_tokens_seen": 18255464,
      "step": 27910
    },
    {
      "epoch": 14.630503144654089,
      "grad_norm": 0.13904394209384918,
      "learning_rate": 0.00020399488503655005,
      "loss": 0.5298,
      "num_input_tokens_seen": 18262408,
      "step": 27915
    },
    {
      "epoch": 14.633123689727464,
      "grad_norm": 0.16504161059856415,
      "learning_rate": 0.00020381061123577688,
      "loss": 0.3434,
      "num_input_tokens_seen": 18264968,
      "step": 27920
    },
    {
      "epoch": 14.635744234800839,
      "grad_norm": 0.15748435258865356,
      "learning_rate": 0.00020362639939444473,
      "loss": 0.4814,
      "num_input_tokens_seen": 18268104,
      "step": 27925
    },
    {
      "epoch": 14.638364779874214,
      "grad_norm": 0.11538564413785934,
      "learning_rate": 0.0002034422495510888,
      "loss": 0.5549,
      "num_input_tokens_seen": 18271048,
      "step": 27930
    },
    {
      "epoch": 14.64098532494759,
      "grad_norm": 0.11998502165079117,
      "learning_rate": 0.00020325816174423077,
      "loss": 0.3726,
      "num_input_tokens_seen": 18274440,
      "step": 27935
    },
    {
      "epoch": 14.643605870020965,
      "grad_norm": 0.1586763709783554,
      "learning_rate": 0.00020307413601238012,
      "loss": 0.4133,
      "num_input_tokens_seen": 18277672,
      "step": 27940
    },
    {
      "epoch": 14.64622641509434,
      "grad_norm": 0.13292087614536285,
      "learning_rate": 0.00020289017239403246,
      "loss": 0.3779,
      "num_input_tokens_seen": 18281640,
      "step": 27945
    },
    {
      "epoch": 14.648846960167715,
      "grad_norm": 0.17544326186180115,
      "learning_rate": 0.0002027062709276712,
      "loss": 0.4268,
      "num_input_tokens_seen": 18284648,
      "step": 27950
    },
    {
      "epoch": 14.65146750524109,
      "grad_norm": 0.2905382812023163,
      "learning_rate": 0.00020252243165176632,
      "loss": 0.3809,
      "num_input_tokens_seen": 18287624,
      "step": 27955
    },
    {
      "epoch": 14.654088050314465,
      "grad_norm": 0.16060581803321838,
      "learning_rate": 0.00020233865460477508,
      "loss": 0.3495,
      "num_input_tokens_seen": 18291752,
      "step": 27960
    },
    {
      "epoch": 14.65670859538784,
      "grad_norm": 0.13679905235767365,
      "learning_rate": 0.00020215493982514128,
      "loss": 0.339,
      "num_input_tokens_seen": 18295400,
      "step": 27965
    },
    {
      "epoch": 14.659329140461216,
      "grad_norm": 0.21454961597919464,
      "learning_rate": 0.00020197128735129622,
      "loss": 0.3814,
      "num_input_tokens_seen": 18298440,
      "step": 27970
    },
    {
      "epoch": 14.66194968553459,
      "grad_norm": 0.156296044588089,
      "learning_rate": 0.0002017876972216575,
      "loss": 0.4475,
      "num_input_tokens_seen": 18301480,
      "step": 27975
    },
    {
      "epoch": 14.664570230607966,
      "grad_norm": 0.19228601455688477,
      "learning_rate": 0.00020160416947463046,
      "loss": 0.4336,
      "num_input_tokens_seen": 18304744,
      "step": 27980
    },
    {
      "epoch": 14.667190775681341,
      "grad_norm": 0.142400860786438,
      "learning_rate": 0.00020142070414860702,
      "loss": 0.4522,
      "num_input_tokens_seen": 18308328,
      "step": 27985
    },
    {
      "epoch": 14.669811320754716,
      "grad_norm": 0.15376219153404236,
      "learning_rate": 0.0002012373012819657,
      "loss": 0.4108,
      "num_input_tokens_seen": 18311240,
      "step": 27990
    },
    {
      "epoch": 14.672431865828091,
      "grad_norm": 0.12908919155597687,
      "learning_rate": 0.00020105396091307247,
      "loss": 0.4189,
      "num_input_tokens_seen": 18314344,
      "step": 27995
    },
    {
      "epoch": 14.675052410901468,
      "grad_norm": 0.06402350962162018,
      "learning_rate": 0.0002008706830802803,
      "loss": 0.3734,
      "num_input_tokens_seen": 18317544,
      "step": 28000
    },
    {
      "epoch": 14.677672955974844,
      "grad_norm": 0.10800712555646896,
      "learning_rate": 0.00020068746782192837,
      "loss": 0.5097,
      "num_input_tokens_seen": 18320776,
      "step": 28005
    },
    {
      "epoch": 14.680293501048219,
      "grad_norm": 0.09607565402984619,
      "learning_rate": 0.00020050431517634366,
      "loss": 0.4494,
      "num_input_tokens_seen": 18325096,
      "step": 28010
    },
    {
      "epoch": 14.682914046121594,
      "grad_norm": 0.1292673498392105,
      "learning_rate": 0.00020032122518183915,
      "loss": 0.4855,
      "num_input_tokens_seen": 18328392,
      "step": 28015
    },
    {
      "epoch": 14.685534591194969,
      "grad_norm": 0.22594054043293,
      "learning_rate": 0.00020013819787671538,
      "loss": 0.479,
      "num_input_tokens_seen": 18331720,
      "step": 28020
    },
    {
      "epoch": 14.688155136268344,
      "grad_norm": 0.12522518634796143,
      "learning_rate": 0.00019995523329925985,
      "loss": 0.3513,
      "num_input_tokens_seen": 18334536,
      "step": 28025
    },
    {
      "epoch": 14.69077568134172,
      "grad_norm": 0.0903727188706398,
      "learning_rate": 0.00019977233148774627,
      "loss": 0.4475,
      "num_input_tokens_seen": 18339304,
      "step": 28030
    },
    {
      "epoch": 14.693396226415095,
      "grad_norm": 0.1418227106332779,
      "learning_rate": 0.00019958949248043573,
      "loss": 0.3478,
      "num_input_tokens_seen": 18341896,
      "step": 28035
    },
    {
      "epoch": 14.69601677148847,
      "grad_norm": 0.18029113113880157,
      "learning_rate": 0.00019940671631557628,
      "loss": 0.3566,
      "num_input_tokens_seen": 18345736,
      "step": 28040
    },
    {
      "epoch": 14.698637316561845,
      "grad_norm": 0.15885977447032928,
      "learning_rate": 0.0001992240030314022,
      "loss": 0.4515,
      "num_input_tokens_seen": 18348552,
      "step": 28045
    },
    {
      "epoch": 14.70125786163522,
      "grad_norm": 0.17725121974945068,
      "learning_rate": 0.00019904135266613532,
      "loss": 0.5267,
      "num_input_tokens_seen": 18351624,
      "step": 28050
    },
    {
      "epoch": 14.703878406708595,
      "grad_norm": 0.11726546287536621,
      "learning_rate": 0.00019885876525798407,
      "loss": 0.4282,
      "num_input_tokens_seen": 18354632,
      "step": 28055
    },
    {
      "epoch": 14.70649895178197,
      "grad_norm": 0.15286312997341156,
      "learning_rate": 0.0001986762408451434,
      "loss": 0.3222,
      "num_input_tokens_seen": 18357736,
      "step": 28060
    },
    {
      "epoch": 14.709119496855346,
      "grad_norm": 0.0984288901090622,
      "learning_rate": 0.00019849377946579562,
      "loss": 0.4083,
      "num_input_tokens_seen": 18362120,
      "step": 28065
    },
    {
      "epoch": 14.71174004192872,
      "grad_norm": 0.13431578874588013,
      "learning_rate": 0.00019831138115810926,
      "loss": 0.4502,
      "num_input_tokens_seen": 18366312,
      "step": 28070
    },
    {
      "epoch": 14.714360587002096,
      "grad_norm": 0.16732166707515717,
      "learning_rate": 0.00019812904596024005,
      "loss": 0.4121,
      "num_input_tokens_seen": 18369704,
      "step": 28075
    },
    {
      "epoch": 14.716981132075471,
      "grad_norm": 0.12168841063976288,
      "learning_rate": 0.00019794677391033055,
      "loss": 0.4645,
      "num_input_tokens_seen": 18372840,
      "step": 28080
    },
    {
      "epoch": 14.719601677148846,
      "grad_norm": 0.1088632196187973,
      "learning_rate": 0.00019776456504651014,
      "loss": 0.397,
      "num_input_tokens_seen": 18376392,
      "step": 28085
    },
    {
      "epoch": 14.722222222222221,
      "grad_norm": 0.14254584908485413,
      "learning_rate": 0.0001975824194068946,
      "loss": 0.6505,
      "num_input_tokens_seen": 18379752,
      "step": 28090
    },
    {
      "epoch": 14.724842767295598,
      "grad_norm": 0.07502443343400955,
      "learning_rate": 0.00019740033702958653,
      "loss": 0.3182,
      "num_input_tokens_seen": 18383048,
      "step": 28095
    },
    {
      "epoch": 14.727463312368974,
      "grad_norm": 0.1786520779132843,
      "learning_rate": 0.0001972183179526758,
      "loss": 0.5634,
      "num_input_tokens_seen": 18386312,
      "step": 28100
    },
    {
      "epoch": 14.730083857442349,
      "grad_norm": 0.12565025687217712,
      "learning_rate": 0.0001970363622142386,
      "loss": 0.6154,
      "num_input_tokens_seen": 18388936,
      "step": 28105
    },
    {
      "epoch": 14.732704402515724,
      "grad_norm": 0.156539186835289,
      "learning_rate": 0.00019685446985233824,
      "loss": 0.3711,
      "num_input_tokens_seen": 18393448,
      "step": 28110
    },
    {
      "epoch": 14.735324947589099,
      "grad_norm": 0.12505508959293365,
      "learning_rate": 0.00019667264090502412,
      "loss": 0.5011,
      "num_input_tokens_seen": 18396456,
      "step": 28115
    },
    {
      "epoch": 14.737945492662474,
      "grad_norm": 0.15254662930965424,
      "learning_rate": 0.0001964908754103331,
      "loss": 0.3722,
      "num_input_tokens_seen": 18399688,
      "step": 28120
    },
    {
      "epoch": 14.74056603773585,
      "grad_norm": 0.19112184643745422,
      "learning_rate": 0.00019630917340628822,
      "loss": 0.3708,
      "num_input_tokens_seen": 18402664,
      "step": 28125
    },
    {
      "epoch": 14.743186582809225,
      "grad_norm": 0.1400245875120163,
      "learning_rate": 0.00019612753493089959,
      "loss": 0.3611,
      "num_input_tokens_seen": 18405640,
      "step": 28130
    },
    {
      "epoch": 14.7458071278826,
      "grad_norm": 0.14036768674850464,
      "learning_rate": 0.00019594596002216387,
      "loss": 0.4905,
      "num_input_tokens_seen": 18408424,
      "step": 28135
    },
    {
      "epoch": 14.748427672955975,
      "grad_norm": 0.12292037904262543,
      "learning_rate": 0.00019576444871806465,
      "loss": 0.5188,
      "num_input_tokens_seen": 18412488,
      "step": 28140
    },
    {
      "epoch": 14.75104821802935,
      "grad_norm": 0.0972781702876091,
      "learning_rate": 0.0001955830010565719,
      "loss": 0.405,
      "num_input_tokens_seen": 18415944,
      "step": 28145
    },
    {
      "epoch": 14.753668763102725,
      "grad_norm": 0.06883544474840164,
      "learning_rate": 0.00019540161707564213,
      "loss": 0.3731,
      "num_input_tokens_seen": 18420136,
      "step": 28150
    },
    {
      "epoch": 14.7562893081761,
      "grad_norm": 0.11197420209646225,
      "learning_rate": 0.000195220296813219,
      "loss": 0.4646,
      "num_input_tokens_seen": 18424552,
      "step": 28155
    },
    {
      "epoch": 14.758909853249476,
      "grad_norm": 0.49941104650497437,
      "learning_rate": 0.00019503904030723274,
      "loss": 0.4388,
      "num_input_tokens_seen": 18427112,
      "step": 28160
    },
    {
      "epoch": 14.76153039832285,
      "grad_norm": 0.1644502878189087,
      "learning_rate": 0.00019485784759560004,
      "loss": 0.4504,
      "num_input_tokens_seen": 18430216,
      "step": 28165
    },
    {
      "epoch": 14.764150943396226,
      "grad_norm": 0.13284935057163239,
      "learning_rate": 0.0001946767187162247,
      "loss": 0.5469,
      "num_input_tokens_seen": 18436232,
      "step": 28170
    },
    {
      "epoch": 14.766771488469601,
      "grad_norm": 0.3063707947731018,
      "learning_rate": 0.00019449565370699618,
      "loss": 0.4964,
      "num_input_tokens_seen": 18439528,
      "step": 28175
    },
    {
      "epoch": 14.769392033542976,
      "grad_norm": 0.10737819224596024,
      "learning_rate": 0.00019431465260579152,
      "loss": 0.3456,
      "num_input_tokens_seen": 18442728,
      "step": 28180
    },
    {
      "epoch": 14.772012578616351,
      "grad_norm": 0.1432860940694809,
      "learning_rate": 0.00019413371545047404,
      "loss": 0.567,
      "num_input_tokens_seen": 18445640,
      "step": 28185
    },
    {
      "epoch": 14.774633123689728,
      "grad_norm": 0.12671034038066864,
      "learning_rate": 0.00019395284227889382,
      "loss": 0.3586,
      "num_input_tokens_seen": 18448584,
      "step": 28190
    },
    {
      "epoch": 14.777253668763104,
      "grad_norm": 0.29496902227401733,
      "learning_rate": 0.00019377203312888764,
      "loss": 0.4644,
      "num_input_tokens_seen": 18451112,
      "step": 28195
    },
    {
      "epoch": 14.779874213836479,
      "grad_norm": 0.17850340902805328,
      "learning_rate": 0.0001935912880382784,
      "loss": 0.3911,
      "num_input_tokens_seen": 18453512,
      "step": 28200
    },
    {
      "epoch": 14.782494758909854,
      "grad_norm": 0.09088429063558578,
      "learning_rate": 0.00019341060704487596,
      "loss": 0.5775,
      "num_input_tokens_seen": 18457320,
      "step": 28205
    },
    {
      "epoch": 14.785115303983229,
      "grad_norm": 0.16089119017124176,
      "learning_rate": 0.00019322999018647668,
      "loss": 0.4015,
      "num_input_tokens_seen": 18460712,
      "step": 28210
    },
    {
      "epoch": 14.787735849056604,
      "grad_norm": 0.11188967525959015,
      "learning_rate": 0.00019304943750086362,
      "loss": 0.3091,
      "num_input_tokens_seen": 18463720,
      "step": 28215
    },
    {
      "epoch": 14.79035639412998,
      "grad_norm": 0.2435186356306076,
      "learning_rate": 0.0001928689490258066,
      "loss": 0.5813,
      "num_input_tokens_seen": 18466344,
      "step": 28220
    },
    {
      "epoch": 14.792976939203355,
      "grad_norm": 0.15954454243183136,
      "learning_rate": 0.00019268852479906146,
      "loss": 0.4379,
      "num_input_tokens_seen": 18469320,
      "step": 28225
    },
    {
      "epoch": 14.79559748427673,
      "grad_norm": 0.13974037766456604,
      "learning_rate": 0.0001925081648583708,
      "loss": 0.4538,
      "num_input_tokens_seen": 18472360,
      "step": 28230
    },
    {
      "epoch": 14.798218029350105,
      "grad_norm": 0.13242922723293304,
      "learning_rate": 0.00019232786924146394,
      "loss": 0.317,
      "num_input_tokens_seen": 18475080,
      "step": 28235
    },
    {
      "epoch": 14.80083857442348,
      "grad_norm": 0.2610943913459778,
      "learning_rate": 0.00019214763798605677,
      "loss": 0.3613,
      "num_input_tokens_seen": 18477672,
      "step": 28240
    },
    {
      "epoch": 14.803459119496855,
      "grad_norm": 0.18962383270263672,
      "learning_rate": 0.00019196747112985158,
      "loss": 0.3874,
      "num_input_tokens_seen": 18480776,
      "step": 28245
    },
    {
      "epoch": 14.80607966457023,
      "grad_norm": 0.2310226410627365,
      "learning_rate": 0.00019178736871053737,
      "loss": 0.4277,
      "num_input_tokens_seen": 18484104,
      "step": 28250
    },
    {
      "epoch": 14.808700209643606,
      "grad_norm": 0.16339117288589478,
      "learning_rate": 0.00019160733076578935,
      "loss": 0.4965,
      "num_input_tokens_seen": 18487560,
      "step": 28255
    },
    {
      "epoch": 14.81132075471698,
      "grad_norm": 0.0847015455365181,
      "learning_rate": 0.0001914273573332692,
      "loss": 0.4915,
      "num_input_tokens_seen": 18491112,
      "step": 28260
    },
    {
      "epoch": 14.813941299790356,
      "grad_norm": 0.15181927382946014,
      "learning_rate": 0.00019124744845062553,
      "loss": 0.4243,
      "num_input_tokens_seen": 18494184,
      "step": 28265
    },
    {
      "epoch": 14.816561844863731,
      "grad_norm": 0.14839516580104828,
      "learning_rate": 0.00019106760415549324,
      "loss": 0.455,
      "num_input_tokens_seen": 18497864,
      "step": 28270
    },
    {
      "epoch": 14.819182389937106,
      "grad_norm": 0.19865435361862183,
      "learning_rate": 0.0001908878244854938,
      "loss": 0.3906,
      "num_input_tokens_seen": 18500264,
      "step": 28275
    },
    {
      "epoch": 14.821802935010481,
      "grad_norm": 0.262757271528244,
      "learning_rate": 0.00019070810947823498,
      "loss": 0.4725,
      "num_input_tokens_seen": 18503240,
      "step": 28280
    },
    {
      "epoch": 14.824423480083858,
      "grad_norm": 0.21441827714443207,
      "learning_rate": 0.0001905284591713109,
      "loss": 0.4308,
      "num_input_tokens_seen": 18506920,
      "step": 28285
    },
    {
      "epoch": 14.827044025157234,
      "grad_norm": 0.17695829272270203,
      "learning_rate": 0.00019034887360230246,
      "loss": 0.449,
      "num_input_tokens_seen": 18509896,
      "step": 28290
    },
    {
      "epoch": 14.829664570230609,
      "grad_norm": 0.26825061440467834,
      "learning_rate": 0.000190169352808777,
      "loss": 0.4224,
      "num_input_tokens_seen": 18514056,
      "step": 28295
    },
    {
      "epoch": 14.832285115303984,
      "grad_norm": 0.17912888526916504,
      "learning_rate": 0.00018998989682828844,
      "loss": 0.6225,
      "num_input_tokens_seen": 18516616,
      "step": 28300
    },
    {
      "epoch": 14.834905660377359,
      "grad_norm": 0.21098585426807404,
      "learning_rate": 0.00018981050569837643,
      "loss": 0.3823,
      "num_input_tokens_seen": 18519496,
      "step": 28305
    },
    {
      "epoch": 14.837526205450734,
      "grad_norm": 0.15486827492713928,
      "learning_rate": 0.000189631179456568,
      "loss": 0.5588,
      "num_input_tokens_seen": 18523272,
      "step": 28310
    },
    {
      "epoch": 14.84014675052411,
      "grad_norm": 0.12159542739391327,
      "learning_rate": 0.00018945191814037578,
      "loss": 0.5843,
      "num_input_tokens_seen": 18528424,
      "step": 28315
    },
    {
      "epoch": 14.842767295597485,
      "grad_norm": 0.19136928021907806,
      "learning_rate": 0.00018927272178729938,
      "loss": 0.3692,
      "num_input_tokens_seen": 18531112,
      "step": 28320
    },
    {
      "epoch": 14.84538784067086,
      "grad_norm": 0.1299600452184677,
      "learning_rate": 0.00018909359043482477,
      "loss": 0.3931,
      "num_input_tokens_seen": 18534024,
      "step": 28325
    },
    {
      "epoch": 14.848008385744235,
      "grad_norm": 0.22261719405651093,
      "learning_rate": 0.00018891452412042386,
      "loss": 0.4285,
      "num_input_tokens_seen": 18537320,
      "step": 28330
    },
    {
      "epoch": 14.85062893081761,
      "grad_norm": 0.10269928723573685,
      "learning_rate": 0.00018873552288155542,
      "loss": 0.4408,
      "num_input_tokens_seen": 18539848,
      "step": 28335
    },
    {
      "epoch": 14.853249475890985,
      "grad_norm": 0.10845673084259033,
      "learning_rate": 0.00018855658675566471,
      "loss": 0.333,
      "num_input_tokens_seen": 18542536,
      "step": 28340
    },
    {
      "epoch": 14.85587002096436,
      "grad_norm": 0.12272009253501892,
      "learning_rate": 0.00018837771578018275,
      "loss": 0.4472,
      "num_input_tokens_seen": 18545768,
      "step": 28345
    },
    {
      "epoch": 14.858490566037736,
      "grad_norm": 0.17108462750911713,
      "learning_rate": 0.00018819890999252747,
      "loss": 0.6386,
      "num_input_tokens_seen": 18549512,
      "step": 28350
    },
    {
      "epoch": 14.86111111111111,
      "grad_norm": 0.09941517561674118,
      "learning_rate": 0.0001880201694301032,
      "loss": 0.4028,
      "num_input_tokens_seen": 18553320,
      "step": 28355
    },
    {
      "epoch": 14.863731656184486,
      "grad_norm": 0.13549615442752838,
      "learning_rate": 0.00018784149413030005,
      "loss": 0.5048,
      "num_input_tokens_seen": 18557064,
      "step": 28360
    },
    {
      "epoch": 14.866352201257861,
      "grad_norm": 0.20499512553215027,
      "learning_rate": 0.00018766288413049503,
      "loss": 0.4856,
      "num_input_tokens_seen": 18560968,
      "step": 28365
    },
    {
      "epoch": 14.868972746331236,
      "grad_norm": 0.09999799728393555,
      "learning_rate": 0.00018748433946805148,
      "loss": 0.4053,
      "num_input_tokens_seen": 18564136,
      "step": 28370
    },
    {
      "epoch": 14.871593291404611,
      "grad_norm": 0.09768710285425186,
      "learning_rate": 0.00018730586018031854,
      "loss": 0.4987,
      "num_input_tokens_seen": 18567144,
      "step": 28375
    },
    {
      "epoch": 14.874213836477988,
      "grad_norm": 0.11907436698675156,
      "learning_rate": 0.00018712744630463248,
      "loss": 0.4979,
      "num_input_tokens_seen": 18570856,
      "step": 28380
    },
    {
      "epoch": 14.876834381551364,
      "grad_norm": 0.14500965178012848,
      "learning_rate": 0.000186949097878315,
      "loss": 0.4854,
      "num_input_tokens_seen": 18573704,
      "step": 28385
    },
    {
      "epoch": 14.879454926624739,
      "grad_norm": 0.24260206520557404,
      "learning_rate": 0.0001867708149386748,
      "loss": 0.4525,
      "num_input_tokens_seen": 18576392,
      "step": 28390
    },
    {
      "epoch": 14.882075471698114,
      "grad_norm": 0.13926050066947937,
      "learning_rate": 0.0001865925975230068,
      "loss": 0.4504,
      "num_input_tokens_seen": 18579688,
      "step": 28395
    },
    {
      "epoch": 14.884696016771489,
      "grad_norm": 0.1364009529352188,
      "learning_rate": 0.0001864144456685916,
      "loss": 0.3364,
      "num_input_tokens_seen": 18582376,
      "step": 28400
    },
    {
      "epoch": 14.887316561844864,
      "grad_norm": 0.14922355115413666,
      "learning_rate": 0.00018623635941269706,
      "loss": 0.4123,
      "num_input_tokens_seen": 18584904,
      "step": 28405
    },
    {
      "epoch": 14.88993710691824,
      "grad_norm": 0.22942492365837097,
      "learning_rate": 0.00018605833879257628,
      "loss": 0.4072,
      "num_input_tokens_seen": 18588328,
      "step": 28410
    },
    {
      "epoch": 14.892557651991615,
      "grad_norm": 0.20134857296943665,
      "learning_rate": 0.0001858803838454694,
      "loss": 0.4453,
      "num_input_tokens_seen": 18591176,
      "step": 28415
    },
    {
      "epoch": 14.89517819706499,
      "grad_norm": 0.09918642789125443,
      "learning_rate": 0.0001857024946086026,
      "loss": 0.3602,
      "num_input_tokens_seen": 18594536,
      "step": 28420
    },
    {
      "epoch": 14.897798742138365,
      "grad_norm": 0.12788183987140656,
      "learning_rate": 0.00018552467111918836,
      "loss": 0.4464,
      "num_input_tokens_seen": 18597800,
      "step": 28425
    },
    {
      "epoch": 14.90041928721174,
      "grad_norm": 0.134822815656662,
      "learning_rate": 0.00018534691341442507,
      "loss": 0.3997,
      "num_input_tokens_seen": 18601416,
      "step": 28430
    },
    {
      "epoch": 14.903039832285115,
      "grad_norm": 0.13151337206363678,
      "learning_rate": 0.0001851692215314979,
      "loss": 0.4051,
      "num_input_tokens_seen": 18604136,
      "step": 28435
    },
    {
      "epoch": 14.90566037735849,
      "grad_norm": 0.1402803361415863,
      "learning_rate": 0.0001849915955075776,
      "loss": 0.4106,
      "num_input_tokens_seen": 18607016,
      "step": 28440
    },
    {
      "epoch": 14.908280922431866,
      "grad_norm": 0.12712417542934418,
      "learning_rate": 0.0001848140353798217,
      "loss": 0.3612,
      "num_input_tokens_seen": 18610728,
      "step": 28445
    },
    {
      "epoch": 14.91090146750524,
      "grad_norm": 0.14340154826641083,
      "learning_rate": 0.00018463654118537382,
      "loss": 0.4326,
      "num_input_tokens_seen": 18613960,
      "step": 28450
    },
    {
      "epoch": 14.913522012578616,
      "grad_norm": 0.17829377949237823,
      "learning_rate": 0.00018445911296136386,
      "loss": 0.3724,
      "num_input_tokens_seen": 18617032,
      "step": 28455
    },
    {
      "epoch": 14.916142557651991,
      "grad_norm": 0.2327331155538559,
      "learning_rate": 0.00018428175074490754,
      "loss": 0.3815,
      "num_input_tokens_seen": 18619816,
      "step": 28460
    },
    {
      "epoch": 14.918763102725366,
      "grad_norm": 0.08910758048295975,
      "learning_rate": 0.00018410445457310687,
      "loss": 0.3892,
      "num_input_tokens_seen": 18623560,
      "step": 28465
    },
    {
      "epoch": 14.921383647798741,
      "grad_norm": 0.18131382763385773,
      "learning_rate": 0.00018392722448305044,
      "loss": 0.5985,
      "num_input_tokens_seen": 18626120,
      "step": 28470
    },
    {
      "epoch": 14.924004192872118,
      "grad_norm": 0.1404252052307129,
      "learning_rate": 0.00018375006051181265,
      "loss": 0.5128,
      "num_input_tokens_seen": 18629000,
      "step": 28475
    },
    {
      "epoch": 14.926624737945493,
      "grad_norm": 0.14383761584758759,
      "learning_rate": 0.0001835729626964544,
      "loss": 0.4344,
      "num_input_tokens_seen": 18631464,
      "step": 28480
    },
    {
      "epoch": 14.929245283018869,
      "grad_norm": 0.1277291476726532,
      "learning_rate": 0.00018339593107402242,
      "loss": 0.3932,
      "num_input_tokens_seen": 18635208,
      "step": 28485
    },
    {
      "epoch": 14.931865828092244,
      "grad_norm": 0.12695454061031342,
      "learning_rate": 0.00018321896568154945,
      "loss": 0.4078,
      "num_input_tokens_seen": 18638632,
      "step": 28490
    },
    {
      "epoch": 14.934486373165619,
      "grad_norm": 0.1252843588590622,
      "learning_rate": 0.00018304206655605476,
      "loss": 0.3834,
      "num_input_tokens_seen": 18641864,
      "step": 28495
    },
    {
      "epoch": 14.937106918238994,
      "grad_norm": 0.19331741333007812,
      "learning_rate": 0.00018286523373454378,
      "loss": 0.3911,
      "num_input_tokens_seen": 18644328,
      "step": 28500
    },
    {
      "epoch": 14.93972746331237,
      "grad_norm": 0.187411829829216,
      "learning_rate": 0.00018268846725400783,
      "loss": 0.536,
      "num_input_tokens_seen": 18647976,
      "step": 28505
    },
    {
      "epoch": 14.942348008385745,
      "grad_norm": 0.15440762042999268,
      "learning_rate": 0.00018251176715142458,
      "loss": 0.4987,
      "num_input_tokens_seen": 18650920,
      "step": 28510
    },
    {
      "epoch": 14.94496855345912,
      "grad_norm": 0.13320979475975037,
      "learning_rate": 0.00018233513346375756,
      "loss": 0.3204,
      "num_input_tokens_seen": 18653224,
      "step": 28515
    },
    {
      "epoch": 14.947589098532495,
      "grad_norm": 0.07703027874231339,
      "learning_rate": 0.00018215856622795634,
      "loss": 0.3747,
      "num_input_tokens_seen": 18656136,
      "step": 28520
    },
    {
      "epoch": 14.95020964360587,
      "grad_norm": 0.13920268416404724,
      "learning_rate": 0.00018198206548095697,
      "loss": 0.4108,
      "num_input_tokens_seen": 18660072,
      "step": 28525
    },
    {
      "epoch": 14.952830188679245,
      "grad_norm": 0.1325986236333847,
      "learning_rate": 0.00018180563125968135,
      "loss": 0.3496,
      "num_input_tokens_seen": 18663368,
      "step": 28530
    },
    {
      "epoch": 14.95545073375262,
      "grad_norm": 0.16691584885120392,
      "learning_rate": 0.00018162926360103766,
      "loss": 0.5165,
      "num_input_tokens_seen": 18666952,
      "step": 28535
    },
    {
      "epoch": 14.958071278825996,
      "grad_norm": 0.08895272761583328,
      "learning_rate": 0.0001814529625419199,
      "loss": 0.3925,
      "num_input_tokens_seen": 18670344,
      "step": 28540
    },
    {
      "epoch": 14.96069182389937,
      "grad_norm": 0.07857763767242432,
      "learning_rate": 0.00018127672811920798,
      "loss": 0.3878,
      "num_input_tokens_seen": 18673768,
      "step": 28545
    },
    {
      "epoch": 14.963312368972746,
      "grad_norm": 0.14923234283924103,
      "learning_rate": 0.00018110056036976834,
      "loss": 0.5784,
      "num_input_tokens_seen": 18677544,
      "step": 28550
    },
    {
      "epoch": 14.965932914046121,
      "grad_norm": 0.14347891509532928,
      "learning_rate": 0.00018092445933045332,
      "loss": 0.441,
      "num_input_tokens_seen": 18681064,
      "step": 28555
    },
    {
      "epoch": 14.968553459119496,
      "grad_norm": 0.20590491592884064,
      "learning_rate": 0.00018074842503810118,
      "loss": 0.5629,
      "num_input_tokens_seen": 18683880,
      "step": 28560
    },
    {
      "epoch": 14.971174004192871,
      "grad_norm": 0.16506238281726837,
      "learning_rate": 0.00018057245752953666,
      "loss": 0.4005,
      "num_input_tokens_seen": 18687240,
      "step": 28565
    },
    {
      "epoch": 14.973794549266248,
      "grad_norm": 0.17523705959320068,
      "learning_rate": 0.00018039655684156948,
      "loss": 0.4857,
      "num_input_tokens_seen": 18690280,
      "step": 28570
    },
    {
      "epoch": 14.976415094339622,
      "grad_norm": 0.1184520423412323,
      "learning_rate": 0.00018022072301099635,
      "loss": 0.3754,
      "num_input_tokens_seen": 18693928,
      "step": 28575
    },
    {
      "epoch": 14.979035639412999,
      "grad_norm": 0.24436400830745697,
      "learning_rate": 0.00018004495607459975,
      "loss": 0.3993,
      "num_input_tokens_seen": 18696680,
      "step": 28580
    },
    {
      "epoch": 14.981656184486374,
      "grad_norm": 0.12773339450359344,
      "learning_rate": 0.00017986925606914805,
      "loss": 0.5292,
      "num_input_tokens_seen": 18700488,
      "step": 28585
    },
    {
      "epoch": 14.984276729559749,
      "grad_norm": 0.1807708889245987,
      "learning_rate": 0.00017969362303139598,
      "loss": 0.4208,
      "num_input_tokens_seen": 18703240,
      "step": 28590
    },
    {
      "epoch": 14.986897274633124,
      "grad_norm": 0.19243812561035156,
      "learning_rate": 0.00017951805699808365,
      "loss": 0.3676,
      "num_input_tokens_seen": 18706184,
      "step": 28595
    },
    {
      "epoch": 14.9895178197065,
      "grad_norm": 0.12057112902402878,
      "learning_rate": 0.00017934255800593747,
      "loss": 0.3074,
      "num_input_tokens_seen": 18710024,
      "step": 28600
    },
    {
      "epoch": 14.992138364779874,
      "grad_norm": 0.1268051564693451,
      "learning_rate": 0.0001791671260916698,
      "loss": 0.4979,
      "num_input_tokens_seen": 18713448,
      "step": 28605
    },
    {
      "epoch": 14.99475890985325,
      "grad_norm": 0.14602956175804138,
      "learning_rate": 0.00017899176129197914,
      "loss": 0.3567,
      "num_input_tokens_seen": 18716136,
      "step": 28610
    },
    {
      "epoch": 14.997379454926625,
      "grad_norm": 0.118715800344944,
      "learning_rate": 0.00017881646364354998,
      "loss": 0.3224,
      "num_input_tokens_seen": 18719464,
      "step": 28615
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.524383544921875,
      "learning_rate": 0.00017864123318305213,
      "loss": 0.4884,
      "num_input_tokens_seen": 18722440,
      "step": 28620
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.483476459980011,
      "eval_runtime": 13.6174,
      "eval_samples_per_second": 62.273,
      "eval_steps_per_second": 15.568,
      "num_input_tokens_seen": 18722440,
      "step": 28620
    },
    {
      "epoch": 15.002620545073375,
      "grad_norm": 0.07780136913061142,
      "learning_rate": 0.00017846606994714222,
      "loss": 0.36,
      "num_input_tokens_seen": 18725288,
      "step": 28625
    },
    {
      "epoch": 15.00524109014675,
      "grad_norm": 0.11522766202688217,
      "learning_rate": 0.0001782909739724621,
      "loss": 0.5063,
      "num_input_tokens_seen": 18728072,
      "step": 28630
    },
    {
      "epoch": 15.007861635220126,
      "grad_norm": 0.12547567486763,
      "learning_rate": 0.0001781159452956399,
      "loss": 0.5847,
      "num_input_tokens_seen": 18734728,
      "step": 28635
    },
    {
      "epoch": 15.0104821802935,
      "grad_norm": 0.1389387995004654,
      "learning_rate": 0.00017794098395328977,
      "loss": 0.3945,
      "num_input_tokens_seen": 18737352,
      "step": 28640
    },
    {
      "epoch": 15.013102725366876,
      "grad_norm": 0.11065418273210526,
      "learning_rate": 0.00017776608998201172,
      "loss": 0.4192,
      "num_input_tokens_seen": 18741544,
      "step": 28645
    },
    {
      "epoch": 15.015723270440251,
      "grad_norm": 0.16833406686782837,
      "learning_rate": 0.00017759126341839132,
      "loss": 0.3654,
      "num_input_tokens_seen": 18745032,
      "step": 28650
    },
    {
      "epoch": 15.018343815513626,
      "grad_norm": 0.1049889624118805,
      "learning_rate": 0.0001774165042990003,
      "loss": 0.4011,
      "num_input_tokens_seen": 18750088,
      "step": 28655
    },
    {
      "epoch": 15.020964360587001,
      "grad_norm": 0.16070249676704407,
      "learning_rate": 0.00017724181266039635,
      "loss": 0.4921,
      "num_input_tokens_seen": 18753864,
      "step": 28660
    },
    {
      "epoch": 15.023584905660377,
      "grad_norm": 0.1772366613149643,
      "learning_rate": 0.00017706718853912292,
      "loss": 0.5049,
      "num_input_tokens_seen": 18757256,
      "step": 28665
    },
    {
      "epoch": 15.026205450733753,
      "grad_norm": 0.2850884199142456,
      "learning_rate": 0.00017689263197170964,
      "loss": 0.4173,
      "num_input_tokens_seen": 18759528,
      "step": 28670
    },
    {
      "epoch": 15.028825995807129,
      "grad_norm": 0.1605360060930252,
      "learning_rate": 0.00017671814299467136,
      "loss": 0.5298,
      "num_input_tokens_seen": 18763016,
      "step": 28675
    },
    {
      "epoch": 15.031446540880504,
      "grad_norm": 0.07027820497751236,
      "learning_rate": 0.00017654372164450954,
      "loss": 0.3792,
      "num_input_tokens_seen": 18766408,
      "step": 28680
    },
    {
      "epoch": 15.034067085953879,
      "grad_norm": 0.11606348305940628,
      "learning_rate": 0.0001763693679577108,
      "loss": 0.3827,
      "num_input_tokens_seen": 18769064,
      "step": 28685
    },
    {
      "epoch": 15.036687631027254,
      "grad_norm": 0.11954732239246368,
      "learning_rate": 0.00017619508197074812,
      "loss": 0.3577,
      "num_input_tokens_seen": 18771720,
      "step": 28690
    },
    {
      "epoch": 15.03930817610063,
      "grad_norm": 0.14474070072174072,
      "learning_rate": 0.0001760208637200803,
      "loss": 0.3866,
      "num_input_tokens_seen": 18776232,
      "step": 28695
    },
    {
      "epoch": 15.041928721174004,
      "grad_norm": 0.11213883012533188,
      "learning_rate": 0.00017584671324215152,
      "loss": 0.3988,
      "num_input_tokens_seen": 18779272,
      "step": 28700
    },
    {
      "epoch": 15.04454926624738,
      "grad_norm": 0.11898317188024521,
      "learning_rate": 0.00017567263057339212,
      "loss": 0.4056,
      "num_input_tokens_seen": 18781896,
      "step": 28705
    },
    {
      "epoch": 15.047169811320755,
      "grad_norm": 0.0964556336402893,
      "learning_rate": 0.00017549861575021848,
      "loss": 0.3317,
      "num_input_tokens_seen": 18785384,
      "step": 28710
    },
    {
      "epoch": 15.04979035639413,
      "grad_norm": 0.2502446472644806,
      "learning_rate": 0.00017532466880903214,
      "loss": 0.3207,
      "num_input_tokens_seen": 18787816,
      "step": 28715
    },
    {
      "epoch": 15.052410901467505,
      "grad_norm": 0.22281432151794434,
      "learning_rate": 0.00017515078978622102,
      "loss": 0.4326,
      "num_input_tokens_seen": 18791400,
      "step": 28720
    },
    {
      "epoch": 15.05503144654088,
      "grad_norm": 0.19263038039207458,
      "learning_rate": 0.0001749769787181587,
      "loss": 0.4262,
      "num_input_tokens_seen": 18794728,
      "step": 28725
    },
    {
      "epoch": 15.057651991614255,
      "grad_norm": 0.1687021553516388,
      "learning_rate": 0.00017480323564120426,
      "loss": 0.5387,
      "num_input_tokens_seen": 18798248,
      "step": 28730
    },
    {
      "epoch": 15.06027253668763,
      "grad_norm": 0.13455477356910706,
      "learning_rate": 0.00017462956059170287,
      "loss": 0.3787,
      "num_input_tokens_seen": 18801256,
      "step": 28735
    },
    {
      "epoch": 15.062893081761006,
      "grad_norm": 0.11611124128103256,
      "learning_rate": 0.00017445595360598553,
      "loss": 0.3992,
      "num_input_tokens_seen": 18805960,
      "step": 28740
    },
    {
      "epoch": 15.065513626834381,
      "grad_norm": 0.0982808768749237,
      "learning_rate": 0.0001742824147203686,
      "loss": 0.4477,
      "num_input_tokens_seen": 18809160,
      "step": 28745
    },
    {
      "epoch": 15.068134171907756,
      "grad_norm": 0.22795620560646057,
      "learning_rate": 0.00017410894397115463,
      "loss": 0.4445,
      "num_input_tokens_seen": 18811944,
      "step": 28750
    },
    {
      "epoch": 15.070754716981131,
      "grad_norm": 0.21884049475193024,
      "learning_rate": 0.00017393554139463147,
      "loss": 0.3831,
      "num_input_tokens_seen": 18815304,
      "step": 28755
    },
    {
      "epoch": 15.073375262054507,
      "grad_norm": 0.1036335751414299,
      "learning_rate": 0.00017376220702707308,
      "loss": 0.3953,
      "num_input_tokens_seen": 18818344,
      "step": 28760
    },
    {
      "epoch": 15.075995807127883,
      "grad_norm": 0.1676637977361679,
      "learning_rate": 0.00017358894090473926,
      "loss": 0.4133,
      "num_input_tokens_seen": 18820616,
      "step": 28765
    },
    {
      "epoch": 15.078616352201259,
      "grad_norm": 0.140722393989563,
      "learning_rate": 0.00017341574306387492,
      "loss": 0.4048,
      "num_input_tokens_seen": 18823624,
      "step": 28770
    },
    {
      "epoch": 15.081236897274634,
      "grad_norm": 0.200508251786232,
      "learning_rate": 0.00017324261354071147,
      "loss": 0.4356,
      "num_input_tokens_seen": 18826376,
      "step": 28775
    },
    {
      "epoch": 15.083857442348009,
      "grad_norm": 0.22792816162109375,
      "learning_rate": 0.00017306955237146522,
      "loss": 0.3811,
      "num_input_tokens_seen": 18829000,
      "step": 28780
    },
    {
      "epoch": 15.086477987421384,
      "grad_norm": 0.12915728986263275,
      "learning_rate": 0.0001728965595923388,
      "loss": 0.3963,
      "num_input_tokens_seen": 18831848,
      "step": 28785
    },
    {
      "epoch": 15.08909853249476,
      "grad_norm": 0.08300493657588959,
      "learning_rate": 0.00017272363523952033,
      "loss": 0.4918,
      "num_input_tokens_seen": 18835688,
      "step": 28790
    },
    {
      "epoch": 15.091719077568134,
      "grad_norm": 0.12025769799947739,
      "learning_rate": 0.0001725507793491838,
      "loss": 0.4562,
      "num_input_tokens_seen": 18838344,
      "step": 28795
    },
    {
      "epoch": 15.09433962264151,
      "grad_norm": 0.08912688493728638,
      "learning_rate": 0.00017237799195748827,
      "loss": 0.3458,
      "num_input_tokens_seen": 18841512,
      "step": 28800
    },
    {
      "epoch": 15.096960167714885,
      "grad_norm": 0.10954843461513519,
      "learning_rate": 0.00017220527310057927,
      "loss": 0.5414,
      "num_input_tokens_seen": 18845160,
      "step": 28805
    },
    {
      "epoch": 15.09958071278826,
      "grad_norm": 0.21303774416446686,
      "learning_rate": 0.0001720326228145873,
      "loss": 0.374,
      "num_input_tokens_seen": 18847848,
      "step": 28810
    },
    {
      "epoch": 15.102201257861635,
      "grad_norm": 0.1754860132932663,
      "learning_rate": 0.00017186004113562903,
      "loss": 0.4329,
      "num_input_tokens_seen": 18851592,
      "step": 28815
    },
    {
      "epoch": 15.10482180293501,
      "grad_norm": 0.10618609189987183,
      "learning_rate": 0.00017168752809980655,
      "loss": 0.3743,
      "num_input_tokens_seen": 18854568,
      "step": 28820
    },
    {
      "epoch": 15.107442348008385,
      "grad_norm": 0.14077387750148773,
      "learning_rate": 0.00017151508374320767,
      "loss": 0.4942,
      "num_input_tokens_seen": 18858216,
      "step": 28825
    },
    {
      "epoch": 15.11006289308176,
      "grad_norm": 0.20439903438091278,
      "learning_rate": 0.00017134270810190583,
      "loss": 0.5724,
      "num_input_tokens_seen": 18861192,
      "step": 28830
    },
    {
      "epoch": 15.112683438155136,
      "grad_norm": 0.20078490674495697,
      "learning_rate": 0.0001711704012119597,
      "loss": 0.35,
      "num_input_tokens_seen": 18865256,
      "step": 28835
    },
    {
      "epoch": 15.115303983228511,
      "grad_norm": 0.1734192818403244,
      "learning_rate": 0.0001709981631094142,
      "loss": 0.4833,
      "num_input_tokens_seen": 18867912,
      "step": 28840
    },
    {
      "epoch": 15.117924528301886,
      "grad_norm": 0.27387937903404236,
      "learning_rate": 0.00017082599383029946,
      "loss": 0.3529,
      "num_input_tokens_seen": 18870792,
      "step": 28845
    },
    {
      "epoch": 15.120545073375261,
      "grad_norm": 0.16898420453071594,
      "learning_rate": 0.0001706538934106316,
      "loss": 0.4865,
      "num_input_tokens_seen": 18873480,
      "step": 28850
    },
    {
      "epoch": 15.123165618448636,
      "grad_norm": 0.14691394567489624,
      "learning_rate": 0.00017048186188641185,
      "loss": 0.4841,
      "num_input_tokens_seen": 18876808,
      "step": 28855
    },
    {
      "epoch": 15.125786163522013,
      "grad_norm": 0.12476272135972977,
      "learning_rate": 0.0001703098992936271,
      "loss": 0.532,
      "num_input_tokens_seen": 18879432,
      "step": 28860
    },
    {
      "epoch": 15.128406708595389,
      "grad_norm": 0.15289877355098724,
      "learning_rate": 0.00017013800566825012,
      "loss": 0.4684,
      "num_input_tokens_seen": 18882344,
      "step": 28865
    },
    {
      "epoch": 15.131027253668764,
      "grad_norm": 0.09043402969837189,
      "learning_rate": 0.00016996618104623905,
      "loss": 0.3035,
      "num_input_tokens_seen": 18885992,
      "step": 28870
    },
    {
      "epoch": 15.133647798742139,
      "grad_norm": 0.17645268142223358,
      "learning_rate": 0.00016979442546353774,
      "loss": 0.3109,
      "num_input_tokens_seen": 18889256,
      "step": 28875
    },
    {
      "epoch": 15.136268343815514,
      "grad_norm": 0.11658143252134323,
      "learning_rate": 0.00016962273895607555,
      "loss": 0.3102,
      "num_input_tokens_seen": 18892552,
      "step": 28880
    },
    {
      "epoch": 15.13888888888889,
      "grad_norm": 0.18456006050109863,
      "learning_rate": 0.00016945112155976723,
      "loss": 0.3743,
      "num_input_tokens_seen": 18896168,
      "step": 28885
    },
    {
      "epoch": 15.141509433962264,
      "grad_norm": 0.09640304744243622,
      "learning_rate": 0.000169279573310513,
      "loss": 0.3036,
      "num_input_tokens_seen": 18899560,
      "step": 28890
    },
    {
      "epoch": 15.14412997903564,
      "grad_norm": 0.17314758896827698,
      "learning_rate": 0.00016910809424419904,
      "loss": 0.4064,
      "num_input_tokens_seen": 18903336,
      "step": 28895
    },
    {
      "epoch": 15.146750524109015,
      "grad_norm": 0.1072731539607048,
      "learning_rate": 0.00016893668439669674,
      "loss": 0.4396,
      "num_input_tokens_seen": 18906696,
      "step": 28900
    },
    {
      "epoch": 15.14937106918239,
      "grad_norm": 0.18167893588542938,
      "learning_rate": 0.0001687653438038632,
      "loss": 0.4883,
      "num_input_tokens_seen": 18909992,
      "step": 28905
    },
    {
      "epoch": 15.151991614255765,
      "grad_norm": 0.13848048448562622,
      "learning_rate": 0.00016859407250154084,
      "loss": 0.406,
      "num_input_tokens_seen": 18913352,
      "step": 28910
    },
    {
      "epoch": 15.15461215932914,
      "grad_norm": 0.19977550208568573,
      "learning_rate": 0.0001684228705255575,
      "loss": 0.4158,
      "num_input_tokens_seen": 18917032,
      "step": 28915
    },
    {
      "epoch": 15.157232704402515,
      "grad_norm": 0.1650318205356598,
      "learning_rate": 0.00016825173791172677,
      "loss": 0.3916,
      "num_input_tokens_seen": 18919912,
      "step": 28920
    },
    {
      "epoch": 15.15985324947589,
      "grad_norm": 0.2059503048658371,
      "learning_rate": 0.0001680806746958477,
      "loss": 0.4733,
      "num_input_tokens_seen": 18923656,
      "step": 28925
    },
    {
      "epoch": 15.162473794549266,
      "grad_norm": 0.16004228591918945,
      "learning_rate": 0.00016790968091370494,
      "loss": 0.245,
      "num_input_tokens_seen": 18926344,
      "step": 28930
    },
    {
      "epoch": 15.165094339622641,
      "grad_norm": 0.13071490824222565,
      "learning_rate": 0.00016773875660106824,
      "loss": 0.4099,
      "num_input_tokens_seen": 18929640,
      "step": 28935
    },
    {
      "epoch": 15.167714884696016,
      "grad_norm": 0.2181382179260254,
      "learning_rate": 0.0001675679017936928,
      "loss": 0.4423,
      "num_input_tokens_seen": 18932648,
      "step": 28940
    },
    {
      "epoch": 15.170335429769391,
      "grad_norm": 0.2370777428150177,
      "learning_rate": 0.00016739711652731976,
      "loss": 0.6591,
      "num_input_tokens_seen": 18936456,
      "step": 28945
    },
    {
      "epoch": 15.172955974842766,
      "grad_norm": 0.15195725858211517,
      "learning_rate": 0.00016722640083767542,
      "loss": 0.3195,
      "num_input_tokens_seen": 18938984,
      "step": 28950
    },
    {
      "epoch": 15.175576519916143,
      "grad_norm": 0.12500154972076416,
      "learning_rate": 0.00016705575476047153,
      "loss": 0.331,
      "num_input_tokens_seen": 18941896,
      "step": 28955
    },
    {
      "epoch": 15.178197064989519,
      "grad_norm": 0.10709628462791443,
      "learning_rate": 0.0001668851783314055,
      "loss": 0.4338,
      "num_input_tokens_seen": 18945704,
      "step": 28960
    },
    {
      "epoch": 15.180817610062894,
      "grad_norm": 0.21095994114875793,
      "learning_rate": 0.00016671467158615977,
      "loss": 0.2586,
      "num_input_tokens_seen": 18948392,
      "step": 28965
    },
    {
      "epoch": 15.183438155136269,
      "grad_norm": 0.0971195176243782,
      "learning_rate": 0.00016654423456040224,
      "loss": 0.3999,
      "num_input_tokens_seen": 18952264,
      "step": 28970
    },
    {
      "epoch": 15.186058700209644,
      "grad_norm": 0.14037996530532837,
      "learning_rate": 0.0001663738672897866,
      "loss": 0.4899,
      "num_input_tokens_seen": 18955144,
      "step": 28975
    },
    {
      "epoch": 15.18867924528302,
      "grad_norm": 0.19255906343460083,
      "learning_rate": 0.0001662035698099517,
      "loss": 0.4257,
      "num_input_tokens_seen": 18957992,
      "step": 28980
    },
    {
      "epoch": 15.191299790356394,
      "grad_norm": 0.15689624845981598,
      "learning_rate": 0.00016603334215652206,
      "loss": 0.4005,
      "num_input_tokens_seen": 18960552,
      "step": 28985
    },
    {
      "epoch": 15.19392033542977,
      "grad_norm": 0.17733612656593323,
      "learning_rate": 0.0001658631843651069,
      "loss": 0.4135,
      "num_input_tokens_seen": 18963816,
      "step": 28990
    },
    {
      "epoch": 15.196540880503145,
      "grad_norm": 0.3309617340564728,
      "learning_rate": 0.00016569309647130177,
      "loss": 0.5067,
      "num_input_tokens_seen": 18966088,
      "step": 28995
    },
    {
      "epoch": 15.19916142557652,
      "grad_norm": 0.16337884962558746,
      "learning_rate": 0.00016552307851068666,
      "loss": 0.3507,
      "num_input_tokens_seen": 18969544,
      "step": 29000
    },
    {
      "epoch": 15.201781970649895,
      "grad_norm": 0.1389542669057846,
      "learning_rate": 0.00016535313051882765,
      "loss": 0.4771,
      "num_input_tokens_seen": 18972840,
      "step": 29005
    },
    {
      "epoch": 15.20440251572327,
      "grad_norm": 0.18081270158290863,
      "learning_rate": 0.00016518325253127604,
      "loss": 0.5718,
      "num_input_tokens_seen": 18976712,
      "step": 29010
    },
    {
      "epoch": 15.207023060796645,
      "grad_norm": 0.2981778085231781,
      "learning_rate": 0.00016501344458356803,
      "loss": 0.4094,
      "num_input_tokens_seen": 18979336,
      "step": 29015
    },
    {
      "epoch": 15.20964360587002,
      "grad_norm": 0.14146138727664948,
      "learning_rate": 0.00016484370671122588,
      "loss": 0.4282,
      "num_input_tokens_seen": 18982664,
      "step": 29020
    },
    {
      "epoch": 15.212264150943396,
      "grad_norm": 0.1481674462556839,
      "learning_rate": 0.00016467403894975641,
      "loss": 0.4411,
      "num_input_tokens_seen": 18985832,
      "step": 29025
    },
    {
      "epoch": 15.214884696016771,
      "grad_norm": 0.11107640713453293,
      "learning_rate": 0.0001645044413346524,
      "loss": 0.5529,
      "num_input_tokens_seen": 18988680,
      "step": 29030
    },
    {
      "epoch": 15.217505241090146,
      "grad_norm": 0.13798463344573975,
      "learning_rate": 0.00016433491390139177,
      "loss": 0.4292,
      "num_input_tokens_seen": 18991592,
      "step": 29035
    },
    {
      "epoch": 15.220125786163521,
      "grad_norm": 0.19966858625411987,
      "learning_rate": 0.00016416545668543786,
      "loss": 0.4204,
      "num_input_tokens_seen": 18994536,
      "step": 29040
    },
    {
      "epoch": 15.222746331236896,
      "grad_norm": 0.09436532109975815,
      "learning_rate": 0.0001639960697222388,
      "loss": 0.3557,
      "num_input_tokens_seen": 18998312,
      "step": 29045
    },
    {
      "epoch": 15.225366876310272,
      "grad_norm": 0.10482325404882431,
      "learning_rate": 0.00016382675304722877,
      "loss": 0.4514,
      "num_input_tokens_seen": 19001416,
      "step": 29050
    },
    {
      "epoch": 15.227987421383649,
      "grad_norm": 0.12974150478839874,
      "learning_rate": 0.00016365750669582662,
      "loss": 0.4672,
      "num_input_tokens_seen": 19004648,
      "step": 29055
    },
    {
      "epoch": 15.230607966457024,
      "grad_norm": 0.12142135947942734,
      "learning_rate": 0.00016348833070343682,
      "loss": 0.4287,
      "num_input_tokens_seen": 19008360,
      "step": 29060
    },
    {
      "epoch": 15.233228511530399,
      "grad_norm": 0.14111892879009247,
      "learning_rate": 0.00016331922510544932,
      "loss": 0.4798,
      "num_input_tokens_seen": 19011368,
      "step": 29065
    },
    {
      "epoch": 15.235849056603774,
      "grad_norm": 0.12286531180143356,
      "learning_rate": 0.0001631501899372387,
      "loss": 0.4002,
      "num_input_tokens_seen": 19015368,
      "step": 29070
    },
    {
      "epoch": 15.23846960167715,
      "grad_norm": 0.11312366276979446,
      "learning_rate": 0.0001629812252341653,
      "loss": 0.478,
      "num_input_tokens_seen": 19019240,
      "step": 29075
    },
    {
      "epoch": 15.241090146750524,
      "grad_norm": 0.1545640528202057,
      "learning_rate": 0.0001628123310315749,
      "loss": 0.5839,
      "num_input_tokens_seen": 19022152,
      "step": 29080
    },
    {
      "epoch": 15.2437106918239,
      "grad_norm": 0.17482703924179077,
      "learning_rate": 0.00016264350736479777,
      "loss": 0.4083,
      "num_input_tokens_seen": 19025448,
      "step": 29085
    },
    {
      "epoch": 15.246331236897275,
      "grad_norm": 0.16073782742023468,
      "learning_rate": 0.00016247475426915038,
      "loss": 0.3716,
      "num_input_tokens_seen": 19029288,
      "step": 29090
    },
    {
      "epoch": 15.24895178197065,
      "grad_norm": 0.16322948038578033,
      "learning_rate": 0.0001623060717799335,
      "loss": 0.3802,
      "num_input_tokens_seen": 19032136,
      "step": 29095
    },
    {
      "epoch": 15.251572327044025,
      "grad_norm": 0.08778955042362213,
      "learning_rate": 0.0001621374599324338,
      "loss": 0.4564,
      "num_input_tokens_seen": 19035592,
      "step": 29100
    },
    {
      "epoch": 15.2541928721174,
      "grad_norm": 0.13915875554084778,
      "learning_rate": 0.00016196891876192292,
      "loss": 0.4008,
      "num_input_tokens_seen": 19039784,
      "step": 29105
    },
    {
      "epoch": 15.256813417190775,
      "grad_norm": 0.11960486322641373,
      "learning_rate": 0.00016180044830365798,
      "loss": 0.378,
      "num_input_tokens_seen": 19042856,
      "step": 29110
    },
    {
      "epoch": 15.25943396226415,
      "grad_norm": 0.18393060564994812,
      "learning_rate": 0.00016163204859288066,
      "loss": 0.3647,
      "num_input_tokens_seen": 19046152,
      "step": 29115
    },
    {
      "epoch": 15.262054507337526,
      "grad_norm": 0.15523554384708405,
      "learning_rate": 0.00016146371966481866,
      "loss": 0.3918,
      "num_input_tokens_seen": 19049416,
      "step": 29120
    },
    {
      "epoch": 15.264675052410901,
      "grad_norm": 0.15864424407482147,
      "learning_rate": 0.00016129546155468411,
      "loss": 0.5178,
      "num_input_tokens_seen": 19052680,
      "step": 29125
    },
    {
      "epoch": 15.267295597484276,
      "grad_norm": 0.18399250507354736,
      "learning_rate": 0.00016112727429767483,
      "loss": 0.3725,
      "num_input_tokens_seen": 19055560,
      "step": 29130
    },
    {
      "epoch": 15.269916142557651,
      "grad_norm": 0.16166703402996063,
      "learning_rate": 0.00016095915792897392,
      "loss": 0.4528,
      "num_input_tokens_seen": 19058696,
      "step": 29135
    },
    {
      "epoch": 15.272536687631026,
      "grad_norm": 0.15913213789463043,
      "learning_rate": 0.000160791112483749,
      "loss": 0.5369,
      "num_input_tokens_seen": 19062248,
      "step": 29140
    },
    {
      "epoch": 15.275157232704402,
      "grad_norm": 0.1374310404062271,
      "learning_rate": 0.00016062313799715362,
      "loss": 0.4683,
      "num_input_tokens_seen": 19065096,
      "step": 29145
    },
    {
      "epoch": 15.277777777777779,
      "grad_norm": 0.20374755561351776,
      "learning_rate": 0.00016045523450432576,
      "loss": 0.348,
      "num_input_tokens_seen": 19068392,
      "step": 29150
    },
    {
      "epoch": 15.280398322851154,
      "grad_norm": 0.16520956158638,
      "learning_rate": 0.0001602874020403891,
      "loss": 0.4362,
      "num_input_tokens_seen": 19070888,
      "step": 29155
    },
    {
      "epoch": 15.283018867924529,
      "grad_norm": 0.10509949922561646,
      "learning_rate": 0.00016011964064045232,
      "loss": 0.4232,
      "num_input_tokens_seen": 19074248,
      "step": 29160
    },
    {
      "epoch": 15.285639412997904,
      "grad_norm": 0.22653785347938538,
      "learning_rate": 0.00015995195033960936,
      "loss": 0.486,
      "num_input_tokens_seen": 19077736,
      "step": 29165
    },
    {
      "epoch": 15.28825995807128,
      "grad_norm": 0.19623307883739471,
      "learning_rate": 0.00015978433117293884,
      "loss": 0.4837,
      "num_input_tokens_seen": 19081640,
      "step": 29170
    },
    {
      "epoch": 15.290880503144654,
      "grad_norm": 0.16125115752220154,
      "learning_rate": 0.0001596167831755047,
      "loss": 0.5274,
      "num_input_tokens_seen": 19085384,
      "step": 29175
    },
    {
      "epoch": 15.29350104821803,
      "grad_norm": 0.12253497540950775,
      "learning_rate": 0.00015944930638235626,
      "loss": 0.352,
      "num_input_tokens_seen": 19088488,
      "step": 29180
    },
    {
      "epoch": 15.296121593291405,
      "grad_norm": 0.18557137250900269,
      "learning_rate": 0.00015928190082852773,
      "loss": 0.5441,
      "num_input_tokens_seen": 19092776,
      "step": 29185
    },
    {
      "epoch": 15.29874213836478,
      "grad_norm": 0.1309342086315155,
      "learning_rate": 0.0001591145665490384,
      "loss": 0.3371,
      "num_input_tokens_seen": 19095560,
      "step": 29190
    },
    {
      "epoch": 15.301362683438155,
      "grad_norm": 0.19260698556900024,
      "learning_rate": 0.00015894730357889287,
      "loss": 0.477,
      "num_input_tokens_seen": 19098824,
      "step": 29195
    },
    {
      "epoch": 15.30398322851153,
      "grad_norm": 0.11476338654756546,
      "learning_rate": 0.0001587801119530805,
      "loss": 0.4576,
      "num_input_tokens_seen": 19103208,
      "step": 29200
    },
    {
      "epoch": 15.306603773584905,
      "grad_norm": 0.18022732436656952,
      "learning_rate": 0.00015861299170657572,
      "loss": 0.5002,
      "num_input_tokens_seen": 19106088,
      "step": 29205
    },
    {
      "epoch": 15.30922431865828,
      "grad_norm": 0.18507491052150726,
      "learning_rate": 0.00015844594287433834,
      "loss": 0.5168,
      "num_input_tokens_seen": 19109256,
      "step": 29210
    },
    {
      "epoch": 15.311844863731656,
      "grad_norm": 0.24181027710437775,
      "learning_rate": 0.00015827896549131304,
      "loss": 0.3072,
      "num_input_tokens_seen": 19112296,
      "step": 29215
    },
    {
      "epoch": 15.314465408805031,
      "grad_norm": 0.12762990593910217,
      "learning_rate": 0.0001581120595924298,
      "loss": 0.4389,
      "num_input_tokens_seen": 19115816,
      "step": 29220
    },
    {
      "epoch": 15.317085953878406,
      "grad_norm": 0.07683194428682327,
      "learning_rate": 0.00015794522521260317,
      "loss": 0.4734,
      "num_input_tokens_seen": 19118632,
      "step": 29225
    },
    {
      "epoch": 15.319706498951781,
      "grad_norm": 0.15306439995765686,
      "learning_rate": 0.00015777846238673293,
      "loss": 0.3713,
      "num_input_tokens_seen": 19121608,
      "step": 29230
    },
    {
      "epoch": 15.322327044025156,
      "grad_norm": 0.10849226266145706,
      "learning_rate": 0.00015761177114970404,
      "loss": 0.4918,
      "num_input_tokens_seen": 19124904,
      "step": 29235
    },
    {
      "epoch": 15.324947589098532,
      "grad_norm": 0.11569691449403763,
      "learning_rate": 0.0001574451515363865,
      "loss": 0.4134,
      "num_input_tokens_seen": 19127944,
      "step": 29240
    },
    {
      "epoch": 15.327568134171909,
      "grad_norm": 0.17260852456092834,
      "learning_rate": 0.00015727860358163536,
      "loss": 0.3249,
      "num_input_tokens_seen": 19134344,
      "step": 29245
    },
    {
      "epoch": 15.330188679245284,
      "grad_norm": 0.17089511454105377,
      "learning_rate": 0.00015711212732029035,
      "loss": 0.3567,
      "num_input_tokens_seen": 19137192,
      "step": 29250
    },
    {
      "epoch": 15.332809224318659,
      "grad_norm": 0.27507689595222473,
      "learning_rate": 0.00015694572278717627,
      "loss": 0.4198,
      "num_input_tokens_seen": 19139816,
      "step": 29255
    },
    {
      "epoch": 15.335429769392034,
      "grad_norm": 0.14438356459140778,
      "learning_rate": 0.00015677939001710323,
      "loss": 0.3952,
      "num_input_tokens_seen": 19142504,
      "step": 29260
    },
    {
      "epoch": 15.33805031446541,
      "grad_norm": 0.10353969037532806,
      "learning_rate": 0.00015661312904486613,
      "loss": 0.3996,
      "num_input_tokens_seen": 19146920,
      "step": 29265
    },
    {
      "epoch": 15.340670859538784,
      "grad_norm": 0.16860151290893555,
      "learning_rate": 0.00015644693990524483,
      "loss": 0.3755,
      "num_input_tokens_seen": 19149448,
      "step": 29270
    },
    {
      "epoch": 15.34329140461216,
      "grad_norm": 0.14739449322223663,
      "learning_rate": 0.00015628082263300448,
      "loss": 0.3921,
      "num_input_tokens_seen": 19151848,
      "step": 29275
    },
    {
      "epoch": 15.345911949685535,
      "grad_norm": 0.1411217600107193,
      "learning_rate": 0.00015611477726289465,
      "loss": 0.4595,
      "num_input_tokens_seen": 19154600,
      "step": 29280
    },
    {
      "epoch": 15.34853249475891,
      "grad_norm": 0.16694225370883942,
      "learning_rate": 0.00015594880382964994,
      "loss": 0.3336,
      "num_input_tokens_seen": 19157128,
      "step": 29285
    },
    {
      "epoch": 15.351153039832285,
      "grad_norm": 0.13199777901172638,
      "learning_rate": 0.00015578290236799037,
      "loss": 0.4108,
      "num_input_tokens_seen": 19160072,
      "step": 29290
    },
    {
      "epoch": 15.35377358490566,
      "grad_norm": 0.14889711141586304,
      "learning_rate": 0.00015561707291262061,
      "loss": 0.3961,
      "num_input_tokens_seen": 19163624,
      "step": 29295
    },
    {
      "epoch": 15.356394129979035,
      "grad_norm": 0.09878917783498764,
      "learning_rate": 0.00015545131549823043,
      "loss": 0.4725,
      "num_input_tokens_seen": 19167432,
      "step": 29300
    },
    {
      "epoch": 15.35901467505241,
      "grad_norm": 0.24742339551448822,
      "learning_rate": 0.0001552856301594942,
      "loss": 0.4438,
      "num_input_tokens_seen": 19170408,
      "step": 29305
    },
    {
      "epoch": 15.361635220125786,
      "grad_norm": 0.11412252485752106,
      "learning_rate": 0.00015512001693107126,
      "loss": 0.4631,
      "num_input_tokens_seen": 19173384,
      "step": 29310
    },
    {
      "epoch": 15.364255765199161,
      "grad_norm": 0.14809271693229675,
      "learning_rate": 0.0001549544758476062,
      "loss": 0.6268,
      "num_input_tokens_seen": 19176264,
      "step": 29315
    },
    {
      "epoch": 15.366876310272536,
      "grad_norm": 0.15755149722099304,
      "learning_rate": 0.00015478900694372832,
      "loss": 0.5142,
      "num_input_tokens_seen": 19179304,
      "step": 29320
    },
    {
      "epoch": 15.369496855345911,
      "grad_norm": 0.13238824903964996,
      "learning_rate": 0.00015462361025405196,
      "loss": 0.3928,
      "num_input_tokens_seen": 19182376,
      "step": 29325
    },
    {
      "epoch": 15.372117400419286,
      "grad_norm": 0.16244015097618103,
      "learning_rate": 0.0001544582858131759,
      "loss": 0.397,
      "num_input_tokens_seen": 19185224,
      "step": 29330
    },
    {
      "epoch": 15.374737945492662,
      "grad_norm": 0.14036700129508972,
      "learning_rate": 0.00015429303365568448,
      "loss": 0.5688,
      "num_input_tokens_seen": 19188488,
      "step": 29335
    },
    {
      "epoch": 15.377358490566039,
      "grad_norm": 0.1322273463010788,
      "learning_rate": 0.00015412785381614625,
      "loss": 0.5188,
      "num_input_tokens_seen": 19191912,
      "step": 29340
    },
    {
      "epoch": 15.379979035639414,
      "grad_norm": 0.11078763008117676,
      "learning_rate": 0.000153962746329115,
      "loss": 0.4592,
      "num_input_tokens_seen": 19195336,
      "step": 29345
    },
    {
      "epoch": 15.382599580712789,
      "grad_norm": 0.1511296182870865,
      "learning_rate": 0.0001537977112291295,
      "loss": 0.3467,
      "num_input_tokens_seen": 19198184,
      "step": 29350
    },
    {
      "epoch": 15.385220125786164,
      "grad_norm": 0.14512304961681366,
      "learning_rate": 0.00015363274855071323,
      "loss": 0.3617,
      "num_input_tokens_seen": 19201000,
      "step": 29355
    },
    {
      "epoch": 15.38784067085954,
      "grad_norm": 0.12259076535701752,
      "learning_rate": 0.0001534678583283743,
      "loss": 0.3909,
      "num_input_tokens_seen": 19205032,
      "step": 29360
    },
    {
      "epoch": 15.390461215932914,
      "grad_norm": 0.1223948523402214,
      "learning_rate": 0.00015330304059660605,
      "loss": 0.3829,
      "num_input_tokens_seen": 19207624,
      "step": 29365
    },
    {
      "epoch": 15.39308176100629,
      "grad_norm": 0.2198983132839203,
      "learning_rate": 0.00015313829538988628,
      "loss": 0.5152,
      "num_input_tokens_seen": 19210984,
      "step": 29370
    },
    {
      "epoch": 15.395702306079665,
      "grad_norm": 0.17884992063045502,
      "learning_rate": 0.00015297362274267783,
      "loss": 0.4051,
      "num_input_tokens_seen": 19213480,
      "step": 29375
    },
    {
      "epoch": 15.39832285115304,
      "grad_norm": 0.12465623021125793,
      "learning_rate": 0.00015280902268942866,
      "loss": 0.3967,
      "num_input_tokens_seen": 19217640,
      "step": 29380
    },
    {
      "epoch": 15.400943396226415,
      "grad_norm": 0.14618661999702454,
      "learning_rate": 0.00015264449526457074,
      "loss": 0.427,
      "num_input_tokens_seen": 19220328,
      "step": 29385
    },
    {
      "epoch": 15.40356394129979,
      "grad_norm": 0.12334921211004257,
      "learning_rate": 0.00015248004050252178,
      "loss": 0.3763,
      "num_input_tokens_seen": 19224232,
      "step": 29390
    },
    {
      "epoch": 15.406184486373165,
      "grad_norm": 0.2238253802061081,
      "learning_rate": 0.00015231565843768348,
      "loss": 0.4703,
      "num_input_tokens_seen": 19226696,
      "step": 29395
    },
    {
      "epoch": 15.40880503144654,
      "grad_norm": 0.116902194917202,
      "learning_rate": 0.00015215134910444284,
      "loss": 0.5387,
      "num_input_tokens_seen": 19229608,
      "step": 29400
    },
    {
      "epoch": 15.411425576519916,
      "grad_norm": 0.1276780217885971,
      "learning_rate": 0.00015198711253717163,
      "loss": 0.4202,
      "num_input_tokens_seen": 19232488,
      "step": 29405
    },
    {
      "epoch": 15.414046121593291,
      "grad_norm": 0.13734722137451172,
      "learning_rate": 0.00015182294877022596,
      "loss": 0.3827,
      "num_input_tokens_seen": 19236424,
      "step": 29410
    },
    {
      "epoch": 15.416666666666666,
      "grad_norm": 0.14665527641773224,
      "learning_rate": 0.00015165885783794726,
      "loss": 0.5371,
      "num_input_tokens_seen": 19239592,
      "step": 29415
    },
    {
      "epoch": 15.419287211740041,
      "grad_norm": 0.1353766918182373,
      "learning_rate": 0.0001514948397746615,
      "loss": 0.4236,
      "num_input_tokens_seen": 19242312,
      "step": 29420
    },
    {
      "epoch": 15.421907756813416,
      "grad_norm": 0.14223626255989075,
      "learning_rate": 0.0001513308946146792,
      "loss": 0.3748,
      "num_input_tokens_seen": 19245256,
      "step": 29425
    },
    {
      "epoch": 15.424528301886792,
      "grad_norm": 0.10097339004278183,
      "learning_rate": 0.0001511670223922959,
      "loss": 0.3593,
      "num_input_tokens_seen": 19248296,
      "step": 29430
    },
    {
      "epoch": 15.427148846960169,
      "grad_norm": 0.15630042552947998,
      "learning_rate": 0.000151003223141792,
      "loss": 0.4691,
      "num_input_tokens_seen": 19252264,
      "step": 29435
    },
    {
      "epoch": 15.429769392033544,
      "grad_norm": 0.2872307002544403,
      "learning_rate": 0.00015083949689743202,
      "loss": 0.4593,
      "num_input_tokens_seen": 19255016,
      "step": 29440
    },
    {
      "epoch": 15.432389937106919,
      "grad_norm": 0.09840697795152664,
      "learning_rate": 0.00015067584369346594,
      "loss": 0.494,
      "num_input_tokens_seen": 19259624,
      "step": 29445
    },
    {
      "epoch": 15.435010482180294,
      "grad_norm": 0.15495723485946655,
      "learning_rate": 0.00015051226356412818,
      "loss": 0.479,
      "num_input_tokens_seen": 19263336,
      "step": 29450
    },
    {
      "epoch": 15.43763102725367,
      "grad_norm": 0.08622747659683228,
      "learning_rate": 0.00015034875654363754,
      "loss": 0.3933,
      "num_input_tokens_seen": 19267688,
      "step": 29455
    },
    {
      "epoch": 15.440251572327044,
      "grad_norm": 0.1486213207244873,
      "learning_rate": 0.00015018532266619818,
      "loss": 0.3227,
      "num_input_tokens_seen": 19270408,
      "step": 29460
    },
    {
      "epoch": 15.44287211740042,
      "grad_norm": 0.17546521127223969,
      "learning_rate": 0.00015002196196599828,
      "loss": 0.343,
      "num_input_tokens_seen": 19273672,
      "step": 29465
    },
    {
      "epoch": 15.445492662473795,
      "grad_norm": 0.15298163890838623,
      "learning_rate": 0.00014985867447721114,
      "loss": 0.3792,
      "num_input_tokens_seen": 19276744,
      "step": 29470
    },
    {
      "epoch": 15.44811320754717,
      "grad_norm": 0.10873766243457794,
      "learning_rate": 0.00014969546023399467,
      "loss": 0.4337,
      "num_input_tokens_seen": 19279880,
      "step": 29475
    },
    {
      "epoch": 15.450733752620545,
      "grad_norm": 0.20155785977840424,
      "learning_rate": 0.00014953231927049165,
      "loss": 0.3646,
      "num_input_tokens_seen": 19282376,
      "step": 29480
    },
    {
      "epoch": 15.45335429769392,
      "grad_norm": 0.17014989256858826,
      "learning_rate": 0.00014936925162082904,
      "loss": 0.5379,
      "num_input_tokens_seen": 19285000,
      "step": 29485
    },
    {
      "epoch": 15.455974842767295,
      "grad_norm": 0.13330791890621185,
      "learning_rate": 0.00014920625731911863,
      "loss": 0.5478,
      "num_input_tokens_seen": 19288264,
      "step": 29490
    },
    {
      "epoch": 15.45859538784067,
      "grad_norm": 0.09888319671154022,
      "learning_rate": 0.00014904333639945716,
      "loss": 0.3953,
      "num_input_tokens_seen": 19291176,
      "step": 29495
    },
    {
      "epoch": 15.461215932914046,
      "grad_norm": 0.14767217636108398,
      "learning_rate": 0.00014888048889592575,
      "loss": 0.4355,
      "num_input_tokens_seen": 19294408,
      "step": 29500
    },
    {
      "epoch": 15.463836477987421,
      "grad_norm": 0.1543312817811966,
      "learning_rate": 0.00014871771484259046,
      "loss": 0.3786,
      "num_input_tokens_seen": 19297512,
      "step": 29505
    },
    {
      "epoch": 15.466457023060796,
      "grad_norm": 0.1144639104604721,
      "learning_rate": 0.00014855501427350144,
      "loss": 0.4881,
      "num_input_tokens_seen": 19300456,
      "step": 29510
    },
    {
      "epoch": 15.469077568134171,
      "grad_norm": 0.11430632323026657,
      "learning_rate": 0.00014839238722269405,
      "loss": 0.4728,
      "num_input_tokens_seen": 19303144,
      "step": 29515
    },
    {
      "epoch": 15.471698113207546,
      "grad_norm": 0.17614465951919556,
      "learning_rate": 0.00014822983372418774,
      "loss": 0.3506,
      "num_input_tokens_seen": 19306344,
      "step": 29520
    },
    {
      "epoch": 15.474318658280922,
      "grad_norm": 0.0902094617486,
      "learning_rate": 0.00014806735381198705,
      "loss": 0.452,
      "num_input_tokens_seen": 19309736,
      "step": 29525
    },
    {
      "epoch": 15.476939203354299,
      "grad_norm": 0.3195399343967438,
      "learning_rate": 0.00014790494752008087,
      "loss": 0.4183,
      "num_input_tokens_seen": 19312264,
      "step": 29530
    },
    {
      "epoch": 15.479559748427674,
      "grad_norm": 0.19458584487438202,
      "learning_rate": 0.00014774261488244295,
      "loss": 0.4606,
      "num_input_tokens_seen": 19315720,
      "step": 29535
    },
    {
      "epoch": 15.482180293501049,
      "grad_norm": 0.15493854880332947,
      "learning_rate": 0.00014758035593303114,
      "loss": 0.4189,
      "num_input_tokens_seen": 19318984,
      "step": 29540
    },
    {
      "epoch": 15.484800838574424,
      "grad_norm": 0.1459631770849228,
      "learning_rate": 0.00014741817070578817,
      "loss": 0.3423,
      "num_input_tokens_seen": 19323624,
      "step": 29545
    },
    {
      "epoch": 15.4874213836478,
      "grad_norm": 0.2112332284450531,
      "learning_rate": 0.0001472560592346414,
      "loss": 0.5562,
      "num_input_tokens_seen": 19326056,
      "step": 29550
    },
    {
      "epoch": 15.490041928721174,
      "grad_norm": 0.11422337591648102,
      "learning_rate": 0.0001470940215535027,
      "loss": 0.4841,
      "num_input_tokens_seen": 19329352,
      "step": 29555
    },
    {
      "epoch": 15.49266247379455,
      "grad_norm": 0.24198491871356964,
      "learning_rate": 0.00014693205769626878,
      "loss": 0.4395,
      "num_input_tokens_seen": 19332104,
      "step": 29560
    },
    {
      "epoch": 15.495283018867925,
      "grad_norm": 0.2333087921142578,
      "learning_rate": 0.00014677016769682028,
      "loss": 0.5085,
      "num_input_tokens_seen": 19335752,
      "step": 29565
    },
    {
      "epoch": 15.4979035639413,
      "grad_norm": 0.2214462012052536,
      "learning_rate": 0.00014660835158902268,
      "loss": 0.4964,
      "num_input_tokens_seen": 19338952,
      "step": 29570
    },
    {
      "epoch": 15.500524109014675,
      "grad_norm": 0.09104004502296448,
      "learning_rate": 0.00014644660940672628,
      "loss": 0.3884,
      "num_input_tokens_seen": 19344008,
      "step": 29575
    },
    {
      "epoch": 15.50314465408805,
      "grad_norm": 0.15926839411258698,
      "learning_rate": 0.0001462849411837656,
      "loss": 0.4586,
      "num_input_tokens_seen": 19347368,
      "step": 29580
    },
    {
      "epoch": 15.505765199161425,
      "grad_norm": 0.17921967804431915,
      "learning_rate": 0.00014612334695395985,
      "loss": 0.4093,
      "num_input_tokens_seen": 19351656,
      "step": 29585
    },
    {
      "epoch": 15.5083857442348,
      "grad_norm": 0.16752858459949493,
      "learning_rate": 0.0001459618267511128,
      "loss": 0.4276,
      "num_input_tokens_seen": 19354664,
      "step": 29590
    },
    {
      "epoch": 15.511006289308176,
      "grad_norm": 0.10437793284654617,
      "learning_rate": 0.00014580038060901256,
      "loss": 0.4855,
      "num_input_tokens_seen": 19358376,
      "step": 29595
    },
    {
      "epoch": 15.51362683438155,
      "grad_norm": 0.13808344304561615,
      "learning_rate": 0.00014563900856143157,
      "loss": 0.3087,
      "num_input_tokens_seen": 19361736,
      "step": 29600
    },
    {
      "epoch": 15.516247379454926,
      "grad_norm": 0.1336425244808197,
      "learning_rate": 0.0001454777106421273,
      "loss": 0.6359,
      "num_input_tokens_seen": 19364168,
      "step": 29605
    },
    {
      "epoch": 15.518867924528301,
      "grad_norm": 0.1439984142780304,
      "learning_rate": 0.00014531648688484127,
      "loss": 0.5131,
      "num_input_tokens_seen": 19367624,
      "step": 29610
    },
    {
      "epoch": 15.521488469601676,
      "grad_norm": 0.10810890793800354,
      "learning_rate": 0.0001451553373233,
      "loss": 0.423,
      "num_input_tokens_seen": 19371080,
      "step": 29615
    },
    {
      "epoch": 15.524109014675052,
      "grad_norm": 0.1757728010416031,
      "learning_rate": 0.00014499426199121379,
      "loss": 0.5361,
      "num_input_tokens_seen": 19373672,
      "step": 29620
    },
    {
      "epoch": 15.526729559748428,
      "grad_norm": 0.12182746082544327,
      "learning_rate": 0.0001448332609222777,
      "loss": 0.351,
      "num_input_tokens_seen": 19376808,
      "step": 29625
    },
    {
      "epoch": 15.529350104821804,
      "grad_norm": 0.12714791297912598,
      "learning_rate": 0.0001446723341501715,
      "loss": 0.4369,
      "num_input_tokens_seen": 19379656,
      "step": 29630
    },
    {
      "epoch": 15.531970649895179,
      "grad_norm": 0.13485018908977509,
      "learning_rate": 0.00014451148170855922,
      "loss": 0.3104,
      "num_input_tokens_seen": 19382120,
      "step": 29635
    },
    {
      "epoch": 15.534591194968554,
      "grad_norm": 0.09741346538066864,
      "learning_rate": 0.0001443507036310895,
      "loss": 0.309,
      "num_input_tokens_seen": 19388232,
      "step": 29640
    },
    {
      "epoch": 15.53721174004193,
      "grad_norm": 0.11397524178028107,
      "learning_rate": 0.00014418999995139493,
      "loss": 0.4081,
      "num_input_tokens_seen": 19392648,
      "step": 29645
    },
    {
      "epoch": 15.539832285115304,
      "grad_norm": 0.08886514604091644,
      "learning_rate": 0.00014402937070309325,
      "loss": 0.4063,
      "num_input_tokens_seen": 19395880,
      "step": 29650
    },
    {
      "epoch": 15.54245283018868,
      "grad_norm": 0.12175378948450089,
      "learning_rate": 0.0001438688159197859,
      "loss": 0.4956,
      "num_input_tokens_seen": 19398824,
      "step": 29655
    },
    {
      "epoch": 15.545073375262055,
      "grad_norm": 0.20396743714809418,
      "learning_rate": 0.0001437083356350593,
      "loss": 0.3709,
      "num_input_tokens_seen": 19402344,
      "step": 29660
    },
    {
      "epoch": 15.54769392033543,
      "grad_norm": 0.12748445570468903,
      "learning_rate": 0.0001435479298824841,
      "loss": 0.5018,
      "num_input_tokens_seen": 19405800,
      "step": 29665
    },
    {
      "epoch": 15.550314465408805,
      "grad_norm": 0.1654512733221054,
      "learning_rate": 0.00014338759869561557,
      "loss": 0.413,
      "num_input_tokens_seen": 19410472,
      "step": 29670
    },
    {
      "epoch": 15.55293501048218,
      "grad_norm": 0.1195351704955101,
      "learning_rate": 0.00014322734210799287,
      "loss": 0.322,
      "num_input_tokens_seen": 19413448,
      "step": 29675
    },
    {
      "epoch": 15.555555555555555,
      "grad_norm": 0.2962363064289093,
      "learning_rate": 0.0001430671601531398,
      "loss": 0.4112,
      "num_input_tokens_seen": 19416104,
      "step": 29680
    },
    {
      "epoch": 15.55817610062893,
      "grad_norm": 0.11548196524381638,
      "learning_rate": 0.00014290705286456473,
      "loss": 0.2887,
      "num_input_tokens_seen": 19418536,
      "step": 29685
    },
    {
      "epoch": 15.560796645702306,
      "grad_norm": 0.11868464946746826,
      "learning_rate": 0.00014274702027576024,
      "loss": 0.2854,
      "num_input_tokens_seen": 19421288,
      "step": 29690
    },
    {
      "epoch": 15.56341719077568,
      "grad_norm": 0.16729633510112762,
      "learning_rate": 0.00014258706242020354,
      "loss": 0.4984,
      "num_input_tokens_seen": 19424040,
      "step": 29695
    },
    {
      "epoch": 15.566037735849056,
      "grad_norm": 0.11855021119117737,
      "learning_rate": 0.00014242717933135558,
      "loss": 0.4357,
      "num_input_tokens_seen": 19431336,
      "step": 29700
    },
    {
      "epoch": 15.568658280922431,
      "grad_norm": 0.24008531868457794,
      "learning_rate": 0.0001422673710426625,
      "loss": 0.492,
      "num_input_tokens_seen": 19434184,
      "step": 29705
    },
    {
      "epoch": 15.571278825995806,
      "grad_norm": 0.10657232254743576,
      "learning_rate": 0.00014210763758755403,
      "loss": 0.3062,
      "num_input_tokens_seen": 19437960,
      "step": 29710
    },
    {
      "epoch": 15.573899371069182,
      "grad_norm": 0.155394047498703,
      "learning_rate": 0.00014194797899944468,
      "loss": 0.494,
      "num_input_tokens_seen": 19441416,
      "step": 29715
    },
    {
      "epoch": 15.576519916142558,
      "grad_norm": 0.07990753650665283,
      "learning_rate": 0.00014178839531173344,
      "loss": 0.3928,
      "num_input_tokens_seen": 19444712,
      "step": 29720
    },
    {
      "epoch": 15.579140461215934,
      "grad_norm": 0.13817229866981506,
      "learning_rate": 0.00014162888655780303,
      "loss": 0.4646,
      "num_input_tokens_seen": 19448584,
      "step": 29725
    },
    {
      "epoch": 15.581761006289309,
      "grad_norm": 0.13355392217636108,
      "learning_rate": 0.00014146945277102108,
      "loss": 0.3347,
      "num_input_tokens_seen": 19451048,
      "step": 29730
    },
    {
      "epoch": 15.584381551362684,
      "grad_norm": 0.11621405929327011,
      "learning_rate": 0.00014131009398473938,
      "loss": 0.4192,
      "num_input_tokens_seen": 19454088,
      "step": 29735
    },
    {
      "epoch": 15.58700209643606,
      "grad_norm": 0.1020820140838623,
      "learning_rate": 0.00014115081023229376,
      "loss": 0.4122,
      "num_input_tokens_seen": 19457832,
      "step": 29740
    },
    {
      "epoch": 15.589622641509434,
      "grad_norm": 0.10370007902383804,
      "learning_rate": 0.00014099160154700462,
      "loss": 0.376,
      "num_input_tokens_seen": 19460968,
      "step": 29745
    },
    {
      "epoch": 15.59224318658281,
      "grad_norm": 0.11941026896238327,
      "learning_rate": 0.00014083246796217684,
      "loss": 0.5321,
      "num_input_tokens_seen": 19463880,
      "step": 29750
    },
    {
      "epoch": 15.594863731656185,
      "grad_norm": 0.27156156301498413,
      "learning_rate": 0.00014067340951109898,
      "loss": 0.3872,
      "num_input_tokens_seen": 19467624,
      "step": 29755
    },
    {
      "epoch": 15.59748427672956,
      "grad_norm": 0.15227720141410828,
      "learning_rate": 0.00014051442622704447,
      "loss": 0.3143,
      "num_input_tokens_seen": 19472328,
      "step": 29760
    },
    {
      "epoch": 15.600104821802935,
      "grad_norm": 0.17257994413375854,
      "learning_rate": 0.0001403555181432709,
      "loss": 0.4843,
      "num_input_tokens_seen": 19475336,
      "step": 29765
    },
    {
      "epoch": 15.60272536687631,
      "grad_norm": 0.18518570065498352,
      "learning_rate": 0.00014019668529301977,
      "loss": 0.4337,
      "num_input_tokens_seen": 19477800,
      "step": 29770
    },
    {
      "epoch": 15.605345911949685,
      "grad_norm": 0.10203363001346588,
      "learning_rate": 0.00014003792770951733,
      "loss": 0.2708,
      "num_input_tokens_seen": 19480968,
      "step": 29775
    },
    {
      "epoch": 15.60796645702306,
      "grad_norm": 0.14866404235363007,
      "learning_rate": 0.00013987924542597363,
      "loss": 0.4769,
      "num_input_tokens_seen": 19484488,
      "step": 29780
    },
    {
      "epoch": 15.610587002096436,
      "grad_norm": 0.15629705786705017,
      "learning_rate": 0.0001397206384755833,
      "loss": 0.6988,
      "num_input_tokens_seen": 19486952,
      "step": 29785
    },
    {
      "epoch": 15.61320754716981,
      "grad_norm": 0.22909869253635406,
      "learning_rate": 0.00013956210689152526,
      "loss": 0.3664,
      "num_input_tokens_seen": 19489768,
      "step": 29790
    },
    {
      "epoch": 15.615828092243186,
      "grad_norm": 0.10828538239002228,
      "learning_rate": 0.0001394036507069622,
      "loss": 0.3289,
      "num_input_tokens_seen": 19494088,
      "step": 29795
    },
    {
      "epoch": 15.618448637316561,
      "grad_norm": 0.1699960082769394,
      "learning_rate": 0.00013924526995504172,
      "loss": 0.4509,
      "num_input_tokens_seen": 19497128,
      "step": 29800
    },
    {
      "epoch": 15.621069182389936,
      "grad_norm": 0.16431377828121185,
      "learning_rate": 0.00013908696466889486,
      "loss": 0.4063,
      "num_input_tokens_seen": 19500776,
      "step": 29805
    },
    {
      "epoch": 15.623689727463312,
      "grad_norm": 0.20095759630203247,
      "learning_rate": 0.0001389287348816375,
      "loss": 0.5427,
      "num_input_tokens_seen": 19504104,
      "step": 29810
    },
    {
      "epoch": 15.626310272536688,
      "grad_norm": 0.11046794801950455,
      "learning_rate": 0.00013877058062636944,
      "loss": 0.3433,
      "num_input_tokens_seen": 19506664,
      "step": 29815
    },
    {
      "epoch": 15.628930817610064,
      "grad_norm": 0.13328199088573456,
      "learning_rate": 0.00013861250193617498,
      "loss": 0.5039,
      "num_input_tokens_seen": 19509800,
      "step": 29820
    },
    {
      "epoch": 15.631551362683439,
      "grad_norm": 0.15102499723434448,
      "learning_rate": 0.00013845449884412203,
      "loss": 0.3649,
      "num_input_tokens_seen": 19513064,
      "step": 29825
    },
    {
      "epoch": 15.634171907756814,
      "grad_norm": 0.19915355741977692,
      "learning_rate": 0.00013829657138326334,
      "loss": 0.6179,
      "num_input_tokens_seen": 19515784,
      "step": 29830
    },
    {
      "epoch": 15.63679245283019,
      "grad_norm": 0.10497032105922699,
      "learning_rate": 0.00013813871958663526,
      "loss": 0.3695,
      "num_input_tokens_seen": 19519880,
      "step": 29835
    },
    {
      "epoch": 15.639412997903564,
      "grad_norm": 0.16968564689159393,
      "learning_rate": 0.0001379809434872587,
      "loss": 0.4986,
      "num_input_tokens_seen": 19522376,
      "step": 29840
    },
    {
      "epoch": 15.64203354297694,
      "grad_norm": 0.187554270029068,
      "learning_rate": 0.0001378232431181386,
      "loss": 0.3692,
      "num_input_tokens_seen": 19525288,
      "step": 29845
    },
    {
      "epoch": 15.644654088050315,
      "grad_norm": 0.15245212614536285,
      "learning_rate": 0.00013766561851226428,
      "loss": 0.4733,
      "num_input_tokens_seen": 19528264,
      "step": 29850
    },
    {
      "epoch": 15.64727463312369,
      "grad_norm": 0.1886521279811859,
      "learning_rate": 0.00013750806970260886,
      "loss": 0.3979,
      "num_input_tokens_seen": 19531496,
      "step": 29855
    },
    {
      "epoch": 15.649895178197065,
      "grad_norm": 0.17699472606182098,
      "learning_rate": 0.00013735059672212959,
      "loss": 0.3253,
      "num_input_tokens_seen": 19535048,
      "step": 29860
    },
    {
      "epoch": 15.65251572327044,
      "grad_norm": 0.14172644913196564,
      "learning_rate": 0.00013719319960376808,
      "loss": 0.425,
      "num_input_tokens_seen": 19537768,
      "step": 29865
    },
    {
      "epoch": 15.655136268343815,
      "grad_norm": 0.15869392454624176,
      "learning_rate": 0.00013703587838045017,
      "loss": 0.3173,
      "num_input_tokens_seen": 19541032,
      "step": 29870
    },
    {
      "epoch": 15.65775681341719,
      "grad_norm": 0.2122812122106552,
      "learning_rate": 0.00013687863308508568,
      "loss": 0.404,
      "num_input_tokens_seen": 19544712,
      "step": 29875
    },
    {
      "epoch": 15.660377358490566,
      "grad_norm": 0.12038315087556839,
      "learning_rate": 0.00013672146375056849,
      "loss": 0.3859,
      "num_input_tokens_seen": 19548840,
      "step": 29880
    },
    {
      "epoch": 15.66299790356394,
      "grad_norm": 0.22329045832157135,
      "learning_rate": 0.00013656437040977643,
      "loss": 0.498,
      "num_input_tokens_seen": 19552168,
      "step": 29885
    },
    {
      "epoch": 15.665618448637316,
      "grad_norm": 0.1575671136379242,
      "learning_rate": 0.00013640735309557178,
      "loss": 0.3412,
      "num_input_tokens_seen": 19555912,
      "step": 29890
    },
    {
      "epoch": 15.668238993710691,
      "grad_norm": 0.131344735622406,
      "learning_rate": 0.00013625041184080078,
      "loss": 0.5238,
      "num_input_tokens_seen": 19558984,
      "step": 29895
    },
    {
      "epoch": 15.670859538784066,
      "grad_norm": 0.1295524388551712,
      "learning_rate": 0.00013609354667829378,
      "loss": 0.349,
      "num_input_tokens_seen": 19561672,
      "step": 29900
    },
    {
      "epoch": 15.673480083857442,
      "grad_norm": 0.14539304375648499,
      "learning_rate": 0.00013593675764086521,
      "loss": 0.408,
      "num_input_tokens_seen": 19564520,
      "step": 29905
    },
    {
      "epoch": 15.676100628930818,
      "grad_norm": 0.10278733819723129,
      "learning_rate": 0.00013578004476131356,
      "loss": 0.32,
      "num_input_tokens_seen": 19567240,
      "step": 29910
    },
    {
      "epoch": 15.678721174004194,
      "grad_norm": 0.1257920265197754,
      "learning_rate": 0.00013562340807242112,
      "loss": 0.3022,
      "num_input_tokens_seen": 19570792,
      "step": 29915
    },
    {
      "epoch": 15.681341719077569,
      "grad_norm": 0.11622484028339386,
      "learning_rate": 0.00013546684760695472,
      "loss": 0.4518,
      "num_input_tokens_seen": 19574376,
      "step": 29920
    },
    {
      "epoch": 15.683962264150944,
      "grad_norm": 0.14543569087982178,
      "learning_rate": 0.00013531036339766494,
      "loss": 0.3185,
      "num_input_tokens_seen": 19578088,
      "step": 29925
    },
    {
      "epoch": 15.68658280922432,
      "grad_norm": 0.18131446838378906,
      "learning_rate": 0.00013515395547728675,
      "loss": 0.5677,
      "num_input_tokens_seen": 19581224,
      "step": 29930
    },
    {
      "epoch": 15.689203354297694,
      "grad_norm": 0.21594886481761932,
      "learning_rate": 0.00013499762387853866,
      "loss": 0.3886,
      "num_input_tokens_seen": 19583784,
      "step": 29935
    },
    {
      "epoch": 15.69182389937107,
      "grad_norm": 0.17048893868923187,
      "learning_rate": 0.00013484136863412333,
      "loss": 0.3612,
      "num_input_tokens_seen": 19586184,
      "step": 29940
    },
    {
      "epoch": 15.694444444444445,
      "grad_norm": 0.20791824162006378,
      "learning_rate": 0.00013468518977672773,
      "loss": 0.4985,
      "num_input_tokens_seen": 19588200,
      "step": 29945
    },
    {
      "epoch": 15.69706498951782,
      "grad_norm": 0.21774014830589294,
      "learning_rate": 0.0001345290873390227,
      "loss": 0.3958,
      "num_input_tokens_seen": 19591240,
      "step": 29950
    },
    {
      "epoch": 15.699685534591195,
      "grad_norm": 0.12864544987678528,
      "learning_rate": 0.00013437306135366322,
      "loss": 0.4554,
      "num_input_tokens_seen": 19596168,
      "step": 29955
    },
    {
      "epoch": 15.70230607966457,
      "grad_norm": 0.11931167542934418,
      "learning_rate": 0.00013421711185328806,
      "loss": 0.3606,
      "num_input_tokens_seen": 19599880,
      "step": 29960
    },
    {
      "epoch": 15.704926624737945,
      "grad_norm": 0.11133573949337006,
      "learning_rate": 0.00013406123887051984,
      "loss": 0.4115,
      "num_input_tokens_seen": 19603176,
      "step": 29965
    },
    {
      "epoch": 15.70754716981132,
      "grad_norm": 0.165050208568573,
      "learning_rate": 0.0001339054424379656,
      "loss": 0.4406,
      "num_input_tokens_seen": 19606344,
      "step": 29970
    },
    {
      "epoch": 15.710167714884696,
      "grad_norm": 0.171214297413826,
      "learning_rate": 0.00013374972258821621,
      "loss": 0.5019,
      "num_input_tokens_seen": 19609192,
      "step": 29975
    },
    {
      "epoch": 15.71278825995807,
      "grad_norm": 0.13847553730010986,
      "learning_rate": 0.00013359407935384642,
      "loss": 0.4333,
      "num_input_tokens_seen": 19612744,
      "step": 29980
    },
    {
      "epoch": 15.715408805031446,
      "grad_norm": 0.14138144254684448,
      "learning_rate": 0.0001334385127674152,
      "loss": 0.3967,
      "num_input_tokens_seen": 19615784,
      "step": 29985
    },
    {
      "epoch": 15.718029350104821,
      "grad_norm": 0.12062080204486847,
      "learning_rate": 0.00013328302286146515,
      "loss": 0.3979,
      "num_input_tokens_seen": 19619176,
      "step": 29990
    },
    {
      "epoch": 15.720649895178196,
      "grad_norm": 0.2784736454486847,
      "learning_rate": 0.00013312760966852283,
      "loss": 0.5771,
      "num_input_tokens_seen": 19622632,
      "step": 29995
    },
    {
      "epoch": 15.723270440251572,
      "grad_norm": 0.2317761480808258,
      "learning_rate": 0.00013297227322109912,
      "loss": 0.5592,
      "num_input_tokens_seen": 19625320,
      "step": 30000
    },
    {
      "epoch": 15.725890985324948,
      "grad_norm": 0.1743578016757965,
      "learning_rate": 0.00013281701355168852,
      "loss": 0.457,
      "num_input_tokens_seen": 19629480,
      "step": 30005
    },
    {
      "epoch": 15.728511530398324,
      "grad_norm": 0.12595734000205994,
      "learning_rate": 0.00013266183069276982,
      "loss": 0.3904,
      "num_input_tokens_seen": 19632296,
      "step": 30010
    },
    {
      "epoch": 15.731132075471699,
      "grad_norm": 0.15887296199798584,
      "learning_rate": 0.00013250672467680514,
      "loss": 0.5052,
      "num_input_tokens_seen": 19635432,
      "step": 30015
    },
    {
      "epoch": 15.733752620545074,
      "grad_norm": 0.14504602551460266,
      "learning_rate": 0.00013235169553624127,
      "loss": 0.3935,
      "num_input_tokens_seen": 19639176,
      "step": 30020
    },
    {
      "epoch": 15.73637316561845,
      "grad_norm": 0.15995728969573975,
      "learning_rate": 0.00013219674330350816,
      "loss": 0.3905,
      "num_input_tokens_seen": 19642376,
      "step": 30025
    },
    {
      "epoch": 15.738993710691824,
      "grad_norm": 0.11571988463401794,
      "learning_rate": 0.00013204186801102024,
      "loss": 0.5783,
      "num_input_tokens_seen": 19645224,
      "step": 30030
    },
    {
      "epoch": 15.7416142557652,
      "grad_norm": 0.11707285046577454,
      "learning_rate": 0.0001318870696911758,
      "loss": 0.6087,
      "num_input_tokens_seen": 19648104,
      "step": 30035
    },
    {
      "epoch": 15.744234800838575,
      "grad_norm": 0.20853666961193085,
      "learning_rate": 0.00013173234837635656,
      "loss": 0.4,
      "num_input_tokens_seen": 19651912,
      "step": 30040
    },
    {
      "epoch": 15.74685534591195,
      "grad_norm": 0.2408110648393631,
      "learning_rate": 0.00013157770409892878,
      "loss": 0.4524,
      "num_input_tokens_seen": 19654856,
      "step": 30045
    },
    {
      "epoch": 15.749475890985325,
      "grad_norm": 0.2888486683368683,
      "learning_rate": 0.00013142313689124197,
      "loss": 0.6884,
      "num_input_tokens_seen": 19657640,
      "step": 30050
    },
    {
      "epoch": 15.7520964360587,
      "grad_norm": 0.12816517055034637,
      "learning_rate": 0.00013126864678562994,
      "loss": 0.3323,
      "num_input_tokens_seen": 19661704,
      "step": 30055
    },
    {
      "epoch": 15.754716981132075,
      "grad_norm": 0.12932203710079193,
      "learning_rate": 0.00013111423381441034,
      "loss": 0.35,
      "num_input_tokens_seen": 19664808,
      "step": 30060
    },
    {
      "epoch": 15.75733752620545,
      "grad_norm": 0.13888855278491974,
      "learning_rate": 0.00013095989800988468,
      "loss": 0.326,
      "num_input_tokens_seen": 19668264,
      "step": 30065
    },
    {
      "epoch": 15.759958071278826,
      "grad_norm": 0.16295307874679565,
      "learning_rate": 0.000130805639404338,
      "loss": 0.3955,
      "num_input_tokens_seen": 19671176,
      "step": 30070
    },
    {
      "epoch": 15.7625786163522,
      "grad_norm": 0.17848193645477295,
      "learning_rate": 0.0001306514580300397,
      "loss": 0.5173,
      "num_input_tokens_seen": 19674504,
      "step": 30075
    },
    {
      "epoch": 15.765199161425576,
      "grad_norm": 0.1435369849205017,
      "learning_rate": 0.00013049735391924244,
      "loss": 0.3484,
      "num_input_tokens_seen": 19677864,
      "step": 30080
    },
    {
      "epoch": 15.767819706498951,
      "grad_norm": 0.24542468786239624,
      "learning_rate": 0.00013034332710418328,
      "loss": 0.4948,
      "num_input_tokens_seen": 19680680,
      "step": 30085
    },
    {
      "epoch": 15.770440251572326,
      "grad_norm": 0.09211727231740952,
      "learning_rate": 0.00013018937761708298,
      "loss": 0.4226,
      "num_input_tokens_seen": 19685096,
      "step": 30090
    },
    {
      "epoch": 15.773060796645701,
      "grad_norm": 0.15604723989963531,
      "learning_rate": 0.0001300355054901457,
      "loss": 0.3515,
      "num_input_tokens_seen": 19688968,
      "step": 30095
    },
    {
      "epoch": 15.775681341719078,
      "grad_norm": 0.1500299572944641,
      "learning_rate": 0.0001298817107555599,
      "loss": 0.401,
      "num_input_tokens_seen": 19691528,
      "step": 30100
    },
    {
      "epoch": 15.778301886792454,
      "grad_norm": 0.12175451964139938,
      "learning_rate": 0.0001297279934454978,
      "loss": 0.4165,
      "num_input_tokens_seen": 19694344,
      "step": 30105
    },
    {
      "epoch": 15.780922431865829,
      "grad_norm": 0.14954452216625214,
      "learning_rate": 0.000129574353592115,
      "loss": 0.5074,
      "num_input_tokens_seen": 19698664,
      "step": 30110
    },
    {
      "epoch": 15.783542976939204,
      "grad_norm": 0.12864689528942108,
      "learning_rate": 0.00012942079122755162,
      "loss": 0.408,
      "num_input_tokens_seen": 19701704,
      "step": 30115
    },
    {
      "epoch": 15.786163522012579,
      "grad_norm": 0.2004288285970688,
      "learning_rate": 0.00012926730638393075,
      "loss": 0.348,
      "num_input_tokens_seen": 19704904,
      "step": 30120
    },
    {
      "epoch": 15.788784067085954,
      "grad_norm": 0.3794206976890564,
      "learning_rate": 0.0001291138990933598,
      "loss": 0.4115,
      "num_input_tokens_seen": 19707688,
      "step": 30125
    },
    {
      "epoch": 15.79140461215933,
      "grad_norm": 0.11831914633512497,
      "learning_rate": 0.00012896056938792994,
      "loss": 0.4266,
      "num_input_tokens_seen": 19712264,
      "step": 30130
    },
    {
      "epoch": 15.794025157232705,
      "grad_norm": 0.17649084329605103,
      "learning_rate": 0.000128807317299716,
      "loss": 0.4645,
      "num_input_tokens_seen": 19714728,
      "step": 30135
    },
    {
      "epoch": 15.79664570230608,
      "grad_norm": 0.18761591613292694,
      "learning_rate": 0.00012865414286077637,
      "loss": 0.3961,
      "num_input_tokens_seen": 19718312,
      "step": 30140
    },
    {
      "epoch": 15.799266247379455,
      "grad_norm": 0.23447167873382568,
      "learning_rate": 0.00012850104610315365,
      "loss": 0.3937,
      "num_input_tokens_seen": 19721672,
      "step": 30145
    },
    {
      "epoch": 15.80188679245283,
      "grad_norm": 0.17268994450569153,
      "learning_rate": 0.00012834802705887372,
      "loss": 0.3931,
      "num_input_tokens_seen": 19724296,
      "step": 30150
    },
    {
      "epoch": 15.804507337526205,
      "grad_norm": 0.1463598757982254,
      "learning_rate": 0.00012819508575994643,
      "loss": 0.5041,
      "num_input_tokens_seen": 19726952,
      "step": 30155
    },
    {
      "epoch": 15.80712788259958,
      "grad_norm": 0.12090093642473221,
      "learning_rate": 0.0001280422222383656,
      "loss": 0.4924,
      "num_input_tokens_seen": 19730568,
      "step": 30160
    },
    {
      "epoch": 15.809748427672956,
      "grad_norm": 0.15557187795639038,
      "learning_rate": 0.00012788943652610818,
      "loss": 0.2938,
      "num_input_tokens_seen": 19733288,
      "step": 30165
    },
    {
      "epoch": 15.81236897274633,
      "grad_norm": 0.14511233568191528,
      "learning_rate": 0.0001277367286551356,
      "loss": 0.3774,
      "num_input_tokens_seen": 19736008,
      "step": 30170
    },
    {
      "epoch": 15.814989517819706,
      "grad_norm": 0.11879786103963852,
      "learning_rate": 0.00012758409865739213,
      "loss": 0.4559,
      "num_input_tokens_seen": 19739208,
      "step": 30175
    },
    {
      "epoch": 15.817610062893081,
      "grad_norm": 0.105134978890419,
      "learning_rate": 0.00012743154656480655,
      "loss": 0.4319,
      "num_input_tokens_seen": 19743080,
      "step": 30180
    },
    {
      "epoch": 15.820230607966456,
      "grad_norm": 0.24874848127365112,
      "learning_rate": 0.00012727907240929094,
      "loss": 0.4412,
      "num_input_tokens_seen": 19745640,
      "step": 30185
    },
    {
      "epoch": 15.822851153039831,
      "grad_norm": 0.09649527817964554,
      "learning_rate": 0.00012712667622274127,
      "loss": 0.3984,
      "num_input_tokens_seen": 19749032,
      "step": 30190
    },
    {
      "epoch": 15.825471698113208,
      "grad_norm": 0.1653076708316803,
      "learning_rate": 0.000126974358037037,
      "loss": 0.4201,
      "num_input_tokens_seen": 19752104,
      "step": 30195
    },
    {
      "epoch": 15.828092243186584,
      "grad_norm": 0.20243437588214874,
      "learning_rate": 0.00012682211788404114,
      "loss": 0.444,
      "num_input_tokens_seen": 19755208,
      "step": 30200
    },
    {
      "epoch": 15.830712788259959,
      "grad_norm": 0.1119745671749115,
      "learning_rate": 0.0001266699557956008,
      "loss": 0.3789,
      "num_input_tokens_seen": 19759944,
      "step": 30205
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.09638984501361847,
      "learning_rate": 0.00012651787180354657,
      "loss": 0.5789,
      "num_input_tokens_seen": 19764872,
      "step": 30210
    },
    {
      "epoch": 15.835953878406709,
      "grad_norm": 0.21130827069282532,
      "learning_rate": 0.00012636586593969262,
      "loss": 0.4774,
      "num_input_tokens_seen": 19767944,
      "step": 30215
    },
    {
      "epoch": 15.838574423480084,
      "grad_norm": 0.20068520307540894,
      "learning_rate": 0.000126213938235837,
      "loss": 0.3965,
      "num_input_tokens_seen": 19771496,
      "step": 30220
    },
    {
      "epoch": 15.84119496855346,
      "grad_norm": 0.1747984141111374,
      "learning_rate": 0.0001260620887237611,
      "loss": 0.4795,
      "num_input_tokens_seen": 19775080,
      "step": 30225
    },
    {
      "epoch": 15.843815513626835,
      "grad_norm": 0.1700812131166458,
      "learning_rate": 0.00012591031743523006,
      "loss": 0.3289,
      "num_input_tokens_seen": 19777384,
      "step": 30230
    },
    {
      "epoch": 15.84643605870021,
      "grad_norm": 0.09679438173770905,
      "learning_rate": 0.00012575862440199277,
      "loss": 0.5999,
      "num_input_tokens_seen": 19780648,
      "step": 30235
    },
    {
      "epoch": 15.849056603773585,
      "grad_norm": 0.3022850453853607,
      "learning_rate": 0.00012560700965578165,
      "loss": 0.4668,
      "num_input_tokens_seen": 19784072,
      "step": 30240
    },
    {
      "epoch": 15.85167714884696,
      "grad_norm": 0.10835860669612885,
      "learning_rate": 0.0001254554732283129,
      "loss": 0.4374,
      "num_input_tokens_seen": 19787400,
      "step": 30245
    },
    {
      "epoch": 15.854297693920335,
      "grad_norm": 0.21066288650035858,
      "learning_rate": 0.0001253040151512862,
      "loss": 0.3445,
      "num_input_tokens_seen": 19790248,
      "step": 30250
    },
    {
      "epoch": 15.85691823899371,
      "grad_norm": 0.17153827846050262,
      "learning_rate": 0.0001251526354563846,
      "loss": 0.3464,
      "num_input_tokens_seen": 19793224,
      "step": 30255
    },
    {
      "epoch": 15.859538784067086,
      "grad_norm": 0.18001140654087067,
      "learning_rate": 0.0001250013341752752,
      "loss": 0.4458,
      "num_input_tokens_seen": 19796328,
      "step": 30260
    },
    {
      "epoch": 15.86215932914046,
      "grad_norm": 0.14045360684394836,
      "learning_rate": 0.00012485011133960843,
      "loss": 0.3408,
      "num_input_tokens_seen": 19799176,
      "step": 30265
    },
    {
      "epoch": 15.864779874213836,
      "grad_norm": 0.10261745005846024,
      "learning_rate": 0.00012469896698101863,
      "loss": 0.4472,
      "num_input_tokens_seen": 19802408,
      "step": 30270
    },
    {
      "epoch": 15.867400419287211,
      "grad_norm": 0.1439579278230667,
      "learning_rate": 0.00012454790113112325,
      "loss": 0.3381,
      "num_input_tokens_seen": 19805320,
      "step": 30275
    },
    {
      "epoch": 15.870020964360586,
      "grad_norm": 0.11351436376571655,
      "learning_rate": 0.00012439691382152345,
      "loss": 0.6687,
      "num_input_tokens_seen": 19809800,
      "step": 30280
    },
    {
      "epoch": 15.872641509433961,
      "grad_norm": 0.24159091711044312,
      "learning_rate": 0.00012424600508380412,
      "loss": 0.464,
      "num_input_tokens_seen": 19812072,
      "step": 30285
    },
    {
      "epoch": 15.875262054507338,
      "grad_norm": 0.11359835416078568,
      "learning_rate": 0.00012409517494953377,
      "loss": 0.3978,
      "num_input_tokens_seen": 19815496,
      "step": 30290
    },
    {
      "epoch": 15.877882599580714,
      "grad_norm": 0.1233840137720108,
      "learning_rate": 0.00012394442345026418,
      "loss": 0.4716,
      "num_input_tokens_seen": 19819912,
      "step": 30295
    },
    {
      "epoch": 15.880503144654089,
      "grad_norm": 0.0877317413687706,
      "learning_rate": 0.00012379375061753118,
      "loss": 0.4222,
      "num_input_tokens_seen": 19823272,
      "step": 30300
    },
    {
      "epoch": 15.883123689727464,
      "grad_norm": 0.14637358486652374,
      "learning_rate": 0.00012364315648285353,
      "loss": 0.4506,
      "num_input_tokens_seen": 19827560,
      "step": 30305
    },
    {
      "epoch": 15.885744234800839,
      "grad_norm": 0.16438788175582886,
      "learning_rate": 0.00012349264107773363,
      "loss": 0.5197,
      "num_input_tokens_seen": 19830184,
      "step": 30310
    },
    {
      "epoch": 15.888364779874214,
      "grad_norm": 0.2447422444820404,
      "learning_rate": 0.00012334220443365785,
      "loss": 0.4253,
      "num_input_tokens_seen": 19833640,
      "step": 30315
    },
    {
      "epoch": 15.89098532494759,
      "grad_norm": 0.1778641641139984,
      "learning_rate": 0.00012319184658209575,
      "loss": 0.4309,
      "num_input_tokens_seen": 19836200,
      "step": 30320
    },
    {
      "epoch": 15.893605870020965,
      "grad_norm": 0.1933411955833435,
      "learning_rate": 0.00012304156755450063,
      "loss": 0.5329,
      "num_input_tokens_seen": 19838888,
      "step": 30325
    },
    {
      "epoch": 15.89622641509434,
      "grad_norm": 0.11801813542842865,
      "learning_rate": 0.00012289136738230906,
      "loss": 0.6269,
      "num_input_tokens_seen": 19841608,
      "step": 30330
    },
    {
      "epoch": 15.898846960167715,
      "grad_norm": 0.27220454812049866,
      "learning_rate": 0.00012274124609694092,
      "loss": 0.4285,
      "num_input_tokens_seen": 19844648,
      "step": 30335
    },
    {
      "epoch": 15.90146750524109,
      "grad_norm": 0.14364734292030334,
      "learning_rate": 0.00012259120372980014,
      "loss": 0.4085,
      "num_input_tokens_seen": 19847432,
      "step": 30340
    },
    {
      "epoch": 15.904088050314465,
      "grad_norm": 0.1814759373664856,
      "learning_rate": 0.0001224412403122739,
      "loss": 0.3253,
      "num_input_tokens_seen": 19850120,
      "step": 30345
    },
    {
      "epoch": 15.90670859538784,
      "grad_norm": 0.17577356100082397,
      "learning_rate": 0.0001222913558757328,
      "loss": 0.3786,
      "num_input_tokens_seen": 19852776,
      "step": 30350
    },
    {
      "epoch": 15.909329140461216,
      "grad_norm": 0.10280769318342209,
      "learning_rate": 0.00012214155045153085,
      "loss": 0.371,
      "num_input_tokens_seen": 19856104,
      "step": 30355
    },
    {
      "epoch": 15.91194968553459,
      "grad_norm": 0.1281014382839203,
      "learning_rate": 0.00012199182407100584,
      "loss": 0.3914,
      "num_input_tokens_seen": 19859464,
      "step": 30360
    },
    {
      "epoch": 15.914570230607966,
      "grad_norm": 0.11349190771579742,
      "learning_rate": 0.00012184217676547855,
      "loss": 0.4938,
      "num_input_tokens_seen": 19863208,
      "step": 30365
    },
    {
      "epoch": 15.917190775681341,
      "grad_norm": 0.20297493040561676,
      "learning_rate": 0.00012169260856625358,
      "loss": 0.5169,
      "num_input_tokens_seen": 19865672,
      "step": 30370
    },
    {
      "epoch": 15.919811320754716,
      "grad_norm": 0.22612163424491882,
      "learning_rate": 0.000121543119504619,
      "loss": 0.4426,
      "num_input_tokens_seen": 19868072,
      "step": 30375
    },
    {
      "epoch": 15.922431865828091,
      "grad_norm": 0.12395721673965454,
      "learning_rate": 0.00012139370961184626,
      "loss": 0.4178,
      "num_input_tokens_seen": 19870952,
      "step": 30380
    },
    {
      "epoch": 15.925052410901468,
      "grad_norm": 0.11562178283929825,
      "learning_rate": 0.00012124437891918994,
      "loss": 0.268,
      "num_input_tokens_seen": 19873832,
      "step": 30385
    },
    {
      "epoch": 15.927672955974844,
      "grad_norm": 0.13896870613098145,
      "learning_rate": 0.0001210951274578887,
      "loss": 0.4735,
      "num_input_tokens_seen": 19876712,
      "step": 30390
    },
    {
      "epoch": 15.930293501048219,
      "grad_norm": 0.0926804393529892,
      "learning_rate": 0.00012094595525916379,
      "loss": 0.3335,
      "num_input_tokens_seen": 19880008,
      "step": 30395
    },
    {
      "epoch": 15.932914046121594,
      "grad_norm": 0.11802689731121063,
      "learning_rate": 0.0001207968623542206,
      "loss": 0.4587,
      "num_input_tokens_seen": 19883240,
      "step": 30400
    },
    {
      "epoch": 15.935534591194969,
      "grad_norm": 0.15384162962436676,
      "learning_rate": 0.00012064784877424778,
      "loss": 0.4472,
      "num_input_tokens_seen": 19886472,
      "step": 30405
    },
    {
      "epoch": 15.938155136268344,
      "grad_norm": 0.11278709024190903,
      "learning_rate": 0.00012049891455041695,
      "loss": 0.3514,
      "num_input_tokens_seen": 19888904,
      "step": 30410
    },
    {
      "epoch": 15.94077568134172,
      "grad_norm": 0.0775969848036766,
      "learning_rate": 0.00012035005971388379,
      "loss": 0.4515,
      "num_input_tokens_seen": 19892744,
      "step": 30415
    },
    {
      "epoch": 15.943396226415095,
      "grad_norm": 0.11035344749689102,
      "learning_rate": 0.0001202012842957867,
      "loss": 0.4905,
      "num_input_tokens_seen": 19896488,
      "step": 30420
    },
    {
      "epoch": 15.94601677148847,
      "grad_norm": 0.25424230098724365,
      "learning_rate": 0.00012005258832724797,
      "loss": 0.5303,
      "num_input_tokens_seen": 19899912,
      "step": 30425
    },
    {
      "epoch": 15.948637316561845,
      "grad_norm": 0.14186663925647736,
      "learning_rate": 0.00011990397183937324,
      "loss": 0.4085,
      "num_input_tokens_seen": 19903432,
      "step": 30430
    },
    {
      "epoch": 15.95125786163522,
      "grad_norm": 0.14877675473690033,
      "learning_rate": 0.00011975543486325108,
      "loss": 0.4194,
      "num_input_tokens_seen": 19906184,
      "step": 30435
    },
    {
      "epoch": 15.953878406708595,
      "grad_norm": 0.17321576178073883,
      "learning_rate": 0.00011960697742995392,
      "loss": 0.5732,
      "num_input_tokens_seen": 19909064,
      "step": 30440
    },
    {
      "epoch": 15.95649895178197,
      "grad_norm": 0.15138183534145355,
      "learning_rate": 0.00011945859957053746,
      "loss": 0.5364,
      "num_input_tokens_seen": 19915944,
      "step": 30445
    },
    {
      "epoch": 15.959119496855346,
      "grad_norm": 0.15089857578277588,
      "learning_rate": 0.00011931030131604036,
      "loss": 0.3319,
      "num_input_tokens_seen": 19919784,
      "step": 30450
    },
    {
      "epoch": 15.96174004192872,
      "grad_norm": 0.1260455995798111,
      "learning_rate": 0.00011916208269748507,
      "loss": 0.3541,
      "num_input_tokens_seen": 19922600,
      "step": 30455
    },
    {
      "epoch": 15.964360587002096,
      "grad_norm": 0.17315329611301422,
      "learning_rate": 0.00011901394374587743,
      "loss": 0.3968,
      "num_input_tokens_seen": 19925704,
      "step": 30460
    },
    {
      "epoch": 15.966981132075471,
      "grad_norm": 0.1299605518579483,
      "learning_rate": 0.00011886588449220609,
      "loss": 0.5517,
      "num_input_tokens_seen": 19928296,
      "step": 30465
    },
    {
      "epoch": 15.969601677148846,
      "grad_norm": 0.09863704442977905,
      "learning_rate": 0.00011871790496744351,
      "loss": 0.379,
      "num_input_tokens_seen": 19931432,
      "step": 30470
    },
    {
      "epoch": 15.972222222222221,
      "grad_norm": 0.19511231780052185,
      "learning_rate": 0.00011857000520254546,
      "loss": 0.3601,
      "num_input_tokens_seen": 19934728,
      "step": 30475
    },
    {
      "epoch": 15.974842767295598,
      "grad_norm": 0.1037421002984047,
      "learning_rate": 0.0001184221852284506,
      "loss": 0.4394,
      "num_input_tokens_seen": 19937800,
      "step": 30480
    },
    {
      "epoch": 15.977463312368974,
      "grad_norm": 0.09112447500228882,
      "learning_rate": 0.00011827444507608143,
      "loss": 0.4397,
      "num_input_tokens_seen": 19941608,
      "step": 30485
    },
    {
      "epoch": 15.980083857442349,
      "grad_norm": 0.17605236172676086,
      "learning_rate": 0.00011812678477634325,
      "loss": 0.4046,
      "num_input_tokens_seen": 19944008,
      "step": 30490
    },
    {
      "epoch": 15.982704402515724,
      "grad_norm": 0.11983528733253479,
      "learning_rate": 0.0001179792043601251,
      "loss": 0.3892,
      "num_input_tokens_seen": 19947016,
      "step": 30495
    },
    {
      "epoch": 15.985324947589099,
      "grad_norm": 0.09791851788759232,
      "learning_rate": 0.00011783170385829905,
      "loss": 0.3128,
      "num_input_tokens_seen": 19951784,
      "step": 30500
    },
    {
      "epoch": 15.987945492662474,
      "grad_norm": 0.08432155847549438,
      "learning_rate": 0.00011768428330172071,
      "loss": 0.3771,
      "num_input_tokens_seen": 19956136,
      "step": 30505
    },
    {
      "epoch": 15.99056603773585,
      "grad_norm": 0.10229247808456421,
      "learning_rate": 0.00011753694272122856,
      "loss": 0.6415,
      "num_input_tokens_seen": 19959592,
      "step": 30510
    },
    {
      "epoch": 15.993186582809225,
      "grad_norm": 0.18940578401088715,
      "learning_rate": 0.00011738968214764456,
      "loss": 0.4404,
      "num_input_tokens_seen": 19962920,
      "step": 30515
    },
    {
      "epoch": 15.9958071278826,
      "grad_norm": 0.21500042080879211,
      "learning_rate": 0.00011724250161177391,
      "loss": 0.431,
      "num_input_tokens_seen": 19965992,
      "step": 30520
    },
    {
      "epoch": 15.998427672955975,
      "grad_norm": 0.2038169652223587,
      "learning_rate": 0.00011709540114440525,
      "loss": 0.3629,
      "num_input_tokens_seen": 19968904,
      "step": 30525
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.4844343066215515,
      "eval_runtime": 13.5803,
      "eval_samples_per_second": 62.443,
      "eval_steps_per_second": 15.611,
      "num_input_tokens_seen": 19970248,
      "step": 30528
    },
    {
      "epoch": 16.00104821802935,
      "grad_norm": 0.11996946483850479,
      "learning_rate": 0.00011694838077631043,
      "loss": 0.332,
      "num_input_tokens_seen": 19971464,
      "step": 30530
    },
    {
      "epoch": 16.003668763102727,
      "grad_norm": 0.1051081120967865,
      "learning_rate": 0.0001168014405382441,
      "loss": 0.3512,
      "num_input_tokens_seen": 19974760,
      "step": 30535
    },
    {
      "epoch": 16.0062893081761,
      "grad_norm": 0.14412875473499298,
      "learning_rate": 0.0001166545804609448,
      "loss": 0.4077,
      "num_input_tokens_seen": 19977992,
      "step": 30540
    },
    {
      "epoch": 16.008909853249477,
      "grad_norm": 0.14396175742149353,
      "learning_rate": 0.00011650780057513367,
      "loss": 0.3424,
      "num_input_tokens_seen": 19981672,
      "step": 30545
    },
    {
      "epoch": 16.01153039832285,
      "grad_norm": 0.0935601145029068,
      "learning_rate": 0.00011636110091151553,
      "loss": 0.3577,
      "num_input_tokens_seen": 19984520,
      "step": 30550
    },
    {
      "epoch": 16.014150943396228,
      "grad_norm": 0.07382700592279434,
      "learning_rate": 0.00011621448150077834,
      "loss": 0.3172,
      "num_input_tokens_seen": 19987720,
      "step": 30555
    },
    {
      "epoch": 16.0167714884696,
      "grad_norm": 0.16921867430210114,
      "learning_rate": 0.0001160679423735933,
      "loss": 0.4922,
      "num_input_tokens_seen": 19990344,
      "step": 30560
    },
    {
      "epoch": 16.019392033542978,
      "grad_norm": 0.1757960021495819,
      "learning_rate": 0.00011592148356061455,
      "loss": 0.4382,
      "num_input_tokens_seen": 19993224,
      "step": 30565
    },
    {
      "epoch": 16.02201257861635,
      "grad_norm": 0.2757173180580139,
      "learning_rate": 0.00011577510509247951,
      "loss": 0.4698,
      "num_input_tokens_seen": 19995688,
      "step": 30570
    },
    {
      "epoch": 16.02463312368973,
      "grad_norm": 0.14125113189220428,
      "learning_rate": 0.00011562880699980904,
      "loss": 0.382,
      "num_input_tokens_seen": 19998536,
      "step": 30575
    },
    {
      "epoch": 16.0272536687631,
      "grad_norm": 0.18688099086284637,
      "learning_rate": 0.00011548258931320704,
      "loss": 0.4293,
      "num_input_tokens_seen": 20001320,
      "step": 30580
    },
    {
      "epoch": 16.02987421383648,
      "grad_norm": 0.16700510680675507,
      "learning_rate": 0.00011533645206326049,
      "loss": 0.3702,
      "num_input_tokens_seen": 20004104,
      "step": 30585
    },
    {
      "epoch": 16.032494758909852,
      "grad_norm": 0.15553627908229828,
      "learning_rate": 0.00011519039528053999,
      "loss": 0.3992,
      "num_input_tokens_seen": 20007880,
      "step": 30590
    },
    {
      "epoch": 16.03511530398323,
      "grad_norm": 0.16210061311721802,
      "learning_rate": 0.00011504441899559837,
      "loss": 0.433,
      "num_input_tokens_seen": 20011816,
      "step": 30595
    },
    {
      "epoch": 16.037735849056602,
      "grad_norm": 0.09919708967208862,
      "learning_rate": 0.00011489852323897249,
      "loss": 0.3679,
      "num_input_tokens_seen": 20016008,
      "step": 30600
    },
    {
      "epoch": 16.04035639412998,
      "grad_norm": 0.14809083938598633,
      "learning_rate": 0.0001147527080411821,
      "loss": 0.3293,
      "num_input_tokens_seen": 20019112,
      "step": 30605
    },
    {
      "epoch": 16.042976939203353,
      "grad_norm": 0.2215973287820816,
      "learning_rate": 0.00011460697343273002,
      "loss": 0.3746,
      "num_input_tokens_seen": 20021544,
      "step": 30610
    },
    {
      "epoch": 16.04559748427673,
      "grad_norm": 0.1506662368774414,
      "learning_rate": 0.00011446131944410249,
      "loss": 0.3305,
      "num_input_tokens_seen": 20023976,
      "step": 30615
    },
    {
      "epoch": 16.048218029350103,
      "grad_norm": 0.09512107819318771,
      "learning_rate": 0.00011431574610576844,
      "loss": 0.4934,
      "num_input_tokens_seen": 20027560,
      "step": 30620
    },
    {
      "epoch": 16.05083857442348,
      "grad_norm": 0.16948315501213074,
      "learning_rate": 0.00011417025344818005,
      "loss": 0.4391,
      "num_input_tokens_seen": 20030696,
      "step": 30625
    },
    {
      "epoch": 16.053459119496857,
      "grad_norm": 0.10920901596546173,
      "learning_rate": 0.00011402484150177289,
      "loss": 0.3889,
      "num_input_tokens_seen": 20033800,
      "step": 30630
    },
    {
      "epoch": 16.05607966457023,
      "grad_norm": 0.17943188548088074,
      "learning_rate": 0.00011387951029696542,
      "loss": 0.3327,
      "num_input_tokens_seen": 20036136,
      "step": 30635
    },
    {
      "epoch": 16.058700209643607,
      "grad_norm": 0.1131310984492302,
      "learning_rate": 0.00011373425986415941,
      "loss": 0.4988,
      "num_input_tokens_seen": 20039368,
      "step": 30640
    },
    {
      "epoch": 16.06132075471698,
      "grad_norm": 0.24003612995147705,
      "learning_rate": 0.00011358909023373953,
      "loss": 0.3171,
      "num_input_tokens_seen": 20042376,
      "step": 30645
    },
    {
      "epoch": 16.063941299790358,
      "grad_norm": 0.17692431807518005,
      "learning_rate": 0.00011344400143607342,
      "loss": 0.3689,
      "num_input_tokens_seen": 20045608,
      "step": 30650
    },
    {
      "epoch": 16.06656184486373,
      "grad_norm": 0.12159044295549393,
      "learning_rate": 0.00011329899350151212,
      "loss": 0.3995,
      "num_input_tokens_seen": 20048456,
      "step": 30655
    },
    {
      "epoch": 16.069182389937108,
      "grad_norm": 0.3736429810523987,
      "learning_rate": 0.00011315406646038973,
      "loss": 0.4044,
      "num_input_tokens_seen": 20051272,
      "step": 30660
    },
    {
      "epoch": 16.07180293501048,
      "grad_norm": 0.12365692853927612,
      "learning_rate": 0.0001130092203430232,
      "loss": 0.3961,
      "num_input_tokens_seen": 20054440,
      "step": 30665
    },
    {
      "epoch": 16.07442348008386,
      "grad_norm": 0.18243706226348877,
      "learning_rate": 0.00011286445517971289,
      "loss": 0.4214,
      "num_input_tokens_seen": 20056904,
      "step": 30670
    },
    {
      "epoch": 16.07704402515723,
      "grad_norm": 0.09410177916288376,
      "learning_rate": 0.00011271977100074188,
      "loss": 0.4639,
      "num_input_tokens_seen": 20061352,
      "step": 30675
    },
    {
      "epoch": 16.07966457023061,
      "grad_norm": 0.14762865006923676,
      "learning_rate": 0.00011257516783637633,
      "loss": 0.366,
      "num_input_tokens_seen": 20064392,
      "step": 30680
    },
    {
      "epoch": 16.082285115303982,
      "grad_norm": 0.17793606221675873,
      "learning_rate": 0.00011243064571686573,
      "loss": 0.4916,
      "num_input_tokens_seen": 20067528,
      "step": 30685
    },
    {
      "epoch": 16.08490566037736,
      "grad_norm": 0.1753246933221817,
      "learning_rate": 0.00011228620467244238,
      "loss": 0.409,
      "num_input_tokens_seen": 20070376,
      "step": 30690
    },
    {
      "epoch": 16.087526205450732,
      "grad_norm": 0.1963057965040207,
      "learning_rate": 0.00011214184473332183,
      "loss": 0.3545,
      "num_input_tokens_seen": 20074440,
      "step": 30695
    },
    {
      "epoch": 16.09014675052411,
      "grad_norm": 0.13777589797973633,
      "learning_rate": 0.0001119975659297025,
      "loss": 0.5132,
      "num_input_tokens_seen": 20080392,
      "step": 30700
    },
    {
      "epoch": 16.092767295597483,
      "grad_norm": 0.33303332328796387,
      "learning_rate": 0.00011185336829176568,
      "loss": 0.3897,
      "num_input_tokens_seen": 20083336,
      "step": 30705
    },
    {
      "epoch": 16.09538784067086,
      "grad_norm": 0.1890946328639984,
      "learning_rate": 0.00011170925184967601,
      "loss": 0.4492,
      "num_input_tokens_seen": 20086056,
      "step": 30710
    },
    {
      "epoch": 16.098008385744233,
      "grad_norm": 0.20331589877605438,
      "learning_rate": 0.00011156521663358094,
      "loss": 0.4032,
      "num_input_tokens_seen": 20093480,
      "step": 30715
    },
    {
      "epoch": 16.10062893081761,
      "grad_norm": 0.16404753923416138,
      "learning_rate": 0.00011142126267361124,
      "loss": 0.3518,
      "num_input_tokens_seen": 20096648,
      "step": 30720
    },
    {
      "epoch": 16.103249475890987,
      "grad_norm": 0.25918814539909363,
      "learning_rate": 0.00011127738999988007,
      "loss": 0.3459,
      "num_input_tokens_seen": 20099080,
      "step": 30725
    },
    {
      "epoch": 16.10587002096436,
      "grad_norm": 0.16730715334415436,
      "learning_rate": 0.00011113359864248429,
      "loss": 0.5495,
      "num_input_tokens_seen": 20101768,
      "step": 30730
    },
    {
      "epoch": 16.108490566037737,
      "grad_norm": 0.16622304916381836,
      "learning_rate": 0.00011098988863150317,
      "loss": 0.3411,
      "num_input_tokens_seen": 20105192,
      "step": 30735
    },
    {
      "epoch": 16.11111111111111,
      "grad_norm": 0.11952031403779984,
      "learning_rate": 0.0001108462599969992,
      "loss": 0.3496,
      "num_input_tokens_seen": 20108072,
      "step": 30740
    },
    {
      "epoch": 16.113731656184488,
      "grad_norm": 0.09162214398384094,
      "learning_rate": 0.000110702712769018,
      "loss": 0.4257,
      "num_input_tokens_seen": 20112392,
      "step": 30745
    },
    {
      "epoch": 16.11635220125786,
      "grad_norm": 0.16892656683921814,
      "learning_rate": 0.00011055924697758801,
      "loss": 0.3376,
      "num_input_tokens_seen": 20114792,
      "step": 30750
    },
    {
      "epoch": 16.118972746331238,
      "grad_norm": 0.13919365406036377,
      "learning_rate": 0.00011041586265272052,
      "loss": 0.3799,
      "num_input_tokens_seen": 20117672,
      "step": 30755
    },
    {
      "epoch": 16.12159329140461,
      "grad_norm": 0.16185779869556427,
      "learning_rate": 0.00011027255982441003,
      "loss": 0.4141,
      "num_input_tokens_seen": 20121096,
      "step": 30760
    },
    {
      "epoch": 16.12421383647799,
      "grad_norm": 0.17357207834720612,
      "learning_rate": 0.00011012933852263369,
      "loss": 0.4536,
      "num_input_tokens_seen": 20123624,
      "step": 30765
    },
    {
      "epoch": 16.12683438155136,
      "grad_norm": 0.154025599360466,
      "learning_rate": 0.00010998619877735184,
      "loss": 0.5226,
      "num_input_tokens_seen": 20126920,
      "step": 30770
    },
    {
      "epoch": 16.12945492662474,
      "grad_norm": 0.10778583586215973,
      "learning_rate": 0.0001098431406185078,
      "loss": 0.4325,
      "num_input_tokens_seen": 20130312,
      "step": 30775
    },
    {
      "epoch": 16.132075471698112,
      "grad_norm": 0.10881015658378601,
      "learning_rate": 0.00010970016407602751,
      "loss": 0.3522,
      "num_input_tokens_seen": 20133416,
      "step": 30780
    },
    {
      "epoch": 16.13469601677149,
      "grad_norm": 0.11692021042108536,
      "learning_rate": 0.00010955726917982023,
      "loss": 0.4201,
      "num_input_tokens_seen": 20136936,
      "step": 30785
    },
    {
      "epoch": 16.137316561844862,
      "grad_norm": 0.10353067517280579,
      "learning_rate": 0.00010941445595977767,
      "loss": 0.4539,
      "num_input_tokens_seen": 20139752,
      "step": 30790
    },
    {
      "epoch": 16.13993710691824,
      "grad_norm": 0.3988656997680664,
      "learning_rate": 0.00010927172444577494,
      "loss": 0.4685,
      "num_input_tokens_seen": 20143112,
      "step": 30795
    },
    {
      "epoch": 16.142557651991613,
      "grad_norm": 0.0794554054737091,
      "learning_rate": 0.00010912907466766985,
      "loss": 0.5134,
      "num_input_tokens_seen": 20146280,
      "step": 30800
    },
    {
      "epoch": 16.14517819706499,
      "grad_norm": 0.188715398311615,
      "learning_rate": 0.00010898650665530302,
      "loss": 0.5907,
      "num_input_tokens_seen": 20148840,
      "step": 30805
    },
    {
      "epoch": 16.147798742138363,
      "grad_norm": 0.09576451033353806,
      "learning_rate": 0.000108844020438498,
      "loss": 0.475,
      "num_input_tokens_seen": 20152328,
      "step": 30810
    },
    {
      "epoch": 16.15041928721174,
      "grad_norm": 0.16327697038650513,
      "learning_rate": 0.00010870161604706152,
      "loss": 0.4146,
      "num_input_tokens_seen": 20155592,
      "step": 30815
    },
    {
      "epoch": 16.153039832285117,
      "grad_norm": 0.18216100335121155,
      "learning_rate": 0.00010855929351078264,
      "loss": 0.4382,
      "num_input_tokens_seen": 20158216,
      "step": 30820
    },
    {
      "epoch": 16.15566037735849,
      "grad_norm": 0.13618814945220947,
      "learning_rate": 0.00010841705285943382,
      "loss": 0.4628,
      "num_input_tokens_seen": 20162376,
      "step": 30825
    },
    {
      "epoch": 16.158280922431867,
      "grad_norm": 0.14433498680591583,
      "learning_rate": 0.0001082748941227702,
      "loss": 0.5544,
      "num_input_tokens_seen": 20165736,
      "step": 30830
    },
    {
      "epoch": 16.16090146750524,
      "grad_norm": 0.24063220620155334,
      "learning_rate": 0.00010813281733052959,
      "loss": 0.3492,
      "num_input_tokens_seen": 20169544,
      "step": 30835
    },
    {
      "epoch": 16.163522012578618,
      "grad_norm": 0.1456603705883026,
      "learning_rate": 0.00010799082251243292,
      "loss": 0.4191,
      "num_input_tokens_seen": 20173128,
      "step": 30840
    },
    {
      "epoch": 16.16614255765199,
      "grad_norm": 0.13377556204795837,
      "learning_rate": 0.00010784890969818407,
      "loss": 0.3648,
      "num_input_tokens_seen": 20176776,
      "step": 30845
    },
    {
      "epoch": 16.168763102725368,
      "grad_norm": 0.12069521099328995,
      "learning_rate": 0.00010770707891746928,
      "loss": 0.4217,
      "num_input_tokens_seen": 20180904,
      "step": 30850
    },
    {
      "epoch": 16.17138364779874,
      "grad_norm": 0.09285546094179153,
      "learning_rate": 0.00010756533019995817,
      "loss": 0.4032,
      "num_input_tokens_seen": 20185416,
      "step": 30855
    },
    {
      "epoch": 16.17400419287212,
      "grad_norm": 0.15006771683692932,
      "learning_rate": 0.0001074236635753027,
      "loss": 0.481,
      "num_input_tokens_seen": 20188456,
      "step": 30860
    },
    {
      "epoch": 16.17662473794549,
      "grad_norm": 0.19121885299682617,
      "learning_rate": 0.00010728207907313809,
      "loss": 0.414,
      "num_input_tokens_seen": 20191368,
      "step": 30865
    },
    {
      "epoch": 16.17924528301887,
      "grad_norm": 0.12756827473640442,
      "learning_rate": 0.0001071405767230822,
      "loss": 0.4968,
      "num_input_tokens_seen": 20194120,
      "step": 30870
    },
    {
      "epoch": 16.181865828092242,
      "grad_norm": 0.18518102169036865,
      "learning_rate": 0.0001069991565547358,
      "loss": 0.4235,
      "num_input_tokens_seen": 20197320,
      "step": 30875
    },
    {
      "epoch": 16.18448637316562,
      "grad_norm": 0.10381285846233368,
      "learning_rate": 0.00010685781859768223,
      "loss": 0.4649,
      "num_input_tokens_seen": 20200168,
      "step": 30880
    },
    {
      "epoch": 16.187106918238992,
      "grad_norm": 0.16840194165706635,
      "learning_rate": 0.00010671656288148768,
      "loss": 0.4968,
      "num_input_tokens_seen": 20203304,
      "step": 30885
    },
    {
      "epoch": 16.18972746331237,
      "grad_norm": 0.18266315758228302,
      "learning_rate": 0.00010657538943570138,
      "loss": 0.3683,
      "num_input_tokens_seen": 20206184,
      "step": 30890
    },
    {
      "epoch": 16.192348008385743,
      "grad_norm": 0.20022235810756683,
      "learning_rate": 0.00010643429828985518,
      "loss": 0.408,
      "num_input_tokens_seen": 20209320,
      "step": 30895
    },
    {
      "epoch": 16.19496855345912,
      "grad_norm": 0.12453500181436539,
      "learning_rate": 0.0001062932894734639,
      "loss": 0.4754,
      "num_input_tokens_seen": 20212616,
      "step": 30900
    },
    {
      "epoch": 16.197589098532493,
      "grad_norm": 0.12920275330543518,
      "learning_rate": 0.00010615236301602476,
      "loss": 0.3501,
      "num_input_tokens_seen": 20215272,
      "step": 30905
    },
    {
      "epoch": 16.20020964360587,
      "grad_norm": 0.13035188615322113,
      "learning_rate": 0.00010601151894701794,
      "loss": 0.3923,
      "num_input_tokens_seen": 20218248,
      "step": 30910
    },
    {
      "epoch": 16.202830188679247,
      "grad_norm": 0.2499564290046692,
      "learning_rate": 0.0001058707572959065,
      "loss": 0.401,
      "num_input_tokens_seen": 20220584,
      "step": 30915
    },
    {
      "epoch": 16.20545073375262,
      "grad_norm": 0.18001984059810638,
      "learning_rate": 0.00010573007809213614,
      "loss": 0.4684,
      "num_input_tokens_seen": 20223912,
      "step": 30920
    },
    {
      "epoch": 16.208071278825997,
      "grad_norm": 0.13926702737808228,
      "learning_rate": 0.00010558948136513536,
      "loss": 0.3332,
      "num_input_tokens_seen": 20227592,
      "step": 30925
    },
    {
      "epoch": 16.21069182389937,
      "grad_norm": 0.1610226184129715,
      "learning_rate": 0.00010544896714431557,
      "loss": 0.3737,
      "num_input_tokens_seen": 20230696,
      "step": 30930
    },
    {
      "epoch": 16.213312368972748,
      "grad_norm": 0.20514456927776337,
      "learning_rate": 0.0001053085354590706,
      "loss": 0.5008,
      "num_input_tokens_seen": 20234248,
      "step": 30935
    },
    {
      "epoch": 16.21593291404612,
      "grad_norm": 0.12809060513973236,
      "learning_rate": 0.00010516818633877695,
      "loss": 0.428,
      "num_input_tokens_seen": 20237416,
      "step": 30940
    },
    {
      "epoch": 16.218553459119498,
      "grad_norm": 0.12330644577741623,
      "learning_rate": 0.00010502791981279425,
      "loss": 0.3614,
      "num_input_tokens_seen": 20240392,
      "step": 30945
    },
    {
      "epoch": 16.22117400419287,
      "grad_norm": 0.14139781892299652,
      "learning_rate": 0.00010488773591046469,
      "loss": 0.3158,
      "num_input_tokens_seen": 20242856,
      "step": 30950
    },
    {
      "epoch": 16.22379454926625,
      "grad_norm": 0.14768674969673157,
      "learning_rate": 0.0001047476346611132,
      "loss": 0.3461,
      "num_input_tokens_seen": 20245608,
      "step": 30955
    },
    {
      "epoch": 16.22641509433962,
      "grad_norm": 0.15995189547538757,
      "learning_rate": 0.00010460761609404724,
      "loss": 0.3398,
      "num_input_tokens_seen": 20248136,
      "step": 30960
    },
    {
      "epoch": 16.229035639413,
      "grad_norm": 0.1897464543581009,
      "learning_rate": 0.00010446768023855701,
      "loss": 0.378,
      "num_input_tokens_seen": 20251688,
      "step": 30965
    },
    {
      "epoch": 16.231656184486372,
      "grad_norm": 0.1159580871462822,
      "learning_rate": 0.00010432782712391559,
      "loss": 0.4977,
      "num_input_tokens_seen": 20254664,
      "step": 30970
    },
    {
      "epoch": 16.23427672955975,
      "grad_norm": 0.09073702245950699,
      "learning_rate": 0.00010418805677937871,
      "loss": 0.3968,
      "num_input_tokens_seen": 20258440,
      "step": 30975
    },
    {
      "epoch": 16.236897274633122,
      "grad_norm": 0.20542334020137787,
      "learning_rate": 0.00010404836923418465,
      "loss": 0.303,
      "num_input_tokens_seen": 20261480,
      "step": 30980
    },
    {
      "epoch": 16.2395178197065,
      "grad_norm": 0.17155973613262177,
      "learning_rate": 0.00010390876451755477,
      "loss": 0.3413,
      "num_input_tokens_seen": 20264520,
      "step": 30985
    },
    {
      "epoch": 16.242138364779873,
      "grad_norm": 0.2808840274810791,
      "learning_rate": 0.0001037692426586922,
      "loss": 0.4355,
      "num_input_tokens_seen": 20267528,
      "step": 30990
    },
    {
      "epoch": 16.24475890985325,
      "grad_norm": 0.1989404857158661,
      "learning_rate": 0.0001036298036867837,
      "loss": 0.4439,
      "num_input_tokens_seen": 20270568,
      "step": 30995
    },
    {
      "epoch": 16.247379454926623,
      "grad_norm": 0.25053870677948,
      "learning_rate": 0.00010349044763099819,
      "loss": 0.4635,
      "num_input_tokens_seen": 20272840,
      "step": 31000
    },
    {
      "epoch": 16.25,
      "grad_norm": 0.15944884717464447,
      "learning_rate": 0.00010335117452048742,
      "loss": 0.3554,
      "num_input_tokens_seen": 20275656,
      "step": 31005
    },
    {
      "epoch": 16.252620545073377,
      "grad_norm": 0.1513812094926834,
      "learning_rate": 0.00010321198438438589,
      "loss": 0.4841,
      "num_input_tokens_seen": 20278824,
      "step": 31010
    },
    {
      "epoch": 16.25524109014675,
      "grad_norm": 0.13511325418949127,
      "learning_rate": 0.00010307287725181036,
      "loss": 0.418,
      "num_input_tokens_seen": 20282408,
      "step": 31015
    },
    {
      "epoch": 16.257861635220127,
      "grad_norm": 0.12409515678882599,
      "learning_rate": 0.00010293385315186049,
      "loss": 0.3414,
      "num_input_tokens_seen": 20285640,
      "step": 31020
    },
    {
      "epoch": 16.2604821802935,
      "grad_norm": 0.20492078363895416,
      "learning_rate": 0.00010279491211361853,
      "loss": 0.3825,
      "num_input_tokens_seen": 20288872,
      "step": 31025
    },
    {
      "epoch": 16.263102725366878,
      "grad_norm": 0.13593629002571106,
      "learning_rate": 0.00010265605416614938,
      "loss": 0.3997,
      "num_input_tokens_seen": 20292264,
      "step": 31030
    },
    {
      "epoch": 16.26572327044025,
      "grad_norm": 0.1678231954574585,
      "learning_rate": 0.00010251727933850069,
      "loss": 0.3089,
      "num_input_tokens_seen": 20296232,
      "step": 31035
    },
    {
      "epoch": 16.268343815513628,
      "grad_norm": 0.24076896905899048,
      "learning_rate": 0.00010237858765970231,
      "loss": 0.4539,
      "num_input_tokens_seen": 20299048,
      "step": 31040
    },
    {
      "epoch": 16.270964360587,
      "grad_norm": 0.13533344864845276,
      "learning_rate": 0.00010223997915876726,
      "loss": 0.4293,
      "num_input_tokens_seen": 20301864,
      "step": 31045
    },
    {
      "epoch": 16.27358490566038,
      "grad_norm": 0.27565908432006836,
      "learning_rate": 0.00010210145386469049,
      "loss": 0.3471,
      "num_input_tokens_seen": 20305256,
      "step": 31050
    },
    {
      "epoch": 16.27620545073375,
      "grad_norm": 0.24737420678138733,
      "learning_rate": 0.00010196301180645012,
      "loss": 0.3823,
      "num_input_tokens_seen": 20308616,
      "step": 31055
    },
    {
      "epoch": 16.27882599580713,
      "grad_norm": 0.18453651666641235,
      "learning_rate": 0.0001018246530130067,
      "loss": 0.5255,
      "num_input_tokens_seen": 20312200,
      "step": 31060
    },
    {
      "epoch": 16.281446540880502,
      "grad_norm": 0.18040485680103302,
      "learning_rate": 0.00010168637751330328,
      "loss": 0.4009,
      "num_input_tokens_seen": 20316200,
      "step": 31065
    },
    {
      "epoch": 16.28406708595388,
      "grad_norm": 0.12251649796962738,
      "learning_rate": 0.00010154818533626552,
      "loss": 0.4642,
      "num_input_tokens_seen": 20319944,
      "step": 31070
    },
    {
      "epoch": 16.286687631027252,
      "grad_norm": 0.2253490388393402,
      "learning_rate": 0.00010141007651080153,
      "loss": 0.4305,
      "num_input_tokens_seen": 20323240,
      "step": 31075
    },
    {
      "epoch": 16.28930817610063,
      "grad_norm": 0.0849599540233612,
      "learning_rate": 0.00010127205106580212,
      "loss": 0.4664,
      "num_input_tokens_seen": 20327080,
      "step": 31080
    },
    {
      "epoch": 16.291928721174003,
      "grad_norm": 0.09894175827503204,
      "learning_rate": 0.0001011341090301407,
      "loss": 0.3728,
      "num_input_tokens_seen": 20329800,
      "step": 31085
    },
    {
      "epoch": 16.29454926624738,
      "grad_norm": 0.06583451479673386,
      "learning_rate": 0.00010099625043267336,
      "loss": 0.3405,
      "num_input_tokens_seen": 20333480,
      "step": 31090
    },
    {
      "epoch": 16.297169811320753,
      "grad_norm": 0.2099756896495819,
      "learning_rate": 0.00010085847530223812,
      "loss": 0.3744,
      "num_input_tokens_seen": 20336616,
      "step": 31095
    },
    {
      "epoch": 16.29979035639413,
      "grad_norm": 0.17245979607105255,
      "learning_rate": 0.00010072078366765641,
      "loss": 0.3215,
      "num_input_tokens_seen": 20340776,
      "step": 31100
    },
    {
      "epoch": 16.302410901467507,
      "grad_norm": 0.13036350905895233,
      "learning_rate": 0.00010058317555773139,
      "loss": 0.4362,
      "num_input_tokens_seen": 20343752,
      "step": 31105
    },
    {
      "epoch": 16.30503144654088,
      "grad_norm": 0.14977775514125824,
      "learning_rate": 0.00010044565100124925,
      "loss": 0.4744,
      "num_input_tokens_seen": 20347496,
      "step": 31110
    },
    {
      "epoch": 16.307651991614257,
      "grad_norm": 0.11983610689640045,
      "learning_rate": 0.00010030821002697871,
      "loss": 0.4046,
      "num_input_tokens_seen": 20351400,
      "step": 31115
    },
    {
      "epoch": 16.31027253668763,
      "grad_norm": 0.31359946727752686,
      "learning_rate": 0.00010017085266367054,
      "loss": 0.4455,
      "num_input_tokens_seen": 20355848,
      "step": 31120
    },
    {
      "epoch": 16.312893081761008,
      "grad_norm": 0.14178825914859772,
      "learning_rate": 0.00010003357894005854,
      "loss": 0.46,
      "num_input_tokens_seen": 20359208,
      "step": 31125
    },
    {
      "epoch": 16.31551362683438,
      "grad_norm": 0.12270446121692657,
      "learning_rate": 9.989638888485885e-05,
      "loss": 0.3758,
      "num_input_tokens_seen": 20362664,
      "step": 31130
    },
    {
      "epoch": 16.318134171907758,
      "grad_norm": 0.1403033286333084,
      "learning_rate": 9.975928252676991e-05,
      "loss": 0.4053,
      "num_input_tokens_seen": 20365736,
      "step": 31135
    },
    {
      "epoch": 16.32075471698113,
      "grad_norm": 0.09777921438217163,
      "learning_rate": 9.962225989447288e-05,
      "loss": 0.4972,
      "num_input_tokens_seen": 20369608,
      "step": 31140
    },
    {
      "epoch": 16.32337526205451,
      "grad_norm": 0.15571653842926025,
      "learning_rate": 9.948532101663144e-05,
      "loss": 0.3842,
      "num_input_tokens_seen": 20372168,
      "step": 31145
    },
    {
      "epoch": 16.32599580712788,
      "grad_norm": 0.11254633963108063,
      "learning_rate": 9.934846592189134e-05,
      "loss": 0.3117,
      "num_input_tokens_seen": 20374856,
      "step": 31150
    },
    {
      "epoch": 16.32861635220126,
      "grad_norm": 0.1859610378742218,
      "learning_rate": 9.921169463888153e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 20378152,
      "step": 31155
    },
    {
      "epoch": 16.331236897274632,
      "grad_norm": 0.2360873818397522,
      "learning_rate": 9.907500719621253e-05,
      "loss": 0.4263,
      "num_input_tokens_seen": 20380936,
      "step": 31160
    },
    {
      "epoch": 16.33385744234801,
      "grad_norm": 0.1125057265162468,
      "learning_rate": 9.893840362247809e-05,
      "loss": 0.4488,
      "num_input_tokens_seen": 20384584,
      "step": 31165
    },
    {
      "epoch": 16.336477987421382,
      "grad_norm": 0.12483122199773788,
      "learning_rate": 9.880188394625417e-05,
      "loss": 0.4022,
      "num_input_tokens_seen": 20387848,
      "step": 31170
    },
    {
      "epoch": 16.33909853249476,
      "grad_norm": 0.20043060183525085,
      "learning_rate": 9.86654481960989e-05,
      "loss": 0.6251,
      "num_input_tokens_seen": 20390632,
      "step": 31175
    },
    {
      "epoch": 16.341719077568133,
      "grad_norm": 0.19741952419281006,
      "learning_rate": 9.852909640055325e-05,
      "loss": 0.2944,
      "num_input_tokens_seen": 20393544,
      "step": 31180
    },
    {
      "epoch": 16.34433962264151,
      "grad_norm": 0.13339433073997498,
      "learning_rate": 9.839282858814047e-05,
      "loss": 0.3583,
      "num_input_tokens_seen": 20397256,
      "step": 31185
    },
    {
      "epoch": 16.346960167714883,
      "grad_norm": 0.13988620042800903,
      "learning_rate": 9.825664478736607e-05,
      "loss": 0.5672,
      "num_input_tokens_seen": 20401032,
      "step": 31190
    },
    {
      "epoch": 16.34958071278826,
      "grad_norm": 0.11819114536046982,
      "learning_rate": 9.812054502671835e-05,
      "loss": 0.5904,
      "num_input_tokens_seen": 20404456,
      "step": 31195
    },
    {
      "epoch": 16.352201257861637,
      "grad_norm": 0.1329982876777649,
      "learning_rate": 9.798452933466761e-05,
      "loss": 0.3026,
      "num_input_tokens_seen": 20407624,
      "step": 31200
    },
    {
      "epoch": 16.35482180293501,
      "grad_norm": 0.1983792632818222,
      "learning_rate": 9.784859773966693e-05,
      "loss": 0.5092,
      "num_input_tokens_seen": 20411112,
      "step": 31205
    },
    {
      "epoch": 16.357442348008387,
      "grad_norm": 0.14344827830791473,
      "learning_rate": 9.771275027015159e-05,
      "loss": 0.3934,
      "num_input_tokens_seen": 20413640,
      "step": 31210
    },
    {
      "epoch": 16.36006289308176,
      "grad_norm": 0.11015613377094269,
      "learning_rate": 9.757698695453954e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 20416424,
      "step": 31215
    },
    {
      "epoch": 16.362683438155138,
      "grad_norm": 0.1409207582473755,
      "learning_rate": 9.74413078212305e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 20419816,
      "step": 31220
    },
    {
      "epoch": 16.36530398322851,
      "grad_norm": 0.12787537276744843,
      "learning_rate": 9.730571289860746e-05,
      "loss": 0.4523,
      "num_input_tokens_seen": 20423432,
      "step": 31225
    },
    {
      "epoch": 16.367924528301888,
      "grad_norm": 0.11174500733613968,
      "learning_rate": 9.717020221503493e-05,
      "loss": 0.3698,
      "num_input_tokens_seen": 20426792,
      "step": 31230
    },
    {
      "epoch": 16.37054507337526,
      "grad_norm": 0.1239590048789978,
      "learning_rate": 9.703477579886038e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 20430536,
      "step": 31235
    },
    {
      "epoch": 16.37316561844864,
      "grad_norm": 0.20841123163700104,
      "learning_rate": 9.689943367841347e-05,
      "loss": 0.3816,
      "num_input_tokens_seen": 20433256,
      "step": 31240
    },
    {
      "epoch": 16.37578616352201,
      "grad_norm": 0.10569249093532562,
      "learning_rate": 9.676417588200632e-05,
      "loss": 0.4693,
      "num_input_tokens_seen": 20436744,
      "step": 31245
    },
    {
      "epoch": 16.37840670859539,
      "grad_norm": 0.15309225022792816,
      "learning_rate": 9.662900243793321e-05,
      "loss": 0.3407,
      "num_input_tokens_seen": 20441672,
      "step": 31250
    },
    {
      "epoch": 16.381027253668762,
      "grad_norm": 0.29197248816490173,
      "learning_rate": 9.649391337447084e-05,
      "loss": 0.457,
      "num_input_tokens_seen": 20444776,
      "step": 31255
    },
    {
      "epoch": 16.38364779874214,
      "grad_norm": 0.32925429940223694,
      "learning_rate": 9.635890871987829e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 20447400,
      "step": 31260
    },
    {
      "epoch": 16.386268343815512,
      "grad_norm": 0.12608149647712708,
      "learning_rate": 9.622398850239705e-05,
      "loss": 0.3969,
      "num_input_tokens_seen": 20450280,
      "step": 31265
    },
    {
      "epoch": 16.38888888888889,
      "grad_norm": 0.20616815984249115,
      "learning_rate": 9.608915275025104e-05,
      "loss": 0.3294,
      "num_input_tokens_seen": 20453320,
      "step": 31270
    },
    {
      "epoch": 16.391509433962263,
      "grad_norm": 0.17334775626659393,
      "learning_rate": 9.595440149164619e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 20456008,
      "step": 31275
    },
    {
      "epoch": 16.39412997903564,
      "grad_norm": 0.21339866518974304,
      "learning_rate": 9.581973475477085e-05,
      "loss": 0.2995,
      "num_input_tokens_seen": 20458120,
      "step": 31280
    },
    {
      "epoch": 16.396750524109013,
      "grad_norm": 0.17467588186264038,
      "learning_rate": 9.568515256779587e-05,
      "loss": 0.4671,
      "num_input_tokens_seen": 20461448,
      "step": 31285
    },
    {
      "epoch": 16.39937106918239,
      "grad_norm": 0.13167139887809753,
      "learning_rate": 9.555065495887433e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 20465096,
      "step": 31290
    },
    {
      "epoch": 16.401991614255767,
      "grad_norm": 0.13508889079093933,
      "learning_rate": 9.541624195614152e-05,
      "loss": 0.4529,
      "num_input_tokens_seen": 20467912,
      "step": 31295
    },
    {
      "epoch": 16.40461215932914,
      "grad_norm": 0.14315685629844666,
      "learning_rate": 9.528191358771532e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 20470728,
      "step": 31300
    },
    {
      "epoch": 16.407232704402517,
      "grad_norm": 0.18134425580501556,
      "learning_rate": 9.514766988169549e-05,
      "loss": 0.3919,
      "num_input_tokens_seen": 20473064,
      "step": 31305
    },
    {
      "epoch": 16.40985324947589,
      "grad_norm": 0.19726969301700592,
      "learning_rate": 9.501351086616422e-05,
      "loss": 0.4325,
      "num_input_tokens_seen": 20475720,
      "step": 31310
    },
    {
      "epoch": 16.412473794549268,
      "grad_norm": 0.16310304403305054,
      "learning_rate": 9.487943656918613e-05,
      "loss": 0.4554,
      "num_input_tokens_seen": 20478568,
      "step": 31315
    },
    {
      "epoch": 16.41509433962264,
      "grad_norm": 0.08679120987653732,
      "learning_rate": 9.474544701880805e-05,
      "loss": 0.3693,
      "num_input_tokens_seen": 20481640,
      "step": 31320
    },
    {
      "epoch": 16.417714884696018,
      "grad_norm": 0.17838048934936523,
      "learning_rate": 9.461154224305923e-05,
      "loss": 0.4202,
      "num_input_tokens_seen": 20484680,
      "step": 31325
    },
    {
      "epoch": 16.42033542976939,
      "grad_norm": 0.11142510920763016,
      "learning_rate": 9.447772226995082e-05,
      "loss": 0.4893,
      "num_input_tokens_seen": 20491688,
      "step": 31330
    },
    {
      "epoch": 16.42295597484277,
      "grad_norm": 0.14743977785110474,
      "learning_rate": 9.434398712747639e-05,
      "loss": 0.4082,
      "num_input_tokens_seen": 20494408,
      "step": 31335
    },
    {
      "epoch": 16.42557651991614,
      "grad_norm": 0.11725062131881714,
      "learning_rate": 9.421033684361185e-05,
      "loss": 0.5435,
      "num_input_tokens_seen": 20497672,
      "step": 31340
    },
    {
      "epoch": 16.42819706498952,
      "grad_norm": 0.09065837413072586,
      "learning_rate": 9.407677144631533e-05,
      "loss": 0.3916,
      "num_input_tokens_seen": 20501192,
      "step": 31345
    },
    {
      "epoch": 16.430817610062892,
      "grad_norm": 0.2626303434371948,
      "learning_rate": 9.394329096352732e-05,
      "loss": 0.5881,
      "num_input_tokens_seen": 20504168,
      "step": 31350
    },
    {
      "epoch": 16.43343815513627,
      "grad_norm": 0.14483456313610077,
      "learning_rate": 9.380989542317037e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 20507176,
      "step": 31355
    },
    {
      "epoch": 16.436058700209642,
      "grad_norm": 0.16673792898654938,
      "learning_rate": 9.367658485314907e-05,
      "loss": 0.3813,
      "num_input_tokens_seen": 20510344,
      "step": 31360
    },
    {
      "epoch": 16.43867924528302,
      "grad_norm": 0.2822163701057434,
      "learning_rate": 9.354335928135066e-05,
      "loss": 0.5174,
      "num_input_tokens_seen": 20512904,
      "step": 31365
    },
    {
      "epoch": 16.441299790356393,
      "grad_norm": 0.17052339017391205,
      "learning_rate": 9.341021873564432e-05,
      "loss": 0.3862,
      "num_input_tokens_seen": 20515720,
      "step": 31370
    },
    {
      "epoch": 16.44392033542977,
      "grad_norm": 0.1706920862197876,
      "learning_rate": 9.327716324388164e-05,
      "loss": 0.4968,
      "num_input_tokens_seen": 20519080,
      "step": 31375
    },
    {
      "epoch": 16.446540880503143,
      "grad_norm": 0.2624032199382782,
      "learning_rate": 9.314419283389641e-05,
      "loss": 0.3569,
      "num_input_tokens_seen": 20522536,
      "step": 31380
    },
    {
      "epoch": 16.44916142557652,
      "grad_norm": 0.14680588245391846,
      "learning_rate": 9.30113075335044e-05,
      "loss": 0.4004,
      "num_input_tokens_seen": 20525800,
      "step": 31385
    },
    {
      "epoch": 16.451781970649897,
      "grad_norm": 0.17389309406280518,
      "learning_rate": 9.287850737050352e-05,
      "loss": 0.3719,
      "num_input_tokens_seen": 20528168,
      "step": 31390
    },
    {
      "epoch": 16.45440251572327,
      "grad_norm": 0.14189627766609192,
      "learning_rate": 9.274579237267422e-05,
      "loss": 0.3126,
      "num_input_tokens_seen": 20530984,
      "step": 31395
    },
    {
      "epoch": 16.457023060796647,
      "grad_norm": 0.19645899534225464,
      "learning_rate": 9.261316256777897e-05,
      "loss": 0.3838,
      "num_input_tokens_seen": 20533928,
      "step": 31400
    },
    {
      "epoch": 16.45964360587002,
      "grad_norm": 0.10720480978488922,
      "learning_rate": 9.24806179835625e-05,
      "loss": 0.3787,
      "num_input_tokens_seen": 20536744,
      "step": 31405
    },
    {
      "epoch": 16.462264150943398,
      "grad_norm": 0.2960132360458374,
      "learning_rate": 9.234815864775137e-05,
      "loss": 0.4074,
      "num_input_tokens_seen": 20539304,
      "step": 31410
    },
    {
      "epoch": 16.46488469601677,
      "grad_norm": 0.1114412397146225,
      "learning_rate": 9.221578458805485e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 20541896,
      "step": 31415
    },
    {
      "epoch": 16.467505241090148,
      "grad_norm": 0.34274131059646606,
      "learning_rate": 9.208349583216385e-05,
      "loss": 0.4425,
      "num_input_tokens_seen": 20545000,
      "step": 31420
    },
    {
      "epoch": 16.47012578616352,
      "grad_norm": 0.15653309226036072,
      "learning_rate": 9.195129240775174e-05,
      "loss": 0.4078,
      "num_input_tokens_seen": 20547432,
      "step": 31425
    },
    {
      "epoch": 16.4727463312369,
      "grad_norm": 0.42234086990356445,
      "learning_rate": 9.181917434247417e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 20550376,
      "step": 31430
    },
    {
      "epoch": 16.47536687631027,
      "grad_norm": 0.09140877425670624,
      "learning_rate": 9.168714166396835e-05,
      "loss": 0.4215,
      "num_input_tokens_seen": 20555496,
      "step": 31435
    },
    {
      "epoch": 16.47798742138365,
      "grad_norm": 0.11914229393005371,
      "learning_rate": 9.155519439985438e-05,
      "loss": 0.3699,
      "num_input_tokens_seen": 20559752,
      "step": 31440
    },
    {
      "epoch": 16.480607966457022,
      "grad_norm": 0.11000222712755203,
      "learning_rate": 9.142333257773383e-05,
      "loss": 0.3552,
      "num_input_tokens_seen": 20563464,
      "step": 31445
    },
    {
      "epoch": 16.4832285115304,
      "grad_norm": 0.24237795174121857,
      "learning_rate": 9.12915562251908e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 20566728,
      "step": 31450
    },
    {
      "epoch": 16.485849056603772,
      "grad_norm": 0.20605073869228363,
      "learning_rate": 9.115986536979149e-05,
      "loss": 0.3726,
      "num_input_tokens_seen": 20569416,
      "step": 31455
    },
    {
      "epoch": 16.48846960167715,
      "grad_norm": 0.10181351751089096,
      "learning_rate": 9.10282600390841e-05,
      "loss": 0.29,
      "num_input_tokens_seen": 20572456,
      "step": 31460
    },
    {
      "epoch": 16.491090146750523,
      "grad_norm": 0.11273925006389618,
      "learning_rate": 9.08967402605988e-05,
      "loss": 0.463,
      "num_input_tokens_seen": 20576168,
      "step": 31465
    },
    {
      "epoch": 16.4937106918239,
      "grad_norm": 0.09311315417289734,
      "learning_rate": 9.07653060618483e-05,
      "loss": 0.4074,
      "num_input_tokens_seen": 20579112,
      "step": 31470
    },
    {
      "epoch": 16.496331236897273,
      "grad_norm": 0.12338223308324814,
      "learning_rate": 9.063395747032676e-05,
      "loss": 0.5215,
      "num_input_tokens_seen": 20582824,
      "step": 31475
    },
    {
      "epoch": 16.49895178197065,
      "grad_norm": 0.23478156328201294,
      "learning_rate": 9.050269451351112e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 20586088,
      "step": 31480
    },
    {
      "epoch": 16.501572327044027,
      "grad_norm": 0.2209050953388214,
      "learning_rate": 9.037151721886006e-05,
      "loss": 0.5468,
      "num_input_tokens_seen": 20591560,
      "step": 31485
    },
    {
      "epoch": 16.5041928721174,
      "grad_norm": 0.20724673569202423,
      "learning_rate": 9.024042561381424e-05,
      "loss": 0.3903,
      "num_input_tokens_seen": 20594952,
      "step": 31490
    },
    {
      "epoch": 16.506813417190777,
      "grad_norm": 0.16174983978271484,
      "learning_rate": 9.010941972579656e-05,
      "loss": 0.3077,
      "num_input_tokens_seen": 20597992,
      "step": 31495
    },
    {
      "epoch": 16.50943396226415,
      "grad_norm": 0.1291186660528183,
      "learning_rate": 8.99784995822121e-05,
      "loss": 0.4589,
      "num_input_tokens_seen": 20600616,
      "step": 31500
    },
    {
      "epoch": 16.512054507337528,
      "grad_norm": 0.16798076033592224,
      "learning_rate": 8.984766521044769e-05,
      "loss": 0.3396,
      "num_input_tokens_seen": 20603432,
      "step": 31505
    },
    {
      "epoch": 16.5146750524109,
      "grad_norm": 0.5411118268966675,
      "learning_rate": 8.971691663787252e-05,
      "loss": 0.5826,
      "num_input_tokens_seen": 20606280,
      "step": 31510
    },
    {
      "epoch": 16.517295597484278,
      "grad_norm": 0.11042606085538864,
      "learning_rate": 8.958625389183756e-05,
      "loss": 0.385,
      "num_input_tokens_seen": 20609832,
      "step": 31515
    },
    {
      "epoch": 16.51991614255765,
      "grad_norm": 0.156876802444458,
      "learning_rate": 8.9455676999676e-05,
      "loss": 0.4526,
      "num_input_tokens_seen": 20613416,
      "step": 31520
    },
    {
      "epoch": 16.52253668763103,
      "grad_norm": 0.18355774879455566,
      "learning_rate": 8.932518598870309e-05,
      "loss": 0.4078,
      "num_input_tokens_seen": 20616712,
      "step": 31525
    },
    {
      "epoch": 16.5251572327044,
      "grad_norm": 0.14948320388793945,
      "learning_rate": 8.919478088621614e-05,
      "loss": 0.4608,
      "num_input_tokens_seen": 20619880,
      "step": 31530
    },
    {
      "epoch": 16.52777777777778,
      "grad_norm": 0.13578283786773682,
      "learning_rate": 8.906446171949422e-05,
      "loss": 0.3382,
      "num_input_tokens_seen": 20622728,
      "step": 31535
    },
    {
      "epoch": 16.530398322851152,
      "grad_norm": 0.2669457197189331,
      "learning_rate": 8.893422851579885e-05,
      "loss": 0.4654,
      "num_input_tokens_seen": 20625544,
      "step": 31540
    },
    {
      "epoch": 16.53301886792453,
      "grad_norm": 0.10753609240055084,
      "learning_rate": 8.8804081302373e-05,
      "loss": 0.4525,
      "num_input_tokens_seen": 20629928,
      "step": 31545
    },
    {
      "epoch": 16.535639412997902,
      "grad_norm": 0.26125019788742065,
      "learning_rate": 8.867402010644221e-05,
      "loss": 0.5198,
      "num_input_tokens_seen": 20633608,
      "step": 31550
    },
    {
      "epoch": 16.53825995807128,
      "grad_norm": 0.11789744347333908,
      "learning_rate": 8.854404495521389e-05,
      "loss": 0.4226,
      "num_input_tokens_seen": 20637192,
      "step": 31555
    },
    {
      "epoch": 16.540880503144653,
      "grad_norm": 0.20306918025016785,
      "learning_rate": 8.841415587587709e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 20640136,
      "step": 31560
    },
    {
      "epoch": 16.54350104821803,
      "grad_norm": 0.1732863485813141,
      "learning_rate": 8.828435289560344e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 20644424,
      "step": 31565
    },
    {
      "epoch": 16.546121593291403,
      "grad_norm": 0.1369898021221161,
      "learning_rate": 8.815463604154588e-05,
      "loss": 0.4324,
      "num_input_tokens_seen": 20647528,
      "step": 31570
    },
    {
      "epoch": 16.54874213836478,
      "grad_norm": 0.1498529314994812,
      "learning_rate": 8.80250053408399e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 20651080,
      "step": 31575
    },
    {
      "epoch": 16.551362683438157,
      "grad_norm": 0.16484415531158447,
      "learning_rate": 8.789546082060273e-05,
      "loss": 0.3647,
      "num_input_tokens_seen": 20654344,
      "step": 31580
    },
    {
      "epoch": 16.55398322851153,
      "grad_norm": 0.09713800996541977,
      "learning_rate": 8.776600250793371e-05,
      "loss": 0.3687,
      "num_input_tokens_seen": 20658056,
      "step": 31585
    },
    {
      "epoch": 16.556603773584907,
      "grad_norm": 0.12911637127399445,
      "learning_rate": 8.763663042991399e-05,
      "loss": 0.3583,
      "num_input_tokens_seen": 20661544,
      "step": 31590
    },
    {
      "epoch": 16.55922431865828,
      "grad_norm": 0.09183934330940247,
      "learning_rate": 8.75073446136066e-05,
      "loss": 0.4325,
      "num_input_tokens_seen": 20665768,
      "step": 31595
    },
    {
      "epoch": 16.561844863731658,
      "grad_norm": 0.12004037946462631,
      "learning_rate": 8.737814508605674e-05,
      "loss": 0.3441,
      "num_input_tokens_seen": 20668840,
      "step": 31600
    },
    {
      "epoch": 16.56446540880503,
      "grad_norm": 0.3114413022994995,
      "learning_rate": 8.724903187429145e-05,
      "loss": 0.688,
      "num_input_tokens_seen": 20671720,
      "step": 31605
    },
    {
      "epoch": 16.567085953878408,
      "grad_norm": 0.10105417668819427,
      "learning_rate": 8.71200050053198e-05,
      "loss": 0.3976,
      "num_input_tokens_seen": 20675336,
      "step": 31610
    },
    {
      "epoch": 16.56970649895178,
      "grad_norm": 0.14447800815105438,
      "learning_rate": 8.699106450613287e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 20678056,
      "step": 31615
    },
    {
      "epoch": 16.572327044025158,
      "grad_norm": 0.16512732207775116,
      "learning_rate": 8.686221040370334e-05,
      "loss": 0.4873,
      "num_input_tokens_seen": 20681256,
      "step": 31620
    },
    {
      "epoch": 16.57494758909853,
      "grad_norm": 0.20772019028663635,
      "learning_rate": 8.673344272498596e-05,
      "loss": 0.3856,
      "num_input_tokens_seen": 20687112,
      "step": 31625
    },
    {
      "epoch": 16.57756813417191,
      "grad_norm": 0.15416298806667328,
      "learning_rate": 8.660476149691759e-05,
      "loss": 0.5019,
      "num_input_tokens_seen": 20689960,
      "step": 31630
    },
    {
      "epoch": 16.580188679245282,
      "grad_norm": 0.21938054263591766,
      "learning_rate": 8.647616674641684e-05,
      "loss": 0.3815,
      "num_input_tokens_seen": 20694984,
      "step": 31635
    },
    {
      "epoch": 16.58280922431866,
      "grad_norm": 0.09450507909059525,
      "learning_rate": 8.63476585003844e-05,
      "loss": 0.4132,
      "num_input_tokens_seen": 20699272,
      "step": 31640
    },
    {
      "epoch": 16.585429769392032,
      "grad_norm": 0.10816242545843124,
      "learning_rate": 8.621923678570259e-05,
      "loss": 0.4372,
      "num_input_tokens_seen": 20702632,
      "step": 31645
    },
    {
      "epoch": 16.58805031446541,
      "grad_norm": 0.1974116414785385,
      "learning_rate": 8.609090162923567e-05,
      "loss": 0.3867,
      "num_input_tokens_seen": 20706152,
      "step": 31650
    },
    {
      "epoch": 16.590670859538783,
      "grad_norm": 0.09674585610628128,
      "learning_rate": 8.596265305783002e-05,
      "loss": 0.4048,
      "num_input_tokens_seen": 20709416,
      "step": 31655
    },
    {
      "epoch": 16.59329140461216,
      "grad_norm": 0.1430823653936386,
      "learning_rate": 8.583449109831375e-05,
      "loss": 0.3856,
      "num_input_tokens_seen": 20713480,
      "step": 31660
    },
    {
      "epoch": 16.595911949685533,
      "grad_norm": 0.09763734042644501,
      "learning_rate": 8.570641577749705e-05,
      "loss": 0.4223,
      "num_input_tokens_seen": 20717832,
      "step": 31665
    },
    {
      "epoch": 16.59853249475891,
      "grad_norm": 0.17011146247386932,
      "learning_rate": 8.557842712217162e-05,
      "loss": 0.3639,
      "num_input_tokens_seen": 20720872,
      "step": 31670
    },
    {
      "epoch": 16.601153039832283,
      "grad_norm": 0.13903580605983734,
      "learning_rate": 8.545052515911112e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 20724424,
      "step": 31675
    },
    {
      "epoch": 16.60377358490566,
      "grad_norm": 0.2135225087404251,
      "learning_rate": 8.532270991507136e-05,
      "loss": 0.3761,
      "num_input_tokens_seen": 20727688,
      "step": 31680
    },
    {
      "epoch": 16.606394129979037,
      "grad_norm": 0.13524995744228363,
      "learning_rate": 8.519498141678983e-05,
      "loss": 0.6091,
      "num_input_tokens_seen": 20731016,
      "step": 31685
    },
    {
      "epoch": 16.60901467505241,
      "grad_norm": 0.15086326003074646,
      "learning_rate": 8.506733969098579e-05,
      "loss": 0.4986,
      "num_input_tokens_seen": 20733448,
      "step": 31690
    },
    {
      "epoch": 16.611635220125788,
      "grad_norm": 0.19802959263324738,
      "learning_rate": 8.49397847643606e-05,
      "loss": 0.4877,
      "num_input_tokens_seen": 20736680,
      "step": 31695
    },
    {
      "epoch": 16.61425576519916,
      "grad_norm": 0.08777289092540741,
      "learning_rate": 8.481231666359723e-05,
      "loss": 0.3031,
      "num_input_tokens_seen": 20739688,
      "step": 31700
    },
    {
      "epoch": 16.616876310272538,
      "grad_norm": 0.17144775390625,
      "learning_rate": 8.468493541536031e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 20743560,
      "step": 31705
    },
    {
      "epoch": 16.61949685534591,
      "grad_norm": 0.12351267784833908,
      "learning_rate": 8.455764104629681e-05,
      "loss": 0.411,
      "num_input_tokens_seen": 20746920,
      "step": 31710
    },
    {
      "epoch": 16.622117400419288,
      "grad_norm": 0.12214546650648117,
      "learning_rate": 8.443043358303515e-05,
      "loss": 0.3691,
      "num_input_tokens_seen": 20750312,
      "step": 31715
    },
    {
      "epoch": 16.62473794549266,
      "grad_norm": 0.1494767665863037,
      "learning_rate": 8.430331305218585e-05,
      "loss": 0.3346,
      "num_input_tokens_seen": 20753960,
      "step": 31720
    },
    {
      "epoch": 16.62735849056604,
      "grad_norm": 0.10322795063257217,
      "learning_rate": 8.417627948034096e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 20757192,
      "step": 31725
    },
    {
      "epoch": 16.629979035639412,
      "grad_norm": 0.17351415753364563,
      "learning_rate": 8.404933289407424e-05,
      "loss": 0.3785,
      "num_input_tokens_seen": 20760360,
      "step": 31730
    },
    {
      "epoch": 16.63259958071279,
      "grad_norm": 0.153056338429451,
      "learning_rate": 8.392247331994174e-05,
      "loss": 0.4674,
      "num_input_tokens_seen": 20763592,
      "step": 31735
    },
    {
      "epoch": 16.635220125786162,
      "grad_norm": 0.12210862338542938,
      "learning_rate": 8.37957007844809e-05,
      "loss": 0.3858,
      "num_input_tokens_seen": 20766344,
      "step": 31740
    },
    {
      "epoch": 16.63784067085954,
      "grad_norm": 0.11592689901590347,
      "learning_rate": 8.366901531421134e-05,
      "loss": 0.3754,
      "num_input_tokens_seen": 20770248,
      "step": 31745
    },
    {
      "epoch": 16.640461215932913,
      "grad_norm": 0.13897086679935455,
      "learning_rate": 8.354241693563385e-05,
      "loss": 0.4875,
      "num_input_tokens_seen": 20773832,
      "step": 31750
    },
    {
      "epoch": 16.64308176100629,
      "grad_norm": 0.11939273774623871,
      "learning_rate": 8.341590567523166e-05,
      "loss": 0.4055,
      "num_input_tokens_seen": 20776136,
      "step": 31755
    },
    {
      "epoch": 16.645702306079663,
      "grad_norm": 0.3057892918586731,
      "learning_rate": 8.328948155946924e-05,
      "loss": 0.4188,
      "num_input_tokens_seen": 20779272,
      "step": 31760
    },
    {
      "epoch": 16.64832285115304,
      "grad_norm": 0.11269424110651016,
      "learning_rate": 8.316314461479318e-05,
      "loss": 0.3077,
      "num_input_tokens_seen": 20782984,
      "step": 31765
    },
    {
      "epoch": 16.650943396226417,
      "grad_norm": 0.1399034559726715,
      "learning_rate": 8.303689486763177e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 20787208,
      "step": 31770
    },
    {
      "epoch": 16.65356394129979,
      "grad_norm": 0.1536581665277481,
      "learning_rate": 8.291073234439512e-05,
      "loss": 0.3574,
      "num_input_tokens_seen": 20790216,
      "step": 31775
    },
    {
      "epoch": 16.656184486373167,
      "grad_norm": 0.22435952723026276,
      "learning_rate": 8.27846570714747e-05,
      "loss": 0.477,
      "num_input_tokens_seen": 20793288,
      "step": 31780
    },
    {
      "epoch": 16.65880503144654,
      "grad_norm": 0.18344523012638092,
      "learning_rate": 8.265866907524427e-05,
      "loss": 0.4887,
      "num_input_tokens_seen": 20795688,
      "step": 31785
    },
    {
      "epoch": 16.661425576519918,
      "grad_norm": 0.08554521948099136,
      "learning_rate": 8.253276838205892e-05,
      "loss": 0.2916,
      "num_input_tokens_seen": 20799496,
      "step": 31790
    },
    {
      "epoch": 16.66404612159329,
      "grad_norm": 0.1824548989534378,
      "learning_rate": 8.240695501825568e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 20802280,
      "step": 31795
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.23324859142303467,
      "learning_rate": 8.228122901015345e-05,
      "loss": 0.3754,
      "num_input_tokens_seen": 20805352,
      "step": 31800
    },
    {
      "epoch": 16.66928721174004,
      "grad_norm": 0.20583756268024445,
      "learning_rate": 8.21555903840524e-05,
      "loss": 0.5084,
      "num_input_tokens_seen": 20808840,
      "step": 31805
    },
    {
      "epoch": 16.671907756813418,
      "grad_norm": 0.18833786249160767,
      "learning_rate": 8.203003916623491e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 20811240,
      "step": 31810
    },
    {
      "epoch": 16.67452830188679,
      "grad_norm": 0.1935911476612091,
      "learning_rate": 8.190457538296464e-05,
      "loss": 0.4701,
      "num_input_tokens_seen": 20814632,
      "step": 31815
    },
    {
      "epoch": 16.67714884696017,
      "grad_norm": 0.11674115061759949,
      "learning_rate": 8.177919906048736e-05,
      "loss": 0.4918,
      "num_input_tokens_seen": 20818120,
      "step": 31820
    },
    {
      "epoch": 16.679769392033542,
      "grad_norm": 0.17939896881580353,
      "learning_rate": 8.165391022503044e-05,
      "loss": 0.4462,
      "num_input_tokens_seen": 20820776,
      "step": 31825
    },
    {
      "epoch": 16.68238993710692,
      "grad_norm": 0.21913929283618927,
      "learning_rate": 8.152870890280261e-05,
      "loss": 0.3982,
      "num_input_tokens_seen": 20823944,
      "step": 31830
    },
    {
      "epoch": 16.685010482180292,
      "grad_norm": 0.15885266661643982,
      "learning_rate": 8.140359511999473e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 20827144,
      "step": 31835
    },
    {
      "epoch": 16.68763102725367,
      "grad_norm": 0.27909138798713684,
      "learning_rate": 8.127856890277923e-05,
      "loss": 0.469,
      "num_input_tokens_seen": 20830376,
      "step": 31840
    },
    {
      "epoch": 16.690251572327043,
      "grad_norm": 0.20923420786857605,
      "learning_rate": 8.115363027730998e-05,
      "loss": 0.3477,
      "num_input_tokens_seen": 20834888,
      "step": 31845
    },
    {
      "epoch": 16.69287211740042,
      "grad_norm": 0.1600603461265564,
      "learning_rate": 8.102877926972286e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 20837992,
      "step": 31850
    },
    {
      "epoch": 16.695492662473793,
      "grad_norm": 0.11115944385528564,
      "learning_rate": 8.090401590613533e-05,
      "loss": 0.4005,
      "num_input_tokens_seen": 20841448,
      "step": 31855
    },
    {
      "epoch": 16.69811320754717,
      "grad_norm": 0.17949128150939941,
      "learning_rate": 8.077934021264627e-05,
      "loss": 0.5177,
      "num_input_tokens_seen": 20844296,
      "step": 31860
    },
    {
      "epoch": 16.700733752620543,
      "grad_norm": 0.16923807561397552,
      "learning_rate": 8.065475221533652e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 20847080,
      "step": 31865
    },
    {
      "epoch": 16.70335429769392,
      "grad_norm": 0.08506949990987778,
      "learning_rate": 8.053025194026858e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 20850984,
      "step": 31870
    },
    {
      "epoch": 16.705974842767297,
      "grad_norm": 0.16298285126686096,
      "learning_rate": 8.040583941348623e-05,
      "loss": 0.4691,
      "num_input_tokens_seen": 20854344,
      "step": 31875
    },
    {
      "epoch": 16.70859538784067,
      "grad_norm": 0.1374262273311615,
      "learning_rate": 8.028151466101541e-05,
      "loss": 0.3801,
      "num_input_tokens_seen": 20856840,
      "step": 31880
    },
    {
      "epoch": 16.711215932914047,
      "grad_norm": 0.1150810644030571,
      "learning_rate": 8.015727770886321e-05,
      "loss": 0.3166,
      "num_input_tokens_seen": 20860296,
      "step": 31885
    },
    {
      "epoch": 16.71383647798742,
      "grad_norm": 0.10592462122440338,
      "learning_rate": 8.00331285830187e-05,
      "loss": 0.3172,
      "num_input_tokens_seen": 20863656,
      "step": 31890
    },
    {
      "epoch": 16.716457023060798,
      "grad_norm": 0.11422541737556458,
      "learning_rate": 7.990906730945247e-05,
      "loss": 0.5509,
      "num_input_tokens_seen": 20867016,
      "step": 31895
    },
    {
      "epoch": 16.71907756813417,
      "grad_norm": 0.14173142611980438,
      "learning_rate": 7.978509391411681e-05,
      "loss": 0.491,
      "num_input_tokens_seen": 20870952,
      "step": 31900
    },
    {
      "epoch": 16.721698113207548,
      "grad_norm": 0.13021615147590637,
      "learning_rate": 7.966120842294544e-05,
      "loss": 0.4782,
      "num_input_tokens_seen": 20874184,
      "step": 31905
    },
    {
      "epoch": 16.72431865828092,
      "grad_norm": 0.15573064982891083,
      "learning_rate": 7.953741086185368e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 20877544,
      "step": 31910
    },
    {
      "epoch": 16.7269392033543,
      "grad_norm": 0.23228110373020172,
      "learning_rate": 7.941370125673864e-05,
      "loss": 0.5453,
      "num_input_tokens_seen": 20880904,
      "step": 31915
    },
    {
      "epoch": 16.729559748427672,
      "grad_norm": 0.1246553286910057,
      "learning_rate": 7.9290079633479e-05,
      "loss": 0.4263,
      "num_input_tokens_seen": 20884200,
      "step": 31920
    },
    {
      "epoch": 16.73218029350105,
      "grad_norm": 0.11049802601337433,
      "learning_rate": 7.916654601793516e-05,
      "loss": 0.2979,
      "num_input_tokens_seen": 20888328,
      "step": 31925
    },
    {
      "epoch": 16.734800838574422,
      "grad_norm": 0.13941776752471924,
      "learning_rate": 7.904310043594859e-05,
      "loss": 0.4346,
      "num_input_tokens_seen": 20892648,
      "step": 31930
    },
    {
      "epoch": 16.7374213836478,
      "grad_norm": 0.22256866097450256,
      "learning_rate": 7.891974291334303e-05,
      "loss": 0.5392,
      "num_input_tokens_seen": 20896296,
      "step": 31935
    },
    {
      "epoch": 16.740041928721173,
      "grad_norm": 0.12545320391654968,
      "learning_rate": 7.879647347592322e-05,
      "loss": 0.5095,
      "num_input_tokens_seen": 20899592,
      "step": 31940
    },
    {
      "epoch": 16.74266247379455,
      "grad_norm": 0.17769648134708405,
      "learning_rate": 7.867329214947578e-05,
      "loss": 0.569,
      "num_input_tokens_seen": 20902440,
      "step": 31945
    },
    {
      "epoch": 16.745283018867923,
      "grad_norm": 0.2581600844860077,
      "learning_rate": 7.855019895976889e-05,
      "loss": 0.4818,
      "num_input_tokens_seen": 20905896,
      "step": 31950
    },
    {
      "epoch": 16.7479035639413,
      "grad_norm": 0.2532106041908264,
      "learning_rate": 7.842719393255232e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 20908808,
      "step": 31955
    },
    {
      "epoch": 16.750524109014677,
      "grad_norm": 0.09832954406738281,
      "learning_rate": 7.830427709355725e-05,
      "loss": 0.3219,
      "num_input_tokens_seen": 20911592,
      "step": 31960
    },
    {
      "epoch": 16.75314465408805,
      "grad_norm": 0.22312875092029572,
      "learning_rate": 7.818144846849634e-05,
      "loss": 0.4819,
      "num_input_tokens_seen": 20914664,
      "step": 31965
    },
    {
      "epoch": 16.755765199161427,
      "grad_norm": 0.16138367354869843,
      "learning_rate": 7.805870808306403e-05,
      "loss": 0.39,
      "num_input_tokens_seen": 20917800,
      "step": 31970
    },
    {
      "epoch": 16.7583857442348,
      "grad_norm": 0.1567436009645462,
      "learning_rate": 7.793605596293618e-05,
      "loss": 0.4479,
      "num_input_tokens_seen": 20920680,
      "step": 31975
    },
    {
      "epoch": 16.761006289308177,
      "grad_norm": 0.1451548933982849,
      "learning_rate": 7.781349213377048e-05,
      "loss": 0.4212,
      "num_input_tokens_seen": 20923400,
      "step": 31980
    },
    {
      "epoch": 16.76362683438155,
      "grad_norm": 0.1983044147491455,
      "learning_rate": 7.769101662120559e-05,
      "loss": 0.3052,
      "num_input_tokens_seen": 20925320,
      "step": 31985
    },
    {
      "epoch": 16.766247379454928,
      "grad_norm": 0.16589851677417755,
      "learning_rate": 7.756862945086196e-05,
      "loss": 0.4538,
      "num_input_tokens_seen": 20928328,
      "step": 31990
    },
    {
      "epoch": 16.7688679245283,
      "grad_norm": 0.18455857038497925,
      "learning_rate": 7.744633064834172e-05,
      "loss": 0.356,
      "num_input_tokens_seen": 20931304,
      "step": 31995
    },
    {
      "epoch": 16.771488469601678,
      "grad_norm": 0.18068325519561768,
      "learning_rate": 7.732412023922836e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 20934376,
      "step": 32000
    },
    {
      "epoch": 16.77410901467505,
      "grad_norm": 0.11524128913879395,
      "learning_rate": 7.720199824908692e-05,
      "loss": 0.5905,
      "num_input_tokens_seen": 20937224,
      "step": 32005
    },
    {
      "epoch": 16.77672955974843,
      "grad_norm": 0.1598196178674698,
      "learning_rate": 7.707996470346402e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 20940616,
      "step": 32010
    },
    {
      "epoch": 16.779350104821802,
      "grad_norm": 0.12452690303325653,
      "learning_rate": 7.695801962788756e-05,
      "loss": 0.3373,
      "num_input_tokens_seen": 20944488,
      "step": 32015
    },
    {
      "epoch": 16.78197064989518,
      "grad_norm": 0.15185216069221497,
      "learning_rate": 7.683616304786695e-05,
      "loss": 0.3966,
      "num_input_tokens_seen": 20947336,
      "step": 32020
    },
    {
      "epoch": 16.784591194968552,
      "grad_norm": 0.1589517444372177,
      "learning_rate": 7.671439498889332e-05,
      "loss": 0.4262,
      "num_input_tokens_seen": 20950280,
      "step": 32025
    },
    {
      "epoch": 16.78721174004193,
      "grad_norm": 0.1137683168053627,
      "learning_rate": 7.65927154764392e-05,
      "loss": 0.3744,
      "num_input_tokens_seen": 20953160,
      "step": 32030
    },
    {
      "epoch": 16.789832285115303,
      "grad_norm": 0.2084495574235916,
      "learning_rate": 7.647112453595862e-05,
      "loss": 0.3493,
      "num_input_tokens_seen": 20957064,
      "step": 32035
    },
    {
      "epoch": 16.79245283018868,
      "grad_norm": 0.13905474543571472,
      "learning_rate": 7.634962219288688e-05,
      "loss": 0.3954,
      "num_input_tokens_seen": 20959848,
      "step": 32040
    },
    {
      "epoch": 16.795073375262053,
      "grad_norm": 0.15285465121269226,
      "learning_rate": 7.622820847264083e-05,
      "loss": 0.534,
      "num_input_tokens_seen": 20962536,
      "step": 32045
    },
    {
      "epoch": 16.79769392033543,
      "grad_norm": 0.10920447111129761,
      "learning_rate": 7.610688340061894e-05,
      "loss": 0.4784,
      "num_input_tokens_seen": 20966120,
      "step": 32050
    },
    {
      "epoch": 16.800314465408803,
      "grad_norm": 0.34949439764022827,
      "learning_rate": 7.598564700220101e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 20969064,
      "step": 32055
    },
    {
      "epoch": 16.80293501048218,
      "grad_norm": 0.13860875368118286,
      "learning_rate": 7.586449930274842e-05,
      "loss": 0.358,
      "num_input_tokens_seen": 20971656,
      "step": 32060
    },
    {
      "epoch": 16.805555555555557,
      "grad_norm": 0.13833796977996826,
      "learning_rate": 7.574344032760367e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 20974568,
      "step": 32065
    },
    {
      "epoch": 16.80817610062893,
      "grad_norm": 0.024704042822122574,
      "learning_rate": 7.562247010209111e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 20981576,
      "step": 32070
    },
    {
      "epoch": 16.810796645702307,
      "grad_norm": 0.2767671048641205,
      "learning_rate": 7.550158865151618e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 20985032,
      "step": 32075
    },
    {
      "epoch": 16.81341719077568,
      "grad_norm": 0.10336168855428696,
      "learning_rate": 7.538079600116593e-05,
      "loss": 0.5852,
      "num_input_tokens_seen": 20989416,
      "step": 32080
    },
    {
      "epoch": 16.816037735849058,
      "grad_norm": 0.11252912133932114,
      "learning_rate": 7.526009217630886e-05,
      "loss": 0.5056,
      "num_input_tokens_seen": 20993320,
      "step": 32085
    },
    {
      "epoch": 16.81865828092243,
      "grad_norm": 0.184518963098526,
      "learning_rate": 7.513947720219494e-05,
      "loss": 0.5436,
      "num_input_tokens_seen": 20996584,
      "step": 32090
    },
    {
      "epoch": 16.821278825995808,
      "grad_norm": 0.1037873700261116,
      "learning_rate": 7.501895110405533e-05,
      "loss": 0.365,
      "num_input_tokens_seen": 20999432,
      "step": 32095
    },
    {
      "epoch": 16.82389937106918,
      "grad_norm": 0.20454001426696777,
      "learning_rate": 7.489851390710262e-05,
      "loss": 0.3356,
      "num_input_tokens_seen": 21002120,
      "step": 32100
    },
    {
      "epoch": 16.82651991614256,
      "grad_norm": 0.12588010728359222,
      "learning_rate": 7.477816563653095e-05,
      "loss": 0.3915,
      "num_input_tokens_seen": 21005544,
      "step": 32105
    },
    {
      "epoch": 16.829140461215932,
      "grad_norm": 0.1939813792705536,
      "learning_rate": 7.465790631751584e-05,
      "loss": 0.448,
      "num_input_tokens_seen": 21008552,
      "step": 32110
    },
    {
      "epoch": 16.83176100628931,
      "grad_norm": 0.12562249600887299,
      "learning_rate": 7.453773597521429e-05,
      "loss": 0.4048,
      "num_input_tokens_seen": 21013160,
      "step": 32115
    },
    {
      "epoch": 16.834381551362682,
      "grad_norm": 0.2883282005786896,
      "learning_rate": 7.44176546347643e-05,
      "loss": 0.312,
      "num_input_tokens_seen": 21016648,
      "step": 32120
    },
    {
      "epoch": 16.83700209643606,
      "grad_norm": 0.1463446021080017,
      "learning_rate": 7.429766232128583e-05,
      "loss": 0.4863,
      "num_input_tokens_seen": 21019080,
      "step": 32125
    },
    {
      "epoch": 16.839622641509433,
      "grad_norm": 0.12642906606197357,
      "learning_rate": 7.417775905987956e-05,
      "loss": 0.3276,
      "num_input_tokens_seen": 21021512,
      "step": 32130
    },
    {
      "epoch": 16.84224318658281,
      "grad_norm": 0.256760835647583,
      "learning_rate": 7.405794487562811e-05,
      "loss": 0.3759,
      "num_input_tokens_seen": 21024008,
      "step": 32135
    },
    {
      "epoch": 16.844863731656183,
      "grad_norm": 0.28224700689315796,
      "learning_rate": 7.393821979359528e-05,
      "loss": 0.4489,
      "num_input_tokens_seen": 21027784,
      "step": 32140
    },
    {
      "epoch": 16.84748427672956,
      "grad_norm": 0.2087181955575943,
      "learning_rate": 7.3818583838826e-05,
      "loss": 0.3583,
      "num_input_tokens_seen": 21031144,
      "step": 32145
    },
    {
      "epoch": 16.850104821802937,
      "grad_norm": 0.1274142861366272,
      "learning_rate": 7.369903703634684e-05,
      "loss": 0.5294,
      "num_input_tokens_seen": 21034504,
      "step": 32150
    },
    {
      "epoch": 16.85272536687631,
      "grad_norm": 0.14863085746765137,
      "learning_rate": 7.357957941116572e-05,
      "loss": 0.4534,
      "num_input_tokens_seen": 21037160,
      "step": 32155
    },
    {
      "epoch": 16.855345911949687,
      "grad_norm": 0.11548823863267899,
      "learning_rate": 7.346021098827166e-05,
      "loss": 0.3738,
      "num_input_tokens_seen": 21041000,
      "step": 32160
    },
    {
      "epoch": 16.85796645702306,
      "grad_norm": 0.1270895004272461,
      "learning_rate": 7.334093179263518e-05,
      "loss": 0.3245,
      "num_input_tokens_seen": 21043688,
      "step": 32165
    },
    {
      "epoch": 16.860587002096437,
      "grad_norm": 0.15655824542045593,
      "learning_rate": 7.322174184920837e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 21047144,
      "step": 32170
    },
    {
      "epoch": 16.86320754716981,
      "grad_norm": 0.1129845380783081,
      "learning_rate": 7.310264118292404e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 21050056,
      "step": 32175
    },
    {
      "epoch": 16.865828092243188,
      "grad_norm": 0.19380033016204834,
      "learning_rate": 7.298362981869705e-05,
      "loss": 0.5655,
      "num_input_tokens_seen": 21054472,
      "step": 32180
    },
    {
      "epoch": 16.86844863731656,
      "grad_norm": 0.1716461330652237,
      "learning_rate": 7.286470778142284e-05,
      "loss": 0.4298,
      "num_input_tokens_seen": 21057256,
      "step": 32185
    },
    {
      "epoch": 16.871069182389938,
      "grad_norm": 0.13803938031196594,
      "learning_rate": 7.274587509597886e-05,
      "loss": 0.5173,
      "num_input_tokens_seen": 21060744,
      "step": 32190
    },
    {
      "epoch": 16.87368972746331,
      "grad_norm": 0.1331316977739334,
      "learning_rate": 7.262713178722346e-05,
      "loss": 0.5295,
      "num_input_tokens_seen": 21063720,
      "step": 32195
    },
    {
      "epoch": 16.87631027253669,
      "grad_norm": 0.13586200773715973,
      "learning_rate": 7.250847787999625e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 21067112,
      "step": 32200
    },
    {
      "epoch": 16.878930817610062,
      "grad_norm": 0.13028018176555634,
      "learning_rate": 7.238991339911844e-05,
      "loss": 0.6028,
      "num_input_tokens_seen": 21071208,
      "step": 32205
    },
    {
      "epoch": 16.88155136268344,
      "grad_norm": 0.19417279958724976,
      "learning_rate": 7.227143836939237e-05,
      "loss": 0.4995,
      "num_input_tokens_seen": 21073960,
      "step": 32210
    },
    {
      "epoch": 16.884171907756812,
      "grad_norm": 0.14749065041542053,
      "learning_rate": 7.215305281560153e-05,
      "loss": 0.4183,
      "num_input_tokens_seen": 21077320,
      "step": 32215
    },
    {
      "epoch": 16.88679245283019,
      "grad_norm": 0.2014312744140625,
      "learning_rate": 7.203475676251104e-05,
      "loss": 0.3937,
      "num_input_tokens_seen": 21081128,
      "step": 32220
    },
    {
      "epoch": 16.889412997903563,
      "grad_norm": 0.13425947725772858,
      "learning_rate": 7.191655023486682e-05,
      "loss": 0.4418,
      "num_input_tokens_seen": 21083848,
      "step": 32225
    },
    {
      "epoch": 16.89203354297694,
      "grad_norm": 0.150274395942688,
      "learning_rate": 7.179843325739644e-05,
      "loss": 0.5741,
      "num_input_tokens_seen": 21086248,
      "step": 32230
    },
    {
      "epoch": 16.894654088050313,
      "grad_norm": 0.17960496246814728,
      "learning_rate": 7.168040585480861e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 21088808,
      "step": 32235
    },
    {
      "epoch": 16.89727463312369,
      "grad_norm": 0.14940956234931946,
      "learning_rate": 7.156246805179351e-05,
      "loss": 0.3804,
      "num_input_tokens_seen": 21091752,
      "step": 32240
    },
    {
      "epoch": 16.899895178197063,
      "grad_norm": 0.12845484912395477,
      "learning_rate": 7.144461987302208e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 21095176,
      "step": 32245
    },
    {
      "epoch": 16.90251572327044,
      "grad_norm": 0.1546354740858078,
      "learning_rate": 7.132686134314714e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 21097896,
      "step": 32250
    },
    {
      "epoch": 16.905136268343817,
      "grad_norm": 0.15206609666347504,
      "learning_rate": 7.120919248680208e-05,
      "loss": 0.4152,
      "num_input_tokens_seen": 21100872,
      "step": 32255
    },
    {
      "epoch": 16.90775681341719,
      "grad_norm": 0.17706795036792755,
      "learning_rate": 7.109161332860203e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 21103432,
      "step": 32260
    },
    {
      "epoch": 16.910377358490567,
      "grad_norm": 0.22302593290805817,
      "learning_rate": 7.097412389314322e-05,
      "loss": 0.3488,
      "num_input_tokens_seen": 21106760,
      "step": 32265
    },
    {
      "epoch": 16.91299790356394,
      "grad_norm": 0.10369354486465454,
      "learning_rate": 7.085672420500322e-05,
      "loss": 0.4387,
      "num_input_tokens_seen": 21110312,
      "step": 32270
    },
    {
      "epoch": 16.915618448637318,
      "grad_norm": 0.17980234324932098,
      "learning_rate": 7.073941428874064e-05,
      "loss": 0.4544,
      "num_input_tokens_seen": 21113160,
      "step": 32275
    },
    {
      "epoch": 16.91823899371069,
      "grad_norm": 0.20036837458610535,
      "learning_rate": 7.062219416889514e-05,
      "loss": 0.3912,
      "num_input_tokens_seen": 21117096,
      "step": 32280
    },
    {
      "epoch": 16.920859538784068,
      "grad_norm": 0.11748049408197403,
      "learning_rate": 7.050506386998806e-05,
      "loss": 0.4039,
      "num_input_tokens_seen": 21120552,
      "step": 32285
    },
    {
      "epoch": 16.92348008385744,
      "grad_norm": 0.1954326033592224,
      "learning_rate": 7.038802341652172e-05,
      "loss": 0.413,
      "num_input_tokens_seen": 21123816,
      "step": 32290
    },
    {
      "epoch": 16.92610062893082,
      "grad_norm": 0.21468354761600494,
      "learning_rate": 7.027107283297967e-05,
      "loss": 0.4945,
      "num_input_tokens_seen": 21126568,
      "step": 32295
    },
    {
      "epoch": 16.928721174004192,
      "grad_norm": 0.1208517849445343,
      "learning_rate": 7.015421214382661e-05,
      "loss": 0.4497,
      "num_input_tokens_seen": 21129416,
      "step": 32300
    },
    {
      "epoch": 16.93134171907757,
      "grad_norm": 0.11409003287553787,
      "learning_rate": 7.003744137350827e-05,
      "loss": 0.3489,
      "num_input_tokens_seen": 21132104,
      "step": 32305
    },
    {
      "epoch": 16.933962264150942,
      "grad_norm": 0.15526729822158813,
      "learning_rate": 6.992076054645197e-05,
      "loss": 0.4323,
      "num_input_tokens_seen": 21135464,
      "step": 32310
    },
    {
      "epoch": 16.93658280922432,
      "grad_norm": 0.17484204471111298,
      "learning_rate": 6.980416968706594e-05,
      "loss": 0.4312,
      "num_input_tokens_seen": 21139144,
      "step": 32315
    },
    {
      "epoch": 16.939203354297693,
      "grad_norm": 0.17473559081554413,
      "learning_rate": 6.968766881973965e-05,
      "loss": 0.548,
      "num_input_tokens_seen": 21143016,
      "step": 32320
    },
    {
      "epoch": 16.94182389937107,
      "grad_norm": 0.18857760727405548,
      "learning_rate": 6.957125796884395e-05,
      "loss": 0.4333,
      "num_input_tokens_seen": 21145864,
      "step": 32325
    },
    {
      "epoch": 16.944444444444443,
      "grad_norm": 0.12086991965770721,
      "learning_rate": 6.945493715873046e-05,
      "loss": 0.5191,
      "num_input_tokens_seen": 21148904,
      "step": 32330
    },
    {
      "epoch": 16.94706498951782,
      "grad_norm": 0.179016575217247,
      "learning_rate": 6.933870641373208e-05,
      "loss": 0.3338,
      "num_input_tokens_seen": 21151496,
      "step": 32335
    },
    {
      "epoch": 16.949685534591197,
      "grad_norm": 0.14640597999095917,
      "learning_rate": 6.92225657581631e-05,
      "loss": 0.4032,
      "num_input_tokens_seen": 21154600,
      "step": 32340
    },
    {
      "epoch": 16.95230607966457,
      "grad_norm": 0.12108687311410904,
      "learning_rate": 6.910651521631877e-05,
      "loss": 0.4752,
      "num_input_tokens_seen": 21157576,
      "step": 32345
    },
    {
      "epoch": 16.954926624737947,
      "grad_norm": 0.48868995904922485,
      "learning_rate": 6.899055481247568e-05,
      "loss": 0.48,
      "num_input_tokens_seen": 21160072,
      "step": 32350
    },
    {
      "epoch": 16.95754716981132,
      "grad_norm": 0.1628434956073761,
      "learning_rate": 6.88746845708913e-05,
      "loss": 0.4794,
      "num_input_tokens_seen": 21162856,
      "step": 32355
    },
    {
      "epoch": 16.960167714884697,
      "grad_norm": 0.13972900807857513,
      "learning_rate": 6.87589045158043e-05,
      "loss": 0.508,
      "num_input_tokens_seen": 21165448,
      "step": 32360
    },
    {
      "epoch": 16.96278825995807,
      "grad_norm": 0.17443379759788513,
      "learning_rate": 6.864321467143459e-05,
      "loss": 0.4463,
      "num_input_tokens_seen": 21168840,
      "step": 32365
    },
    {
      "epoch": 16.965408805031448,
      "grad_norm": 0.268147349357605,
      "learning_rate": 6.852761506198319e-05,
      "loss": 0.4689,
      "num_input_tokens_seen": 21171592,
      "step": 32370
    },
    {
      "epoch": 16.96802935010482,
      "grad_norm": 0.11581362038850784,
      "learning_rate": 6.841210571163231e-05,
      "loss": 0.4263,
      "num_input_tokens_seen": 21176168,
      "step": 32375
    },
    {
      "epoch": 16.970649895178198,
      "grad_norm": 0.1499609500169754,
      "learning_rate": 6.829668664454513e-05,
      "loss": 0.4027,
      "num_input_tokens_seen": 21178632,
      "step": 32380
    },
    {
      "epoch": 16.97327044025157,
      "grad_norm": 0.16414675116539001,
      "learning_rate": 6.818135788486584e-05,
      "loss": 0.409,
      "num_input_tokens_seen": 21182184,
      "step": 32385
    },
    {
      "epoch": 16.97589098532495,
      "grad_norm": 0.11824288219213486,
      "learning_rate": 6.806611945672004e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 21187656,
      "step": 32390
    },
    {
      "epoch": 16.978511530398322,
      "grad_norm": 0.11203625053167343,
      "learning_rate": 6.79509713842143e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 21190952,
      "step": 32395
    },
    {
      "epoch": 16.9811320754717,
      "grad_norm": 0.20443610846996307,
      "learning_rate": 6.783591369143626e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 21193640,
      "step": 32400
    },
    {
      "epoch": 16.983752620545072,
      "grad_norm": 0.09644778817892075,
      "learning_rate": 6.77209464024548e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 21197160,
      "step": 32405
    },
    {
      "epoch": 16.98637316561845,
      "grad_norm": 0.1857917308807373,
      "learning_rate": 6.760606954131965e-05,
      "loss": 0.3685,
      "num_input_tokens_seen": 21200296,
      "step": 32410
    },
    {
      "epoch": 16.988993710691823,
      "grad_norm": 0.08483826369047165,
      "learning_rate": 6.749128313206165e-05,
      "loss": 0.443,
      "num_input_tokens_seen": 21203528,
      "step": 32415
    },
    {
      "epoch": 16.9916142557652,
      "grad_norm": 0.11172568053007126,
      "learning_rate": 6.737658719869288e-05,
      "loss": 0.3957,
      "num_input_tokens_seen": 21206600,
      "step": 32420
    },
    {
      "epoch": 16.994234800838573,
      "grad_norm": 0.20269981026649475,
      "learning_rate": 6.726198176520642e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 21209928,
      "step": 32425
    },
    {
      "epoch": 16.99685534591195,
      "grad_norm": 0.12531934678554535,
      "learning_rate": 6.71474668555766e-05,
      "loss": 0.5554,
      "num_input_tokens_seen": 21213896,
      "step": 32430
    },
    {
      "epoch": 16.999475890985323,
      "grad_norm": 0.17122532427310944,
      "learning_rate": 6.703304249375836e-05,
      "loss": 0.4764,
      "num_input_tokens_seen": 21217000,
      "step": 32435
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.48620015382766724,
      "eval_runtime": 13.5787,
      "eval_samples_per_second": 62.451,
      "eval_steps_per_second": 15.613,
      "num_input_tokens_seen": 21217120,
      "step": 32436
    },
    {
      "epoch": 17.0020964360587,
      "grad_norm": 0.1299978643655777,
      "learning_rate": 6.691870870368815e-05,
      "loss": 0.5999,
      "num_input_tokens_seen": 21219808,
      "step": 32440
    },
    {
      "epoch": 17.004716981132077,
      "grad_norm": 0.21588316559791565,
      "learning_rate": 6.680446550928316e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 21222432,
      "step": 32445
    },
    {
      "epoch": 17.00733752620545,
      "grad_norm": 0.12825453281402588,
      "learning_rate": 6.669031293444177e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 21225856,
      "step": 32450
    },
    {
      "epoch": 17.009958071278827,
      "grad_norm": 0.15307708084583282,
      "learning_rate": 6.65762510030436e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 21228672,
      "step": 32455
    },
    {
      "epoch": 17.0125786163522,
      "grad_norm": 0.1141546368598938,
      "learning_rate": 6.646227973894886e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 21231360,
      "step": 32460
    },
    {
      "epoch": 17.015199161425578,
      "grad_norm": 0.16657570004463196,
      "learning_rate": 6.634839916599921e-05,
      "loss": 0.3575,
      "num_input_tokens_seen": 21233920,
      "step": 32465
    },
    {
      "epoch": 17.01781970649895,
      "grad_norm": 0.19979634881019592,
      "learning_rate": 6.623460930801701e-05,
      "loss": 0.4036,
      "num_input_tokens_seen": 21236576,
      "step": 32470
    },
    {
      "epoch": 17.020440251572328,
      "grad_norm": 0.1475280523300171,
      "learning_rate": 6.61209101888059e-05,
      "loss": 0.3396,
      "num_input_tokens_seen": 21239488,
      "step": 32475
    },
    {
      "epoch": 17.0230607966457,
      "grad_norm": 0.1216927096247673,
      "learning_rate": 6.600730183215043e-05,
      "loss": 0.3663,
      "num_input_tokens_seen": 21242880,
      "step": 32480
    },
    {
      "epoch": 17.02568134171908,
      "grad_norm": 0.1302824467420578,
      "learning_rate": 6.589378426181624e-05,
      "loss": 0.4383,
      "num_input_tokens_seen": 21246240,
      "step": 32485
    },
    {
      "epoch": 17.028301886792452,
      "grad_norm": 0.12389656901359558,
      "learning_rate": 6.578035750154976e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 21249280,
      "step": 32490
    },
    {
      "epoch": 17.03092243186583,
      "grad_norm": 0.10627744346857071,
      "learning_rate": 6.566702157507875e-05,
      "loss": 0.4398,
      "num_input_tokens_seen": 21252800,
      "step": 32495
    },
    {
      "epoch": 17.033542976939202,
      "grad_norm": 0.1459718942642212,
      "learning_rate": 6.555377650611155e-05,
      "loss": 0.3712,
      "num_input_tokens_seen": 21256160,
      "step": 32500
    },
    {
      "epoch": 17.03616352201258,
      "grad_norm": 0.21483370661735535,
      "learning_rate": 6.544062231833792e-05,
      "loss": 0.4056,
      "num_input_tokens_seen": 21259136,
      "step": 32505
    },
    {
      "epoch": 17.038784067085953,
      "grad_norm": 0.18904316425323486,
      "learning_rate": 6.532755903542847e-05,
      "loss": 0.4588,
      "num_input_tokens_seen": 21261792,
      "step": 32510
    },
    {
      "epoch": 17.04140461215933,
      "grad_norm": 0.092307910323143,
      "learning_rate": 6.521458668103458e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 21265376,
      "step": 32515
    },
    {
      "epoch": 17.044025157232703,
      "grad_norm": 0.18213599920272827,
      "learning_rate": 6.510170527878889e-05,
      "loss": 0.3587,
      "num_input_tokens_seen": 21269056,
      "step": 32520
    },
    {
      "epoch": 17.04664570230608,
      "grad_norm": 0.1276448369026184,
      "learning_rate": 6.498891485230491e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 21272416,
      "step": 32525
    },
    {
      "epoch": 17.049266247379453,
      "grad_norm": 0.14020785689353943,
      "learning_rate": 6.487621542517703e-05,
      "loss": 0.3859,
      "num_input_tokens_seen": 21275904,
      "step": 32530
    },
    {
      "epoch": 17.05188679245283,
      "grad_norm": 0.1834082454442978,
      "learning_rate": 6.476360702098078e-05,
      "loss": 0.4376,
      "num_input_tokens_seen": 21282112,
      "step": 32535
    },
    {
      "epoch": 17.054507337526207,
      "grad_norm": 0.17243178188800812,
      "learning_rate": 6.465108966327243e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 21285056,
      "step": 32540
    },
    {
      "epoch": 17.05712788259958,
      "grad_norm": 0.16247166693210602,
      "learning_rate": 6.453866337558939e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 21288224,
      "step": 32545
    },
    {
      "epoch": 17.059748427672957,
      "grad_norm": 0.15517915785312653,
      "learning_rate": 6.442632818145011e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 21291616,
      "step": 32550
    },
    {
      "epoch": 17.06236897274633,
      "grad_norm": 0.10008012503385544,
      "learning_rate": 6.431408410435352e-05,
      "loss": 0.2612,
      "num_input_tokens_seen": 21294976,
      "step": 32555
    },
    {
      "epoch": 17.064989517819708,
      "grad_norm": 0.14781509339809418,
      "learning_rate": 6.420193116778e-05,
      "loss": 0.3156,
      "num_input_tokens_seen": 21297824,
      "step": 32560
    },
    {
      "epoch": 17.06761006289308,
      "grad_norm": 0.1648423969745636,
      "learning_rate": 6.408986939519074e-05,
      "loss": 0.5785,
      "num_input_tokens_seen": 21300832,
      "step": 32565
    },
    {
      "epoch": 17.070230607966458,
      "grad_norm": 0.09659793227910995,
      "learning_rate": 6.397789881002752e-05,
      "loss": 0.5058,
      "num_input_tokens_seen": 21304960,
      "step": 32570
    },
    {
      "epoch": 17.07285115303983,
      "grad_norm": 0.18091170489788055,
      "learning_rate": 6.386601943571352e-05,
      "loss": 0.3787,
      "num_input_tokens_seen": 21308128,
      "step": 32575
    },
    {
      "epoch": 17.07547169811321,
      "grad_norm": 0.149074524641037,
      "learning_rate": 6.375423129565266e-05,
      "loss": 0.4358,
      "num_input_tokens_seen": 21311392,
      "step": 32580
    },
    {
      "epoch": 17.078092243186582,
      "grad_norm": 0.28548353910446167,
      "learning_rate": 6.36425344132296e-05,
      "loss": 0.3208,
      "num_input_tokens_seen": 21314016,
      "step": 32585
    },
    {
      "epoch": 17.08071278825996,
      "grad_norm": 0.2282497137784958,
      "learning_rate": 6.353092881181016e-05,
      "loss": 0.4602,
      "num_input_tokens_seen": 21317120,
      "step": 32590
    },
    {
      "epoch": 17.083333333333332,
      "grad_norm": 0.16307692229747772,
      "learning_rate": 6.341941451474082e-05,
      "loss": 0.4054,
      "num_input_tokens_seen": 21320384,
      "step": 32595
    },
    {
      "epoch": 17.08595387840671,
      "grad_norm": 0.12761864066123962,
      "learning_rate": 6.330799154534921e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 21323040,
      "step": 32600
    },
    {
      "epoch": 17.088574423480082,
      "grad_norm": 0.1701868772506714,
      "learning_rate": 6.319665992694368e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 21326176,
      "step": 32605
    },
    {
      "epoch": 17.09119496855346,
      "grad_norm": 0.11816088855266571,
      "learning_rate": 6.308541968281373e-05,
      "loss": 0.3943,
      "num_input_tokens_seen": 21329376,
      "step": 32610
    },
    {
      "epoch": 17.093815513626833,
      "grad_norm": 0.14513692259788513,
      "learning_rate": 6.297427083622936e-05,
      "loss": 0.4911,
      "num_input_tokens_seen": 21332480,
      "step": 32615
    },
    {
      "epoch": 17.09643605870021,
      "grad_norm": 0.2238450050354004,
      "learning_rate": 6.28632134104416e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 21336672,
      "step": 32620
    },
    {
      "epoch": 17.099056603773583,
      "grad_norm": 0.15318304300308228,
      "learning_rate": 6.275224742868247e-05,
      "loss": 0.538,
      "num_input_tokens_seen": 21339840,
      "step": 32625
    },
    {
      "epoch": 17.10167714884696,
      "grad_norm": 0.22377702593803406,
      "learning_rate": 6.264137291416477e-05,
      "loss": 0.3436,
      "num_input_tokens_seen": 21342432,
      "step": 32630
    },
    {
      "epoch": 17.104297693920337,
      "grad_norm": 0.08088408410549164,
      "learning_rate": 6.253058989008226e-05,
      "loss": 0.3988,
      "num_input_tokens_seen": 21347456,
      "step": 32635
    },
    {
      "epoch": 17.10691823899371,
      "grad_norm": 0.17666003108024597,
      "learning_rate": 6.241989837960949e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 21350816,
      "step": 32640
    },
    {
      "epoch": 17.109538784067087,
      "grad_norm": 0.22014953196048737,
      "learning_rate": 6.230929840590177e-05,
      "loss": 0.4405,
      "num_input_tokens_seen": 21354944,
      "step": 32645
    },
    {
      "epoch": 17.11215932914046,
      "grad_norm": 0.21183815598487854,
      "learning_rate": 6.219878999209533e-05,
      "loss": 0.4066,
      "num_input_tokens_seen": 21358080,
      "step": 32650
    },
    {
      "epoch": 17.114779874213838,
      "grad_norm": 0.0995650514960289,
      "learning_rate": 6.208837316130733e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 21361152,
      "step": 32655
    },
    {
      "epoch": 17.11740041928721,
      "grad_norm": 0.2570558488368988,
      "learning_rate": 6.197804793663564e-05,
      "loss": 0.3025,
      "num_input_tokens_seen": 21363904,
      "step": 32660
    },
    {
      "epoch": 17.120020964360588,
      "grad_norm": 0.12167781591415405,
      "learning_rate": 6.18678143411593e-05,
      "loss": 0.5272,
      "num_input_tokens_seen": 21367392,
      "step": 32665
    },
    {
      "epoch": 17.12264150943396,
      "grad_norm": 0.16395621001720428,
      "learning_rate": 6.175767239793767e-05,
      "loss": 0.4236,
      "num_input_tokens_seen": 21370272,
      "step": 32670
    },
    {
      "epoch": 17.12526205450734,
      "grad_norm": 0.10327301174402237,
      "learning_rate": 6.164762213001112e-05,
      "loss": 0.3689,
      "num_input_tokens_seen": 21373760,
      "step": 32675
    },
    {
      "epoch": 17.127882599580712,
      "grad_norm": 0.11429032683372498,
      "learning_rate": 6.153766356040107e-05,
      "loss": 0.3543,
      "num_input_tokens_seen": 21378080,
      "step": 32680
    },
    {
      "epoch": 17.13050314465409,
      "grad_norm": 0.11842949688434601,
      "learning_rate": 6.142779671210951e-05,
      "loss": 0.5438,
      "num_input_tokens_seen": 21381440,
      "step": 32685
    },
    {
      "epoch": 17.133123689727462,
      "grad_norm": 0.2263651341199875,
      "learning_rate": 6.131802160811956e-05,
      "loss": 0.3763,
      "num_input_tokens_seen": 21384128,
      "step": 32690
    },
    {
      "epoch": 17.13574423480084,
      "grad_norm": 0.1806035339832306,
      "learning_rate": 6.120833827139466e-05,
      "loss": 0.5344,
      "num_input_tokens_seen": 21386688,
      "step": 32695
    },
    {
      "epoch": 17.138364779874212,
      "grad_norm": 0.10712765902280807,
      "learning_rate": 6.109874672487936e-05,
      "loss": 0.3275,
      "num_input_tokens_seen": 21390208,
      "step": 32700
    },
    {
      "epoch": 17.14098532494759,
      "grad_norm": 0.04196092113852501,
      "learning_rate": 6.098924699149894e-05,
      "loss": 0.4018,
      "num_input_tokens_seen": 21394944,
      "step": 32705
    },
    {
      "epoch": 17.143605870020963,
      "grad_norm": 0.1989874690771103,
      "learning_rate": 6.087983909415962e-05,
      "loss": 0.4551,
      "num_input_tokens_seen": 21397760,
      "step": 32710
    },
    {
      "epoch": 17.14622641509434,
      "grad_norm": 0.2122802436351776,
      "learning_rate": 6.077052305574815e-05,
      "loss": 0.3573,
      "num_input_tokens_seen": 21401024,
      "step": 32715
    },
    {
      "epoch": 17.148846960167713,
      "grad_norm": 0.09282490611076355,
      "learning_rate": 6.066129889913241e-05,
      "loss": 0.3353,
      "num_input_tokens_seen": 21403712,
      "step": 32720
    },
    {
      "epoch": 17.15146750524109,
      "grad_norm": 0.12848813831806183,
      "learning_rate": 6.0552166647160676e-05,
      "loss": 0.5677,
      "num_input_tokens_seen": 21407232,
      "step": 32725
    },
    {
      "epoch": 17.154088050314467,
      "grad_norm": 0.18859927356243134,
      "learning_rate": 6.044312632266208e-05,
      "loss": 0.4056,
      "num_input_tokens_seen": 21410112,
      "step": 32730
    },
    {
      "epoch": 17.15670859538784,
      "grad_norm": 0.13923798501491547,
      "learning_rate": 6.03341779484467e-05,
      "loss": 0.377,
      "num_input_tokens_seen": 21413792,
      "step": 32735
    },
    {
      "epoch": 17.159329140461217,
      "grad_norm": 0.12987160682678223,
      "learning_rate": 6.022532154730537e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 21417440,
      "step": 32740
    },
    {
      "epoch": 17.16194968553459,
      "grad_norm": 0.11802231520414352,
      "learning_rate": 6.011655714200964e-05,
      "loss": 0.4326,
      "num_input_tokens_seen": 21421920,
      "step": 32745
    },
    {
      "epoch": 17.164570230607968,
      "grad_norm": 0.19869212806224823,
      "learning_rate": 6.0007884755311715e-05,
      "loss": 0.4741,
      "num_input_tokens_seen": 21425280,
      "step": 32750
    },
    {
      "epoch": 17.16719077568134,
      "grad_norm": 0.1223302036523819,
      "learning_rate": 5.989930440994451e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 21430240,
      "step": 32755
    },
    {
      "epoch": 17.169811320754718,
      "grad_norm": 0.2670278549194336,
      "learning_rate": 5.979081612862186e-05,
      "loss": 0.4039,
      "num_input_tokens_seen": 21433952,
      "step": 32760
    },
    {
      "epoch": 17.17243186582809,
      "grad_norm": 0.1188143715262413,
      "learning_rate": 5.968241993403834e-05,
      "loss": 0.4057,
      "num_input_tokens_seen": 21437312,
      "step": 32765
    },
    {
      "epoch": 17.17505241090147,
      "grad_norm": 0.2953023314476013,
      "learning_rate": 5.957411584886924e-05,
      "loss": 0.3823,
      "num_input_tokens_seen": 21439968,
      "step": 32770
    },
    {
      "epoch": 17.177672955974842,
      "grad_norm": 0.28605541586875916,
      "learning_rate": 5.946590389577033e-05,
      "loss": 0.3141,
      "num_input_tokens_seen": 21442848,
      "step": 32775
    },
    {
      "epoch": 17.18029350104822,
      "grad_norm": 0.09755363315343857,
      "learning_rate": 5.935778409737857e-05,
      "loss": 0.526,
      "num_input_tokens_seen": 21446496,
      "step": 32780
    },
    {
      "epoch": 17.182914046121592,
      "grad_norm": 0.16571907699108124,
      "learning_rate": 5.92497564763112e-05,
      "loss": 0.4713,
      "num_input_tokens_seen": 21449856,
      "step": 32785
    },
    {
      "epoch": 17.18553459119497,
      "grad_norm": 0.12011627852916718,
      "learning_rate": 5.914182105516641e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 21454144,
      "step": 32790
    },
    {
      "epoch": 17.188155136268342,
      "grad_norm": 0.13057349622249603,
      "learning_rate": 5.903397785652304e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 21458016,
      "step": 32795
    },
    {
      "epoch": 17.19077568134172,
      "grad_norm": 0.15192756056785583,
      "learning_rate": 5.8926226902940804e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 21461024,
      "step": 32800
    },
    {
      "epoch": 17.193396226415093,
      "grad_norm": 0.1715618371963501,
      "learning_rate": 5.88185682169598e-05,
      "loss": 0.3196,
      "num_input_tokens_seen": 21464064,
      "step": 32805
    },
    {
      "epoch": 17.19601677148847,
      "grad_norm": 0.19693471491336823,
      "learning_rate": 5.871100182110117e-05,
      "loss": 0.4499,
      "num_input_tokens_seen": 21467552,
      "step": 32810
    },
    {
      "epoch": 17.198637316561843,
      "grad_norm": 0.12733852863311768,
      "learning_rate": 5.8603527737866314e-05,
      "loss": 0.3421,
      "num_input_tokens_seen": 21470432,
      "step": 32815
    },
    {
      "epoch": 17.20125786163522,
      "grad_norm": 0.18483053147792816,
      "learning_rate": 5.849614598973779e-05,
      "loss": 0.3787,
      "num_input_tokens_seen": 21473888,
      "step": 32820
    },
    {
      "epoch": 17.203878406708597,
      "grad_norm": 0.4713142514228821,
      "learning_rate": 5.8388856599178644e-05,
      "loss": 0.6067,
      "num_input_tokens_seen": 21476608,
      "step": 32825
    },
    {
      "epoch": 17.20649895178197,
      "grad_norm": 0.1937660574913025,
      "learning_rate": 5.8281659588632464e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 21479488,
      "step": 32830
    },
    {
      "epoch": 17.209119496855347,
      "grad_norm": 0.11957433074712753,
      "learning_rate": 5.817455498052382e-05,
      "loss": 0.5174,
      "num_input_tokens_seen": 21482816,
      "step": 32835
    },
    {
      "epoch": 17.21174004192872,
      "grad_norm": 0.13662788271903992,
      "learning_rate": 5.806754279725751e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 21486400,
      "step": 32840
    },
    {
      "epoch": 17.214360587002098,
      "grad_norm": 0.18033453822135925,
      "learning_rate": 5.796062306121947e-05,
      "loss": 0.4483,
      "num_input_tokens_seen": 21489312,
      "step": 32845
    },
    {
      "epoch": 17.21698113207547,
      "grad_norm": 0.12713684141635895,
      "learning_rate": 5.785379579477607e-05,
      "loss": 0.3438,
      "num_input_tokens_seen": 21492256,
      "step": 32850
    },
    {
      "epoch": 17.219601677148848,
      "grad_norm": 0.1374567747116089,
      "learning_rate": 5.774706102027427e-05,
      "loss": 0.3541,
      "num_input_tokens_seen": 21495424,
      "step": 32855
    },
    {
      "epoch": 17.22222222222222,
      "grad_norm": 0.2540615499019623,
      "learning_rate": 5.7640418760041776e-05,
      "loss": 0.4019,
      "num_input_tokens_seen": 21498272,
      "step": 32860
    },
    {
      "epoch": 17.2248427672956,
      "grad_norm": 0.1488461047410965,
      "learning_rate": 5.753386903638713e-05,
      "loss": 0.4456,
      "num_input_tokens_seen": 21501440,
      "step": 32865
    },
    {
      "epoch": 17.22746331236897,
      "grad_norm": 0.11837618052959442,
      "learning_rate": 5.7427411871599e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 21504192,
      "step": 32870
    },
    {
      "epoch": 17.23008385744235,
      "grad_norm": 0.1158268079161644,
      "learning_rate": 5.7321047287947235e-05,
      "loss": 0.5823,
      "num_input_tokens_seen": 21507936,
      "step": 32875
    },
    {
      "epoch": 17.232704402515722,
      "grad_norm": 0.23617184162139893,
      "learning_rate": 5.72147753076821e-05,
      "loss": 0.3381,
      "num_input_tokens_seen": 21510336,
      "step": 32880
    },
    {
      "epoch": 17.2353249475891,
      "grad_norm": 0.1693800538778305,
      "learning_rate": 5.7108595953034306e-05,
      "loss": 0.348,
      "num_input_tokens_seen": 21514048,
      "step": 32885
    },
    {
      "epoch": 17.237945492662472,
      "grad_norm": 0.15323378145694733,
      "learning_rate": 5.7002509246215415e-05,
      "loss": 0.5043,
      "num_input_tokens_seen": 21516224,
      "step": 32890
    },
    {
      "epoch": 17.24056603773585,
      "grad_norm": 0.1973985731601715,
      "learning_rate": 5.68965152094178e-05,
      "loss": 0.3859,
      "num_input_tokens_seen": 21519616,
      "step": 32895
    },
    {
      "epoch": 17.243186582809223,
      "grad_norm": 0.14233359694480896,
      "learning_rate": 5.679061386481388e-05,
      "loss": 0.5866,
      "num_input_tokens_seen": 21522048,
      "step": 32900
    },
    {
      "epoch": 17.2458071278826,
      "grad_norm": 0.14674563705921173,
      "learning_rate": 5.6684805234557216e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 21525312,
      "step": 32905
    },
    {
      "epoch": 17.248427672955973,
      "grad_norm": 0.1557326316833496,
      "learning_rate": 5.65790893407816e-05,
      "loss": 0.4598,
      "num_input_tokens_seen": 21528960,
      "step": 32910
    },
    {
      "epoch": 17.25104821802935,
      "grad_norm": 0.18613092601299286,
      "learning_rate": 5.647346620560168e-05,
      "loss": 0.3583,
      "num_input_tokens_seen": 21531648,
      "step": 32915
    },
    {
      "epoch": 17.253668763102727,
      "grad_norm": 0.0935729593038559,
      "learning_rate": 5.6367935851112605e-05,
      "loss": 0.3074,
      "num_input_tokens_seen": 21534240,
      "step": 32920
    },
    {
      "epoch": 17.2562893081761,
      "grad_norm": 0.16466131806373596,
      "learning_rate": 5.626249829939023e-05,
      "loss": 0.4393,
      "num_input_tokens_seen": 21539584,
      "step": 32925
    },
    {
      "epoch": 17.258909853249477,
      "grad_norm": 0.13396011292934418,
      "learning_rate": 5.6157153572490795e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 21543392,
      "step": 32930
    },
    {
      "epoch": 17.26153039832285,
      "grad_norm": 0.17019173502922058,
      "learning_rate": 5.6051901692451115e-05,
      "loss": 0.4738,
      "num_input_tokens_seen": 21546112,
      "step": 32935
    },
    {
      "epoch": 17.264150943396228,
      "grad_norm": 0.13890422880649567,
      "learning_rate": 5.5946742681288744e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 21548896,
      "step": 32940
    },
    {
      "epoch": 17.2667714884696,
      "grad_norm": 0.17823278903961182,
      "learning_rate": 5.5841676561001805e-05,
      "loss": 0.4929,
      "num_input_tokens_seen": 21552064,
      "step": 32945
    },
    {
      "epoch": 17.269392033542978,
      "grad_norm": 0.1277165561914444,
      "learning_rate": 5.573670335356901e-05,
      "loss": 0.4284,
      "num_input_tokens_seen": 21555872,
      "step": 32950
    },
    {
      "epoch": 17.27201257861635,
      "grad_norm": 0.14810502529144287,
      "learning_rate": 5.563182308094933e-05,
      "loss": 0.6175,
      "num_input_tokens_seen": 21558880,
      "step": 32955
    },
    {
      "epoch": 17.27463312368973,
      "grad_norm": 0.09692273288965225,
      "learning_rate": 5.552703576508272e-05,
      "loss": 0.3368,
      "num_input_tokens_seen": 21562272,
      "step": 32960
    },
    {
      "epoch": 17.2772536687631,
      "grad_norm": 0.1622762531042099,
      "learning_rate": 5.5422341427889324e-05,
      "loss": 0.4642,
      "num_input_tokens_seen": 21565088,
      "step": 32965
    },
    {
      "epoch": 17.27987421383648,
      "grad_norm": 0.17413300275802612,
      "learning_rate": 5.531774009127011e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 21568128,
      "step": 32970
    },
    {
      "epoch": 17.282494758909852,
      "grad_norm": 0.1168728917837143,
      "learning_rate": 5.521323177710647e-05,
      "loss": 0.4736,
      "num_input_tokens_seen": 21571936,
      "step": 32975
    },
    {
      "epoch": 17.28511530398323,
      "grad_norm": 0.17907558381557465,
      "learning_rate": 5.510881650726046e-05,
      "loss": 0.3535,
      "num_input_tokens_seen": 21575808,
      "step": 32980
    },
    {
      "epoch": 17.287735849056602,
      "grad_norm": 0.1752084344625473,
      "learning_rate": 5.50044943035744e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 21578976,
      "step": 32985
    },
    {
      "epoch": 17.29035639412998,
      "grad_norm": 0.13293050229549408,
      "learning_rate": 5.490026518787128e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 21583008,
      "step": 32990
    },
    {
      "epoch": 17.292976939203353,
      "grad_norm": 0.19148413836956024,
      "learning_rate": 5.47961291819547e-05,
      "loss": 0.3498,
      "num_input_tokens_seen": 21585824,
      "step": 32995
    },
    {
      "epoch": 17.29559748427673,
      "grad_norm": 0.10589657723903656,
      "learning_rate": 5.46920863076088e-05,
      "loss": 0.4744,
      "num_input_tokens_seen": 21589568,
      "step": 33000
    },
    {
      "epoch": 17.298218029350103,
      "grad_norm": 0.1719287782907486,
      "learning_rate": 5.4588136586598056e-05,
      "loss": 0.5568,
      "num_input_tokens_seen": 21593088,
      "step": 33005
    },
    {
      "epoch": 17.30083857442348,
      "grad_norm": 0.26395362615585327,
      "learning_rate": 5.44842800406678e-05,
      "loss": 0.4233,
      "num_input_tokens_seen": 21595488,
      "step": 33010
    },
    {
      "epoch": 17.303459119496857,
      "grad_norm": 0.18716870248317719,
      "learning_rate": 5.438051669154326e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 21598304,
      "step": 33015
    },
    {
      "epoch": 17.30607966457023,
      "grad_norm": 0.10225094109773636,
      "learning_rate": 5.427684656093074e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 21602432,
      "step": 33020
    },
    {
      "epoch": 17.308700209643607,
      "grad_norm": 0.19882409274578094,
      "learning_rate": 5.417326967051683e-05,
      "loss": 0.3867,
      "num_input_tokens_seen": 21604736,
      "step": 33025
    },
    {
      "epoch": 17.31132075471698,
      "grad_norm": 0.15723539888858795,
      "learning_rate": 5.4069786041968663e-05,
      "loss": 0.6676,
      "num_input_tokens_seen": 21608352,
      "step": 33030
    },
    {
      "epoch": 17.313941299790358,
      "grad_norm": 0.21012407541275024,
      "learning_rate": 5.39663956969339e-05,
      "loss": 0.4506,
      "num_input_tokens_seen": 21610784,
      "step": 33035
    },
    {
      "epoch": 17.31656184486373,
      "grad_norm": 0.2707670331001282,
      "learning_rate": 5.3863098657040534e-05,
      "loss": 0.4888,
      "num_input_tokens_seen": 21614336,
      "step": 33040
    },
    {
      "epoch": 17.319182389937108,
      "grad_norm": 0.1725049763917923,
      "learning_rate": 5.375989494389705e-05,
      "loss": 0.4449,
      "num_input_tokens_seen": 21616960,
      "step": 33045
    },
    {
      "epoch": 17.32180293501048,
      "grad_norm": 0.1711816042661667,
      "learning_rate": 5.365678457909257e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 21619616,
      "step": 33050
    },
    {
      "epoch": 17.32442348008386,
      "grad_norm": 0.1832677572965622,
      "learning_rate": 5.3553767584196555e-05,
      "loss": 0.3537,
      "num_input_tokens_seen": 21622336,
      "step": 33055
    },
    {
      "epoch": 17.32704402515723,
      "grad_norm": 0.15832599997520447,
      "learning_rate": 5.3450843980759166e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 21625408,
      "step": 33060
    },
    {
      "epoch": 17.32966457023061,
      "grad_norm": 0.14162324368953705,
      "learning_rate": 5.3348013790310736e-05,
      "loss": 0.4167,
      "num_input_tokens_seen": 21628640,
      "step": 33065
    },
    {
      "epoch": 17.332285115303982,
      "grad_norm": 0.14018505811691284,
      "learning_rate": 5.324527703436199e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 21632448,
      "step": 33070
    },
    {
      "epoch": 17.33490566037736,
      "grad_norm": 0.15381638705730438,
      "learning_rate": 5.314263373440448e-05,
      "loss": 0.4141,
      "num_input_tokens_seen": 21635424,
      "step": 33075
    },
    {
      "epoch": 17.337526205450732,
      "grad_norm": 0.1559135913848877,
      "learning_rate": 5.304008391190995e-05,
      "loss": 0.5486,
      "num_input_tokens_seen": 21638656,
      "step": 33080
    },
    {
      "epoch": 17.34014675052411,
      "grad_norm": 0.19960547983646393,
      "learning_rate": 5.293762758833071e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 21641376,
      "step": 33085
    },
    {
      "epoch": 17.342767295597483,
      "grad_norm": 0.1540743112564087,
      "learning_rate": 5.283526478509953e-05,
      "loss": 0.3477,
      "num_input_tokens_seen": 21644480,
      "step": 33090
    },
    {
      "epoch": 17.34538784067086,
      "grad_norm": 0.12946368753910065,
      "learning_rate": 5.273299552362942e-05,
      "loss": 0.3588,
      "num_input_tokens_seen": 21647712,
      "step": 33095
    },
    {
      "epoch": 17.348008385744233,
      "grad_norm": 0.1487293839454651,
      "learning_rate": 5.263081982531381e-05,
      "loss": 0.621,
      "num_input_tokens_seen": 21650880,
      "step": 33100
    },
    {
      "epoch": 17.35062893081761,
      "grad_norm": 0.13729868829250336,
      "learning_rate": 5.2528737711526885e-05,
      "loss": 0.4702,
      "num_input_tokens_seen": 21654048,
      "step": 33105
    },
    {
      "epoch": 17.353249475890987,
      "grad_norm": 0.10200697183609009,
      "learning_rate": 5.2426749203623005e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 21656896,
      "step": 33110
    },
    {
      "epoch": 17.35587002096436,
      "grad_norm": 0.46547889709472656,
      "learning_rate": 5.23248543229371e-05,
      "loss": 0.5082,
      "num_input_tokens_seen": 21659680,
      "step": 33115
    },
    {
      "epoch": 17.358490566037737,
      "grad_norm": 0.19625014066696167,
      "learning_rate": 5.222305309078429e-05,
      "loss": 0.4042,
      "num_input_tokens_seen": 21662048,
      "step": 33120
    },
    {
      "epoch": 17.36111111111111,
      "grad_norm": 0.14119556546211243,
      "learning_rate": 5.2121345528460205e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 21665952,
      "step": 33125
    },
    {
      "epoch": 17.363731656184488,
      "grad_norm": 0.21400590240955353,
      "learning_rate": 5.201973165724094e-05,
      "loss": 0.4057,
      "num_input_tokens_seen": 21669376,
      "step": 33130
    },
    {
      "epoch": 17.36635220125786,
      "grad_norm": 0.19269314408302307,
      "learning_rate": 5.1918211498382996e-05,
      "loss": 0.4823,
      "num_input_tokens_seen": 21673440,
      "step": 33135
    },
    {
      "epoch": 17.368972746331238,
      "grad_norm": 0.0985950455069542,
      "learning_rate": 5.181678507312332e-05,
      "loss": 0.5534,
      "num_input_tokens_seen": 21677248,
      "step": 33140
    },
    {
      "epoch": 17.37159329140461,
      "grad_norm": 0.23142950236797333,
      "learning_rate": 5.171545240267894e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 21680320,
      "step": 33145
    },
    {
      "epoch": 17.37421383647799,
      "grad_norm": 0.13095678389072418,
      "learning_rate": 5.161421350824774e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 21683296,
      "step": 33150
    },
    {
      "epoch": 17.37683438155136,
      "grad_norm": 0.11844321340322495,
      "learning_rate": 5.151306841100756e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 21685888,
      "step": 33155
    },
    {
      "epoch": 17.37945492662474,
      "grad_norm": 0.14094996452331543,
      "learning_rate": 5.141201713211679e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 21689088,
      "step": 33160
    },
    {
      "epoch": 17.382075471698112,
      "grad_norm": 0.16387878358364105,
      "learning_rate": 5.1311059692714324e-05,
      "loss": 0.412,
      "num_input_tokens_seen": 21692896,
      "step": 33165
    },
    {
      "epoch": 17.38469601677149,
      "grad_norm": 0.30494382977485657,
      "learning_rate": 5.1210196113919306e-05,
      "loss": 0.4724,
      "num_input_tokens_seen": 21695520,
      "step": 33170
    },
    {
      "epoch": 17.387316561844862,
      "grad_norm": 0.25186431407928467,
      "learning_rate": 5.110942641683114e-05,
      "loss": 0.4755,
      "num_input_tokens_seen": 21697824,
      "step": 33175
    },
    {
      "epoch": 17.38993710691824,
      "grad_norm": 0.1443418711423874,
      "learning_rate": 5.10087506225298e-05,
      "loss": 0.5412,
      "num_input_tokens_seen": 21702336,
      "step": 33180
    },
    {
      "epoch": 17.392557651991613,
      "grad_norm": 0.10475742071866989,
      "learning_rate": 5.090816875207543e-05,
      "loss": 0.4425,
      "num_input_tokens_seen": 21705728,
      "step": 33185
    },
    {
      "epoch": 17.39517819706499,
      "grad_norm": 0.12536518275737762,
      "learning_rate": 5.0807680826508604e-05,
      "loss": 0.3166,
      "num_input_tokens_seen": 21709472,
      "step": 33190
    },
    {
      "epoch": 17.397798742138363,
      "grad_norm": 0.13937650620937347,
      "learning_rate": 5.070728686685039e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 21712704,
      "step": 33195
    },
    {
      "epoch": 17.40041928721174,
      "grad_norm": 0.2811107635498047,
      "learning_rate": 5.0606986894101925e-05,
      "loss": 0.3099,
      "num_input_tokens_seen": 21715040,
      "step": 33200
    },
    {
      "epoch": 17.403039832285117,
      "grad_norm": 0.2148650884628296,
      "learning_rate": 5.0506780929244875e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 21717952,
      "step": 33205
    },
    {
      "epoch": 17.40566037735849,
      "grad_norm": 0.1433417946100235,
      "learning_rate": 5.040666899324109e-05,
      "loss": 0.4404,
      "num_input_tokens_seen": 21721856,
      "step": 33210
    },
    {
      "epoch": 17.408280922431867,
      "grad_norm": 0.1522299200296402,
      "learning_rate": 5.0306651107032916e-05,
      "loss": 0.3185,
      "num_input_tokens_seen": 21726880,
      "step": 33215
    },
    {
      "epoch": 17.41090146750524,
      "grad_norm": 0.16307811439037323,
      "learning_rate": 5.020672729154308e-05,
      "loss": 0.5549,
      "num_input_tokens_seen": 21730048,
      "step": 33220
    },
    {
      "epoch": 17.413522012578618,
      "grad_norm": 0.20765945315361023,
      "learning_rate": 5.010689756767428e-05,
      "loss": 0.4045,
      "num_input_tokens_seen": 21732768,
      "step": 33225
    },
    {
      "epoch": 17.41614255765199,
      "grad_norm": 0.14779144525527954,
      "learning_rate": 5.000716195630983e-05,
      "loss": 0.362,
      "num_input_tokens_seen": 21736064,
      "step": 33230
    },
    {
      "epoch": 17.418763102725368,
      "grad_norm": 0.2270565778017044,
      "learning_rate": 4.990752047831343e-05,
      "loss": 0.451,
      "num_input_tokens_seen": 21738464,
      "step": 33235
    },
    {
      "epoch": 17.42138364779874,
      "grad_norm": 0.1863718032836914,
      "learning_rate": 4.980797315452873e-05,
      "loss": 0.3629,
      "num_input_tokens_seen": 21740800,
      "step": 33240
    },
    {
      "epoch": 17.42400419287212,
      "grad_norm": 0.08734387904405594,
      "learning_rate": 4.9708520005779965e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 21744096,
      "step": 33245
    },
    {
      "epoch": 17.42662473794549,
      "grad_norm": 0.14738257229328156,
      "learning_rate": 4.960916105287172e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 21746944,
      "step": 33250
    },
    {
      "epoch": 17.42924528301887,
      "grad_norm": 0.11416450887918472,
      "learning_rate": 4.950989631658859e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 21750144,
      "step": 33255
    },
    {
      "epoch": 17.431865828092242,
      "grad_norm": 0.14936809241771698,
      "learning_rate": 4.941072581769562e-05,
      "loss": 0.4808,
      "num_input_tokens_seen": 21752992,
      "step": 33260
    },
    {
      "epoch": 17.43448637316562,
      "grad_norm": 0.17435409128665924,
      "learning_rate": 4.931164957693834e-05,
      "loss": 0.426,
      "num_input_tokens_seen": 21755744,
      "step": 33265
    },
    {
      "epoch": 17.437106918238992,
      "grad_norm": 0.12786151468753815,
      "learning_rate": 4.921266761504217e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 21759392,
      "step": 33270
    },
    {
      "epoch": 17.43972746331237,
      "grad_norm": 0.34542566537857056,
      "learning_rate": 4.9113779952713155e-05,
      "loss": 0.4268,
      "num_input_tokens_seen": 21762816,
      "step": 33275
    },
    {
      "epoch": 17.442348008385743,
      "grad_norm": 0.2148025780916214,
      "learning_rate": 4.90149866106373e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 21766720,
      "step": 33280
    },
    {
      "epoch": 17.44496855345912,
      "grad_norm": 0.11777782440185547,
      "learning_rate": 4.8916287609481137e-05,
      "loss": 0.4185,
      "num_input_tokens_seen": 21770592,
      "step": 33285
    },
    {
      "epoch": 17.447589098532493,
      "grad_norm": 0.14142562448978424,
      "learning_rate": 4.8817682969891366e-05,
      "loss": 0.4331,
      "num_input_tokens_seen": 21774944,
      "step": 33290
    },
    {
      "epoch": 17.45020964360587,
      "grad_norm": 0.11810483038425446,
      "learning_rate": 4.8719172712495095e-05,
      "loss": 0.4229,
      "num_input_tokens_seen": 21777440,
      "step": 33295
    },
    {
      "epoch": 17.452830188679247,
      "grad_norm": 0.12187278270721436,
      "learning_rate": 4.862075685789935e-05,
      "loss": 0.3796,
      "num_input_tokens_seen": 21781280,
      "step": 33300
    },
    {
      "epoch": 17.45545073375262,
      "grad_norm": 0.11911430954933167,
      "learning_rate": 4.8522435426691604e-05,
      "loss": 0.4931,
      "num_input_tokens_seen": 21784320,
      "step": 33305
    },
    {
      "epoch": 17.458071278825997,
      "grad_norm": 0.07228013128042221,
      "learning_rate": 4.842420843943962e-05,
      "loss": 0.4282,
      "num_input_tokens_seen": 21788832,
      "step": 33310
    },
    {
      "epoch": 17.46069182389937,
      "grad_norm": 0.14584818482398987,
      "learning_rate": 4.8326075916691415e-05,
      "loss": 0.5021,
      "num_input_tokens_seen": 21792320,
      "step": 33315
    },
    {
      "epoch": 17.463312368972748,
      "grad_norm": 0.11889758706092834,
      "learning_rate": 4.822803787897523e-05,
      "loss": 0.3776,
      "num_input_tokens_seen": 21795296,
      "step": 33320
    },
    {
      "epoch": 17.46593291404612,
      "grad_norm": 0.134234219789505,
      "learning_rate": 4.813009434679932e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 21798176,
      "step": 33325
    },
    {
      "epoch": 17.468553459119498,
      "grad_norm": 0.13017770648002625,
      "learning_rate": 4.803224534065259e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 21801120,
      "step": 33330
    },
    {
      "epoch": 17.47117400419287,
      "grad_norm": 0.11687595397233963,
      "learning_rate": 4.793449088100371e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 21804096,
      "step": 33335
    },
    {
      "epoch": 17.47379454926625,
      "grad_norm": 0.17700742185115814,
      "learning_rate": 4.783683098830188e-05,
      "loss": 0.3977,
      "num_input_tokens_seen": 21806976,
      "step": 33340
    },
    {
      "epoch": 17.47641509433962,
      "grad_norm": 0.18407095968723297,
      "learning_rate": 4.7739265682976485e-05,
      "loss": 0.3889,
      "num_input_tokens_seen": 21810176,
      "step": 33345
    },
    {
      "epoch": 17.479035639413,
      "grad_norm": 0.20110070705413818,
      "learning_rate": 4.764179498543714e-05,
      "loss": 0.3153,
      "num_input_tokens_seen": 21817280,
      "step": 33350
    },
    {
      "epoch": 17.481656184486372,
      "grad_norm": 0.19603122770786285,
      "learning_rate": 4.754441891607347e-05,
      "loss": 0.2574,
      "num_input_tokens_seen": 21819712,
      "step": 33355
    },
    {
      "epoch": 17.48427672955975,
      "grad_norm": 0.10151652246713638,
      "learning_rate": 4.7447137495255424e-05,
      "loss": 0.327,
      "num_input_tokens_seen": 21822816,
      "step": 33360
    },
    {
      "epoch": 17.486897274633122,
      "grad_norm": 0.1382250189781189,
      "learning_rate": 4.7349950743333206e-05,
      "loss": 0.4151,
      "num_input_tokens_seen": 21826048,
      "step": 33365
    },
    {
      "epoch": 17.4895178197065,
      "grad_norm": 0.19249406456947327,
      "learning_rate": 4.725285868063722e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 21829312,
      "step": 33370
    },
    {
      "epoch": 17.492138364779873,
      "grad_norm": 0.1557799130678177,
      "learning_rate": 4.715586132747801e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 21832736,
      "step": 33375
    },
    {
      "epoch": 17.49475890985325,
      "grad_norm": 0.23500166833400726,
      "learning_rate": 4.705895870414634e-05,
      "loss": 0.429,
      "num_input_tokens_seen": 21836832,
      "step": 33380
    },
    {
      "epoch": 17.497379454926623,
      "grad_norm": 0.18383999168872833,
      "learning_rate": 4.696215083091299e-05,
      "loss": 0.47,
      "num_input_tokens_seen": 21839584,
      "step": 33385
    },
    {
      "epoch": 17.5,
      "grad_norm": 0.11065564304590225,
      "learning_rate": 4.686543772802915e-05,
      "loss": 0.363,
      "num_input_tokens_seen": 21843072,
      "step": 33390
    },
    {
      "epoch": 17.502620545073377,
      "grad_norm": 0.14269645512104034,
      "learning_rate": 4.6768819415726085e-05,
      "loss": 0.3433,
      "num_input_tokens_seen": 21846688,
      "step": 33395
    },
    {
      "epoch": 17.50524109014675,
      "grad_norm": 0.19078421592712402,
      "learning_rate": 4.667229591421529e-05,
      "loss": 0.4307,
      "num_input_tokens_seen": 21849856,
      "step": 33400
    },
    {
      "epoch": 17.507861635220127,
      "grad_norm": 0.11413424462080002,
      "learning_rate": 4.657586724368845e-05,
      "loss": 0.3629,
      "num_input_tokens_seen": 21853856,
      "step": 33405
    },
    {
      "epoch": 17.5104821802935,
      "grad_norm": 0.19248196482658386,
      "learning_rate": 4.647953342431726e-05,
      "loss": 0.4314,
      "num_input_tokens_seen": 21860576,
      "step": 33410
    },
    {
      "epoch": 17.513102725366878,
      "grad_norm": 0.13843975961208344,
      "learning_rate": 4.63832944762535e-05,
      "loss": 0.3927,
      "num_input_tokens_seen": 21864192,
      "step": 33415
    },
    {
      "epoch": 17.51572327044025,
      "grad_norm": 0.3555482029914856,
      "learning_rate": 4.628715041962944e-05,
      "loss": 0.5051,
      "num_input_tokens_seen": 21866208,
      "step": 33420
    },
    {
      "epoch": 17.518343815513628,
      "grad_norm": 0.19467484951019287,
      "learning_rate": 4.619110127455728e-05,
      "loss": 0.4915,
      "num_input_tokens_seen": 21869760,
      "step": 33425
    },
    {
      "epoch": 17.520964360587,
      "grad_norm": 0.13629472255706787,
      "learning_rate": 4.6095147061129494e-05,
      "loss": 0.475,
      "num_input_tokens_seen": 21874560,
      "step": 33430
    },
    {
      "epoch": 17.52358490566038,
      "grad_norm": 0.10991082340478897,
      "learning_rate": 4.599928779941853e-05,
      "loss": 0.2983,
      "num_input_tokens_seen": 21878336,
      "step": 33435
    },
    {
      "epoch": 17.52620545073375,
      "grad_norm": 0.4224632978439331,
      "learning_rate": 4.590352350947691e-05,
      "loss": 0.4227,
      "num_input_tokens_seen": 21881120,
      "step": 33440
    },
    {
      "epoch": 17.52882599580713,
      "grad_norm": 0.17846448719501495,
      "learning_rate": 4.580785421133759e-05,
      "loss": 0.5077,
      "num_input_tokens_seen": 21884032,
      "step": 33445
    },
    {
      "epoch": 17.531446540880502,
      "grad_norm": 0.08222061395645142,
      "learning_rate": 4.571227992501348e-05,
      "loss": 0.3619,
      "num_input_tokens_seen": 21887776,
      "step": 33450
    },
    {
      "epoch": 17.53406708595388,
      "grad_norm": 0.200127512216568,
      "learning_rate": 4.561680067049773e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 21891488,
      "step": 33455
    },
    {
      "epoch": 17.536687631027252,
      "grad_norm": 0.13880662620067596,
      "learning_rate": 4.552141646776331e-05,
      "loss": 0.3479,
      "num_input_tokens_seen": 21894176,
      "step": 33460
    },
    {
      "epoch": 17.53930817610063,
      "grad_norm": 0.08894073963165283,
      "learning_rate": 4.542612733676365e-05,
      "loss": 0.4203,
      "num_input_tokens_seen": 21897984,
      "step": 33465
    },
    {
      "epoch": 17.541928721174003,
      "grad_norm": 0.12934136390686035,
      "learning_rate": 4.533093329743204e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 21900928,
      "step": 33470
    },
    {
      "epoch": 17.54454926624738,
      "grad_norm": 0.1586638242006302,
      "learning_rate": 4.523583436968204e-05,
      "loss": 0.3278,
      "num_input_tokens_seen": 21904992,
      "step": 33475
    },
    {
      "epoch": 17.547169811320753,
      "grad_norm": 0.1911947876214981,
      "learning_rate": 4.514083057340723e-05,
      "loss": 0.3408,
      "num_input_tokens_seen": 21907584,
      "step": 33480
    },
    {
      "epoch": 17.54979035639413,
      "grad_norm": 0.2164730578660965,
      "learning_rate": 4.504592192848151e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 21910208,
      "step": 33485
    },
    {
      "epoch": 17.552410901467507,
      "grad_norm": 0.20155394077301025,
      "learning_rate": 4.495110845475847e-05,
      "loss": 0.434,
      "num_input_tokens_seen": 21913024,
      "step": 33490
    },
    {
      "epoch": 17.55503144654088,
      "grad_norm": 0.18665529787540436,
      "learning_rate": 4.4856390172072045e-05,
      "loss": 0.5195,
      "num_input_tokens_seen": 21916000,
      "step": 33495
    },
    {
      "epoch": 17.557651991614257,
      "grad_norm": 0.15832941234111786,
      "learning_rate": 4.476176710023622e-05,
      "loss": 0.3931,
      "num_input_tokens_seen": 21918880,
      "step": 33500
    },
    {
      "epoch": 17.56027253668763,
      "grad_norm": 0.14644047617912292,
      "learning_rate": 4.4667239259045035e-05,
      "loss": 0.4414,
      "num_input_tokens_seen": 21921728,
      "step": 33505
    },
    {
      "epoch": 17.562893081761008,
      "grad_norm": 0.11301664263010025,
      "learning_rate": 4.457280666827285e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 21925568,
      "step": 33510
    },
    {
      "epoch": 17.56551362683438,
      "grad_norm": 0.2888156771659851,
      "learning_rate": 4.447846934767358e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 21928416,
      "step": 33515
    },
    {
      "epoch": 17.568134171907758,
      "grad_norm": 0.18119828402996063,
      "learning_rate": 4.4384227316981774e-05,
      "loss": 0.448,
      "num_input_tokens_seen": 21932032,
      "step": 33520
    },
    {
      "epoch": 17.57075471698113,
      "grad_norm": 0.2502515912055969,
      "learning_rate": 4.4290080595911555e-05,
      "loss": 0.4433,
      "num_input_tokens_seen": 21936096,
      "step": 33525
    },
    {
      "epoch": 17.57337526205451,
      "grad_norm": 0.21242856979370117,
      "learning_rate": 4.419602920415749e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 21938528,
      "step": 33530
    },
    {
      "epoch": 17.57599580712788,
      "grad_norm": 0.2614198923110962,
      "learning_rate": 4.410207316139408e-05,
      "loss": 0.3726,
      "num_input_tokens_seen": 21941184,
      "step": 33535
    },
    {
      "epoch": 17.57861635220126,
      "grad_norm": 0.07584303617477417,
      "learning_rate": 4.400821248727577e-05,
      "loss": 0.4126,
      "num_input_tokens_seen": 21944160,
      "step": 33540
    },
    {
      "epoch": 17.581236897274632,
      "grad_norm": 0.2825644910335541,
      "learning_rate": 4.391444720143717e-05,
      "loss": 0.3398,
      "num_input_tokens_seen": 21946848,
      "step": 33545
    },
    {
      "epoch": 17.58385744234801,
      "grad_norm": 0.18702176213264465,
      "learning_rate": 4.382077732349299e-05,
      "loss": 0.4976,
      "num_input_tokens_seen": 21949312,
      "step": 33550
    },
    {
      "epoch": 17.586477987421382,
      "grad_norm": 0.1272306889295578,
      "learning_rate": 4.372720287303772e-05,
      "loss": 0.5905,
      "num_input_tokens_seen": 21953184,
      "step": 33555
    },
    {
      "epoch": 17.58909853249476,
      "grad_norm": 0.15520374476909637,
      "learning_rate": 4.3633723869646204e-05,
      "loss": 0.3494,
      "num_input_tokens_seen": 21957568,
      "step": 33560
    },
    {
      "epoch": 17.591719077568133,
      "grad_norm": 0.28352391719818115,
      "learning_rate": 4.3540340332873184e-05,
      "loss": 0.5832,
      "num_input_tokens_seen": 21960896,
      "step": 33565
    },
    {
      "epoch": 17.59433962264151,
      "grad_norm": 0.20361219346523285,
      "learning_rate": 4.3447052282253375e-05,
      "loss": 0.3489,
      "num_input_tokens_seen": 21963360,
      "step": 33570
    },
    {
      "epoch": 17.596960167714883,
      "grad_norm": 0.11030440032482147,
      "learning_rate": 4.335385973730166e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 21966976,
      "step": 33575
    },
    {
      "epoch": 17.59958071278826,
      "grad_norm": 0.18357495963573456,
      "learning_rate": 4.3260762717512726e-05,
      "loss": 0.2714,
      "num_input_tokens_seen": 21969824,
      "step": 33580
    },
    {
      "epoch": 17.602201257861637,
      "grad_norm": 0.15441739559173584,
      "learning_rate": 4.316776124236144e-05,
      "loss": 0.4633,
      "num_input_tokens_seen": 21972320,
      "step": 33585
    },
    {
      "epoch": 17.60482180293501,
      "grad_norm": 0.25835299491882324,
      "learning_rate": 4.307485533130279e-05,
      "loss": 0.3686,
      "num_input_tokens_seen": 21974624,
      "step": 33590
    },
    {
      "epoch": 17.607442348008387,
      "grad_norm": 0.21708674728870392,
      "learning_rate": 4.298204500377145e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 21978432,
      "step": 33595
    },
    {
      "epoch": 17.61006289308176,
      "grad_norm": 0.1305142343044281,
      "learning_rate": 4.288933027918235e-05,
      "loss": 0.4684,
      "num_input_tokens_seen": 21982016,
      "step": 33600
    },
    {
      "epoch": 17.612683438155138,
      "grad_norm": 0.1309649497270584,
      "learning_rate": 4.279671117693046e-05,
      "loss": 0.3838,
      "num_input_tokens_seen": 21985088,
      "step": 33605
    },
    {
      "epoch": 17.61530398322851,
      "grad_norm": 0.13811247050762177,
      "learning_rate": 4.270418771639045e-05,
      "loss": 0.4777,
      "num_input_tokens_seen": 21988704,
      "step": 33610
    },
    {
      "epoch": 17.617924528301888,
      "grad_norm": 0.20442870259284973,
      "learning_rate": 4.2611759916917345e-05,
      "loss": 0.4969,
      "num_input_tokens_seen": 21991264,
      "step": 33615
    },
    {
      "epoch": 17.62054507337526,
      "grad_norm": 0.11477832496166229,
      "learning_rate": 4.251942779784579e-05,
      "loss": 0.3409,
      "num_input_tokens_seen": 21994208,
      "step": 33620
    },
    {
      "epoch": 17.62316561844864,
      "grad_norm": 0.11490052938461304,
      "learning_rate": 4.242719137849077e-05,
      "loss": 0.3574,
      "num_input_tokens_seen": 21997600,
      "step": 33625
    },
    {
      "epoch": 17.62578616352201,
      "grad_norm": 0.11537473648786545,
      "learning_rate": 4.233505067814702e-05,
      "loss": 0.3364,
      "num_input_tokens_seen": 22000512,
      "step": 33630
    },
    {
      "epoch": 17.62840670859539,
      "grad_norm": 0.13360224664211273,
      "learning_rate": 4.224300571608947e-05,
      "loss": 0.3139,
      "num_input_tokens_seen": 22003872,
      "step": 33635
    },
    {
      "epoch": 17.631027253668762,
      "grad_norm": 0.1462666094303131,
      "learning_rate": 4.215105651157264e-05,
      "loss": 0.389,
      "num_input_tokens_seen": 22007232,
      "step": 33640
    },
    {
      "epoch": 17.63364779874214,
      "grad_norm": 0.25208619236946106,
      "learning_rate": 4.2059203083831434e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 22010624,
      "step": 33645
    },
    {
      "epoch": 17.636268343815512,
      "grad_norm": 0.14099489152431488,
      "learning_rate": 4.196744545208042e-05,
      "loss": 0.4322,
      "num_input_tokens_seen": 22013664,
      "step": 33650
    },
    {
      "epoch": 17.63888888888889,
      "grad_norm": 0.26645392179489136,
      "learning_rate": 4.187578363551431e-05,
      "loss": 0.4131,
      "num_input_tokens_seen": 22016896,
      "step": 33655
    },
    {
      "epoch": 17.641509433962263,
      "grad_norm": 0.19768007099628448,
      "learning_rate": 4.17842176533077e-05,
      "loss": 0.4568,
      "num_input_tokens_seen": 22019744,
      "step": 33660
    },
    {
      "epoch": 17.64412997903564,
      "grad_norm": 0.13953077793121338,
      "learning_rate": 4.1692747524615274e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 22023232,
      "step": 33665
    },
    {
      "epoch": 17.646750524109013,
      "grad_norm": 0.0849301889538765,
      "learning_rate": 4.160137326857138e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 22026080,
      "step": 33670
    },
    {
      "epoch": 17.64937106918239,
      "grad_norm": 0.09029854834079742,
      "learning_rate": 4.151009490429042e-05,
      "loss": 0.5678,
      "num_input_tokens_seen": 22029248,
      "step": 33675
    },
    {
      "epoch": 17.651991614255767,
      "grad_norm": 0.1533380001783371,
      "learning_rate": 4.141891245086687e-05,
      "loss": 0.4507,
      "num_input_tokens_seen": 22032128,
      "step": 33680
    },
    {
      "epoch": 17.65461215932914,
      "grad_norm": 0.10609367489814758,
      "learning_rate": 4.132782592737511e-05,
      "loss": 0.4065,
      "num_input_tokens_seen": 22035488,
      "step": 33685
    },
    {
      "epoch": 17.657232704402517,
      "grad_norm": 0.14452169835567474,
      "learning_rate": 4.123683535286943e-05,
      "loss": 0.3592,
      "num_input_tokens_seen": 22038144,
      "step": 33690
    },
    {
      "epoch": 17.65985324947589,
      "grad_norm": 0.24260590970516205,
      "learning_rate": 4.114594074638395e-05,
      "loss": 0.3857,
      "num_input_tokens_seen": 22041888,
      "step": 33695
    },
    {
      "epoch": 17.662473794549268,
      "grad_norm": 0.10549652576446533,
      "learning_rate": 4.105514212693268e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 22046624,
      "step": 33700
    },
    {
      "epoch": 17.66509433962264,
      "grad_norm": 0.1778784841299057,
      "learning_rate": 4.096443951350976e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 22049184,
      "step": 33705
    },
    {
      "epoch": 17.667714884696018,
      "grad_norm": 0.1934981793165207,
      "learning_rate": 4.0873832925089116e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 22051712,
      "step": 33710
    },
    {
      "epoch": 17.67033542976939,
      "grad_norm": 0.1425352841615677,
      "learning_rate": 4.0783322380624656e-05,
      "loss": 0.5867,
      "num_input_tokens_seen": 22055680,
      "step": 33715
    },
    {
      "epoch": 17.67295597484277,
      "grad_norm": 0.10655252635478973,
      "learning_rate": 4.069290789905023e-05,
      "loss": 0.4256,
      "num_input_tokens_seen": 22058944,
      "step": 33720
    },
    {
      "epoch": 17.67557651991614,
      "grad_norm": 0.09861664474010468,
      "learning_rate": 4.060258949927942e-05,
      "loss": 0.5063,
      "num_input_tokens_seen": 22063424,
      "step": 33725
    },
    {
      "epoch": 17.67819706498952,
      "grad_norm": 0.11966394633054733,
      "learning_rate": 4.051236720020568e-05,
      "loss": 0.3336,
      "num_input_tokens_seen": 22066752,
      "step": 33730
    },
    {
      "epoch": 17.680817610062892,
      "grad_norm": 0.19611962139606476,
      "learning_rate": 4.042224102070263e-05,
      "loss": 0.5144,
      "num_input_tokens_seen": 22070432,
      "step": 33735
    },
    {
      "epoch": 17.68343815513627,
      "grad_norm": 0.3100794553756714,
      "learning_rate": 4.033221097962364e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 22073088,
      "step": 33740
    },
    {
      "epoch": 17.686058700209642,
      "grad_norm": 0.13972721993923187,
      "learning_rate": 4.0242277095802025e-05,
      "loss": 0.3695,
      "num_input_tokens_seen": 22076032,
      "step": 33745
    },
    {
      "epoch": 17.68867924528302,
      "grad_norm": 0.16913658380508423,
      "learning_rate": 4.015243938805086e-05,
      "loss": 0.4255,
      "num_input_tokens_seen": 22080736,
      "step": 33750
    },
    {
      "epoch": 17.691299790356393,
      "grad_norm": 0.1496267020702362,
      "learning_rate": 4.006269787516304e-05,
      "loss": 0.5801,
      "num_input_tokens_seen": 22083392,
      "step": 33755
    },
    {
      "epoch": 17.69392033542977,
      "grad_norm": 0.1196620836853981,
      "learning_rate": 3.9973052575911606e-05,
      "loss": 0.4464,
      "num_input_tokens_seen": 22086208,
      "step": 33760
    },
    {
      "epoch": 17.696540880503143,
      "grad_norm": 0.1622997373342514,
      "learning_rate": 3.988350350904929e-05,
      "loss": 0.3376,
      "num_input_tokens_seen": 22089792,
      "step": 33765
    },
    {
      "epoch": 17.69916142557652,
      "grad_norm": 0.13939864933490753,
      "learning_rate": 3.979405069330882e-05,
      "loss": 0.3461,
      "num_input_tokens_seen": 22092320,
      "step": 33770
    },
    {
      "epoch": 17.701781970649897,
      "grad_norm": 0.14219053089618683,
      "learning_rate": 3.970469414740269e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 22095616,
      "step": 33775
    },
    {
      "epoch": 17.70440251572327,
      "grad_norm": 0.13742871582508087,
      "learning_rate": 3.961543389002309e-05,
      "loss": 0.3115,
      "num_input_tokens_seen": 22098624,
      "step": 33780
    },
    {
      "epoch": 17.707023060796647,
      "grad_norm": 0.19193041324615479,
      "learning_rate": 3.952626993984243e-05,
      "loss": 0.4066,
      "num_input_tokens_seen": 22101344,
      "step": 33785
    },
    {
      "epoch": 17.70964360587002,
      "grad_norm": 0.16219334304332733,
      "learning_rate": 3.943720231551268e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 22103680,
      "step": 33790
    },
    {
      "epoch": 17.712264150943398,
      "grad_norm": 0.09243976324796677,
      "learning_rate": 3.934823103566587e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 22107008,
      "step": 33795
    },
    {
      "epoch": 17.71488469601677,
      "grad_norm": 0.2081192433834076,
      "learning_rate": 3.925935611891379e-05,
      "loss": 0.3187,
      "num_input_tokens_seen": 22109600,
      "step": 33800
    },
    {
      "epoch": 17.717505241090148,
      "grad_norm": 0.09220851212739944,
      "learning_rate": 3.917057758384801e-05,
      "loss": 0.5344,
      "num_input_tokens_seen": 22112672,
      "step": 33805
    },
    {
      "epoch": 17.72012578616352,
      "grad_norm": 0.140297532081604,
      "learning_rate": 3.9081895449039896e-05,
      "loss": 0.3861,
      "num_input_tokens_seen": 22115936,
      "step": 33810
    },
    {
      "epoch": 17.7227463312369,
      "grad_norm": 0.2213325798511505,
      "learning_rate": 3.899330973304083e-05,
      "loss": 0.3797,
      "num_input_tokens_seen": 22119360,
      "step": 33815
    },
    {
      "epoch": 17.72536687631027,
      "grad_norm": 0.2567310333251953,
      "learning_rate": 3.8904820454381875e-05,
      "loss": 0.5922,
      "num_input_tokens_seen": 22122784,
      "step": 33820
    },
    {
      "epoch": 17.72798742138365,
      "grad_norm": 0.11197172850370407,
      "learning_rate": 3.881642763157417e-05,
      "loss": 0.4494,
      "num_input_tokens_seen": 22125888,
      "step": 33825
    },
    {
      "epoch": 17.730607966457022,
      "grad_norm": 0.1127554252743721,
      "learning_rate": 3.872813128310826e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 22128960,
      "step": 33830
    },
    {
      "epoch": 17.7332285115304,
      "grad_norm": 0.11175753176212311,
      "learning_rate": 3.8639931427454866e-05,
      "loss": 0.3269,
      "num_input_tokens_seen": 22132512,
      "step": 33835
    },
    {
      "epoch": 17.735849056603772,
      "grad_norm": 0.1297992467880249,
      "learning_rate": 3.855182808306429e-05,
      "loss": 0.3667,
      "num_input_tokens_seen": 22137056,
      "step": 33840
    },
    {
      "epoch": 17.73846960167715,
      "grad_norm": 0.14397510886192322,
      "learning_rate": 3.8463821268366784e-05,
      "loss": 0.3626,
      "num_input_tokens_seen": 22139360,
      "step": 33845
    },
    {
      "epoch": 17.741090146750523,
      "grad_norm": 0.16420842707157135,
      "learning_rate": 3.837591100177246e-05,
      "loss": 0.4282,
      "num_input_tokens_seen": 22142368,
      "step": 33850
    },
    {
      "epoch": 17.7437106918239,
      "grad_norm": 0.15914691984653473,
      "learning_rate": 3.828809730167099e-05,
      "loss": 0.3579,
      "num_input_tokens_seen": 22145312,
      "step": 33855
    },
    {
      "epoch": 17.746331236897273,
      "grad_norm": 0.16224405169487,
      "learning_rate": 3.820038018643218e-05,
      "loss": 0.4355,
      "num_input_tokens_seen": 22148480,
      "step": 33860
    },
    {
      "epoch": 17.74895178197065,
      "grad_norm": 0.11681560426950455,
      "learning_rate": 3.8112759674405254e-05,
      "loss": 0.29,
      "num_input_tokens_seen": 22150944,
      "step": 33865
    },
    {
      "epoch": 17.751572327044027,
      "grad_norm": 0.10963228344917297,
      "learning_rate": 3.802523578391953e-05,
      "loss": 0.3084,
      "num_input_tokens_seen": 22154496,
      "step": 33870
    },
    {
      "epoch": 17.7541928721174,
      "grad_norm": 0.12266481667757034,
      "learning_rate": 3.793780853328399e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 22158048,
      "step": 33875
    },
    {
      "epoch": 17.756813417190777,
      "grad_norm": 0.15268385410308838,
      "learning_rate": 3.785047794078744e-05,
      "loss": 0.5199,
      "num_input_tokens_seen": 22161920,
      "step": 33880
    },
    {
      "epoch": 17.75943396226415,
      "grad_norm": 0.19183026254177094,
      "learning_rate": 3.776324402469844e-05,
      "loss": 0.6188,
      "num_input_tokens_seen": 22164640,
      "step": 33885
    },
    {
      "epoch": 17.762054507337528,
      "grad_norm": 0.09075465053319931,
      "learning_rate": 3.767610680326533e-05,
      "loss": 0.3491,
      "num_input_tokens_seen": 22168832,
      "step": 33890
    },
    {
      "epoch": 17.7646750524109,
      "grad_norm": 0.17474928498268127,
      "learning_rate": 3.7589066294716145e-05,
      "loss": 0.4923,
      "num_input_tokens_seen": 22172192,
      "step": 33895
    },
    {
      "epoch": 17.767295597484278,
      "grad_norm": 0.11525069922208786,
      "learning_rate": 3.750212251725882e-05,
      "loss": 0.5019,
      "num_input_tokens_seen": 22176128,
      "step": 33900
    },
    {
      "epoch": 17.76991614255765,
      "grad_norm": 0.10714001208543777,
      "learning_rate": 3.741527548908113e-05,
      "loss": 0.5301,
      "num_input_tokens_seen": 22179168,
      "step": 33905
    },
    {
      "epoch": 17.77253668763103,
      "grad_norm": 0.22237950563430786,
      "learning_rate": 3.732852522835023e-05,
      "loss": 0.5223,
      "num_input_tokens_seen": 22181728,
      "step": 33910
    },
    {
      "epoch": 17.7751572327044,
      "grad_norm": 0.1411496102809906,
      "learning_rate": 3.724187175321342e-05,
      "loss": 0.3793,
      "num_input_tokens_seen": 22184480,
      "step": 33915
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 0.13641619682312012,
      "learning_rate": 3.71553150817977e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 22187552,
      "step": 33920
    },
    {
      "epoch": 17.780398322851152,
      "grad_norm": 0.16957028210163116,
      "learning_rate": 3.70688552322096e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 22190176,
      "step": 33925
    },
    {
      "epoch": 17.78301886792453,
      "grad_norm": 0.18525554239749908,
      "learning_rate": 3.698249222253569e-05,
      "loss": 0.4159,
      "num_input_tokens_seen": 22192864,
      "step": 33930
    },
    {
      "epoch": 17.785639412997902,
      "grad_norm": 0.14255046844482422,
      "learning_rate": 3.6896226070841863e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 22197056,
      "step": 33935
    },
    {
      "epoch": 17.78825995807128,
      "grad_norm": 0.17577943205833435,
      "learning_rate": 3.681005679517424e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 22199680,
      "step": 33940
    },
    {
      "epoch": 17.790880503144653,
      "grad_norm": 0.13740584254264832,
      "learning_rate": 3.6723984413558455e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 22202592,
      "step": 33945
    },
    {
      "epoch": 17.79350104821803,
      "grad_norm": 0.27331316471099854,
      "learning_rate": 3.663800894399971e-05,
      "loss": 0.4677,
      "num_input_tokens_seen": 22205024,
      "step": 33950
    },
    {
      "epoch": 17.796121593291403,
      "grad_norm": 0.09711362421512604,
      "learning_rate": 3.655213040448318e-05,
      "loss": 0.3685,
      "num_input_tokens_seen": 22208224,
      "step": 33955
    },
    {
      "epoch": 17.79874213836478,
      "grad_norm": 0.14614641666412354,
      "learning_rate": 3.6466348812973723e-05,
      "loss": 0.4234,
      "num_input_tokens_seen": 22211456,
      "step": 33960
    },
    {
      "epoch": 17.801362683438157,
      "grad_norm": 0.21359379589557648,
      "learning_rate": 3.6380664187415815e-05,
      "loss": 0.7549,
      "num_input_tokens_seen": 22214528,
      "step": 33965
    },
    {
      "epoch": 17.80398322851153,
      "grad_norm": 0.24608051776885986,
      "learning_rate": 3.6295076545733663e-05,
      "loss": 0.4503,
      "num_input_tokens_seen": 22217312,
      "step": 33970
    },
    {
      "epoch": 17.806603773584907,
      "grad_norm": 0.107630655169487,
      "learning_rate": 3.6209585905831344e-05,
      "loss": 0.3829,
      "num_input_tokens_seen": 22219936,
      "step": 33975
    },
    {
      "epoch": 17.80922431865828,
      "grad_norm": 0.1402393877506256,
      "learning_rate": 3.6124192285592385e-05,
      "loss": 0.3645,
      "num_input_tokens_seen": 22223520,
      "step": 33980
    },
    {
      "epoch": 17.811844863731658,
      "grad_norm": 0.17254836857318878,
      "learning_rate": 3.6038895702880324e-05,
      "loss": 0.3611,
      "num_input_tokens_seen": 22226176,
      "step": 33985
    },
    {
      "epoch": 17.81446540880503,
      "grad_norm": 0.10464444756507874,
      "learning_rate": 3.595369617553806e-05,
      "loss": 0.3411,
      "num_input_tokens_seen": 22229056,
      "step": 33990
    },
    {
      "epoch": 17.817085953878408,
      "grad_norm": 0.10624773800373077,
      "learning_rate": 3.58685937213884e-05,
      "loss": 0.3572,
      "num_input_tokens_seen": 22232096,
      "step": 33995
    },
    {
      "epoch": 17.81970649895178,
      "grad_norm": 0.2234363704919815,
      "learning_rate": 3.5783588358233863e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 22234624,
      "step": 34000
    },
    {
      "epoch": 17.822327044025158,
      "grad_norm": 0.15997877717018127,
      "learning_rate": 3.569868010385663e-05,
      "loss": 0.3721,
      "num_input_tokens_seen": 22238176,
      "step": 34005
    },
    {
      "epoch": 17.82494758909853,
      "grad_norm": 0.28300026059150696,
      "learning_rate": 3.5613868976018535e-05,
      "loss": 0.2983,
      "num_input_tokens_seen": 22241280,
      "step": 34010
    },
    {
      "epoch": 17.82756813417191,
      "grad_norm": 0.16379833221435547,
      "learning_rate": 3.5529154992460955e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 22245088,
      "step": 34015
    },
    {
      "epoch": 17.830188679245282,
      "grad_norm": 0.16588197648525238,
      "learning_rate": 3.544453817090521e-05,
      "loss": 0.5391,
      "num_input_tokens_seen": 22247584,
      "step": 34020
    },
    {
      "epoch": 17.83280922431866,
      "grad_norm": 0.08586008101701736,
      "learning_rate": 3.536001852905207e-05,
      "loss": 0.3994,
      "num_input_tokens_seen": 22250752,
      "step": 34025
    },
    {
      "epoch": 17.835429769392032,
      "grad_norm": 0.13578389585018158,
      "learning_rate": 3.527559608458225e-05,
      "loss": 0.3774,
      "num_input_tokens_seen": 22254720,
      "step": 34030
    },
    {
      "epoch": 17.83805031446541,
      "grad_norm": 0.12201336771249771,
      "learning_rate": 3.5191270855155886e-05,
      "loss": 0.4198,
      "num_input_tokens_seen": 22257600,
      "step": 34035
    },
    {
      "epoch": 17.840670859538783,
      "grad_norm": 0.13571470975875854,
      "learning_rate": 3.510704285841293e-05,
      "loss": 0.2988,
      "num_input_tokens_seen": 22260896,
      "step": 34040
    },
    {
      "epoch": 17.84329140461216,
      "grad_norm": 0.1902856081724167,
      "learning_rate": 3.502291211197267e-05,
      "loss": 0.3273,
      "num_input_tokens_seen": 22264864,
      "step": 34045
    },
    {
      "epoch": 17.845911949685533,
      "grad_norm": 0.21790045499801636,
      "learning_rate": 3.493887863343448e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 22268064,
      "step": 34050
    },
    {
      "epoch": 17.84853249475891,
      "grad_norm": 0.17697380483150482,
      "learning_rate": 3.485494244037718e-05,
      "loss": 0.4497,
      "num_input_tokens_seen": 22271488,
      "step": 34055
    },
    {
      "epoch": 17.851153039832283,
      "grad_norm": 0.13458727300167084,
      "learning_rate": 3.477110355035934e-05,
      "loss": 0.427,
      "num_input_tokens_seen": 22275232,
      "step": 34060
    },
    {
      "epoch": 17.85377358490566,
      "grad_norm": 0.06977103650569916,
      "learning_rate": 3.468736198091904e-05,
      "loss": 0.3655,
      "num_input_tokens_seen": 22278720,
      "step": 34065
    },
    {
      "epoch": 17.856394129979037,
      "grad_norm": 0.09614457935094833,
      "learning_rate": 3.4603717749573935e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 22281920,
      "step": 34070
    },
    {
      "epoch": 17.85901467505241,
      "grad_norm": 0.1352553516626358,
      "learning_rate": 3.452017087382159e-05,
      "loss": 0.362,
      "num_input_tokens_seen": 22284768,
      "step": 34075
    },
    {
      "epoch": 17.861635220125788,
      "grad_norm": 0.21200238168239594,
      "learning_rate": 3.443672137113901e-05,
      "loss": 0.4746,
      "num_input_tokens_seen": 22287424,
      "step": 34080
    },
    {
      "epoch": 17.86425576519916,
      "grad_norm": 0.12323126941919327,
      "learning_rate": 3.4353369258983025e-05,
      "loss": 0.2951,
      "num_input_tokens_seen": 22293024,
      "step": 34085
    },
    {
      "epoch": 17.866876310272538,
      "grad_norm": 0.11620637774467468,
      "learning_rate": 3.4270114554789735e-05,
      "loss": 0.3881,
      "num_input_tokens_seen": 22296256,
      "step": 34090
    },
    {
      "epoch": 17.86949685534591,
      "grad_norm": 0.13034090399742126,
      "learning_rate": 3.41869572759751e-05,
      "loss": 0.4498,
      "num_input_tokens_seen": 22298752,
      "step": 34095
    },
    {
      "epoch": 17.872117400419288,
      "grad_norm": 0.13211530447006226,
      "learning_rate": 3.410389743993475e-05,
      "loss": 0.5381,
      "num_input_tokens_seen": 22302176,
      "step": 34100
    },
    {
      "epoch": 17.87473794549266,
      "grad_norm": 0.14025065302848816,
      "learning_rate": 3.40209350640438e-05,
      "loss": 0.4183,
      "num_input_tokens_seen": 22305696,
      "step": 34105
    },
    {
      "epoch": 17.87735849056604,
      "grad_norm": 0.14822418987751007,
      "learning_rate": 3.3938070165657084e-05,
      "loss": 0.4033,
      "num_input_tokens_seen": 22308928,
      "step": 34110
    },
    {
      "epoch": 17.879979035639412,
      "grad_norm": 0.15182802081108093,
      "learning_rate": 3.385530276210902e-05,
      "loss": 0.5617,
      "num_input_tokens_seen": 22311936,
      "step": 34115
    },
    {
      "epoch": 17.88259958071279,
      "grad_norm": 0.12782254815101624,
      "learning_rate": 3.377263287071358e-05,
      "loss": 0.4064,
      "num_input_tokens_seen": 22314624,
      "step": 34120
    },
    {
      "epoch": 17.885220125786162,
      "grad_norm": 0.20099002122879028,
      "learning_rate": 3.369006050876428e-05,
      "loss": 0.3884,
      "num_input_tokens_seen": 22317696,
      "step": 34125
    },
    {
      "epoch": 17.88784067085954,
      "grad_norm": 0.20589883625507355,
      "learning_rate": 3.3607585693534394e-05,
      "loss": 0.4302,
      "num_input_tokens_seen": 22324832,
      "step": 34130
    },
    {
      "epoch": 17.890461215932913,
      "grad_norm": 0.1960662454366684,
      "learning_rate": 3.352520844227663e-05,
      "loss": 0.4194,
      "num_input_tokens_seen": 22328064,
      "step": 34135
    },
    {
      "epoch": 17.89308176100629,
      "grad_norm": 0.1484222263097763,
      "learning_rate": 3.344292877222355e-05,
      "loss": 0.3614,
      "num_input_tokens_seen": 22330656,
      "step": 34140
    },
    {
      "epoch": 17.895702306079663,
      "grad_norm": 0.16742561757564545,
      "learning_rate": 3.336074670058703e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 22333760,
      "step": 34145
    },
    {
      "epoch": 17.89832285115304,
      "grad_norm": 0.18924206495285034,
      "learning_rate": 3.327866224455844e-05,
      "loss": 0.5725,
      "num_input_tokens_seen": 22336256,
      "step": 34150
    },
    {
      "epoch": 17.900943396226417,
      "grad_norm": 0.1463209092617035,
      "learning_rate": 3.3196675421309165e-05,
      "loss": 0.5143,
      "num_input_tokens_seen": 22339520,
      "step": 34155
    },
    {
      "epoch": 17.90356394129979,
      "grad_norm": 0.20694731175899506,
      "learning_rate": 3.3114786247989744e-05,
      "loss": 0.433,
      "num_input_tokens_seen": 22343200,
      "step": 34160
    },
    {
      "epoch": 17.906184486373167,
      "grad_norm": 0.19693636894226074,
      "learning_rate": 3.303299474173066e-05,
      "loss": 0.5625,
      "num_input_tokens_seen": 22347712,
      "step": 34165
    },
    {
      "epoch": 17.90880503144654,
      "grad_norm": 0.24877196550369263,
      "learning_rate": 3.2951300919641544e-05,
      "loss": 0.4371,
      "num_input_tokens_seen": 22350624,
      "step": 34170
    },
    {
      "epoch": 17.911425576519918,
      "grad_norm": 0.13761425018310547,
      "learning_rate": 3.2869704798811964e-05,
      "loss": 0.3638,
      "num_input_tokens_seen": 22354112,
      "step": 34175
    },
    {
      "epoch": 17.91404612159329,
      "grad_norm": 0.14344270527362823,
      "learning_rate": 3.2788206396310746e-05,
      "loss": 0.4044,
      "num_input_tokens_seen": 22357696,
      "step": 34180
    },
    {
      "epoch": 17.916666666666668,
      "grad_norm": 0.17134080827236176,
      "learning_rate": 3.270680572918655e-05,
      "loss": 0.4295,
      "num_input_tokens_seen": 22361024,
      "step": 34185
    },
    {
      "epoch": 17.91928721174004,
      "grad_norm": 0.14844395220279694,
      "learning_rate": 3.262550281446741e-05,
      "loss": 0.3545,
      "num_input_tokens_seen": 22365056,
      "step": 34190
    },
    {
      "epoch": 17.921907756813418,
      "grad_norm": 0.09965255856513977,
      "learning_rate": 3.2544297669161115e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 22368384,
      "step": 34195
    },
    {
      "epoch": 17.92452830188679,
      "grad_norm": 0.1342693269252777,
      "learning_rate": 3.2463190310254633e-05,
      "loss": 0.4216,
      "num_input_tokens_seen": 22371040,
      "step": 34200
    },
    {
      "epoch": 17.92714884696017,
      "grad_norm": 0.15385805070400238,
      "learning_rate": 3.238218075471483e-05,
      "loss": 0.2947,
      "num_input_tokens_seen": 22373664,
      "step": 34205
    },
    {
      "epoch": 17.929769392033542,
      "grad_norm": 0.1488429605960846,
      "learning_rate": 3.230126901948788e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 22376672,
      "step": 34210
    },
    {
      "epoch": 17.93238993710692,
      "grad_norm": 0.2157784104347229,
      "learning_rate": 3.222045512149968e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 22379200,
      "step": 34215
    },
    {
      "epoch": 17.935010482180292,
      "grad_norm": 0.14660686254501343,
      "learning_rate": 3.213973907765566e-05,
      "loss": 0.337,
      "num_input_tokens_seen": 22382368,
      "step": 34220
    },
    {
      "epoch": 17.93763102725367,
      "grad_norm": 0.2861829102039337,
      "learning_rate": 3.205912090484048e-05,
      "loss": 0.5572,
      "num_input_tokens_seen": 22385728,
      "step": 34225
    },
    {
      "epoch": 17.940251572327043,
      "grad_norm": 0.14642168581485748,
      "learning_rate": 3.1978600619918754e-05,
      "loss": 0.5318,
      "num_input_tokens_seen": 22388352,
      "step": 34230
    },
    {
      "epoch": 17.94287211740042,
      "grad_norm": 0.1169213354587555,
      "learning_rate": 3.189817823973423e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 22391456,
      "step": 34235
    },
    {
      "epoch": 17.945492662473793,
      "grad_norm": 0.11667320132255554,
      "learning_rate": 3.18178537811104e-05,
      "loss": 0.5564,
      "num_input_tokens_seen": 22395392,
      "step": 34240
    },
    {
      "epoch": 17.94811320754717,
      "grad_norm": 0.16792994737625122,
      "learning_rate": 3.1737627260850335e-05,
      "loss": 0.4869,
      "num_input_tokens_seen": 22398880,
      "step": 34245
    },
    {
      "epoch": 17.950733752620543,
      "grad_norm": 0.2502521574497223,
      "learning_rate": 3.1657498695736364e-05,
      "loss": 0.3798,
      "num_input_tokens_seen": 22401216,
      "step": 34250
    },
    {
      "epoch": 17.95335429769392,
      "grad_norm": 0.3379696011543274,
      "learning_rate": 3.157746810253054e-05,
      "loss": 0.2872,
      "num_input_tokens_seen": 22404320,
      "step": 34255
    },
    {
      "epoch": 17.955974842767297,
      "grad_norm": 0.18466505408287048,
      "learning_rate": 3.149753549797446e-05,
      "loss": 0.436,
      "num_input_tokens_seen": 22407296,
      "step": 34260
    },
    {
      "epoch": 17.95859538784067,
      "grad_norm": 0.1384282261133194,
      "learning_rate": 3.141770089878887e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 22409728,
      "step": 34265
    },
    {
      "epoch": 17.961215932914047,
      "grad_norm": 0.24555808305740356,
      "learning_rate": 3.1337964321674354e-05,
      "loss": 0.3744,
      "num_input_tokens_seen": 22412864,
      "step": 34270
    },
    {
      "epoch": 17.96383647798742,
      "grad_norm": 0.15177088975906372,
      "learning_rate": 3.125832578331106e-05,
      "loss": 0.3773,
      "num_input_tokens_seen": 22415968,
      "step": 34275
    },
    {
      "epoch": 17.966457023060798,
      "grad_norm": 0.11142412573099136,
      "learning_rate": 3.117878530035823e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 22418784,
      "step": 34280
    },
    {
      "epoch": 17.96907756813417,
      "grad_norm": 0.08910220116376877,
      "learning_rate": 3.1099342889454875e-05,
      "loss": 0.3621,
      "num_input_tokens_seen": 22422880,
      "step": 34285
    },
    {
      "epoch": 17.971698113207548,
      "grad_norm": 0.10866787284612656,
      "learning_rate": 3.1019998567219597e-05,
      "loss": 0.3916,
      "num_input_tokens_seen": 22426528,
      "step": 34290
    },
    {
      "epoch": 17.97431865828092,
      "grad_norm": 0.22658148407936096,
      "learning_rate": 3.0940752350250125e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 22429536,
      "step": 34295
    },
    {
      "epoch": 17.9769392033543,
      "grad_norm": 0.10918767005205154,
      "learning_rate": 3.0861604255124074e-05,
      "loss": 0.3653,
      "num_input_tokens_seen": 22433952,
      "step": 34300
    },
    {
      "epoch": 17.979559748427672,
      "grad_norm": 0.17861300706863403,
      "learning_rate": 3.0782554298398045e-05,
      "loss": 0.417,
      "num_input_tokens_seen": 22437856,
      "step": 34305
    },
    {
      "epoch": 17.98218029350105,
      "grad_norm": 0.26457223296165466,
      "learning_rate": 3.070360249660859e-05,
      "loss": 0.3801,
      "num_input_tokens_seen": 22440896,
      "step": 34310
    },
    {
      "epoch": 17.984800838574422,
      "grad_norm": 0.11799074709415436,
      "learning_rate": 3.0624748866271535e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 22444480,
      "step": 34315
    },
    {
      "epoch": 17.9874213836478,
      "grad_norm": 0.11843753606081009,
      "learning_rate": 3.0545993423882036e-05,
      "loss": 0.3203,
      "num_input_tokens_seen": 22448448,
      "step": 34320
    },
    {
      "epoch": 17.990041928721173,
      "grad_norm": 0.49588486552238464,
      "learning_rate": 3.046733618591496e-05,
      "loss": 0.6089,
      "num_input_tokens_seen": 22451200,
      "step": 34325
    },
    {
      "epoch": 17.99266247379455,
      "grad_norm": 0.1692313551902771,
      "learning_rate": 3.0388777168824434e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 22454976,
      "step": 34330
    },
    {
      "epoch": 17.995283018867923,
      "grad_norm": 0.1381516456604004,
      "learning_rate": 3.0310316389044022e-05,
      "loss": 0.4103,
      "num_input_tokens_seen": 22458240,
      "step": 34335
    },
    {
      "epoch": 17.9979035639413,
      "grad_norm": 0.1511084884405136,
      "learning_rate": 3.0231953862986995e-05,
      "loss": 0.3909,
      "num_input_tokens_seen": 22461056,
      "step": 34340
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.48767465353012085,
      "eval_runtime": 13.5998,
      "eval_samples_per_second": 62.354,
      "eval_steps_per_second": 15.588,
      "num_input_tokens_seen": 22462808,
      "step": 34344
    },
    {
      "epoch": 18.000524109014677,
      "grad_norm": 0.16500462591648102,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 0.2648,
      "num_input_tokens_seen": 22463384,
      "step": 34345
    },
    {
      "epoch": 18.00314465408805,
      "grad_norm": 0.18647083640098572,
      "learning_rate": 3.0075523637592474e-05,
      "loss": 0.3335,
      "num_input_tokens_seen": 22467384,
      "step": 34350
    },
    {
      "epoch": 18.005765199161427,
      "grad_norm": 0.15886548161506653,
      "learning_rate": 2.999745597097847e-05,
      "loss": 0.472,
      "num_input_tokens_seen": 22470840,
      "step": 34355
    },
    {
      "epoch": 18.0083857442348,
      "grad_norm": 0.11955773085355759,
      "learning_rate": 2.9919486623534497e-05,
      "loss": 0.417,
      "num_input_tokens_seen": 22474456,
      "step": 34360
    },
    {
      "epoch": 18.011006289308177,
      "grad_norm": 0.21371673047542572,
      "learning_rate": 2.9841615611571005e-05,
      "loss": 0.3964,
      "num_input_tokens_seen": 22477400,
      "step": 34365
    },
    {
      "epoch": 18.01362683438155,
      "grad_norm": 0.21931414306163788,
      "learning_rate": 2.9763842951377628e-05,
      "loss": 0.4492,
      "num_input_tokens_seen": 22480728,
      "step": 34370
    },
    {
      "epoch": 18.016247379454928,
      "grad_norm": 0.13826295733451843,
      "learning_rate": 2.968616865922369e-05,
      "loss": 0.5232,
      "num_input_tokens_seen": 22483768,
      "step": 34375
    },
    {
      "epoch": 18.0188679245283,
      "grad_norm": 0.17722409963607788,
      "learning_rate": 2.960859275135758e-05,
      "loss": 0.4916,
      "num_input_tokens_seen": 22486808,
      "step": 34380
    },
    {
      "epoch": 18.021488469601678,
      "grad_norm": 0.10093359649181366,
      "learning_rate": 2.9531115244007367e-05,
      "loss": 0.3677,
      "num_input_tokens_seen": 22490168,
      "step": 34385
    },
    {
      "epoch": 18.02410901467505,
      "grad_norm": 0.14799398183822632,
      "learning_rate": 2.945373615338037e-05,
      "loss": 0.4127,
      "num_input_tokens_seen": 22493528,
      "step": 34390
    },
    {
      "epoch": 18.02672955974843,
      "grad_norm": 0.12958328425884247,
      "learning_rate": 2.9376455495663534e-05,
      "loss": 0.4167,
      "num_input_tokens_seen": 22496344,
      "step": 34395
    },
    {
      "epoch": 18.029350104821802,
      "grad_norm": 0.2092045247554779,
      "learning_rate": 2.9299273287023144e-05,
      "loss": 0.4361,
      "num_input_tokens_seen": 22498776,
      "step": 34400
    },
    {
      "epoch": 18.03197064989518,
      "grad_norm": 0.1759500503540039,
      "learning_rate": 2.922218954360473e-05,
      "loss": 0.4114,
      "num_input_tokens_seen": 22501464,
      "step": 34405
    },
    {
      "epoch": 18.034591194968552,
      "grad_norm": 0.10559938102960587,
      "learning_rate": 2.9145204281533278e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 22504696,
      "step": 34410
    },
    {
      "epoch": 18.03721174004193,
      "grad_norm": 0.17416329681873322,
      "learning_rate": 2.9068317516913244e-05,
      "loss": 0.4279,
      "num_input_tokens_seen": 22507288,
      "step": 34415
    },
    {
      "epoch": 18.039832285115303,
      "grad_norm": 0.25179293751716614,
      "learning_rate": 2.8991529265828542e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 22509912,
      "step": 34420
    },
    {
      "epoch": 18.04245283018868,
      "grad_norm": 0.1295274943113327,
      "learning_rate": 2.891483954434243e-05,
      "loss": 0.4493,
      "num_input_tokens_seen": 22513432,
      "step": 34425
    },
    {
      "epoch": 18.045073375262053,
      "grad_norm": 0.1100609302520752,
      "learning_rate": 2.8838248368497465e-05,
      "loss": 0.4168,
      "num_input_tokens_seen": 22516632,
      "step": 34430
    },
    {
      "epoch": 18.04769392033543,
      "grad_norm": 0.15469147264957428,
      "learning_rate": 2.8761755754315667e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 22520376,
      "step": 34435
    },
    {
      "epoch": 18.050314465408807,
      "grad_norm": 0.12467874586582184,
      "learning_rate": 2.8685361717798286e-05,
      "loss": 0.3891,
      "num_input_tokens_seen": 22524728,
      "step": 34440
    },
    {
      "epoch": 18.05293501048218,
      "grad_norm": 0.12296068668365479,
      "learning_rate": 2.8609066274926265e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 22528408,
      "step": 34445
    },
    {
      "epoch": 18.055555555555557,
      "grad_norm": 0.14004027843475342,
      "learning_rate": 2.8532869441659615e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 22531032,
      "step": 34450
    },
    {
      "epoch": 18.05817610062893,
      "grad_norm": 0.07646219432353973,
      "learning_rate": 2.8456771233937973e-05,
      "loss": 0.3589,
      "num_input_tokens_seen": 22533944,
      "step": 34455
    },
    {
      "epoch": 18.060796645702307,
      "grad_norm": 0.10437677800655365,
      "learning_rate": 2.838077166768016e-05,
      "loss": 0.451,
      "num_input_tokens_seen": 22536952,
      "step": 34460
    },
    {
      "epoch": 18.06341719077568,
      "grad_norm": 0.10123535990715027,
      "learning_rate": 2.8304870758784296e-05,
      "loss": 0.4211,
      "num_input_tokens_seen": 22540376,
      "step": 34465
    },
    {
      "epoch": 18.066037735849058,
      "grad_norm": 0.1635429710149765,
      "learning_rate": 2.822906852312812e-05,
      "loss": 0.3663,
      "num_input_tokens_seen": 22543352,
      "step": 34470
    },
    {
      "epoch": 18.06865828092243,
      "grad_norm": 0.1116180345416069,
      "learning_rate": 2.8153364976568563e-05,
      "loss": 0.3349,
      "num_input_tokens_seen": 22546808,
      "step": 34475
    },
    {
      "epoch": 18.071278825995808,
      "grad_norm": 0.09641607850790024,
      "learning_rate": 2.8077760134941955e-05,
      "loss": 0.309,
      "num_input_tokens_seen": 22550008,
      "step": 34480
    },
    {
      "epoch": 18.07389937106918,
      "grad_norm": 0.13198691606521606,
      "learning_rate": 2.800225401406392e-05,
      "loss": 0.3358,
      "num_input_tokens_seen": 22552824,
      "step": 34485
    },
    {
      "epoch": 18.07651991614256,
      "grad_norm": 0.15797610580921173,
      "learning_rate": 2.7926846629729607e-05,
      "loss": 0.3988,
      "num_input_tokens_seen": 22555608,
      "step": 34490
    },
    {
      "epoch": 18.079140461215932,
      "grad_norm": 0.165340393781662,
      "learning_rate": 2.7851537997713174e-05,
      "loss": 0.5173,
      "num_input_tokens_seen": 22559640,
      "step": 34495
    },
    {
      "epoch": 18.08176100628931,
      "grad_norm": 0.17216254770755768,
      "learning_rate": 2.7776328133768458e-05,
      "loss": 0.4659,
      "num_input_tokens_seen": 22562936,
      "step": 34500
    },
    {
      "epoch": 18.084381551362682,
      "grad_norm": 0.09161993861198425,
      "learning_rate": 2.770121705362849e-05,
      "loss": 0.4356,
      "num_input_tokens_seen": 22566424,
      "step": 34505
    },
    {
      "epoch": 18.08700209643606,
      "grad_norm": 0.14377568662166595,
      "learning_rate": 2.7626204773005704e-05,
      "loss": 0.4488,
      "num_input_tokens_seen": 22569944,
      "step": 34510
    },
    {
      "epoch": 18.089622641509433,
      "grad_norm": 0.21553552150726318,
      "learning_rate": 2.7551291307591765e-05,
      "loss": 0.3749,
      "num_input_tokens_seen": 22574264,
      "step": 34515
    },
    {
      "epoch": 18.09224318658281,
      "grad_norm": 0.20820021629333496,
      "learning_rate": 2.7476476673057636e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 22577080,
      "step": 34520
    },
    {
      "epoch": 18.094863731656183,
      "grad_norm": 0.08000980317592621,
      "learning_rate": 2.740176088505375e-05,
      "loss": 0.4631,
      "num_input_tokens_seen": 22581048,
      "step": 34525
    },
    {
      "epoch": 18.09748427672956,
      "grad_norm": 0.18030217289924622,
      "learning_rate": 2.7327143959209765e-05,
      "loss": 0.4942,
      "num_input_tokens_seen": 22584088,
      "step": 34530
    },
    {
      "epoch": 18.100104821802937,
      "grad_norm": 0.14487865567207336,
      "learning_rate": 2.725262591113481e-05,
      "loss": 0.2977,
      "num_input_tokens_seen": 22587480,
      "step": 34535
    },
    {
      "epoch": 18.10272536687631,
      "grad_norm": 0.15341894328594208,
      "learning_rate": 2.7178206756417078e-05,
      "loss": 0.5438,
      "num_input_tokens_seen": 22591032,
      "step": 34540
    },
    {
      "epoch": 18.105345911949687,
      "grad_norm": 0.1590532660484314,
      "learning_rate": 2.7103886510624344e-05,
      "loss": 0.2733,
      "num_input_tokens_seen": 22594360,
      "step": 34545
    },
    {
      "epoch": 18.10796645702306,
      "grad_norm": 0.1208190768957138,
      "learning_rate": 2.7029665189303387e-05,
      "loss": 0.3887,
      "num_input_tokens_seen": 22597400,
      "step": 34550
    },
    {
      "epoch": 18.110587002096437,
      "grad_norm": 0.14740148186683655,
      "learning_rate": 2.6955542807980515e-05,
      "loss": 0.411,
      "num_input_tokens_seen": 22600056,
      "step": 34555
    },
    {
      "epoch": 18.11320754716981,
      "grad_norm": 0.11973834037780762,
      "learning_rate": 2.688151938216138e-05,
      "loss": 0.3862,
      "num_input_tokens_seen": 22603128,
      "step": 34560
    },
    {
      "epoch": 18.115828092243188,
      "grad_norm": 0.1521768867969513,
      "learning_rate": 2.6807594927330703e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 22606040,
      "step": 34565
    },
    {
      "epoch": 18.11844863731656,
      "grad_norm": 0.32663851976394653,
      "learning_rate": 2.6733769458952727e-05,
      "loss": 0.4146,
      "num_input_tokens_seen": 22608632,
      "step": 34570
    },
    {
      "epoch": 18.121069182389938,
      "grad_norm": 0.2082577496767044,
      "learning_rate": 2.6660042992470934e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 22611512,
      "step": 34575
    },
    {
      "epoch": 18.12368972746331,
      "grad_norm": 0.14358104765415192,
      "learning_rate": 2.658641554330793e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 22615352,
      "step": 34580
    },
    {
      "epoch": 18.12631027253669,
      "grad_norm": 0.13497284054756165,
      "learning_rate": 2.6512887126865782e-05,
      "loss": 0.4233,
      "num_input_tokens_seen": 22618328,
      "step": 34585
    },
    {
      "epoch": 18.128930817610062,
      "grad_norm": 0.13169489800930023,
      "learning_rate": 2.6439457758525908e-05,
      "loss": 0.417,
      "num_input_tokens_seen": 22621816,
      "step": 34590
    },
    {
      "epoch": 18.13155136268344,
      "grad_norm": 0.1541873663663864,
      "learning_rate": 2.6366127453648748e-05,
      "loss": 0.4537,
      "num_input_tokens_seen": 22626328,
      "step": 34595
    },
    {
      "epoch": 18.134171907756812,
      "grad_norm": 0.17920707166194916,
      "learning_rate": 2.6292896227574303e-05,
      "loss": 0.5703,
      "num_input_tokens_seen": 22630104,
      "step": 34600
    },
    {
      "epoch": 18.13679245283019,
      "grad_norm": 0.171870619058609,
      "learning_rate": 2.6219764095621547e-05,
      "loss": 0.3105,
      "num_input_tokens_seen": 22634040,
      "step": 34605
    },
    {
      "epoch": 18.139412997903563,
      "grad_norm": 0.26232242584228516,
      "learning_rate": 2.6146731073088958e-05,
      "loss": 0.365,
      "num_input_tokens_seen": 22636792,
      "step": 34610
    },
    {
      "epoch": 18.14203354297694,
      "grad_norm": 0.1598586142063141,
      "learning_rate": 2.607379717525432e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 22640152,
      "step": 34615
    },
    {
      "epoch": 18.144654088050313,
      "grad_norm": 0.45619669556617737,
      "learning_rate": 2.6000962417374373e-05,
      "loss": 0.5053,
      "num_input_tokens_seen": 22643128,
      "step": 34620
    },
    {
      "epoch": 18.14727463312369,
      "grad_norm": 0.17195338010787964,
      "learning_rate": 2.5928226814685485e-05,
      "loss": 0.4364,
      "num_input_tokens_seen": 22646168,
      "step": 34625
    },
    {
      "epoch": 18.149895178197063,
      "grad_norm": 0.1756228357553482,
      "learning_rate": 2.585559038240304e-05,
      "loss": 0.3653,
      "num_input_tokens_seen": 22649144,
      "step": 34630
    },
    {
      "epoch": 18.15251572327044,
      "grad_norm": 0.21852342784404755,
      "learning_rate": 2.5783053135721714e-05,
      "loss": 0.4489,
      "num_input_tokens_seen": 22651704,
      "step": 34635
    },
    {
      "epoch": 18.155136268343817,
      "grad_norm": 0.18478092551231384,
      "learning_rate": 2.571061508981565e-05,
      "loss": 0.5153,
      "num_input_tokens_seen": 22654840,
      "step": 34640
    },
    {
      "epoch": 18.15775681341719,
      "grad_norm": 0.13023750483989716,
      "learning_rate": 2.5638276259837778e-05,
      "loss": 0.3465,
      "num_input_tokens_seen": 22658392,
      "step": 34645
    },
    {
      "epoch": 18.160377358490567,
      "grad_norm": 0.11605831980705261,
      "learning_rate": 2.5566036660920778e-05,
      "loss": 0.4375,
      "num_input_tokens_seen": 22661592,
      "step": 34650
    },
    {
      "epoch": 18.16299790356394,
      "grad_norm": 0.18747517466545105,
      "learning_rate": 2.5493896308176223e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 22664312,
      "step": 34655
    },
    {
      "epoch": 18.165618448637318,
      "grad_norm": 0.1775694042444229,
      "learning_rate": 2.542185521669521e-05,
      "loss": 0.5148,
      "num_input_tokens_seen": 22667032,
      "step": 34660
    },
    {
      "epoch": 18.16823899371069,
      "grad_norm": 0.11295589059591293,
      "learning_rate": 2.534991340154774e-05,
      "loss": 0.521,
      "num_input_tokens_seen": 22670008,
      "step": 34665
    },
    {
      "epoch": 18.170859538784068,
      "grad_norm": 0.14161935448646545,
      "learning_rate": 2.5278070877783332e-05,
      "loss": 0.375,
      "num_input_tokens_seen": 22673656,
      "step": 34670
    },
    {
      "epoch": 18.17348008385744,
      "grad_norm": 0.11476294696331024,
      "learning_rate": 2.520632766043052e-05,
      "loss": 0.3139,
      "num_input_tokens_seen": 22676792,
      "step": 34675
    },
    {
      "epoch": 18.17610062893082,
      "grad_norm": 0.23463553190231323,
      "learning_rate": 2.513468376449729e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 22680056,
      "step": 34680
    },
    {
      "epoch": 18.178721174004192,
      "grad_norm": 0.28522342443466187,
      "learning_rate": 2.506313920497061e-05,
      "loss": 0.4172,
      "num_input_tokens_seen": 22683224,
      "step": 34685
    },
    {
      "epoch": 18.18134171907757,
      "grad_norm": 0.1059531718492508,
      "learning_rate": 2.4991693996816888e-05,
      "loss": 0.4111,
      "num_input_tokens_seen": 22686648,
      "step": 34690
    },
    {
      "epoch": 18.183962264150942,
      "grad_norm": 0.16806378960609436,
      "learning_rate": 2.4920348154981677e-05,
      "loss": 0.3542,
      "num_input_tokens_seen": 22688728,
      "step": 34695
    },
    {
      "epoch": 18.18658280922432,
      "grad_norm": 0.13196516036987305,
      "learning_rate": 2.4849101694389477e-05,
      "loss": 0.368,
      "num_input_tokens_seen": 22692184,
      "step": 34700
    },
    {
      "epoch": 18.189203354297693,
      "grad_norm": 0.11295493692159653,
      "learning_rate": 2.4777954629944478e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 22695672,
      "step": 34705
    },
    {
      "epoch": 18.19182389937107,
      "grad_norm": 0.10058354586362839,
      "learning_rate": 2.4706906976529718e-05,
      "loss": 0.3664,
      "num_input_tokens_seen": 22698520,
      "step": 34710
    },
    {
      "epoch": 18.194444444444443,
      "grad_norm": 0.15391433238983154,
      "learning_rate": 2.4635958749007648e-05,
      "loss": 0.3873,
      "num_input_tokens_seen": 22701784,
      "step": 34715
    },
    {
      "epoch": 18.19706498951782,
      "grad_norm": 0.13446633517742157,
      "learning_rate": 2.456510996221978e-05,
      "loss": 0.3296,
      "num_input_tokens_seen": 22705080,
      "step": 34720
    },
    {
      "epoch": 18.199685534591197,
      "grad_norm": 0.10747914016246796,
      "learning_rate": 2.4494360630986756e-05,
      "loss": 0.3594,
      "num_input_tokens_seen": 22708152,
      "step": 34725
    },
    {
      "epoch": 18.20230607966457,
      "grad_norm": 0.21674911677837372,
      "learning_rate": 2.4423710770108687e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 22711640,
      "step": 34730
    },
    {
      "epoch": 18.204926624737947,
      "grad_norm": 0.1171489804983139,
      "learning_rate": 2.435316039436464e-05,
      "loss": 0.3861,
      "num_input_tokens_seen": 22714936,
      "step": 34735
    },
    {
      "epoch": 18.20754716981132,
      "grad_norm": 0.1400080770254135,
      "learning_rate": 2.428270951851297e-05,
      "loss": 0.4243,
      "num_input_tokens_seen": 22718456,
      "step": 34740
    },
    {
      "epoch": 18.210167714884697,
      "grad_norm": 0.2110626995563507,
      "learning_rate": 2.421235815729128e-05,
      "loss": 0.5538,
      "num_input_tokens_seen": 22721400,
      "step": 34745
    },
    {
      "epoch": 18.21278825995807,
      "grad_norm": 0.14268773794174194,
      "learning_rate": 2.414210632541619e-05,
      "loss": 0.4184,
      "num_input_tokens_seen": 22724312,
      "step": 34750
    },
    {
      "epoch": 18.215408805031448,
      "grad_norm": 0.20369356870651245,
      "learning_rate": 2.40719540375835e-05,
      "loss": 0.4746,
      "num_input_tokens_seen": 22727128,
      "step": 34755
    },
    {
      "epoch": 18.21802935010482,
      "grad_norm": 0.10084033012390137,
      "learning_rate": 2.4001901308468353e-05,
      "loss": 0.4744,
      "num_input_tokens_seen": 22730712,
      "step": 34760
    },
    {
      "epoch": 18.220649895178198,
      "grad_norm": 0.2165292650461197,
      "learning_rate": 2.3931948152724982e-05,
      "loss": 0.4701,
      "num_input_tokens_seen": 22733592,
      "step": 34765
    },
    {
      "epoch": 18.22327044025157,
      "grad_norm": 0.15002861618995667,
      "learning_rate": 2.386209458498684e-05,
      "loss": 0.5621,
      "num_input_tokens_seen": 22736568,
      "step": 34770
    },
    {
      "epoch": 18.22589098532495,
      "grad_norm": 0.14018875360488892,
      "learning_rate": 2.3792340619866458e-05,
      "loss": 0.4319,
      "num_input_tokens_seen": 22740696,
      "step": 34775
    },
    {
      "epoch": 18.228511530398322,
      "grad_norm": 0.15139463543891907,
      "learning_rate": 2.3722686271955507e-05,
      "loss": 0.3677,
      "num_input_tokens_seen": 22744728,
      "step": 34780
    },
    {
      "epoch": 18.2311320754717,
      "grad_norm": 0.2769833207130432,
      "learning_rate": 2.365313155582488e-05,
      "loss": 0.5866,
      "num_input_tokens_seen": 22747384,
      "step": 34785
    },
    {
      "epoch": 18.233752620545072,
      "grad_norm": 0.14984135329723358,
      "learning_rate": 2.358367648602472e-05,
      "loss": 0.4514,
      "num_input_tokens_seen": 22751224,
      "step": 34790
    },
    {
      "epoch": 18.23637316561845,
      "grad_norm": 0.1363890916109085,
      "learning_rate": 2.3514321077084234e-05,
      "loss": 0.5317,
      "num_input_tokens_seen": 22754392,
      "step": 34795
    },
    {
      "epoch": 18.238993710691823,
      "grad_norm": 0.12184425443410873,
      "learning_rate": 2.3445065343511763e-05,
      "loss": 0.3785,
      "num_input_tokens_seen": 22758776,
      "step": 34800
    },
    {
      "epoch": 18.2416142557652,
      "grad_norm": 0.1492406278848648,
      "learning_rate": 2.3375909299794717e-05,
      "loss": 0.4172,
      "num_input_tokens_seen": 22762072,
      "step": 34805
    },
    {
      "epoch": 18.244234800838573,
      "grad_norm": 0.23591934144496918,
      "learning_rate": 2.330685296039986e-05,
      "loss": 0.466,
      "num_input_tokens_seen": 22764856,
      "step": 34810
    },
    {
      "epoch": 18.24685534591195,
      "grad_norm": 0.15151435136795044,
      "learning_rate": 2.3237896339772914e-05,
      "loss": 0.4285,
      "num_input_tokens_seen": 22767736,
      "step": 34815
    },
    {
      "epoch": 18.249475890985323,
      "grad_norm": 0.1442669779062271,
      "learning_rate": 2.3169039452338892e-05,
      "loss": 0.2677,
      "num_input_tokens_seen": 22770840,
      "step": 34820
    },
    {
      "epoch": 18.2520964360587,
      "grad_norm": 0.19304156303405762,
      "learning_rate": 2.3100282312501886e-05,
      "loss": 0.5079,
      "num_input_tokens_seen": 22777208,
      "step": 34825
    },
    {
      "epoch": 18.254716981132077,
      "grad_norm": 0.20131924748420715,
      "learning_rate": 2.3031624934645113e-05,
      "loss": 0.5106,
      "num_input_tokens_seen": 22780312,
      "step": 34830
    },
    {
      "epoch": 18.25733752620545,
      "grad_norm": 0.16179873049259186,
      "learning_rate": 2.296306733313075e-05,
      "loss": 0.457,
      "num_input_tokens_seen": 22784152,
      "step": 34835
    },
    {
      "epoch": 18.259958071278827,
      "grad_norm": 0.13850508630275726,
      "learning_rate": 2.289460952230038e-05,
      "loss": 0.5131,
      "num_input_tokens_seen": 22788056,
      "step": 34840
    },
    {
      "epoch": 18.2625786163522,
      "grad_norm": 0.18620269000530243,
      "learning_rate": 2.2826251516474604e-05,
      "loss": 0.4127,
      "num_input_tokens_seen": 22791320,
      "step": 34845
    },
    {
      "epoch": 18.265199161425578,
      "grad_norm": 0.11000736802816391,
      "learning_rate": 2.2757993329953152e-05,
      "loss": 0.4269,
      "num_input_tokens_seen": 22794616,
      "step": 34850
    },
    {
      "epoch": 18.26781970649895,
      "grad_norm": 0.16808272898197174,
      "learning_rate": 2.2689834977014822e-05,
      "loss": 0.4115,
      "num_input_tokens_seen": 22799256,
      "step": 34855
    },
    {
      "epoch": 18.270440251572328,
      "grad_norm": 0.11335049569606781,
      "learning_rate": 2.2621776471917598e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 22802584,
      "step": 34860
    },
    {
      "epoch": 18.2730607966457,
      "grad_norm": 0.1210407093167305,
      "learning_rate": 2.255381782889848e-05,
      "loss": 0.3544,
      "num_input_tokens_seen": 22805272,
      "step": 34865
    },
    {
      "epoch": 18.27568134171908,
      "grad_norm": 0.10999341309070587,
      "learning_rate": 2.2485959062173654e-05,
      "loss": 0.3955,
      "num_input_tokens_seen": 22809016,
      "step": 34870
    },
    {
      "epoch": 18.278301886792452,
      "grad_norm": 0.17458787560462952,
      "learning_rate": 2.2418200185938485e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 22812248,
      "step": 34875
    },
    {
      "epoch": 18.28092243186583,
      "grad_norm": 0.2682730555534363,
      "learning_rate": 2.235054121436725e-05,
      "loss": 0.3876,
      "num_input_tokens_seen": 22814648,
      "step": 34880
    },
    {
      "epoch": 18.283542976939202,
      "grad_norm": 0.1898731291294098,
      "learning_rate": 2.2282982161613562e-05,
      "loss": 0.4627,
      "num_input_tokens_seen": 22816888,
      "step": 34885
    },
    {
      "epoch": 18.28616352201258,
      "grad_norm": 0.11153192818164825,
      "learning_rate": 2.221552304180985e-05,
      "loss": 0.4222,
      "num_input_tokens_seen": 22821304,
      "step": 34890
    },
    {
      "epoch": 18.288784067085953,
      "grad_norm": 0.1596428006887436,
      "learning_rate": 2.2148163869067816e-05,
      "loss": 0.3135,
      "num_input_tokens_seen": 22824504,
      "step": 34895
    },
    {
      "epoch": 18.29140461215933,
      "grad_norm": 0.1571822315454483,
      "learning_rate": 2.2080904657478305e-05,
      "loss": 0.3334,
      "num_input_tokens_seen": 22828600,
      "step": 34900
    },
    {
      "epoch": 18.294025157232703,
      "grad_norm": 0.16619780659675598,
      "learning_rate": 2.201374542111123e-05,
      "loss": 0.4347,
      "num_input_tokens_seen": 22834232,
      "step": 34905
    },
    {
      "epoch": 18.29664570230608,
      "grad_norm": 0.09709981828927994,
      "learning_rate": 2.1946686174015407e-05,
      "loss": 0.393,
      "num_input_tokens_seen": 22838968,
      "step": 34910
    },
    {
      "epoch": 18.299266247379457,
      "grad_norm": 0.16416892409324646,
      "learning_rate": 2.1879726930218946e-05,
      "loss": 0.4105,
      "num_input_tokens_seen": 22841976,
      "step": 34915
    },
    {
      "epoch": 18.30188679245283,
      "grad_norm": 0.2594934105873108,
      "learning_rate": 2.1812867703728866e-05,
      "loss": 0.424,
      "num_input_tokens_seen": 22845560,
      "step": 34920
    },
    {
      "epoch": 18.304507337526207,
      "grad_norm": 0.1630963534116745,
      "learning_rate": 2.1746108508531426e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 22848696,
      "step": 34925
    },
    {
      "epoch": 18.30712788259958,
      "grad_norm": 0.13261933624744415,
      "learning_rate": 2.1679449358591952e-05,
      "loss": 0.3658,
      "num_input_tokens_seen": 22851320,
      "step": 34930
    },
    {
      "epoch": 18.309748427672957,
      "grad_norm": 0.13525274395942688,
      "learning_rate": 2.1612890267854624e-05,
      "loss": 0.3726,
      "num_input_tokens_seen": 22855064,
      "step": 34935
    },
    {
      "epoch": 18.31236897274633,
      "grad_norm": 0.2447766363620758,
      "learning_rate": 2.1546431250242914e-05,
      "loss": 0.5113,
      "num_input_tokens_seen": 22858392,
      "step": 34940
    },
    {
      "epoch": 18.314989517819708,
      "grad_norm": 0.11307573318481445,
      "learning_rate": 2.1480072319659427e-05,
      "loss": 0.348,
      "num_input_tokens_seen": 22861816,
      "step": 34945
    },
    {
      "epoch": 18.31761006289308,
      "grad_norm": 0.11002274602651596,
      "learning_rate": 2.1413813489985447e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 22864632,
      "step": 34950
    },
    {
      "epoch": 18.320230607966458,
      "grad_norm": 0.14506058394908905,
      "learning_rate": 2.1347654775081716e-05,
      "loss": 0.6761,
      "num_input_tokens_seen": 22867192,
      "step": 34955
    },
    {
      "epoch": 18.32285115303983,
      "grad_norm": 0.13422703742980957,
      "learning_rate": 2.1281596188787834e-05,
      "loss": 0.3807,
      "num_input_tokens_seen": 22869592,
      "step": 34960
    },
    {
      "epoch": 18.32547169811321,
      "grad_norm": 0.12167618423700333,
      "learning_rate": 2.121563774492252e-05,
      "loss": 0.3974,
      "num_input_tokens_seen": 22873560,
      "step": 34965
    },
    {
      "epoch": 18.328092243186582,
      "grad_norm": 0.31642264127731323,
      "learning_rate": 2.114977945728358e-05,
      "loss": 0.2927,
      "num_input_tokens_seen": 22877144,
      "step": 34970
    },
    {
      "epoch": 18.33071278825996,
      "grad_norm": 0.14888818562030792,
      "learning_rate": 2.1084021339647707e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 22880888,
      "step": 34975
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.12014926970005035,
      "learning_rate": 2.1018363405770792e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 22883896,
      "step": 34980
    },
    {
      "epoch": 18.33595387840671,
      "grad_norm": 0.12000558525323868,
      "learning_rate": 2.095280566938784e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 22887384,
      "step": 34985
    },
    {
      "epoch": 18.338574423480082,
      "grad_norm": 0.2308601588010788,
      "learning_rate": 2.0887348144212615e-05,
      "loss": 0.3987,
      "num_input_tokens_seen": 22889880,
      "step": 34990
    },
    {
      "epoch": 18.34119496855346,
      "grad_norm": 0.15515269339084625,
      "learning_rate": 2.08219908439381e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 22893240,
      "step": 34995
    },
    {
      "epoch": 18.343815513626833,
      "grad_norm": 0.11703380197286606,
      "learning_rate": 2.075673378223647e-05,
      "loss": 0.442,
      "num_input_tokens_seen": 22897176,
      "step": 35000
    },
    {
      "epoch": 18.34643605870021,
      "grad_norm": 0.17224235832691193,
      "learning_rate": 2.069157697275853e-05,
      "loss": 0.2999,
      "num_input_tokens_seen": 22899704,
      "step": 35005
    },
    {
      "epoch": 18.349056603773583,
      "grad_norm": 0.1980489194393158,
      "learning_rate": 2.0626520429134543e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 22902840,
      "step": 35010
    },
    {
      "epoch": 18.35167714884696,
      "grad_norm": 0.1900668740272522,
      "learning_rate": 2.0561564164973458e-05,
      "loss": 0.5222,
      "num_input_tokens_seen": 22905912,
      "step": 35015
    },
    {
      "epoch": 18.354297693920337,
      "grad_norm": 0.14235274493694305,
      "learning_rate": 2.04967081938634e-05,
      "loss": 0.4712,
      "num_input_tokens_seen": 22909240,
      "step": 35020
    },
    {
      "epoch": 18.35691823899371,
      "grad_norm": 0.21727736294269562,
      "learning_rate": 2.043195252937152e-05,
      "loss": 0.4343,
      "num_input_tokens_seen": 22912216,
      "step": 35025
    },
    {
      "epoch": 18.359538784067087,
      "grad_norm": 0.1416919082403183,
      "learning_rate": 2.0367297185044043e-05,
      "loss": 0.4349,
      "num_input_tokens_seen": 22915064,
      "step": 35030
    },
    {
      "epoch": 18.36215932914046,
      "grad_norm": 0.12259595096111298,
      "learning_rate": 2.030274217440603e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 22918296,
      "step": 35035
    },
    {
      "epoch": 18.364779874213838,
      "grad_norm": 0.22332240641117096,
      "learning_rate": 2.0238287510961628e-05,
      "loss": 0.4815,
      "num_input_tokens_seen": 22921272,
      "step": 35040
    },
    {
      "epoch": 18.36740041928721,
      "grad_norm": 0.14225131273269653,
      "learning_rate": 2.017393320819405e-05,
      "loss": 0.3208,
      "num_input_tokens_seen": 22927160,
      "step": 35045
    },
    {
      "epoch": 18.370020964360588,
      "grad_norm": 0.194683238863945,
      "learning_rate": 2.010967927956553e-05,
      "loss": 0.3242,
      "num_input_tokens_seen": 22929976,
      "step": 35050
    },
    {
      "epoch": 18.37264150943396,
      "grad_norm": 0.1852884739637375,
      "learning_rate": 2.00455257385172e-05,
      "loss": 0.4423,
      "num_input_tokens_seen": 22932664,
      "step": 35055
    },
    {
      "epoch": 18.37526205450734,
      "grad_norm": 0.2081921547651291,
      "learning_rate": 1.9981472598469386e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 22935576,
      "step": 35060
    },
    {
      "epoch": 18.377882599580712,
      "grad_norm": 0.11284101009368896,
      "learning_rate": 1.9917519872821142e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 22939128,
      "step": 35065
    },
    {
      "epoch": 18.38050314465409,
      "grad_norm": 0.20037122070789337,
      "learning_rate": 1.9853667574950605e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 22942616,
      "step": 35070
    },
    {
      "epoch": 18.383123689727462,
      "grad_norm": 0.1971396952867508,
      "learning_rate": 1.978991571821498e-05,
      "loss": 0.3905,
      "num_input_tokens_seen": 22950168,
      "step": 35075
    },
    {
      "epoch": 18.38574423480084,
      "grad_norm": 0.15442636609077454,
      "learning_rate": 1.972626431595048e-05,
      "loss": 0.4668,
      "num_input_tokens_seen": 22954040,
      "step": 35080
    },
    {
      "epoch": 18.388364779874212,
      "grad_norm": 0.21346861124038696,
      "learning_rate": 1.9662713381472295e-05,
      "loss": 0.4331,
      "num_input_tokens_seen": 22959256,
      "step": 35085
    },
    {
      "epoch": 18.39098532494759,
      "grad_norm": 0.11605264246463776,
      "learning_rate": 1.959926292807451e-05,
      "loss": 0.4063,
      "num_input_tokens_seen": 22962328,
      "step": 35090
    },
    {
      "epoch": 18.393605870020963,
      "grad_norm": 0.1336357444524765,
      "learning_rate": 1.9535912969030178e-05,
      "loss": 0.4665,
      "num_input_tokens_seen": 22967800,
      "step": 35095
    },
    {
      "epoch": 18.39622641509434,
      "grad_norm": 0.14867980778217316,
      "learning_rate": 1.947266351759136e-05,
      "loss": 0.3523,
      "num_input_tokens_seen": 22970936,
      "step": 35100
    },
    {
      "epoch": 18.398846960167713,
      "grad_norm": 0.1569896936416626,
      "learning_rate": 1.940951458698925e-05,
      "loss": 0.4291,
      "num_input_tokens_seen": 22973848,
      "step": 35105
    },
    {
      "epoch": 18.40146750524109,
      "grad_norm": 0.17227408289909363,
      "learning_rate": 1.9346466190433842e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 22976888,
      "step": 35110
    },
    {
      "epoch": 18.404088050314467,
      "grad_norm": 0.3660679757595062,
      "learning_rate": 1.9283518341114136e-05,
      "loss": 0.6513,
      "num_input_tokens_seen": 22979384,
      "step": 35115
    },
    {
      "epoch": 18.40670859538784,
      "grad_norm": 0.3010263741016388,
      "learning_rate": 1.9220671052198047e-05,
      "loss": 0.4213,
      "num_input_tokens_seen": 22982904,
      "step": 35120
    },
    {
      "epoch": 18.409329140461217,
      "grad_norm": 0.12640976905822754,
      "learning_rate": 1.9157924336832556e-05,
      "loss": 0.5248,
      "num_input_tokens_seen": 22986136,
      "step": 35125
    },
    {
      "epoch": 18.41194968553459,
      "grad_norm": 0.17605367302894592,
      "learning_rate": 1.909527820814355e-05,
      "loss": 0.2963,
      "num_input_tokens_seen": 22989752,
      "step": 35130
    },
    {
      "epoch": 18.414570230607968,
      "grad_norm": 0.18493059277534485,
      "learning_rate": 1.9032732679235886e-05,
      "loss": 0.3228,
      "num_input_tokens_seen": 22993112,
      "step": 35135
    },
    {
      "epoch": 18.41719077568134,
      "grad_norm": 0.16941139101982117,
      "learning_rate": 1.8970287763193428e-05,
      "loss": 0.3427,
      "num_input_tokens_seen": 22995672,
      "step": 35140
    },
    {
      "epoch": 18.419811320754718,
      "grad_norm": 0.20351414382457733,
      "learning_rate": 1.8907943473078892e-05,
      "loss": 0.45,
      "num_input_tokens_seen": 22998072,
      "step": 35145
    },
    {
      "epoch": 18.42243186582809,
      "grad_norm": 0.08970950543880463,
      "learning_rate": 1.884569982193396e-05,
      "loss": 0.5144,
      "num_input_tokens_seen": 23001752,
      "step": 35150
    },
    {
      "epoch": 18.42505241090147,
      "grad_norm": 0.20618675649166107,
      "learning_rate": 1.8783556822779267e-05,
      "loss": 0.4114,
      "num_input_tokens_seen": 23005080,
      "step": 35155
    },
    {
      "epoch": 18.427672955974842,
      "grad_norm": 0.14661955833435059,
      "learning_rate": 1.8721514488614532e-05,
      "loss": 0.396,
      "num_input_tokens_seen": 23007768,
      "step": 35160
    },
    {
      "epoch": 18.43029350104822,
      "grad_norm": 0.22005504369735718,
      "learning_rate": 1.8659572832418315e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 23010456,
      "step": 35165
    },
    {
      "epoch": 18.432914046121592,
      "grad_norm": 0.12787121534347534,
      "learning_rate": 1.8597731867148026e-05,
      "loss": 0.3573,
      "num_input_tokens_seen": 23013368,
      "step": 35170
    },
    {
      "epoch": 18.43553459119497,
      "grad_norm": 0.13487131893634796,
      "learning_rate": 1.8535991605740043e-05,
      "loss": 0.4066,
      "num_input_tokens_seen": 23015992,
      "step": 35175
    },
    {
      "epoch": 18.438155136268342,
      "grad_norm": 0.13051079213619232,
      "learning_rate": 1.8474352061109757e-05,
      "loss": 0.4437,
      "num_input_tokens_seen": 23019544,
      "step": 35180
    },
    {
      "epoch": 18.44077568134172,
      "grad_norm": 0.12975415587425232,
      "learning_rate": 1.8412813246151515e-05,
      "loss": 0.4179,
      "num_input_tokens_seen": 23022552,
      "step": 35185
    },
    {
      "epoch": 18.443396226415093,
      "grad_norm": 0.10988299548625946,
      "learning_rate": 1.8351375173738584e-05,
      "loss": 0.61,
      "num_input_tokens_seen": 23026008,
      "step": 35190
    },
    {
      "epoch": 18.44601677148847,
      "grad_norm": 0.17683087289333344,
      "learning_rate": 1.829003785672295e-05,
      "loss": 0.5348,
      "num_input_tokens_seen": 23029016,
      "step": 35195
    },
    {
      "epoch": 18.448637316561843,
      "grad_norm": 0.16463342308998108,
      "learning_rate": 1.8228801307935806e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 23036792,
      "step": 35200
    },
    {
      "epoch": 18.45125786163522,
      "grad_norm": 0.25757861137390137,
      "learning_rate": 1.8167665540187063e-05,
      "loss": 0.4497,
      "num_input_tokens_seen": 23039768,
      "step": 35205
    },
    {
      "epoch": 18.453878406708597,
      "grad_norm": 0.16984465718269348,
      "learning_rate": 1.8106630566265604e-05,
      "loss": 0.43,
      "num_input_tokens_seen": 23043576,
      "step": 35210
    },
    {
      "epoch": 18.45649895178197,
      "grad_norm": 0.15769702196121216,
      "learning_rate": 1.8045696398939326e-05,
      "loss": 0.4179,
      "num_input_tokens_seen": 23046456,
      "step": 35215
    },
    {
      "epoch": 18.459119496855347,
      "grad_norm": 0.10109749436378479,
      "learning_rate": 1.7984863050955036e-05,
      "loss": 0.4679,
      "num_input_tokens_seen": 23050328,
      "step": 35220
    },
    {
      "epoch": 18.46174004192872,
      "grad_norm": 0.18050827085971832,
      "learning_rate": 1.7924130535038162e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 23052856,
      "step": 35225
    },
    {
      "epoch": 18.464360587002098,
      "grad_norm": 0.1274927258491516,
      "learning_rate": 1.7863498863893433e-05,
      "loss": 0.3002,
      "num_input_tokens_seen": 23056440,
      "step": 35230
    },
    {
      "epoch": 18.46698113207547,
      "grad_norm": 0.1315365433692932,
      "learning_rate": 1.7802968050204203e-05,
      "loss": 0.3571,
      "num_input_tokens_seen": 23059928,
      "step": 35235
    },
    {
      "epoch": 18.469601677148848,
      "grad_norm": 0.15447908639907837,
      "learning_rate": 1.7742538106632844e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 23063128,
      "step": 35240
    },
    {
      "epoch": 18.47222222222222,
      "grad_norm": 0.1709376871585846,
      "learning_rate": 1.7682209045820684e-05,
      "loss": 0.3468,
      "num_input_tokens_seen": 23065656,
      "step": 35245
    },
    {
      "epoch": 18.4748427672956,
      "grad_norm": 0.2754322588443756,
      "learning_rate": 1.76219808803878e-05,
      "loss": 0.4608,
      "num_input_tokens_seen": 23067992,
      "step": 35250
    },
    {
      "epoch": 18.47746331236897,
      "grad_norm": 0.3314756155014038,
      "learning_rate": 1.7561853622933278e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 23070424,
      "step": 35255
    },
    {
      "epoch": 18.48008385744235,
      "grad_norm": 0.14491119980812073,
      "learning_rate": 1.7501827286035e-05,
      "loss": 0.5814,
      "num_input_tokens_seen": 23074520,
      "step": 35260
    },
    {
      "epoch": 18.482704402515722,
      "grad_norm": 0.14734412729740143,
      "learning_rate": 1.7441901882249754e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 23077368,
      "step": 35265
    },
    {
      "epoch": 18.4853249475891,
      "grad_norm": 0.28353753685951233,
      "learning_rate": 1.7382077424113464e-05,
      "loss": 0.5077,
      "num_input_tokens_seen": 23080024,
      "step": 35270
    },
    {
      "epoch": 18.487945492662472,
      "grad_norm": 0.2476501166820526,
      "learning_rate": 1.7322353924140498e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 23082648,
      "step": 35275
    },
    {
      "epoch": 18.49056603773585,
      "grad_norm": 0.22699132561683655,
      "learning_rate": 1.7262731394824372e-05,
      "loss": 0.5993,
      "num_input_tokens_seen": 23085720,
      "step": 35280
    },
    {
      "epoch": 18.493186582809223,
      "grad_norm": 0.17217542231082916,
      "learning_rate": 1.7203209848637603e-05,
      "loss": 0.3391,
      "num_input_tokens_seen": 23088568,
      "step": 35285
    },
    {
      "epoch": 18.4958071278826,
      "grad_norm": 0.13105285167694092,
      "learning_rate": 1.7143789298031175e-05,
      "loss": 0.3358,
      "num_input_tokens_seen": 23092728,
      "step": 35290
    },
    {
      "epoch": 18.498427672955973,
      "grad_norm": 0.16152766346931458,
      "learning_rate": 1.708446975543537e-05,
      "loss": 0.3916,
      "num_input_tokens_seen": 23095864,
      "step": 35295
    },
    {
      "epoch": 18.50104821802935,
      "grad_norm": 0.11540737748146057,
      "learning_rate": 1.7025251233259098e-05,
      "loss": 0.3693,
      "num_input_tokens_seen": 23099096,
      "step": 35300
    },
    {
      "epoch": 18.503668763102727,
      "grad_norm": 0.17950229346752167,
      "learning_rate": 1.6966133743890166e-05,
      "loss": 0.3168,
      "num_input_tokens_seen": 23101944,
      "step": 35305
    },
    {
      "epoch": 18.5062893081761,
      "grad_norm": 0.1580878347158432,
      "learning_rate": 1.690711729969535e-05,
      "loss": 0.4383,
      "num_input_tokens_seen": 23105368,
      "step": 35310
    },
    {
      "epoch": 18.508909853249477,
      "grad_norm": 0.1036924496293068,
      "learning_rate": 1.684820191302022e-05,
      "loss": 0.4581,
      "num_input_tokens_seen": 23108568,
      "step": 35315
    },
    {
      "epoch": 18.51153039832285,
      "grad_norm": 0.1763242483139038,
      "learning_rate": 1.6789387596189087e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 23112056,
      "step": 35320
    },
    {
      "epoch": 18.514150943396228,
      "grad_norm": 0.41038140654563904,
      "learning_rate": 1.6730674361505382e-05,
      "loss": 0.454,
      "num_input_tokens_seen": 23115864,
      "step": 35325
    },
    {
      "epoch": 18.5167714884696,
      "grad_norm": 0.15711314976215363,
      "learning_rate": 1.6672062221251117e-05,
      "loss": 0.3674,
      "num_input_tokens_seen": 23118936,
      "step": 35330
    },
    {
      "epoch": 18.519392033542978,
      "grad_norm": 0.12227905541658401,
      "learning_rate": 1.6613551187687314e-05,
      "loss": 0.3539,
      "num_input_tokens_seen": 23122680,
      "step": 35335
    },
    {
      "epoch": 18.52201257861635,
      "grad_norm": 0.14628836512565613,
      "learning_rate": 1.6555141273053907e-05,
      "loss": 0.5543,
      "num_input_tokens_seen": 23125400,
      "step": 35340
    },
    {
      "epoch": 18.52463312368973,
      "grad_norm": 0.21722273528575897,
      "learning_rate": 1.6496832489569457e-05,
      "loss": 0.3611,
      "num_input_tokens_seen": 23128664,
      "step": 35345
    },
    {
      "epoch": 18.5272536687631,
      "grad_norm": 0.15110033750534058,
      "learning_rate": 1.643862484943165e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 23131032,
      "step": 35350
    },
    {
      "epoch": 18.52987421383648,
      "grad_norm": 0.11823827028274536,
      "learning_rate": 1.6380518364816687e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 23133816,
      "step": 35355
    },
    {
      "epoch": 18.532494758909852,
      "grad_norm": 0.13069511950016022,
      "learning_rate": 1.632251304787985e-05,
      "loss": 0.4667,
      "num_input_tokens_seen": 23136600,
      "step": 35360
    },
    {
      "epoch": 18.53511530398323,
      "grad_norm": 0.14546574652194977,
      "learning_rate": 1.6264608910755153e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 23139704,
      "step": 35365
    },
    {
      "epoch": 18.537735849056602,
      "grad_norm": 0.14375777542591095,
      "learning_rate": 1.6206805965555627e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 23142712,
      "step": 35370
    },
    {
      "epoch": 18.54035639412998,
      "grad_norm": 0.10029995441436768,
      "learning_rate": 1.614910422437288e-05,
      "loss": 0.2523,
      "num_input_tokens_seen": 23146840,
      "step": 35375
    },
    {
      "epoch": 18.542976939203353,
      "grad_norm": 0.20075172185897827,
      "learning_rate": 1.6091503699277477e-05,
      "loss": 0.4607,
      "num_input_tokens_seen": 23150488,
      "step": 35380
    },
    {
      "epoch": 18.54559748427673,
      "grad_norm": 0.1685621440410614,
      "learning_rate": 1.6034004402318726e-05,
      "loss": 0.4202,
      "num_input_tokens_seen": 23153208,
      "step": 35385
    },
    {
      "epoch": 18.548218029350103,
      "grad_norm": 0.2567838132381439,
      "learning_rate": 1.5976606345524836e-05,
      "loss": 0.4532,
      "num_input_tokens_seen": 23155928,
      "step": 35390
    },
    {
      "epoch": 18.55083857442348,
      "grad_norm": 0.14653390645980835,
      "learning_rate": 1.5919309540902927e-05,
      "loss": 0.4985,
      "num_input_tokens_seen": 23159352,
      "step": 35395
    },
    {
      "epoch": 18.553459119496857,
      "grad_norm": 0.10810814797878265,
      "learning_rate": 1.5862114000438797e-05,
      "loss": 0.3204,
      "num_input_tokens_seen": 23163544,
      "step": 35400
    },
    {
      "epoch": 18.55607966457023,
      "grad_norm": 0.2183651477098465,
      "learning_rate": 1.5805019736097104e-05,
      "loss": 0.3861,
      "num_input_tokens_seen": 23166808,
      "step": 35405
    },
    {
      "epoch": 18.558700209643607,
      "grad_norm": 0.17311616241931915,
      "learning_rate": 1.5748026759821232e-05,
      "loss": 0.3629,
      "num_input_tokens_seen": 23170072,
      "step": 35410
    },
    {
      "epoch": 18.56132075471698,
      "grad_norm": 0.201299250125885,
      "learning_rate": 1.5691135083533537e-05,
      "loss": 0.3256,
      "num_input_tokens_seen": 23172856,
      "step": 35415
    },
    {
      "epoch": 18.563941299790358,
      "grad_norm": 0.10688569396734238,
      "learning_rate": 1.5634344719135052e-05,
      "loss": 0.4931,
      "num_input_tokens_seen": 23176024,
      "step": 35420
    },
    {
      "epoch": 18.56656184486373,
      "grad_norm": 0.14092686772346497,
      "learning_rate": 1.5577655678505776e-05,
      "loss": 0.5072,
      "num_input_tokens_seen": 23179448,
      "step": 35425
    },
    {
      "epoch": 18.569182389937108,
      "grad_norm": 0.12190762907266617,
      "learning_rate": 1.5521067973504442e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 23182808,
      "step": 35430
    },
    {
      "epoch": 18.57180293501048,
      "grad_norm": 0.157843679189682,
      "learning_rate": 1.546458161596831e-05,
      "loss": 0.3571,
      "num_input_tokens_seen": 23186264,
      "step": 35435
    },
    {
      "epoch": 18.57442348008386,
      "grad_norm": 0.2640647888183594,
      "learning_rate": 1.5408196617713866e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 23189176,
      "step": 35440
    },
    {
      "epoch": 18.57704402515723,
      "grad_norm": 0.1514969915151596,
      "learning_rate": 1.5351912990536175e-05,
      "loss": 0.4571,
      "num_input_tokens_seen": 23192152,
      "step": 35445
    },
    {
      "epoch": 18.57966457023061,
      "grad_norm": 0.22536994516849518,
      "learning_rate": 1.5295730746209103e-05,
      "loss": 0.3978,
      "num_input_tokens_seen": 23195448,
      "step": 35450
    },
    {
      "epoch": 18.582285115303982,
      "grad_norm": 0.17221872508525848,
      "learning_rate": 1.5239649896485463e-05,
      "loss": 0.4965,
      "num_input_tokens_seen": 23199352,
      "step": 35455
    },
    {
      "epoch": 18.58490566037736,
      "grad_norm": 0.24278609454631805,
      "learning_rate": 1.5183670453096598e-05,
      "loss": 0.2985,
      "num_input_tokens_seen": 23202072,
      "step": 35460
    },
    {
      "epoch": 18.587526205450732,
      "grad_norm": 0.24823181331157684,
      "learning_rate": 1.5127792427752696e-05,
      "loss": 0.3986,
      "num_input_tokens_seen": 23204600,
      "step": 35465
    },
    {
      "epoch": 18.59014675052411,
      "grad_norm": 0.14917610585689545,
      "learning_rate": 1.507201583214296e-05,
      "loss": 0.5777,
      "num_input_tokens_seen": 23207416,
      "step": 35470
    },
    {
      "epoch": 18.592767295597483,
      "grad_norm": 0.19492250680923462,
      "learning_rate": 1.5016340677935169e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 23210616,
      "step": 35475
    },
    {
      "epoch": 18.59538784067086,
      "grad_norm": 0.20532378554344177,
      "learning_rate": 1.4960766976775953e-05,
      "loss": 0.3713,
      "num_input_tokens_seen": 23213336,
      "step": 35480
    },
    {
      "epoch": 18.598008385744233,
      "grad_norm": 0.23316654562950134,
      "learning_rate": 1.4905294740290677e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 23216856,
      "step": 35485
    },
    {
      "epoch": 18.60062893081761,
      "grad_norm": 0.19151638448238373,
      "learning_rate": 1.4849923980083391e-05,
      "loss": 0.4128,
      "num_input_tokens_seen": 23219384,
      "step": 35490
    },
    {
      "epoch": 18.603249475890987,
      "grad_norm": 0.11222623288631439,
      "learning_rate": 1.4794654707737164e-05,
      "loss": 0.4476,
      "num_input_tokens_seen": 23223064,
      "step": 35495
    },
    {
      "epoch": 18.60587002096436,
      "grad_norm": 0.09356450289487839,
      "learning_rate": 1.4739486934813696e-05,
      "loss": 0.3349,
      "num_input_tokens_seen": 23226808,
      "step": 35500
    },
    {
      "epoch": 18.608490566037737,
      "grad_norm": 0.17560647428035736,
      "learning_rate": 1.468442067285336e-05,
      "loss": 0.4898,
      "num_input_tokens_seen": 23229464,
      "step": 35505
    },
    {
      "epoch": 18.61111111111111,
      "grad_norm": 0.2516725957393646,
      "learning_rate": 1.4629455933375501e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 23232984,
      "step": 35510
    },
    {
      "epoch": 18.613731656184488,
      "grad_norm": 0.10207919031381607,
      "learning_rate": 1.4574592727878089e-05,
      "loss": 0.4819,
      "num_input_tokens_seen": 23237048,
      "step": 35515
    },
    {
      "epoch": 18.61635220125786,
      "grad_norm": 0.20562459528446198,
      "learning_rate": 1.4519831067837774e-05,
      "loss": 0.4203,
      "num_input_tokens_seen": 23239544,
      "step": 35520
    },
    {
      "epoch": 18.618972746331238,
      "grad_norm": 0.16556653380393982,
      "learning_rate": 1.4465170964710172e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 23242936,
      "step": 35525
    },
    {
      "epoch": 18.62159329140461,
      "grad_norm": 0.21922935545444489,
      "learning_rate": 1.441061242992947e-05,
      "loss": 0.4083,
      "num_input_tokens_seen": 23246424,
      "step": 35530
    },
    {
      "epoch": 18.62421383647799,
      "grad_norm": 0.17886807024478912,
      "learning_rate": 1.4356155474908871e-05,
      "loss": 0.3855,
      "num_input_tokens_seen": 23248984,
      "step": 35535
    },
    {
      "epoch": 18.62683438155136,
      "grad_norm": 0.23195447027683258,
      "learning_rate": 1.4301800111039986e-05,
      "loss": 0.3205,
      "num_input_tokens_seen": 23251832,
      "step": 35540
    },
    {
      "epoch": 18.62945492662474,
      "grad_norm": 0.1477493792772293,
      "learning_rate": 1.4247546349693386e-05,
      "loss": 0.4214,
      "num_input_tokens_seen": 23255032,
      "step": 35545
    },
    {
      "epoch": 18.632075471698112,
      "grad_norm": 0.08930684626102448,
      "learning_rate": 1.4193394202218268e-05,
      "loss": 0.4285,
      "num_input_tokens_seen": 23257912,
      "step": 35550
    },
    {
      "epoch": 18.63469601677149,
      "grad_norm": 0.28014883399009705,
      "learning_rate": 1.413934367994274e-05,
      "loss": 0.4648,
      "num_input_tokens_seen": 23260504,
      "step": 35555
    },
    {
      "epoch": 18.637316561844862,
      "grad_norm": 0.15100795030593872,
      "learning_rate": 1.408539479417359e-05,
      "loss": 0.3333,
      "num_input_tokens_seen": 23262904,
      "step": 35560
    },
    {
      "epoch": 18.63993710691824,
      "grad_norm": 0.11079307645559311,
      "learning_rate": 1.4031547556196178e-05,
      "loss": 0.3289,
      "num_input_tokens_seen": 23266584,
      "step": 35565
    },
    {
      "epoch": 18.642557651991613,
      "grad_norm": 0.18185743689537048,
      "learning_rate": 1.3977801977274828e-05,
      "loss": 0.3784,
      "num_input_tokens_seen": 23269368,
      "step": 35570
    },
    {
      "epoch": 18.64517819706499,
      "grad_norm": 0.14227566123008728,
      "learning_rate": 1.3924158068652437e-05,
      "loss": 0.2562,
      "num_input_tokens_seen": 23273208,
      "step": 35575
    },
    {
      "epoch": 18.647798742138363,
      "grad_norm": 0.15261954069137573,
      "learning_rate": 1.3870615841550693e-05,
      "loss": 0.4651,
      "num_input_tokens_seen": 23276120,
      "step": 35580
    },
    {
      "epoch": 18.65041928721174,
      "grad_norm": 0.18037685751914978,
      "learning_rate": 1.3817175307170138e-05,
      "loss": 0.4712,
      "num_input_tokens_seen": 23279192,
      "step": 35585
    },
    {
      "epoch": 18.653039832285117,
      "grad_norm": 0.1278863251209259,
      "learning_rate": 1.3763836476689828e-05,
      "loss": 0.378,
      "num_input_tokens_seen": 23282456,
      "step": 35590
    },
    {
      "epoch": 18.65566037735849,
      "grad_norm": 0.1578751802444458,
      "learning_rate": 1.3710599361267617e-05,
      "loss": 0.4276,
      "num_input_tokens_seen": 23285528,
      "step": 35595
    },
    {
      "epoch": 18.658280922431867,
      "grad_norm": 0.12265124917030334,
      "learning_rate": 1.3657463972040207e-05,
      "loss": 0.3563,
      "num_input_tokens_seen": 23289656,
      "step": 35600
    },
    {
      "epoch": 18.66090146750524,
      "grad_norm": 0.10071323066949844,
      "learning_rate": 1.3604430320122762e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 23292824,
      "step": 35605
    },
    {
      "epoch": 18.663522012578618,
      "grad_norm": 0.14020207524299622,
      "learning_rate": 1.355149841660941e-05,
      "loss": 0.4843,
      "num_input_tokens_seen": 23295832,
      "step": 35610
    },
    {
      "epoch": 18.66614255765199,
      "grad_norm": 0.13059286773204803,
      "learning_rate": 1.3498668272572955e-05,
      "loss": 0.3483,
      "num_input_tokens_seen": 23299448,
      "step": 35615
    },
    {
      "epoch": 18.668763102725368,
      "grad_norm": 0.12029430270195007,
      "learning_rate": 1.3445939899064729e-05,
      "loss": 0.3367,
      "num_input_tokens_seen": 23301912,
      "step": 35620
    },
    {
      "epoch": 18.67138364779874,
      "grad_norm": 0.10186581313610077,
      "learning_rate": 1.3393313307115019e-05,
      "loss": 0.3796,
      "num_input_tokens_seen": 23304664,
      "step": 35625
    },
    {
      "epoch": 18.67400419287212,
      "grad_norm": 0.18341365456581116,
      "learning_rate": 1.3340788507732626e-05,
      "loss": 0.4139,
      "num_input_tokens_seen": 23307288,
      "step": 35630
    },
    {
      "epoch": 18.67662473794549,
      "grad_norm": 0.21770811080932617,
      "learning_rate": 1.328836551190521e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 23310712,
      "step": 35635
    },
    {
      "epoch": 18.67924528301887,
      "grad_norm": 0.08649527281522751,
      "learning_rate": 1.323604433059905e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 23315448,
      "step": 35640
    },
    {
      "epoch": 18.681865828092242,
      "grad_norm": 0.09042087197303772,
      "learning_rate": 1.3183824974759063e-05,
      "loss": 0.4132,
      "num_input_tokens_seen": 23318744,
      "step": 35645
    },
    {
      "epoch": 18.68448637316562,
      "grad_norm": 0.11945240199565887,
      "learning_rate": 1.3131707455309006e-05,
      "loss": 0.4992,
      "num_input_tokens_seen": 23321784,
      "step": 35650
    },
    {
      "epoch": 18.687106918238992,
      "grad_norm": 0.12957775592803955,
      "learning_rate": 1.307969178315127e-05,
      "loss": 0.3604,
      "num_input_tokens_seen": 23325688,
      "step": 35655
    },
    {
      "epoch": 18.68972746331237,
      "grad_norm": 0.19189207255840302,
      "learning_rate": 1.3027777969166932e-05,
      "loss": 0.5397,
      "num_input_tokens_seen": 23329528,
      "step": 35660
    },
    {
      "epoch": 18.692348008385743,
      "grad_norm": 0.2571272850036621,
      "learning_rate": 1.2975966024215746e-05,
      "loss": 0.4723,
      "num_input_tokens_seen": 23331960,
      "step": 35665
    },
    {
      "epoch": 18.69496855345912,
      "grad_norm": 0.15532411634922028,
      "learning_rate": 1.2924255959136267e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 23335288,
      "step": 35670
    },
    {
      "epoch": 18.697589098532493,
      "grad_norm": 0.10289379209280014,
      "learning_rate": 1.2872647784745561e-05,
      "loss": 0.2972,
      "num_input_tokens_seen": 23337976,
      "step": 35675
    },
    {
      "epoch": 18.70020964360587,
      "grad_norm": 0.1968744993209839,
      "learning_rate": 1.282114151183944e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 23340824,
      "step": 35680
    },
    {
      "epoch": 18.702830188679247,
      "grad_norm": 0.2326013594865799,
      "learning_rate": 1.2769737151192562e-05,
      "loss": 0.5305,
      "num_input_tokens_seen": 23343576,
      "step": 35685
    },
    {
      "epoch": 18.70545073375262,
      "grad_norm": 0.1929471343755722,
      "learning_rate": 1.2718434713558047e-05,
      "loss": 0.4653,
      "num_input_tokens_seen": 23347192,
      "step": 35690
    },
    {
      "epoch": 18.708071278825997,
      "grad_norm": 0.17510274052619934,
      "learning_rate": 1.2667234209667755e-05,
      "loss": 0.4495,
      "num_input_tokens_seen": 23351352,
      "step": 35695
    },
    {
      "epoch": 18.71069182389937,
      "grad_norm": 0.15399914979934692,
      "learning_rate": 1.2616135650232286e-05,
      "loss": 0.4834,
      "num_input_tokens_seen": 23355064,
      "step": 35700
    },
    {
      "epoch": 18.713312368972748,
      "grad_norm": 0.12333211302757263,
      "learning_rate": 1.2565139045940866e-05,
      "loss": 0.3795,
      "num_input_tokens_seen": 23359288,
      "step": 35705
    },
    {
      "epoch": 18.71593291404612,
      "grad_norm": 0.16096757352352142,
      "learning_rate": 1.2514244407461462e-05,
      "loss": 0.3875,
      "num_input_tokens_seen": 23362296,
      "step": 35710
    },
    {
      "epoch": 18.718553459119498,
      "grad_norm": 0.15172140300273895,
      "learning_rate": 1.2463451745440501e-05,
      "loss": 0.3906,
      "num_input_tokens_seen": 23364920,
      "step": 35715
    },
    {
      "epoch": 18.72117400419287,
      "grad_norm": 0.2361041009426117,
      "learning_rate": 1.241276107050343e-05,
      "loss": 0.3908,
      "num_input_tokens_seen": 23367608,
      "step": 35720
    },
    {
      "epoch": 18.72379454926625,
      "grad_norm": 0.13099703192710876,
      "learning_rate": 1.236217239325399e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 23370808,
      "step": 35725
    },
    {
      "epoch": 18.72641509433962,
      "grad_norm": 0.197135791182518,
      "learning_rate": 1.2311685724274768e-05,
      "loss": 0.4459,
      "num_input_tokens_seen": 23374104,
      "step": 35730
    },
    {
      "epoch": 18.729035639413,
      "grad_norm": 0.3095480501651764,
      "learning_rate": 1.2261301074127096e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 23376856,
      "step": 35735
    },
    {
      "epoch": 18.731656184486372,
      "grad_norm": 0.19185540080070496,
      "learning_rate": 1.2211018453350874e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 23379992,
      "step": 35740
    },
    {
      "epoch": 18.73427672955975,
      "grad_norm": 0.15272656083106995,
      "learning_rate": 1.2160837872464581e-05,
      "loss": 0.3904,
      "num_input_tokens_seen": 23383832,
      "step": 35745
    },
    {
      "epoch": 18.736897274633122,
      "grad_norm": 0.2795152962207794,
      "learning_rate": 1.2110759341965428e-05,
      "loss": 0.439,
      "num_input_tokens_seen": 23386200,
      "step": 35750
    },
    {
      "epoch": 18.7395178197065,
      "grad_norm": 0.17558979988098145,
      "learning_rate": 1.2060782872329256e-05,
      "loss": 0.4417,
      "num_input_tokens_seen": 23390648,
      "step": 35755
    },
    {
      "epoch": 18.742138364779873,
      "grad_norm": 0.28578057885169983,
      "learning_rate": 1.2010908474010595e-05,
      "loss": 0.4424,
      "num_input_tokens_seen": 23393080,
      "step": 35760
    },
    {
      "epoch": 18.74475890985325,
      "grad_norm": 0.20865121483802795,
      "learning_rate": 1.1961136157442654e-05,
      "loss": 0.3269,
      "num_input_tokens_seen": 23395960,
      "step": 35765
    },
    {
      "epoch": 18.747379454926623,
      "grad_norm": 0.21087536215782166,
      "learning_rate": 1.1911465933037214e-05,
      "loss": 0.2993,
      "num_input_tokens_seen": 23398136,
      "step": 35770
    },
    {
      "epoch": 18.75,
      "grad_norm": 0.163492351770401,
      "learning_rate": 1.1861897811184686e-05,
      "loss": 0.3647,
      "num_input_tokens_seen": 23400888,
      "step": 35775
    },
    {
      "epoch": 18.752620545073377,
      "grad_norm": 0.12182777374982834,
      "learning_rate": 1.1812431802254109e-05,
      "loss": 0.4551,
      "num_input_tokens_seen": 23405368,
      "step": 35780
    },
    {
      "epoch": 18.75524109014675,
      "grad_norm": 0.14081226289272308,
      "learning_rate": 1.1763067916593262e-05,
      "loss": 0.4128,
      "num_input_tokens_seen": 23408152,
      "step": 35785
    },
    {
      "epoch": 18.757861635220127,
      "grad_norm": 0.11218062788248062,
      "learning_rate": 1.1713806164528496e-05,
      "loss": 0.3955,
      "num_input_tokens_seen": 23411800,
      "step": 35790
    },
    {
      "epoch": 18.7604821802935,
      "grad_norm": 0.21076719462871552,
      "learning_rate": 1.1664646556364844e-05,
      "loss": 0.4201,
      "num_input_tokens_seen": 23414552,
      "step": 35795
    },
    {
      "epoch": 18.763102725366878,
      "grad_norm": 0.15725111961364746,
      "learning_rate": 1.161558910238597e-05,
      "loss": 0.4362,
      "num_input_tokens_seen": 23418008,
      "step": 35800
    },
    {
      "epoch": 18.76572327044025,
      "grad_norm": 0.14300782978534698,
      "learning_rate": 1.1566633812854e-05,
      "loss": 0.4839,
      "num_input_tokens_seen": 23421304,
      "step": 35805
    },
    {
      "epoch": 18.768343815513628,
      "grad_norm": 0.14055591821670532,
      "learning_rate": 1.151778069800985e-05,
      "loss": 0.3297,
      "num_input_tokens_seen": 23425272,
      "step": 35810
    },
    {
      "epoch": 18.770964360587,
      "grad_norm": 0.1574840396642685,
      "learning_rate": 1.1469029768073125e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 23428216,
      "step": 35815
    },
    {
      "epoch": 18.77358490566038,
      "grad_norm": 0.15704192221164703,
      "learning_rate": 1.1420381033241889e-05,
      "loss": 0.4296,
      "num_input_tokens_seen": 23431064,
      "step": 35820
    },
    {
      "epoch": 18.77620545073375,
      "grad_norm": 0.13419289886951447,
      "learning_rate": 1.1371834503693002e-05,
      "loss": 0.5081,
      "num_input_tokens_seen": 23434264,
      "step": 35825
    },
    {
      "epoch": 18.77882599580713,
      "grad_norm": 0.1325932890176773,
      "learning_rate": 1.1323390189581784e-05,
      "loss": 0.3881,
      "num_input_tokens_seen": 23436280,
      "step": 35830
    },
    {
      "epoch": 18.781446540880502,
      "grad_norm": 0.10081460326910019,
      "learning_rate": 1.127504810104213e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 23440824,
      "step": 35835
    },
    {
      "epoch": 18.78406708595388,
      "grad_norm": 0.20540179312229156,
      "learning_rate": 1.1226808248186782e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 23443960,
      "step": 35840
    },
    {
      "epoch": 18.786687631027252,
      "grad_norm": 0.1720510572195053,
      "learning_rate": 1.1178670641106891e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 23446680,
      "step": 35845
    },
    {
      "epoch": 18.78930817610063,
      "grad_norm": 0.11419632285833359,
      "learning_rate": 1.1130635289872403e-05,
      "loss": 0.4815,
      "num_input_tokens_seen": 23450104,
      "step": 35850
    },
    {
      "epoch": 18.791928721174003,
      "grad_norm": 0.18875406682491302,
      "learning_rate": 1.1082702204531725e-05,
      "loss": 0.5289,
      "num_input_tokens_seen": 23454200,
      "step": 35855
    },
    {
      "epoch": 18.79454926624738,
      "grad_norm": 0.13613662123680115,
      "learning_rate": 1.1034871395111778e-05,
      "loss": 0.4558,
      "num_input_tokens_seen": 23457400,
      "step": 35860
    },
    {
      "epoch": 18.797169811320753,
      "grad_norm": 0.1958102285861969,
      "learning_rate": 1.0987142871618394e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 23463160,
      "step": 35865
    },
    {
      "epoch": 18.79979035639413,
      "grad_norm": 0.12440662086009979,
      "learning_rate": 1.0939516644035696e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 23465688,
      "step": 35870
    },
    {
      "epoch": 18.802410901467507,
      "grad_norm": 0.20155391097068787,
      "learning_rate": 1.0891992722326716e-05,
      "loss": 0.2468,
      "num_input_tokens_seen": 23471608,
      "step": 35875
    },
    {
      "epoch": 18.80503144654088,
      "grad_norm": 0.1741340607404709,
      "learning_rate": 1.0844571116432778e-05,
      "loss": 0.4321,
      "num_input_tokens_seen": 23474488,
      "step": 35880
    },
    {
      "epoch": 18.807651991614257,
      "grad_norm": 0.1351948082447052,
      "learning_rate": 1.0797251836274003e-05,
      "loss": 0.4126,
      "num_input_tokens_seen": 23477272,
      "step": 35885
    },
    {
      "epoch": 18.81027253668763,
      "grad_norm": 0.12248767167329788,
      "learning_rate": 1.0750034891748972e-05,
      "loss": 0.7486,
      "num_input_tokens_seen": 23481112,
      "step": 35890
    },
    {
      "epoch": 18.812893081761008,
      "grad_norm": 0.096538245677948,
      "learning_rate": 1.0702920292735009e-05,
      "loss": 0.4325,
      "num_input_tokens_seen": 23484632,
      "step": 35895
    },
    {
      "epoch": 18.81551362683438,
      "grad_norm": 0.15749189257621765,
      "learning_rate": 1.0655908049087893e-05,
      "loss": 0.5852,
      "num_input_tokens_seen": 23487480,
      "step": 35900
    },
    {
      "epoch": 18.818134171907758,
      "grad_norm": 0.1596127152442932,
      "learning_rate": 1.0608998170642149e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 23490328,
      "step": 35905
    },
    {
      "epoch": 18.82075471698113,
      "grad_norm": 0.20079173147678375,
      "learning_rate": 1.0562190667210703e-05,
      "loss": 0.414,
      "num_input_tokens_seen": 23492856,
      "step": 35910
    },
    {
      "epoch": 18.82337526205451,
      "grad_norm": 0.23349401354789734,
      "learning_rate": 1.0515485548585113e-05,
      "loss": 0.5413,
      "num_input_tokens_seen": 23496568,
      "step": 35915
    },
    {
      "epoch": 18.82599580712788,
      "grad_norm": 0.18585574626922607,
      "learning_rate": 1.0468882824535676e-05,
      "loss": 0.4425,
      "num_input_tokens_seen": 23499288,
      "step": 35920
    },
    {
      "epoch": 18.82861635220126,
      "grad_norm": 0.14919911324977875,
      "learning_rate": 1.0422382504811034e-05,
      "loss": 0.4557,
      "num_input_tokens_seen": 23501784,
      "step": 35925
    },
    {
      "epoch": 18.831236897274632,
      "grad_norm": 0.20298157632350922,
      "learning_rate": 1.0375984599138633e-05,
      "loss": 0.4815,
      "num_input_tokens_seen": 23505720,
      "step": 35930
    },
    {
      "epoch": 18.83385744234801,
      "grad_norm": 0.212456613779068,
      "learning_rate": 1.0329689117224261e-05,
      "loss": 0.5979,
      "num_input_tokens_seen": 23508696,
      "step": 35935
    },
    {
      "epoch": 18.836477987421382,
      "grad_norm": 0.11530639231204987,
      "learning_rate": 1.0283496068752507e-05,
      "loss": 0.3028,
      "num_input_tokens_seen": 23513112,
      "step": 35940
    },
    {
      "epoch": 18.83909853249476,
      "grad_norm": 0.15038277208805084,
      "learning_rate": 1.0237405463386418e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 23515864,
      "step": 35945
    },
    {
      "epoch": 18.841719077568133,
      "grad_norm": 0.15342336893081665,
      "learning_rate": 1.0191417310767503e-05,
      "loss": 0.5382,
      "num_input_tokens_seen": 23518424,
      "step": 35950
    },
    {
      "epoch": 18.84433962264151,
      "grad_norm": 0.16547352075576782,
      "learning_rate": 1.0145531620516179e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 23521496,
      "step": 35955
    },
    {
      "epoch": 18.846960167714883,
      "grad_norm": 0.11069141328334808,
      "learning_rate": 1.009974840223099e-05,
      "loss": 0.4298,
      "num_input_tokens_seen": 23524984,
      "step": 35960
    },
    {
      "epoch": 18.84958071278826,
      "grad_norm": 0.16000425815582275,
      "learning_rate": 1.0054067665489386e-05,
      "loss": 0.4023,
      "num_input_tokens_seen": 23527640,
      "step": 35965
    },
    {
      "epoch": 18.852201257861637,
      "grad_norm": 0.140098437666893,
      "learning_rate": 1.0008489419847278e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 23530424,
      "step": 35970
    },
    {
      "epoch": 18.85482180293501,
      "grad_norm": 0.23639191687107086,
      "learning_rate": 9.963013674839038e-06,
      "loss": 0.3539,
      "num_input_tokens_seen": 23533688,
      "step": 35975
    },
    {
      "epoch": 18.857442348008387,
      "grad_norm": 0.18152301013469696,
      "learning_rate": 9.91764043997767e-06,
      "loss": 0.3498,
      "num_input_tokens_seen": 23536760,
      "step": 35980
    },
    {
      "epoch": 18.86006289308176,
      "grad_norm": 0.1225864440202713,
      "learning_rate": 9.872369724754804e-06,
      "loss": 0.4059,
      "num_input_tokens_seen": 23539960,
      "step": 35985
    },
    {
      "epoch": 18.862683438155138,
      "grad_norm": 0.10708964616060257,
      "learning_rate": 9.827201538640473e-06,
      "loss": 0.3807,
      "num_input_tokens_seen": 23543288,
      "step": 35990
    },
    {
      "epoch": 18.86530398322851,
      "grad_norm": 0.15985046327114105,
      "learning_rate": 9.782135891083455e-06,
      "loss": 0.5051,
      "num_input_tokens_seen": 23546936,
      "step": 35995
    },
    {
      "epoch": 18.867924528301888,
      "grad_norm": 0.118391253054142,
      "learning_rate": 9.737172791510873e-06,
      "loss": 0.4098,
      "num_input_tokens_seen": 23550072,
      "step": 36000
    },
    {
      "epoch": 18.87054507337526,
      "grad_norm": 0.15453164279460907,
      "learning_rate": 9.692312249328483e-06,
      "loss": 0.3612,
      "num_input_tokens_seen": 23553400,
      "step": 36005
    },
    {
      "epoch": 18.87316561844864,
      "grad_norm": 0.1332228183746338,
      "learning_rate": 9.647554273920722e-06,
      "loss": 0.3741,
      "num_input_tokens_seen": 23556856,
      "step": 36010
    },
    {
      "epoch": 18.87578616352201,
      "grad_norm": 0.15260368585586548,
      "learning_rate": 9.602898874650323e-06,
      "loss": 0.4989,
      "num_input_tokens_seen": 23560120,
      "step": 36015
    },
    {
      "epoch": 18.87840670859539,
      "grad_norm": 0.16760197281837463,
      "learning_rate": 9.558346060858759e-06,
      "loss": 0.3955,
      "num_input_tokens_seen": 23563256,
      "step": 36020
    },
    {
      "epoch": 18.881027253668762,
      "grad_norm": 0.2152342051267624,
      "learning_rate": 9.51389584186596e-06,
      "loss": 0.4376,
      "num_input_tokens_seen": 23567448,
      "step": 36025
    },
    {
      "epoch": 18.88364779874214,
      "grad_norm": 0.14916342496871948,
      "learning_rate": 9.469548226970326e-06,
      "loss": 0.4566,
      "num_input_tokens_seen": 23570488,
      "step": 36030
    },
    {
      "epoch": 18.886268343815512,
      "grad_norm": 0.15431681275367737,
      "learning_rate": 9.425303225448989e-06,
      "loss": 0.4789,
      "num_input_tokens_seen": 23573624,
      "step": 36035
    },
    {
      "epoch": 18.88888888888889,
      "grad_norm": 0.12860678136348724,
      "learning_rate": 9.381160846557435e-06,
      "loss": 0.2865,
      "num_input_tokens_seen": 23576312,
      "step": 36040
    },
    {
      "epoch": 18.891509433962263,
      "grad_norm": 0.22479668259620667,
      "learning_rate": 9.337121099529722e-06,
      "loss": 0.4359,
      "num_input_tokens_seen": 23579320,
      "step": 36045
    },
    {
      "epoch": 18.89412997903564,
      "grad_norm": 0.14766167104244232,
      "learning_rate": 9.293183993578535e-06,
      "loss": 0.3851,
      "num_input_tokens_seen": 23582776,
      "step": 36050
    },
    {
      "epoch": 18.896750524109013,
      "grad_norm": 0.1377081722021103,
      "learning_rate": 9.249349537894968e-06,
      "loss": 0.402,
      "num_input_tokens_seen": 23585208,
      "step": 36055
    },
    {
      "epoch": 18.89937106918239,
      "grad_norm": 0.2364501804113388,
      "learning_rate": 9.205617741648686e-06,
      "loss": 0.4911,
      "num_input_tokens_seen": 23588472,
      "step": 36060
    },
    {
      "epoch": 18.901991614255767,
      "grad_norm": 0.1400088518857956,
      "learning_rate": 9.161988613987982e-06,
      "loss": 0.3822,
      "num_input_tokens_seen": 23591768,
      "step": 36065
    },
    {
      "epoch": 18.90461215932914,
      "grad_norm": 0.2009839415550232,
      "learning_rate": 9.118462164039387e-06,
      "loss": 0.3955,
      "num_input_tokens_seen": 23594488,
      "step": 36070
    },
    {
      "epoch": 18.907232704402517,
      "grad_norm": 0.12003391981124878,
      "learning_rate": 9.07503840090823e-06,
      "loss": 0.33,
      "num_input_tokens_seen": 23597720,
      "step": 36075
    },
    {
      "epoch": 18.90985324947589,
      "grad_norm": 0.10861513763666153,
      "learning_rate": 9.031717333678303e-06,
      "loss": 0.2849,
      "num_input_tokens_seen": 23600696,
      "step": 36080
    },
    {
      "epoch": 18.912473794549268,
      "grad_norm": 0.10546371340751648,
      "learning_rate": 8.988498971411851e-06,
      "loss": 0.4431,
      "num_input_tokens_seen": 23603768,
      "step": 36085
    },
    {
      "epoch": 18.91509433962264,
      "grad_norm": 0.16005773842334747,
      "learning_rate": 8.945383323149647e-06,
      "loss": 0.4717,
      "num_input_tokens_seen": 23606872,
      "step": 36090
    },
    {
      "epoch": 18.917714884696018,
      "grad_norm": 0.1319795846939087,
      "learning_rate": 8.902370397911031e-06,
      "loss": 0.4944,
      "num_input_tokens_seen": 23610712,
      "step": 36095
    },
    {
      "epoch": 18.92033542976939,
      "grad_norm": 0.18329939246177673,
      "learning_rate": 8.859460204693748e-06,
      "loss": 0.4791,
      "num_input_tokens_seen": 23613784,
      "step": 36100
    },
    {
      "epoch": 18.92295597484277,
      "grad_norm": 0.23793765902519226,
      "learning_rate": 8.816652752474175e-06,
      "loss": 0.4291,
      "num_input_tokens_seen": 23616888,
      "step": 36105
    },
    {
      "epoch": 18.92557651991614,
      "grad_norm": 0.1555246114730835,
      "learning_rate": 8.773948050207148e-06,
      "loss": 0.3975,
      "num_input_tokens_seen": 23619864,
      "step": 36110
    },
    {
      "epoch": 18.92819706498952,
      "grad_norm": 0.20831149816513062,
      "learning_rate": 8.731346106826021e-06,
      "loss": 0.4146,
      "num_input_tokens_seen": 23623864,
      "step": 36115
    },
    {
      "epoch": 18.930817610062892,
      "grad_norm": 0.14113709330558777,
      "learning_rate": 8.6888469312425e-06,
      "loss": 0.4638,
      "num_input_tokens_seen": 23627128,
      "step": 36120
    },
    {
      "epoch": 18.93343815513627,
      "grad_norm": 0.10136866569519043,
      "learning_rate": 8.646450532347083e-06,
      "loss": 0.4234,
      "num_input_tokens_seen": 23630840,
      "step": 36125
    },
    {
      "epoch": 18.936058700209642,
      "grad_norm": 0.20265088975429535,
      "learning_rate": 8.604156919008565e-06,
      "loss": 0.4749,
      "num_input_tokens_seen": 23634264,
      "step": 36130
    },
    {
      "epoch": 18.93867924528302,
      "grad_norm": 0.12073879688978195,
      "learning_rate": 8.561966100074258e-06,
      "loss": 0.4301,
      "num_input_tokens_seen": 23637176,
      "step": 36135
    },
    {
      "epoch": 18.941299790356393,
      "grad_norm": 0.10245589911937714,
      "learning_rate": 8.519878084370048e-06,
      "loss": 0.3968,
      "num_input_tokens_seen": 23640088,
      "step": 36140
    },
    {
      "epoch": 18.94392033542977,
      "grad_norm": 0.12436334043741226,
      "learning_rate": 8.477892880700222e-06,
      "loss": 0.4258,
      "num_input_tokens_seen": 23643576,
      "step": 36145
    },
    {
      "epoch": 18.946540880503143,
      "grad_norm": 0.1265210062265396,
      "learning_rate": 8.436010497847646e-06,
      "loss": 0.4889,
      "num_input_tokens_seen": 23646424,
      "step": 36150
    },
    {
      "epoch": 18.94916142557652,
      "grad_norm": 0.092833511531353,
      "learning_rate": 8.39423094457359e-06,
      "loss": 0.3746,
      "num_input_tokens_seen": 23649688,
      "step": 36155
    },
    {
      "epoch": 18.951781970649897,
      "grad_norm": 0.32985976338386536,
      "learning_rate": 8.352554229617892e-06,
      "loss": 0.4589,
      "num_input_tokens_seen": 23652664,
      "step": 36160
    },
    {
      "epoch": 18.95440251572327,
      "grad_norm": 0.19922052323818207,
      "learning_rate": 8.310980361698861e-06,
      "loss": 0.6308,
      "num_input_tokens_seen": 23656088,
      "step": 36165
    },
    {
      "epoch": 18.957023060796647,
      "grad_norm": 0.13670021295547485,
      "learning_rate": 8.26950934951326e-06,
      "loss": 0.4292,
      "num_input_tokens_seen": 23659544,
      "step": 36170
    },
    {
      "epoch": 18.95964360587002,
      "grad_norm": 0.13277076184749603,
      "learning_rate": 8.22814120173626e-06,
      "loss": 0.4229,
      "num_input_tokens_seen": 23663352,
      "step": 36175
    },
    {
      "epoch": 18.962264150943398,
      "grad_norm": 0.14299584925174713,
      "learning_rate": 8.186875927021775e-06,
      "loss": 0.3074,
      "num_input_tokens_seen": 23666232,
      "step": 36180
    },
    {
      "epoch": 18.96488469601677,
      "grad_norm": 0.22292056679725647,
      "learning_rate": 8.145713534001897e-06,
      "loss": 0.4717,
      "num_input_tokens_seen": 23669688,
      "step": 36185
    },
    {
      "epoch": 18.967505241090148,
      "grad_norm": 0.1313016563653946,
      "learning_rate": 8.104654031287406e-06,
      "loss": 0.5134,
      "num_input_tokens_seen": 23672696,
      "step": 36190
    },
    {
      "epoch": 18.97012578616352,
      "grad_norm": 0.1510213017463684,
      "learning_rate": 8.063697427467486e-06,
      "loss": 0.4028,
      "num_input_tokens_seen": 23676920,
      "step": 36195
    },
    {
      "epoch": 18.9727463312369,
      "grad_norm": 0.11097858101129532,
      "learning_rate": 8.022843731109675e-06,
      "loss": 0.4469,
      "num_input_tokens_seen": 23681336,
      "step": 36200
    },
    {
      "epoch": 18.97536687631027,
      "grad_norm": 0.10392872244119644,
      "learning_rate": 7.982092950760245e-06,
      "loss": 0.5527,
      "num_input_tokens_seen": 23685336,
      "step": 36205
    },
    {
      "epoch": 18.97798742138365,
      "grad_norm": 0.16378359496593475,
      "learning_rate": 7.941445094943711e-06,
      "loss": 0.322,
      "num_input_tokens_seen": 23687960,
      "step": 36210
    },
    {
      "epoch": 18.980607966457022,
      "grad_norm": 0.1513499915599823,
      "learning_rate": 7.900900172163107e-06,
      "loss": 0.3625,
      "num_input_tokens_seen": 23692184,
      "step": 36215
    },
    {
      "epoch": 18.9832285115304,
      "grad_norm": 0.10615047812461853,
      "learning_rate": 7.860458190900144e-06,
      "loss": 0.4137,
      "num_input_tokens_seen": 23695800,
      "step": 36220
    },
    {
      "epoch": 18.985849056603772,
      "grad_norm": 0.13559620082378387,
      "learning_rate": 7.820119159614669e-06,
      "loss": 0.4798,
      "num_input_tokens_seen": 23698872,
      "step": 36225
    },
    {
      "epoch": 18.98846960167715,
      "grad_norm": 0.10319183766841888,
      "learning_rate": 7.779883086745098e-06,
      "loss": 0.3834,
      "num_input_tokens_seen": 23702456,
      "step": 36230
    },
    {
      "epoch": 18.991090146750523,
      "grad_norm": 0.14722193777561188,
      "learning_rate": 7.739749980708533e-06,
      "loss": 0.4637,
      "num_input_tokens_seen": 23705720,
      "step": 36235
    },
    {
      "epoch": 18.9937106918239,
      "grad_norm": 0.13798929750919342,
      "learning_rate": 7.6997198499002e-06,
      "loss": 0.4801,
      "num_input_tokens_seen": 23708824,
      "step": 36240
    },
    {
      "epoch": 18.996331236897273,
      "grad_norm": 0.22232766449451447,
      "learning_rate": 7.659792702694068e-06,
      "loss": 0.4004,
      "num_input_tokens_seen": 23711416,
      "step": 36245
    },
    {
      "epoch": 18.99895178197065,
      "grad_norm": 0.15915249288082123,
      "learning_rate": 7.619968547442346e-06,
      "loss": 0.3584,
      "num_input_tokens_seen": 23714392,
      "step": 36250
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.48800361156463623,
      "eval_runtime": 13.6579,
      "eval_samples_per_second": 62.089,
      "eval_steps_per_second": 15.522,
      "num_input_tokens_seen": 23715264,
      "step": 36252
    },
    {
      "epoch": 19.001572327044027,
      "grad_norm": 0.131325364112854,
      "learning_rate": 7.580247392475926e-06,
      "loss": 0.4184,
      "num_input_tokens_seen": 23716768,
      "step": 36255
    },
    {
      "epoch": 19.0041928721174,
      "grad_norm": 0.09995973855257034,
      "learning_rate": 7.540629246103825e-06,
      "loss": 0.4589,
      "num_input_tokens_seen": 23720384,
      "step": 36260
    },
    {
      "epoch": 19.006813417190777,
      "grad_norm": 0.31791362166404724,
      "learning_rate": 7.501114116613861e-06,
      "loss": 0.53,
      "num_input_tokens_seen": 23725024,
      "step": 36265
    },
    {
      "epoch": 19.00943396226415,
      "grad_norm": 0.10361909866333008,
      "learning_rate": 7.461702012272087e-06,
      "loss": 0.2916,
      "num_input_tokens_seen": 23728640,
      "step": 36270
    },
    {
      "epoch": 19.012054507337528,
      "grad_norm": 0.18197323381900787,
      "learning_rate": 7.422392941323075e-06,
      "loss": 0.6911,
      "num_input_tokens_seen": 23731392,
      "step": 36275
    },
    {
      "epoch": 19.0146750524109,
      "grad_norm": 0.1520368456840515,
      "learning_rate": 7.383186911989858e-06,
      "loss": 0.4823,
      "num_input_tokens_seen": 23734912,
      "step": 36280
    },
    {
      "epoch": 19.017295597484278,
      "grad_norm": 0.15328805148601532,
      "learning_rate": 7.344083932473822e-06,
      "loss": 0.4493,
      "num_input_tokens_seen": 23737856,
      "step": 36285
    },
    {
      "epoch": 19.01991614255765,
      "grad_norm": 0.1715196967124939,
      "learning_rate": 7.305084010954976e-06,
      "loss": 0.4407,
      "num_input_tokens_seen": 23741408,
      "step": 36290
    },
    {
      "epoch": 19.02253668763103,
      "grad_norm": 0.08685857802629471,
      "learning_rate": 7.26618715559152e-06,
      "loss": 0.4724,
      "num_input_tokens_seen": 23744448,
      "step": 36295
    },
    {
      "epoch": 19.0251572327044,
      "grad_norm": 0.15984594821929932,
      "learning_rate": 7.227393374520386e-06,
      "loss": 0.2366,
      "num_input_tokens_seen": 23748128,
      "step": 36300
    },
    {
      "epoch": 19.02777777777778,
      "grad_norm": 0.13371053338050842,
      "learning_rate": 7.18870267585664e-06,
      "loss": 0.4129,
      "num_input_tokens_seen": 23750880,
      "step": 36305
    },
    {
      "epoch": 19.030398322851152,
      "grad_norm": 0.1788744181394577,
      "learning_rate": 7.150115067694085e-06,
      "loss": 0.371,
      "num_input_tokens_seen": 23754112,
      "step": 36310
    },
    {
      "epoch": 19.03301886792453,
      "grad_norm": 0.17284739017486572,
      "learning_rate": 7.111630558104653e-06,
      "loss": 0.4352,
      "num_input_tokens_seen": 23757792,
      "step": 36315
    },
    {
      "epoch": 19.035639412997902,
      "grad_norm": 0.10589554160833359,
      "learning_rate": 7.073249155138961e-06,
      "loss": 0.4819,
      "num_input_tokens_seen": 23762336,
      "step": 36320
    },
    {
      "epoch": 19.03825995807128,
      "grad_norm": 0.1689825803041458,
      "learning_rate": 7.0349708668259736e-06,
      "loss": 0.3002,
      "num_input_tokens_seen": 23764800,
      "step": 36325
    },
    {
      "epoch": 19.040880503144653,
      "grad_norm": 0.16790533065795898,
      "learning_rate": 6.996795701173009e-06,
      "loss": 0.4494,
      "num_input_tokens_seen": 23768288,
      "step": 36330
    },
    {
      "epoch": 19.04350104821803,
      "grad_norm": 0.11725790053606033,
      "learning_rate": 6.958723666165901e-06,
      "loss": 0.3726,
      "num_input_tokens_seen": 23771456,
      "step": 36335
    },
    {
      "epoch": 19.046121593291403,
      "grad_norm": 0.17841169238090515,
      "learning_rate": 6.9207547697689446e-06,
      "loss": 0.4238,
      "num_input_tokens_seen": 23774144,
      "step": 36340
    },
    {
      "epoch": 19.04874213836478,
      "grad_norm": 0.11618965864181519,
      "learning_rate": 6.882889019924676e-06,
      "loss": 0.3767,
      "num_input_tokens_seen": 23777280,
      "step": 36345
    },
    {
      "epoch": 19.051362683438157,
      "grad_norm": 0.07996457815170288,
      "learning_rate": 6.84512642455426e-06,
      "loss": 0.3902,
      "num_input_tokens_seen": 23780672,
      "step": 36350
    },
    {
      "epoch": 19.05398322851153,
      "grad_norm": 0.17489279806613922,
      "learning_rate": 6.8074669915572095e-06,
      "loss": 0.5239,
      "num_input_tokens_seen": 23784224,
      "step": 36355
    },
    {
      "epoch": 19.056603773584907,
      "grad_norm": 0.0828726589679718,
      "learning_rate": 6.769910728811391e-06,
      "loss": 0.3582,
      "num_input_tokens_seen": 23787904,
      "step": 36360
    },
    {
      "epoch": 19.05922431865828,
      "grad_norm": 0.15563426911830902,
      "learning_rate": 6.73245764417324e-06,
      "loss": 0.4603,
      "num_input_tokens_seen": 23790784,
      "step": 36365
    },
    {
      "epoch": 19.061844863731658,
      "grad_norm": 0.16135795414447784,
      "learning_rate": 6.695107745477435e-06,
      "loss": 0.7136,
      "num_input_tokens_seen": 23794048,
      "step": 36370
    },
    {
      "epoch": 19.06446540880503,
      "grad_norm": 0.1767723709344864,
      "learning_rate": 6.657861040537117e-06,
      "loss": 0.4612,
      "num_input_tokens_seen": 23797792,
      "step": 36375
    },
    {
      "epoch": 19.067085953878408,
      "grad_norm": 0.16621613502502441,
      "learning_rate": 6.620717537143994e-06,
      "loss": 0.4083,
      "num_input_tokens_seen": 23800768,
      "step": 36380
    },
    {
      "epoch": 19.06970649895178,
      "grad_norm": 0.1460665464401245,
      "learning_rate": 6.583677243067965e-06,
      "loss": 0.5738,
      "num_input_tokens_seen": 23803968,
      "step": 36385
    },
    {
      "epoch": 19.072327044025158,
      "grad_norm": 0.1390465795993805,
      "learning_rate": 6.546740166057441e-06,
      "loss": 0.4842,
      "num_input_tokens_seen": 23807136,
      "step": 36390
    },
    {
      "epoch": 19.07494758909853,
      "grad_norm": 0.1347883939743042,
      "learning_rate": 6.5099063138392975e-06,
      "loss": 0.4524,
      "num_input_tokens_seen": 23811520,
      "step": 36395
    },
    {
      "epoch": 19.07756813417191,
      "grad_norm": 0.14858324825763702,
      "learning_rate": 6.473175694118705e-06,
      "loss": 0.3817,
      "num_input_tokens_seen": 23814624,
      "step": 36400
    },
    {
      "epoch": 19.080188679245282,
      "grad_norm": 0.15844076871871948,
      "learning_rate": 6.436548314579349e-06,
      "loss": 0.4182,
      "num_input_tokens_seen": 23817856,
      "step": 36405
    },
    {
      "epoch": 19.08280922431866,
      "grad_norm": 0.14066438376903534,
      "learning_rate": 6.400024182883158e-06,
      "loss": 0.4399,
      "num_input_tokens_seen": 23821472,
      "step": 36410
    },
    {
      "epoch": 19.085429769392032,
      "grad_norm": 0.13783539831638336,
      "learning_rate": 6.363603306670629e-06,
      "loss": 0.437,
      "num_input_tokens_seen": 23824512,
      "step": 36415
    },
    {
      "epoch": 19.08805031446541,
      "grad_norm": 0.29820749163627625,
      "learning_rate": 6.327285693560614e-06,
      "loss": 0.3839,
      "num_input_tokens_seen": 23827776,
      "step": 36420
    },
    {
      "epoch": 19.090670859538783,
      "grad_norm": 0.20499049127101898,
      "learning_rate": 6.2910713511503125e-06,
      "loss": 0.4477,
      "num_input_tokens_seen": 23830688,
      "step": 36425
    },
    {
      "epoch": 19.09329140461216,
      "grad_norm": 0.1387743353843689,
      "learning_rate": 6.254960287015332e-06,
      "loss": 0.3506,
      "num_input_tokens_seen": 23833536,
      "step": 36430
    },
    {
      "epoch": 19.095911949685533,
      "grad_norm": 0.12540973722934723,
      "learning_rate": 6.218952508709741e-06,
      "loss": 0.3797,
      "num_input_tokens_seen": 23838272,
      "step": 36435
    },
    {
      "epoch": 19.09853249475891,
      "grad_norm": 0.24207235872745514,
      "learning_rate": 6.183048023765903e-06,
      "loss": 0.5188,
      "num_input_tokens_seen": 23841600,
      "step": 36440
    },
    {
      "epoch": 19.101153039832287,
      "grad_norm": 0.1825183629989624,
      "learning_rate": 6.147246839694698e-06,
      "loss": 0.4504,
      "num_input_tokens_seen": 23845120,
      "step": 36445
    },
    {
      "epoch": 19.10377358490566,
      "grad_norm": 0.4266694188117981,
      "learning_rate": 6.111548963985247e-06,
      "loss": 0.4339,
      "num_input_tokens_seen": 23848480,
      "step": 36450
    },
    {
      "epoch": 19.106394129979037,
      "grad_norm": 0.14618487656116486,
      "learning_rate": 6.075954404105188e-06,
      "loss": 0.372,
      "num_input_tokens_seen": 23852000,
      "step": 36455
    },
    {
      "epoch": 19.10901467505241,
      "grad_norm": 0.11298608779907227,
      "learning_rate": 6.040463167500509e-06,
      "loss": 0.3641,
      "num_input_tokens_seen": 23856224,
      "step": 36460
    },
    {
      "epoch": 19.111635220125788,
      "grad_norm": 0.14774776995182037,
      "learning_rate": 6.005075261595494e-06,
      "loss": 0.3384,
      "num_input_tokens_seen": 23859680,
      "step": 36465
    },
    {
      "epoch": 19.11425576519916,
      "grad_norm": 0.104543536901474,
      "learning_rate": 5.969790693792998e-06,
      "loss": 0.3792,
      "num_input_tokens_seen": 23863168,
      "step": 36470
    },
    {
      "epoch": 19.116876310272538,
      "grad_norm": 0.17531928420066833,
      "learning_rate": 5.9346094714740615e-06,
      "loss": 0.4832,
      "num_input_tokens_seen": 23866208,
      "step": 36475
    },
    {
      "epoch": 19.11949685534591,
      "grad_norm": 0.14082029461860657,
      "learning_rate": 5.8995316019982425e-06,
      "loss": 0.3675,
      "num_input_tokens_seen": 23869152,
      "step": 36480
    },
    {
      "epoch": 19.122117400419288,
      "grad_norm": 0.17234359681606293,
      "learning_rate": 5.8645570927034485e-06,
      "loss": 0.3121,
      "num_input_tokens_seen": 23872768,
      "step": 36485
    },
    {
      "epoch": 19.12473794549266,
      "grad_norm": 0.18296262621879578,
      "learning_rate": 5.8296859509058275e-06,
      "loss": 0.3983,
      "num_input_tokens_seen": 23875744,
      "step": 36490
    },
    {
      "epoch": 19.12735849056604,
      "grad_norm": 0.1698521077632904,
      "learning_rate": 5.794918183900155e-06,
      "loss": 0.2944,
      "num_input_tokens_seen": 23877984,
      "step": 36495
    },
    {
      "epoch": 19.129979035639412,
      "grad_norm": 0.12031004577875137,
      "learning_rate": 5.760253798959447e-06,
      "loss": 0.6025,
      "num_input_tokens_seen": 23881504,
      "step": 36500
    },
    {
      "epoch": 19.13259958071279,
      "grad_norm": 0.17169655859470367,
      "learning_rate": 5.725692803335015e-06,
      "loss": 0.3439,
      "num_input_tokens_seen": 23884864,
      "step": 36505
    },
    {
      "epoch": 19.135220125786162,
      "grad_norm": 0.12872841954231262,
      "learning_rate": 5.691235204256739e-06,
      "loss": 0.5049,
      "num_input_tokens_seen": 23888000,
      "step": 36510
    },
    {
      "epoch": 19.13784067085954,
      "grad_norm": 0.12669648230075836,
      "learning_rate": 5.65688100893258e-06,
      "loss": 0.5304,
      "num_input_tokens_seen": 23890528,
      "step": 36515
    },
    {
      "epoch": 19.140461215932913,
      "grad_norm": 0.19751963019371033,
      "learning_rate": 5.622630224549174e-06,
      "loss": 0.3283,
      "num_input_tokens_seen": 23893184,
      "step": 36520
    },
    {
      "epoch": 19.14308176100629,
      "grad_norm": 0.12888897955417633,
      "learning_rate": 5.588482858271404e-06,
      "loss": 0.4313,
      "num_input_tokens_seen": 23895968,
      "step": 36525
    },
    {
      "epoch": 19.145702306079663,
      "grad_norm": 0.12106513231992722,
      "learning_rate": 5.554438917242444e-06,
      "loss": 0.4123,
      "num_input_tokens_seen": 23898880,
      "step": 36530
    },
    {
      "epoch": 19.14832285115304,
      "grad_norm": 0.2052227407693863,
      "learning_rate": 5.520498408583985e-06,
      "loss": 0.427,
      "num_input_tokens_seen": 23901504,
      "step": 36535
    },
    {
      "epoch": 19.150943396226417,
      "grad_norm": 0.12003157287836075,
      "learning_rate": 5.486661339395904e-06,
      "loss": 0.4372,
      "num_input_tokens_seen": 23904768,
      "step": 36540
    },
    {
      "epoch": 19.15356394129979,
      "grad_norm": 0.21310566365718842,
      "learning_rate": 5.452927716756595e-06,
      "loss": 0.4734,
      "num_input_tokens_seen": 23907872,
      "step": 36545
    },
    {
      "epoch": 19.156184486373167,
      "grad_norm": 0.11830215901136398,
      "learning_rate": 5.419297547722635e-06,
      "loss": 0.3747,
      "num_input_tokens_seen": 23910816,
      "step": 36550
    },
    {
      "epoch": 19.15880503144654,
      "grad_norm": 0.18917378783226013,
      "learning_rate": 5.385770839329229e-06,
      "loss": 0.4713,
      "num_input_tokens_seen": 23914048,
      "step": 36555
    },
    {
      "epoch": 19.161425576519918,
      "grad_norm": 0.15926428139209747,
      "learning_rate": 5.352347598589713e-06,
      "loss": 0.3448,
      "num_input_tokens_seen": 23918016,
      "step": 36560
    },
    {
      "epoch": 19.16404612159329,
      "grad_norm": 0.15809662640094757,
      "learning_rate": 5.319027832495826e-06,
      "loss": 0.3484,
      "num_input_tokens_seen": 23921056,
      "step": 36565
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 0.1564663052558899,
      "learning_rate": 5.285811548017661e-06,
      "loss": 0.4815,
      "num_input_tokens_seen": 23923648,
      "step": 36570
    },
    {
      "epoch": 19.16928721174004,
      "grad_norm": 0.15937772393226624,
      "learning_rate": 5.252698752103713e-06,
      "loss": 0.3546,
      "num_input_tokens_seen": 23926592,
      "step": 36575
    },
    {
      "epoch": 19.171907756813418,
      "grad_norm": 0.1436794549226761,
      "learning_rate": 5.219689451680832e-06,
      "loss": 0.4519,
      "num_input_tokens_seen": 23929856,
      "step": 36580
    },
    {
      "epoch": 19.17452830188679,
      "grad_norm": 0.16638627648353577,
      "learning_rate": 5.186783653654214e-06,
      "loss": 0.3394,
      "num_input_tokens_seen": 23932608,
      "step": 36585
    },
    {
      "epoch": 19.17714884696017,
      "grad_norm": 0.1378464698791504,
      "learning_rate": 5.153981364907245e-06,
      "loss": 0.5398,
      "num_input_tokens_seen": 23935488,
      "step": 36590
    },
    {
      "epoch": 19.179769392033542,
      "grad_norm": 0.19445273280143738,
      "learning_rate": 5.121282592301935e-06,
      "loss": 0.481,
      "num_input_tokens_seen": 23938432,
      "step": 36595
    },
    {
      "epoch": 19.18238993710692,
      "grad_norm": 0.12372784316539764,
      "learning_rate": 5.088687342678422e-06,
      "loss": 0.4583,
      "num_input_tokens_seen": 23941120,
      "step": 36600
    },
    {
      "epoch": 19.185010482180292,
      "grad_norm": 0.10496373474597931,
      "learning_rate": 5.056195622855253e-06,
      "loss": 0.4372,
      "num_input_tokens_seen": 23944320,
      "step": 36605
    },
    {
      "epoch": 19.18763102725367,
      "grad_norm": 0.20402899384498596,
      "learning_rate": 5.023807439629324e-06,
      "loss": 0.505,
      "num_input_tokens_seen": 23946624,
      "step": 36610
    },
    {
      "epoch": 19.190251572327043,
      "grad_norm": 0.18080905079841614,
      "learning_rate": 4.991522799775938e-06,
      "loss": 0.3522,
      "num_input_tokens_seen": 23949440,
      "step": 36615
    },
    {
      "epoch": 19.19287211740042,
      "grad_norm": 0.15180498361587524,
      "learning_rate": 4.9593417100485816e-06,
      "loss": 0.3152,
      "num_input_tokens_seen": 23952224,
      "step": 36620
    },
    {
      "epoch": 19.195492662473793,
      "grad_norm": 0.12270356714725494,
      "learning_rate": 4.927264177179258e-06,
      "loss": 0.3557,
      "num_input_tokens_seen": 23955072,
      "step": 36625
    },
    {
      "epoch": 19.19811320754717,
      "grad_norm": 0.2796769440174103,
      "learning_rate": 4.895290207878156e-06,
      "loss": 0.3983,
      "num_input_tokens_seen": 23958336,
      "step": 36630
    },
    {
      "epoch": 19.200733752620547,
      "grad_norm": 0.13153594732284546,
      "learning_rate": 4.863419808833924e-06,
      "loss": 0.2798,
      "num_input_tokens_seen": 23961504,
      "step": 36635
    },
    {
      "epoch": 19.20335429769392,
      "grad_norm": 0.186564639210701,
      "learning_rate": 4.831652986713453e-06,
      "loss": 0.669,
      "num_input_tokens_seen": 23964288,
      "step": 36640
    },
    {
      "epoch": 19.205974842767297,
      "grad_norm": 0.16506898403167725,
      "learning_rate": 4.799989748161926e-06,
      "loss": 0.4357,
      "num_input_tokens_seen": 23967776,
      "step": 36645
    },
    {
      "epoch": 19.20859538784067,
      "grad_norm": 0.19848918914794922,
      "learning_rate": 4.768430099803101e-06,
      "loss": 0.2915,
      "num_input_tokens_seen": 23970688,
      "step": 36650
    },
    {
      "epoch": 19.211215932914047,
      "grad_norm": 0.08739020675420761,
      "learning_rate": 4.736974048238696e-06,
      "loss": 0.4022,
      "num_input_tokens_seen": 23974208,
      "step": 36655
    },
    {
      "epoch": 19.21383647798742,
      "grad_norm": 0.1589946299791336,
      "learning_rate": 4.705621600049115e-06,
      "loss": 0.4458,
      "num_input_tokens_seen": 23978080,
      "step": 36660
    },
    {
      "epoch": 19.216457023060798,
      "grad_norm": 0.12552842497825623,
      "learning_rate": 4.674372761792889e-06,
      "loss": 0.4926,
      "num_input_tokens_seen": 23982976,
      "step": 36665
    },
    {
      "epoch": 19.21907756813417,
      "grad_norm": 0.0886254534125328,
      "learning_rate": 4.6432275400069e-06,
      "loss": 0.4367,
      "num_input_tokens_seen": 23986528,
      "step": 36670
    },
    {
      "epoch": 19.221698113207548,
      "grad_norm": 0.15953023731708527,
      "learning_rate": 4.6121859412063264e-06,
      "loss": 0.3801,
      "num_input_tokens_seen": 23989376,
      "step": 36675
    },
    {
      "epoch": 19.22431865828092,
      "grad_norm": 0.27159643173217773,
      "learning_rate": 4.581247971884861e-06,
      "loss": 0.4151,
      "num_input_tokens_seen": 23991648,
      "step": 36680
    },
    {
      "epoch": 19.2269392033543,
      "grad_norm": 0.1193932518362999,
      "learning_rate": 4.550413638514217e-06,
      "loss": 0.421,
      "num_input_tokens_seen": 23994336,
      "step": 36685
    },
    {
      "epoch": 19.229559748427672,
      "grad_norm": 0.23252668976783752,
      "learning_rate": 4.519682947544679e-06,
      "loss": 0.4112,
      "num_input_tokens_seen": 23997632,
      "step": 36690
    },
    {
      "epoch": 19.23218029350105,
      "grad_norm": 0.16792498528957367,
      "learning_rate": 4.489055905404715e-06,
      "loss": 0.365,
      "num_input_tokens_seen": 24000384,
      "step": 36695
    },
    {
      "epoch": 19.234800838574422,
      "grad_norm": 0.15559248626232147,
      "learning_rate": 4.4585325185012014e-06,
      "loss": 0.4746,
      "num_input_tokens_seen": 24003616,
      "step": 36700
    },
    {
      "epoch": 19.2374213836478,
      "grad_norm": 0.1566932052373886,
      "learning_rate": 4.428112793219197e-06,
      "loss": 0.4008,
      "num_input_tokens_seen": 24006336,
      "step": 36705
    },
    {
      "epoch": 19.240041928721173,
      "grad_norm": 0.14552181959152222,
      "learning_rate": 4.397796735922277e-06,
      "loss": 0.3546,
      "num_input_tokens_seen": 24011168,
      "step": 36710
    },
    {
      "epoch": 19.24266247379455,
      "grad_norm": 0.20957718789577484,
      "learning_rate": 4.367584352952092e-06,
      "loss": 0.3252,
      "num_input_tokens_seen": 24014240,
      "step": 36715
    },
    {
      "epoch": 19.245283018867923,
      "grad_norm": 0.13711968064308167,
      "learning_rate": 4.337475650628808e-06,
      "loss": 0.4655,
      "num_input_tokens_seen": 24017568,
      "step": 36720
    },
    {
      "epoch": 19.2479035639413,
      "grad_norm": 0.10943859070539474,
      "learning_rate": 4.307470635250832e-06,
      "loss": 0.5112,
      "num_input_tokens_seen": 24021376,
      "step": 36725
    },
    {
      "epoch": 19.250524109014677,
      "grad_norm": 0.15399587154388428,
      "learning_rate": 4.277569313094809e-06,
      "loss": 0.3726,
      "num_input_tokens_seen": 24024928,
      "step": 36730
    },
    {
      "epoch": 19.25314465408805,
      "grad_norm": 0.15939459204673767,
      "learning_rate": 4.247771690415791e-06,
      "loss": 0.4109,
      "num_input_tokens_seen": 24028128,
      "step": 36735
    },
    {
      "epoch": 19.255765199161427,
      "grad_norm": 0.1089392751455307,
      "learning_rate": 4.218077773447071e-06,
      "loss": 0.3684,
      "num_input_tokens_seen": 24031584,
      "step": 36740
    },
    {
      "epoch": 19.2583857442348,
      "grad_norm": 0.17650462687015533,
      "learning_rate": 4.1884875684003455e-06,
      "loss": 0.463,
      "num_input_tokens_seen": 24034336,
      "step": 36745
    },
    {
      "epoch": 19.261006289308177,
      "grad_norm": 0.13837070763111115,
      "learning_rate": 4.159001081465497e-06,
      "loss": 0.4805,
      "num_input_tokens_seen": 24037408,
      "step": 36750
    },
    {
      "epoch": 19.26362683438155,
      "grad_norm": 0.1747933328151703,
      "learning_rate": 4.129618318810702e-06,
      "loss": 0.4275,
      "num_input_tokens_seen": 24040128,
      "step": 36755
    },
    {
      "epoch": 19.266247379454928,
      "grad_norm": 0.16648462414741516,
      "learning_rate": 4.100339286582655e-06,
      "loss": 0.4034,
      "num_input_tokens_seen": 24042944,
      "step": 36760
    },
    {
      "epoch": 19.2688679245283,
      "grad_norm": 0.17157408595085144,
      "learning_rate": 4.071163990906068e-06,
      "loss": 0.4558,
      "num_input_tokens_seen": 24045952,
      "step": 36765
    },
    {
      "epoch": 19.271488469601678,
      "grad_norm": 0.24125789105892181,
      "learning_rate": 4.042092437884115e-06,
      "loss": 0.5048,
      "num_input_tokens_seen": 24048768,
      "step": 36770
    },
    {
      "epoch": 19.27410901467505,
      "grad_norm": 0.1376333236694336,
      "learning_rate": 4.013124633598264e-06,
      "loss": 0.4123,
      "num_input_tokens_seen": 24052704,
      "step": 36775
    },
    {
      "epoch": 19.27672955974843,
      "grad_norm": 0.18026572465896606,
      "learning_rate": 3.984260584108168e-06,
      "loss": 0.5479,
      "num_input_tokens_seen": 24056896,
      "step": 36780
    },
    {
      "epoch": 19.279350104821802,
      "grad_norm": 0.22053536772727966,
      "learning_rate": 3.955500295451942e-06,
      "loss": 0.4788,
      "num_input_tokens_seen": 24059168,
      "step": 36785
    },
    {
      "epoch": 19.28197064989518,
      "grad_norm": 0.1836729496717453,
      "learning_rate": 3.926843773645883e-06,
      "loss": 0.3334,
      "num_input_tokens_seen": 24062176,
      "step": 36790
    },
    {
      "epoch": 19.284591194968552,
      "grad_norm": 0.15731190145015717,
      "learning_rate": 3.8982910246846415e-06,
      "loss": 0.3797,
      "num_input_tokens_seen": 24065536,
      "step": 36795
    },
    {
      "epoch": 19.28721174004193,
      "grad_norm": 0.1582021862268448,
      "learning_rate": 3.869842054541051e-06,
      "loss": 0.4286,
      "num_input_tokens_seen": 24068608,
      "step": 36800
    },
    {
      "epoch": 19.289832285115303,
      "grad_norm": 0.18551066517829895,
      "learning_rate": 3.84149686916635e-06,
      "loss": 0.3874,
      "num_input_tokens_seen": 24072928,
      "step": 36805
    },
    {
      "epoch": 19.29245283018868,
      "grad_norm": 0.11271311342716217,
      "learning_rate": 3.8132554744900183e-06,
      "loss": 0.3685,
      "num_input_tokens_seen": 24078176,
      "step": 36810
    },
    {
      "epoch": 19.295073375262053,
      "grad_norm": 0.3014765679836273,
      "learning_rate": 3.7851178764198302e-06,
      "loss": 0.3673,
      "num_input_tokens_seen": 24080768,
      "step": 36815
    },
    {
      "epoch": 19.29769392033543,
      "grad_norm": 0.23406387865543365,
      "learning_rate": 3.7570840808419104e-06,
      "loss": 0.4595,
      "num_input_tokens_seen": 24083936,
      "step": 36820
    },
    {
      "epoch": 19.300314465408803,
      "grad_norm": 0.11395725607872009,
      "learning_rate": 3.729154093620568e-06,
      "loss": 0.3618,
      "num_input_tokens_seen": 24087200,
      "step": 36825
    },
    {
      "epoch": 19.30293501048218,
      "grad_norm": 0.13492968678474426,
      "learning_rate": 3.7013279205984073e-06,
      "loss": 0.3895,
      "num_input_tokens_seen": 24090432,
      "step": 36830
    },
    {
      "epoch": 19.305555555555557,
      "grad_norm": 0.19640280306339264,
      "learning_rate": 3.6736055675963275e-06,
      "loss": 0.4331,
      "num_input_tokens_seen": 24093504,
      "step": 36835
    },
    {
      "epoch": 19.30817610062893,
      "grad_norm": 0.18251745402812958,
      "learning_rate": 3.645987040413634e-06,
      "loss": 0.4714,
      "num_input_tokens_seen": 24097088,
      "step": 36840
    },
    {
      "epoch": 19.310796645702307,
      "grad_norm": 0.15157847106456757,
      "learning_rate": 3.6184723448277056e-06,
      "loss": 0.3296,
      "num_input_tokens_seen": 24099552,
      "step": 36845
    },
    {
      "epoch": 19.31341719077568,
      "grad_norm": 0.1862993836402893,
      "learning_rate": 3.5910614865943826e-06,
      "loss": 0.448,
      "num_input_tokens_seen": 24102816,
      "step": 36850
    },
    {
      "epoch": 19.316037735849058,
      "grad_norm": 0.30615851283073425,
      "learning_rate": 3.563754471447689e-06,
      "loss": 0.4305,
      "num_input_tokens_seen": 24105856,
      "step": 36855
    },
    {
      "epoch": 19.31865828092243,
      "grad_norm": 0.24362924695014954,
      "learning_rate": 3.5365513050998334e-06,
      "loss": 0.3945,
      "num_input_tokens_seen": 24110848,
      "step": 36860
    },
    {
      "epoch": 19.321278825995808,
      "grad_norm": 0.18113021552562714,
      "learning_rate": 3.5094519932415414e-06,
      "loss": 0.3471,
      "num_input_tokens_seen": 24114144,
      "step": 36865
    },
    {
      "epoch": 19.32389937106918,
      "grad_norm": 0.13809043169021606,
      "learning_rate": 3.4824565415416123e-06,
      "loss": 0.3186,
      "num_input_tokens_seen": 24117472,
      "step": 36870
    },
    {
      "epoch": 19.32651991614256,
      "grad_norm": 0.11550257354974747,
      "learning_rate": 3.4555649556471946e-06,
      "loss": 0.3399,
      "num_input_tokens_seen": 24120576,
      "step": 36875
    },
    {
      "epoch": 19.329140461215932,
      "grad_norm": 0.1835295855998993,
      "learning_rate": 3.4287772411837338e-06,
      "loss": 0.3723,
      "num_input_tokens_seen": 24123072,
      "step": 36880
    },
    {
      "epoch": 19.33176100628931,
      "grad_norm": 0.27353423833847046,
      "learning_rate": 3.402093403754858e-06,
      "loss": 0.3624,
      "num_input_tokens_seen": 24125952,
      "step": 36885
    },
    {
      "epoch": 19.334381551362682,
      "grad_norm": 0.14328917860984802,
      "learning_rate": 3.375513448942602e-06,
      "loss": 0.4623,
      "num_input_tokens_seen": 24128896,
      "step": 36890
    },
    {
      "epoch": 19.33700209643606,
      "grad_norm": 0.12775133550167084,
      "learning_rate": 3.349037382307074e-06,
      "loss": 0.3889,
      "num_input_tokens_seen": 24131936,
      "step": 36895
    },
    {
      "epoch": 19.339622641509433,
      "grad_norm": 0.1451716274023056,
      "learning_rate": 3.322665209386899e-06,
      "loss": 0.4785,
      "num_input_tokens_seen": 24134912,
      "step": 36900
    },
    {
      "epoch": 19.34224318658281,
      "grad_norm": 0.23417852818965912,
      "learning_rate": 3.29639693569872e-06,
      "loss": 0.4261,
      "num_input_tokens_seen": 24137312,
      "step": 36905
    },
    {
      "epoch": 19.344863731656183,
      "grad_norm": 0.0990864560008049,
      "learning_rate": 3.270232566737641e-06,
      "loss": 0.3523,
      "num_input_tokens_seen": 24141024,
      "step": 36910
    },
    {
      "epoch": 19.34748427672956,
      "grad_norm": 0.18521825969219208,
      "learning_rate": 3.244172107976895e-06,
      "loss": 0.3,
      "num_input_tokens_seen": 24144512,
      "step": 36915
    },
    {
      "epoch": 19.350104821802937,
      "grad_norm": 0.18112458288669586,
      "learning_rate": 3.2182155648680657e-06,
      "loss": 0.3287,
      "num_input_tokens_seen": 24147392,
      "step": 36920
    },
    {
      "epoch": 19.35272536687631,
      "grad_norm": 0.25784727931022644,
      "learning_rate": 3.1923629428409205e-06,
      "loss": 0.4275,
      "num_input_tokens_seen": 24149824,
      "step": 36925
    },
    {
      "epoch": 19.355345911949687,
      "grad_norm": 0.10272615402936935,
      "learning_rate": 3.166614247303634e-06,
      "loss": 0.4725,
      "num_input_tokens_seen": 24152768,
      "step": 36930
    },
    {
      "epoch": 19.35796645702306,
      "grad_norm": 0.1033930554986,
      "learning_rate": 3.140969483642453e-06,
      "loss": 0.418,
      "num_input_tokens_seen": 24156480,
      "step": 36935
    },
    {
      "epoch": 19.360587002096437,
      "grad_norm": 0.15044137835502625,
      "learning_rate": 3.1154286572219747e-06,
      "loss": 0.4368,
      "num_input_tokens_seen": 24159136,
      "step": 36940
    },
    {
      "epoch": 19.36320754716981,
      "grad_norm": 0.1097283735871315,
      "learning_rate": 3.089991773385037e-06,
      "loss": 0.3323,
      "num_input_tokens_seen": 24163232,
      "step": 36945
    },
    {
      "epoch": 19.365828092243188,
      "grad_norm": 0.24822795391082764,
      "learning_rate": 3.064658837452772e-06,
      "loss": 0.3883,
      "num_input_tokens_seen": 24166624,
      "step": 36950
    },
    {
      "epoch": 19.36844863731656,
      "grad_norm": 0.15375711023807526,
      "learning_rate": 3.0394298547246068e-06,
      "loss": 0.3817,
      "num_input_tokens_seen": 24169440,
      "step": 36955
    },
    {
      "epoch": 19.371069182389938,
      "grad_norm": 0.10843304544687271,
      "learning_rate": 3.0143048304779875e-06,
      "loss": 0.3158,
      "num_input_tokens_seen": 24172960,
      "step": 36960
    },
    {
      "epoch": 19.37368972746331,
      "grad_norm": 0.18420453369617462,
      "learning_rate": 2.989283769968987e-06,
      "loss": 0.345,
      "num_input_tokens_seen": 24177152,
      "step": 36965
    },
    {
      "epoch": 19.37631027253669,
      "grad_norm": 0.19426026940345764,
      "learning_rate": 2.964366678431585e-06,
      "loss": 0.4847,
      "num_input_tokens_seen": 24180672,
      "step": 36970
    },
    {
      "epoch": 19.378930817610062,
      "grad_norm": 0.12307541072368622,
      "learning_rate": 2.9395535610781678e-06,
      "loss": 0.4228,
      "num_input_tokens_seen": 24184256,
      "step": 36975
    },
    {
      "epoch": 19.38155136268344,
      "grad_norm": 0.08957680314779282,
      "learning_rate": 2.9148444230994166e-06,
      "loss": 0.314,
      "num_input_tokens_seen": 24189568,
      "step": 36980
    },
    {
      "epoch": 19.384171907756812,
      "grad_norm": 0.21686327457427979,
      "learning_rate": 2.890239269664141e-06,
      "loss": 0.435,
      "num_input_tokens_seen": 24192288,
      "step": 36985
    },
    {
      "epoch": 19.38679245283019,
      "grad_norm": 0.13245193660259247,
      "learning_rate": 2.8657381059194466e-06,
      "loss": 0.4208,
      "num_input_tokens_seen": 24195584,
      "step": 36990
    },
    {
      "epoch": 19.389412997903563,
      "grad_norm": 0.24022217094898224,
      "learning_rate": 2.8413409369907885e-06,
      "loss": 0.4204,
      "num_input_tokens_seen": 24198048,
      "step": 36995
    },
    {
      "epoch": 19.39203354297694,
      "grad_norm": 0.30610302090644836,
      "learning_rate": 2.817047767981695e-06,
      "loss": 0.3515,
      "num_input_tokens_seen": 24200896,
      "step": 37000
    },
    {
      "epoch": 19.394654088050313,
      "grad_norm": 0.16674137115478516,
      "learning_rate": 2.7928586039740466e-06,
      "loss": 0.3782,
      "num_input_tokens_seen": 24203968,
      "step": 37005
    },
    {
      "epoch": 19.39727463312369,
      "grad_norm": 0.11600487679243088,
      "learning_rate": 2.7687734500279615e-06,
      "loss": 0.3549,
      "num_input_tokens_seen": 24207712,
      "step": 37010
    },
    {
      "epoch": 19.399895178197063,
      "grad_norm": 0.13076528906822205,
      "learning_rate": 2.744792311181743e-06,
      "loss": 0.3801,
      "num_input_tokens_seen": 24211040,
      "step": 37015
    },
    {
      "epoch": 19.40251572327044,
      "grad_norm": 0.13247592747211456,
      "learning_rate": 2.720915192451989e-06,
      "loss": 0.4296,
      "num_input_tokens_seen": 24214592,
      "step": 37020
    },
    {
      "epoch": 19.405136268343817,
      "grad_norm": 0.12887154519557953,
      "learning_rate": 2.697142098833538e-06,
      "loss": 0.4344,
      "num_input_tokens_seen": 24217952,
      "step": 37025
    },
    {
      "epoch": 19.40775681341719,
      "grad_norm": 0.12509803473949432,
      "learning_rate": 2.6734730352993563e-06,
      "loss": 0.449,
      "num_input_tokens_seen": 24221344,
      "step": 37030
    },
    {
      "epoch": 19.410377358490567,
      "grad_norm": 0.11222744733095169,
      "learning_rate": 2.649908006800872e-06,
      "loss": 0.6489,
      "num_input_tokens_seen": 24224640,
      "step": 37035
    },
    {
      "epoch": 19.41299790356394,
      "grad_norm": 0.16359058022499084,
      "learning_rate": 2.626447018267586e-06,
      "loss": 0.4334,
      "num_input_tokens_seen": 24227424,
      "step": 37040
    },
    {
      "epoch": 19.415618448637318,
      "grad_norm": 0.1147991195321083,
      "learning_rate": 2.603090074607184e-06,
      "loss": 0.4168,
      "num_input_tokens_seen": 24231424,
      "step": 37045
    },
    {
      "epoch": 19.41823899371069,
      "grad_norm": 0.12193603068590164,
      "learning_rate": 2.579837180705813e-06,
      "loss": 0.5051,
      "num_input_tokens_seen": 24234176,
      "step": 37050
    },
    {
      "epoch": 19.420859538784068,
      "grad_norm": 0.21932005882263184,
      "learning_rate": 2.556688341427582e-06,
      "loss": 0.4269,
      "num_input_tokens_seen": 24236992,
      "step": 37055
    },
    {
      "epoch": 19.42348008385744,
      "grad_norm": 0.20401562750339508,
      "learning_rate": 2.5336435616150066e-06,
      "loss": 0.3757,
      "num_input_tokens_seen": 24239936,
      "step": 37060
    },
    {
      "epoch": 19.42610062893082,
      "grad_norm": 0.19606168568134308,
      "learning_rate": 2.510702846088786e-06,
      "loss": 0.3742,
      "num_input_tokens_seen": 24242976,
      "step": 37065
    },
    {
      "epoch": 19.428721174004192,
      "grad_norm": 0.15130048990249634,
      "learning_rate": 2.487866199647915e-06,
      "loss": 0.3669,
      "num_input_tokens_seen": 24245504,
      "step": 37070
    },
    {
      "epoch": 19.43134171907757,
      "grad_norm": 0.1638455092906952,
      "learning_rate": 2.4651336270695156e-06,
      "loss": 0.5099,
      "num_input_tokens_seen": 24248704,
      "step": 37075
    },
    {
      "epoch": 19.433962264150942,
      "grad_norm": 0.222657710313797,
      "learning_rate": 2.442505133108952e-06,
      "loss": 0.4325,
      "num_input_tokens_seen": 24252288,
      "step": 37080
    },
    {
      "epoch": 19.43658280922432,
      "grad_norm": 0.1690221130847931,
      "learning_rate": 2.419980722499937e-06,
      "loss": 0.4062,
      "num_input_tokens_seen": 24255776,
      "step": 37085
    },
    {
      "epoch": 19.439203354297693,
      "grad_norm": 0.09940476715564728,
      "learning_rate": 2.397560399954202e-06,
      "loss": 0.4087,
      "num_input_tokens_seen": 24258624,
      "step": 37090
    },
    {
      "epoch": 19.44182389937107,
      "grad_norm": 0.17400090396404266,
      "learning_rate": 2.3752441701618833e-06,
      "loss": 0.4232,
      "num_input_tokens_seen": 24261120,
      "step": 37095
    },
    {
      "epoch": 19.444444444444443,
      "grad_norm": 0.16780784726142883,
      "learning_rate": 2.3530320377913027e-06,
      "loss": 0.352,
      "num_input_tokens_seen": 24264032,
      "step": 37100
    },
    {
      "epoch": 19.44706498951782,
      "grad_norm": 0.12944607436656952,
      "learning_rate": 2.3309240074890213e-06,
      "loss": 0.2695,
      "num_input_tokens_seen": 24267424,
      "step": 37105
    },
    {
      "epoch": 19.449685534591197,
      "grad_norm": 0.12061043083667755,
      "learning_rate": 2.3089200838796176e-06,
      "loss": 0.495,
      "num_input_tokens_seen": 24270976,
      "step": 37110
    },
    {
      "epoch": 19.45230607966457,
      "grad_norm": 0.16809578239917755,
      "learning_rate": 2.2870202715662426e-06,
      "loss": 0.4537,
      "num_input_tokens_seen": 24273856,
      "step": 37115
    },
    {
      "epoch": 19.454926624737947,
      "grad_norm": 0.10796035826206207,
      "learning_rate": 2.265224575130009e-06,
      "loss": 0.4522,
      "num_input_tokens_seen": 24277536,
      "step": 37120
    },
    {
      "epoch": 19.45754716981132,
      "grad_norm": 0.1893550008535385,
      "learning_rate": 2.2435329991303268e-06,
      "loss": 0.4583,
      "num_input_tokens_seen": 24283520,
      "step": 37125
    },
    {
      "epoch": 19.460167714884697,
      "grad_norm": 0.16139917075634003,
      "learning_rate": 2.2219455481047868e-06,
      "loss": 0.4407,
      "num_input_tokens_seen": 24286592,
      "step": 37130
    },
    {
      "epoch": 19.46278825995807,
      "grad_norm": 0.13764475286006927,
      "learning_rate": 2.2004622265693886e-06,
      "loss": 0.4263,
      "num_input_tokens_seen": 24290624,
      "step": 37135
    },
    {
      "epoch": 19.465408805031448,
      "grad_norm": 0.1662970781326294,
      "learning_rate": 2.179083039018037e-06,
      "loss": 0.4169,
      "num_input_tokens_seen": 24293568,
      "step": 37140
    },
    {
      "epoch": 19.46802935010482,
      "grad_norm": 0.1577974259853363,
      "learning_rate": 2.157807989923044e-06,
      "loss": 0.4681,
      "num_input_tokens_seen": 24296288,
      "step": 37145
    },
    {
      "epoch": 19.470649895178198,
      "grad_norm": 0.2543807923793793,
      "learning_rate": 2.1366370837349603e-06,
      "loss": 0.408,
      "num_input_tokens_seen": 24298592,
      "step": 37150
    },
    {
      "epoch": 19.47327044025157,
      "grad_norm": 0.14896807074546814,
      "learning_rate": 2.1155703248825207e-06,
      "loss": 0.3956,
      "num_input_tokens_seen": 24301856,
      "step": 37155
    },
    {
      "epoch": 19.47589098532495,
      "grad_norm": 0.13364021480083466,
      "learning_rate": 2.094607717772534e-06,
      "loss": 0.325,
      "num_input_tokens_seen": 24304832,
      "step": 37160
    },
    {
      "epoch": 19.478511530398322,
      "grad_norm": 0.1385849416255951,
      "learning_rate": 2.0737492667902702e-06,
      "loss": 0.3834,
      "num_input_tokens_seen": 24308480,
      "step": 37165
    },
    {
      "epoch": 19.4811320754717,
      "grad_norm": 0.16714337468147278,
      "learning_rate": 2.0529949762989608e-06,
      "loss": 0.4355,
      "num_input_tokens_seen": 24311552,
      "step": 37170
    },
    {
      "epoch": 19.483752620545072,
      "grad_norm": 0.16630123555660248,
      "learning_rate": 2.032344850640244e-06,
      "loss": 0.5603,
      "num_input_tokens_seen": 24314336,
      "step": 37175
    },
    {
      "epoch": 19.48637316561845,
      "grad_norm": 0.16906915605068207,
      "learning_rate": 2.011798894133887e-06,
      "loss": 0.4945,
      "num_input_tokens_seen": 24317184,
      "step": 37180
    },
    {
      "epoch": 19.488993710691823,
      "grad_norm": 0.15734422206878662,
      "learning_rate": 1.9913571110777852e-06,
      "loss": 0.4523,
      "num_input_tokens_seen": 24320544,
      "step": 37185
    },
    {
      "epoch": 19.4916142557652,
      "grad_norm": 0.14966559410095215,
      "learning_rate": 1.971019505748295e-06,
      "loss": 0.4659,
      "num_input_tokens_seen": 24324192,
      "step": 37190
    },
    {
      "epoch": 19.494234800838573,
      "grad_norm": 0.13114885985851288,
      "learning_rate": 1.9507860823996803e-06,
      "loss": 0.4019,
      "num_input_tokens_seen": 24328000,
      "step": 37195
    },
    {
      "epoch": 19.49685534591195,
      "grad_norm": 0.17962299287319183,
      "learning_rate": 1.9306568452645e-06,
      "loss": 0.4709,
      "num_input_tokens_seen": 24331136,
      "step": 37200
    },
    {
      "epoch": 19.499475890985323,
      "grad_norm": 0.1538027822971344,
      "learning_rate": 1.910631798553664e-06,
      "loss": 0.4018,
      "num_input_tokens_seen": 24334368,
      "step": 37205
    },
    {
      "epoch": 19.5020964360587,
      "grad_norm": 0.1466604769229889,
      "learning_rate": 1.8907109464562088e-06,
      "loss": 0.4318,
      "num_input_tokens_seen": 24337248,
      "step": 37210
    },
    {
      "epoch": 19.504716981132077,
      "grad_norm": 0.15455865859985352,
      "learning_rate": 1.870894293139247e-06,
      "loss": 0.4251,
      "num_input_tokens_seen": 24340352,
      "step": 37215
    },
    {
      "epoch": 19.50733752620545,
      "grad_norm": 0.1440207064151764,
      "learning_rate": 1.8511818427482396e-06,
      "loss": 0.6118,
      "num_input_tokens_seen": 24343584,
      "step": 37220
    },
    {
      "epoch": 19.509958071278827,
      "grad_norm": 0.16610530018806458,
      "learning_rate": 1.8315735994068327e-06,
      "loss": 0.4563,
      "num_input_tokens_seen": 24346880,
      "step": 37225
    },
    {
      "epoch": 19.5125786163522,
      "grad_norm": 0.11445131152868271,
      "learning_rate": 1.8120695672168009e-06,
      "loss": 0.3038,
      "num_input_tokens_seen": 24351552,
      "step": 37230
    },
    {
      "epoch": 19.515199161425578,
      "grad_norm": 0.1984104961156845,
      "learning_rate": 1.792669750258158e-06,
      "loss": 0.3769,
      "num_input_tokens_seen": 24355360,
      "step": 37235
    },
    {
      "epoch": 19.51781970649895,
      "grad_norm": 0.12116659432649612,
      "learning_rate": 1.7733741525892134e-06,
      "loss": 0.351,
      "num_input_tokens_seen": 24358336,
      "step": 37240
    },
    {
      "epoch": 19.520440251572328,
      "grad_norm": 0.16782401502132416,
      "learning_rate": 1.7541827782462937e-06,
      "loss": 0.4518,
      "num_input_tokens_seen": 24360992,
      "step": 37245
    },
    {
      "epoch": 19.5230607966457,
      "grad_norm": 0.1521286815404892,
      "learning_rate": 1.7350956312440768e-06,
      "loss": 0.4596,
      "num_input_tokens_seen": 24363296,
      "step": 37250
    },
    {
      "epoch": 19.52568134171908,
      "grad_norm": 0.16506735980510712,
      "learning_rate": 1.716112715575313e-06,
      "loss": 0.312,
      "num_input_tokens_seen": 24365568,
      "step": 37255
    },
    {
      "epoch": 19.528301886792452,
      "grad_norm": 0.15174049139022827,
      "learning_rate": 1.6972340352110481e-06,
      "loss": 0.3409,
      "num_input_tokens_seen": 24368672,
      "step": 37260
    },
    {
      "epoch": 19.53092243186583,
      "grad_norm": 0.17615075409412384,
      "learning_rate": 1.6784595941004565e-06,
      "loss": 0.32,
      "num_input_tokens_seen": 24371456,
      "step": 37265
    },
    {
      "epoch": 19.533542976939202,
      "grad_norm": 0.0948042944073677,
      "learning_rate": 1.659789396171063e-06,
      "loss": 0.4172,
      "num_input_tokens_seen": 24375200,
      "step": 37270
    },
    {
      "epoch": 19.53616352201258,
      "grad_norm": 0.2052403688430786,
      "learning_rate": 1.6412234453282993e-06,
      "loss": 0.4107,
      "num_input_tokens_seen": 24377824,
      "step": 37275
    },
    {
      "epoch": 19.538784067085953,
      "grad_norm": 0.14799323678016663,
      "learning_rate": 1.622761745456003e-06,
      "loss": 0.3659,
      "num_input_tokens_seen": 24381184,
      "step": 37280
    },
    {
      "epoch": 19.54140461215933,
      "grad_norm": 0.11392927914857864,
      "learning_rate": 1.6044043004161958e-06,
      "loss": 0.323,
      "num_input_tokens_seen": 24384448,
      "step": 37285
    },
    {
      "epoch": 19.544025157232703,
      "grad_norm": 0.12315445393323898,
      "learning_rate": 1.5861511140489725e-06,
      "loss": 0.3054,
      "num_input_tokens_seen": 24387104,
      "step": 37290
    },
    {
      "epoch": 19.54664570230608,
      "grad_norm": 0.12134037166833878,
      "learning_rate": 1.5680021901727237e-06,
      "loss": 0.4351,
      "num_input_tokens_seen": 24389792,
      "step": 37295
    },
    {
      "epoch": 19.549266247379457,
      "grad_norm": 0.19131922721862793,
      "learning_rate": 1.5499575325840232e-06,
      "loss": 0.4797,
      "num_input_tokens_seen": 24393632,
      "step": 37300
    },
    {
      "epoch": 19.55188679245283,
      "grad_norm": 0.17565582692623138,
      "learning_rate": 1.5320171450576293e-06,
      "loss": 0.3435,
      "num_input_tokens_seen": 24397152,
      "step": 37305
    },
    {
      "epoch": 19.554507337526207,
      "grad_norm": 0.129621684551239,
      "learning_rate": 1.5141810313463733e-06,
      "loss": 0.4752,
      "num_input_tokens_seen": 24401152,
      "step": 37310
    },
    {
      "epoch": 19.55712788259958,
      "grad_norm": 0.12080395221710205,
      "learning_rate": 1.4964491951814374e-06,
      "loss": 0.4477,
      "num_input_tokens_seen": 24404896,
      "step": 37315
    },
    {
      "epoch": 19.559748427672957,
      "grad_norm": 0.20912368595600128,
      "learning_rate": 1.4788216402720766e-06,
      "loss": 0.4044,
      "num_input_tokens_seen": 24407712,
      "step": 37320
    },
    {
      "epoch": 19.56236897274633,
      "grad_norm": 0.15082833170890808,
      "learning_rate": 1.4612983703058413e-06,
      "loss": 0.4162,
      "num_input_tokens_seen": 24411232,
      "step": 37325
    },
    {
      "epoch": 19.564989517819708,
      "grad_norm": 0.21519632637500763,
      "learning_rate": 1.4438793889483549e-06,
      "loss": 0.3396,
      "num_input_tokens_seen": 24414432,
      "step": 37330
    },
    {
      "epoch": 19.56761006289308,
      "grad_norm": 0.14185231924057007,
      "learning_rate": 1.4265646998434246e-06,
      "loss": 0.387,
      "num_input_tokens_seen": 24417600,
      "step": 37335
    },
    {
      "epoch": 19.570230607966458,
      "grad_norm": 0.1977149248123169,
      "learning_rate": 1.409354306613153e-06,
      "loss": 0.3619,
      "num_input_tokens_seen": 24420416,
      "step": 37340
    },
    {
      "epoch": 19.57285115303983,
      "grad_norm": 0.18163952231407166,
      "learning_rate": 1.3922482128577718e-06,
      "loss": 0.4231,
      "num_input_tokens_seen": 24424000,
      "step": 37345
    },
    {
      "epoch": 19.57547169811321,
      "grad_norm": 0.17788490653038025,
      "learning_rate": 1.3752464221556404e-06,
      "loss": 0.3798,
      "num_input_tokens_seen": 24427552,
      "step": 37350
    },
    {
      "epoch": 19.578092243186582,
      "grad_norm": 0.4083297848701477,
      "learning_rate": 1.358348938063303e-06,
      "loss": 0.3894,
      "num_input_tokens_seen": 24430176,
      "step": 37355
    },
    {
      "epoch": 19.58071278825996,
      "grad_norm": 0.21511957049369812,
      "learning_rate": 1.341555764115543e-06,
      "loss": 0.406,
      "num_input_tokens_seen": 24433312,
      "step": 37360
    },
    {
      "epoch": 19.583333333333332,
      "grad_norm": 0.19083736836910248,
      "learning_rate": 1.3248669038253835e-06,
      "loss": 0.2902,
      "num_input_tokens_seen": 24436608,
      "step": 37365
    },
    {
      "epoch": 19.58595387840671,
      "grad_norm": 0.18152527511119843,
      "learning_rate": 1.3082823606838656e-06,
      "loss": 0.5012,
      "num_input_tokens_seen": 24439136,
      "step": 37370
    },
    {
      "epoch": 19.588574423480082,
      "grad_norm": 0.12207731604576111,
      "learning_rate": 1.2918021381603251e-06,
      "loss": 0.314,
      "num_input_tokens_seen": 24442880,
      "step": 37375
    },
    {
      "epoch": 19.59119496855346,
      "grad_norm": 0.12570053339004517,
      "learning_rate": 1.275426239702171e-06,
      "loss": 0.3712,
      "num_input_tokens_seen": 24446240,
      "step": 37380
    },
    {
      "epoch": 19.593815513626833,
      "grad_norm": 0.11361196637153625,
      "learning_rate": 1.2591546687351073e-06,
      "loss": 0.4823,
      "num_input_tokens_seen": 24449376,
      "step": 37385
    },
    {
      "epoch": 19.59643605870021,
      "grad_norm": 0.0849597156047821,
      "learning_rate": 1.2429874286629673e-06,
      "loss": 0.5106,
      "num_input_tokens_seen": 24452608,
      "step": 37390
    },
    {
      "epoch": 19.599056603773583,
      "grad_norm": 0.15181182324886322,
      "learning_rate": 1.2269245228677116e-06,
      "loss": 0.4732,
      "num_input_tokens_seen": 24455008,
      "step": 37395
    },
    {
      "epoch": 19.60167714884696,
      "grad_norm": 0.13941745460033417,
      "learning_rate": 1.210965954709542e-06,
      "loss": 0.4878,
      "num_input_tokens_seen": 24459488,
      "step": 37400
    },
    {
      "epoch": 19.604297693920337,
      "grad_norm": 0.20370562374591827,
      "learning_rate": 1.1951117275268431e-06,
      "loss": 0.4973,
      "num_input_tokens_seen": 24463136,
      "step": 37405
    },
    {
      "epoch": 19.60691823899371,
      "grad_norm": 0.3248746395111084,
      "learning_rate": 1.1793618446360732e-06,
      "loss": 0.4288,
      "num_input_tokens_seen": 24466240,
      "step": 37410
    },
    {
      "epoch": 19.609538784067087,
      "grad_norm": 0.13199521601200104,
      "learning_rate": 1.1637163093319303e-06,
      "loss": 0.4045,
      "num_input_tokens_seen": 24469344,
      "step": 37415
    },
    {
      "epoch": 19.61215932914046,
      "grad_norm": 0.22986151278018951,
      "learning_rate": 1.1481751248874072e-06,
      "loss": 0.4673,
      "num_input_tokens_seen": 24471872,
      "step": 37420
    },
    {
      "epoch": 19.614779874213838,
      "grad_norm": 0.18123522400856018,
      "learning_rate": 1.1327382945533482e-06,
      "loss": 0.4531,
      "num_input_tokens_seen": 24474752,
      "step": 37425
    },
    {
      "epoch": 19.61740041928721,
      "grad_norm": 0.14498017728328705,
      "learning_rate": 1.1174058215591143e-06,
      "loss": 0.5264,
      "num_input_tokens_seen": 24480000,
      "step": 37430
    },
    {
      "epoch": 19.620020964360588,
      "grad_norm": 0.13563556969165802,
      "learning_rate": 1.1021777091119732e-06,
      "loss": 0.4093,
      "num_input_tokens_seen": 24482656,
      "step": 37435
    },
    {
      "epoch": 19.62264150943396,
      "grad_norm": 0.14056138694286346,
      "learning_rate": 1.0870539603975994e-06,
      "loss": 0.4065,
      "num_input_tokens_seen": 24485856,
      "step": 37440
    },
    {
      "epoch": 19.62526205450734,
      "grad_norm": 0.14080914855003357,
      "learning_rate": 1.0720345785795727e-06,
      "loss": 0.4845,
      "num_input_tokens_seen": 24489600,
      "step": 37445
    },
    {
      "epoch": 19.627882599580712,
      "grad_norm": 0.157839834690094,
      "learning_rate": 1.0571195667998802e-06,
      "loss": 0.3245,
      "num_input_tokens_seen": 24492160,
      "step": 37450
    },
    {
      "epoch": 19.63050314465409,
      "grad_norm": 0.1567150354385376,
      "learning_rate": 1.042308928178526e-06,
      "loss": 0.406,
      "num_input_tokens_seen": 24495200,
      "step": 37455
    },
    {
      "epoch": 19.633123689727462,
      "grad_norm": 0.16384336352348328,
      "learning_rate": 1.0276026658137538e-06,
      "loss": 0.3935,
      "num_input_tokens_seen": 24498624,
      "step": 37460
    },
    {
      "epoch": 19.63574423480084,
      "grad_norm": 0.10687398910522461,
      "learning_rate": 1.013000782781881e-06,
      "loss": 0.4401,
      "num_input_tokens_seen": 24501760,
      "step": 37465
    },
    {
      "epoch": 19.638364779874212,
      "grad_norm": 0.1998089849948883,
      "learning_rate": 9.985032821375195e-07,
      "loss": 0.4341,
      "num_input_tokens_seen": 24506560,
      "step": 37470
    },
    {
      "epoch": 19.64098532494759,
      "grad_norm": 0.18608230352401733,
      "learning_rate": 9.841101669134101e-07,
      "loss": 0.3876,
      "num_input_tokens_seen": 24509472,
      "step": 37475
    },
    {
      "epoch": 19.643605870020963,
      "grad_norm": 0.13851900398731232,
      "learning_rate": 9.69821440120311e-07,
      "loss": 0.3801,
      "num_input_tokens_seen": 24512608,
      "step": 37480
    },
    {
      "epoch": 19.64622641509434,
      "grad_norm": 0.1274629384279251,
      "learning_rate": 9.556371047473866e-07,
      "loss": 0.3923,
      "num_input_tokens_seen": 24516064,
      "step": 37485
    },
    {
      "epoch": 19.648846960167717,
      "grad_norm": 0.1122182160615921,
      "learning_rate": 9.415571637617082e-07,
      "loss": 0.3066,
      "num_input_tokens_seen": 24519744,
      "step": 37490
    },
    {
      "epoch": 19.65146750524109,
      "grad_norm": 0.24960026144981384,
      "learning_rate": 9.275816201087528e-07,
      "loss": 0.4306,
      "num_input_tokens_seen": 24523072,
      "step": 37495
    },
    {
      "epoch": 19.654088050314467,
      "grad_norm": 0.1304617077112198,
      "learning_rate": 9.137104767120153e-07,
      "loss": 0.3554,
      "num_input_tokens_seen": 24526752,
      "step": 37500
    },
    {
      "epoch": 19.65670859538784,
      "grad_norm": 0.20665860176086426,
      "learning_rate": 8.999437364731189e-07,
      "loss": 0.4744,
      "num_input_tokens_seen": 24529184,
      "step": 37505
    },
    {
      "epoch": 19.659329140461217,
      "grad_norm": 0.19508525729179382,
      "learning_rate": 8.862814022720378e-07,
      "loss": 0.4536,
      "num_input_tokens_seen": 24532576,
      "step": 37510
    },
    {
      "epoch": 19.66194968553459,
      "grad_norm": 0.25644636154174805,
      "learning_rate": 8.727234769666526e-07,
      "loss": 0.3357,
      "num_input_tokens_seen": 24535648,
      "step": 37515
    },
    {
      "epoch": 19.664570230607968,
      "grad_norm": 0.13197334110736847,
      "learning_rate": 8.592699633931389e-07,
      "loss": 0.3737,
      "num_input_tokens_seen": 24539136,
      "step": 37520
    },
    {
      "epoch": 19.66719077568134,
      "grad_norm": 0.1710783988237381,
      "learning_rate": 8.459208643659122e-07,
      "loss": 0.4293,
      "num_input_tokens_seen": 24543008,
      "step": 37525
    },
    {
      "epoch": 19.669811320754718,
      "grad_norm": 0.09699550271034241,
      "learning_rate": 8.326761826773499e-07,
      "loss": 0.4173,
      "num_input_tokens_seen": 24549408,
      "step": 37530
    },
    {
      "epoch": 19.67243186582809,
      "grad_norm": 0.15461616218090057,
      "learning_rate": 8.195359210981246e-07,
      "loss": 0.3908,
      "num_input_tokens_seen": 24552960,
      "step": 37535
    },
    {
      "epoch": 19.67505241090147,
      "grad_norm": 0.19321037828922272,
      "learning_rate": 8.065000823770929e-07,
      "loss": 0.4222,
      "num_input_tokens_seen": 24555648,
      "step": 37540
    },
    {
      "epoch": 19.677672955974842,
      "grad_norm": 0.18173480033874512,
      "learning_rate": 7.935686692410737e-07,
      "loss": 0.3995,
      "num_input_tokens_seen": 24558976,
      "step": 37545
    },
    {
      "epoch": 19.68029350104822,
      "grad_norm": 0.16960005462169647,
      "learning_rate": 7.807416843952364e-07,
      "loss": 0.4418,
      "num_input_tokens_seen": 24562560,
      "step": 37550
    },
    {
      "epoch": 19.682914046121592,
      "grad_norm": 0.12952081859111786,
      "learning_rate": 7.68019130522879e-07,
      "loss": 0.5545,
      "num_input_tokens_seen": 24565664,
      "step": 37555
    },
    {
      "epoch": 19.68553459119497,
      "grad_norm": 0.13999809324741364,
      "learning_rate": 7.554010102853726e-07,
      "loss": 0.3676,
      "num_input_tokens_seen": 24569120,
      "step": 37560
    },
    {
      "epoch": 19.688155136268342,
      "grad_norm": 0.12816788256168365,
      "learning_rate": 7.428873263223279e-07,
      "loss": 0.3343,
      "num_input_tokens_seen": 24572320,
      "step": 37565
    },
    {
      "epoch": 19.69077568134172,
      "grad_norm": 0.2608524560928345,
      "learning_rate": 7.304780812513734e-07,
      "loss": 0.4972,
      "num_input_tokens_seen": 24575808,
      "step": 37570
    },
    {
      "epoch": 19.693396226415093,
      "grad_norm": 0.1658143401145935,
      "learning_rate": 7.181732776684325e-07,
      "loss": 0.3774,
      "num_input_tokens_seen": 24579072,
      "step": 37575
    },
    {
      "epoch": 19.69601677148847,
      "grad_norm": 0.3115733861923218,
      "learning_rate": 7.059729181475572e-07,
      "loss": 0.3574,
      "num_input_tokens_seen": 24581536,
      "step": 37580
    },
    {
      "epoch": 19.698637316561843,
      "grad_norm": 0.13993191719055176,
      "learning_rate": 6.938770052409282e-07,
      "loss": 0.3308,
      "num_input_tokens_seen": 24585472,
      "step": 37585
    },
    {
      "epoch": 19.70125786163522,
      "grad_norm": 0.14817439019680023,
      "learning_rate": 6.81885541478855e-07,
      "loss": 0.568,
      "num_input_tokens_seen": 24588320,
      "step": 37590
    },
    {
      "epoch": 19.703878406708597,
      "grad_norm": 0.1886705607175827,
      "learning_rate": 6.699985293697197e-07,
      "loss": 0.335,
      "num_input_tokens_seen": 24591328,
      "step": 37595
    },
    {
      "epoch": 19.70649895178197,
      "grad_norm": 0.15743233263492584,
      "learning_rate": 6.582159714003111e-07,
      "loss": 0.4299,
      "num_input_tokens_seen": 24594976,
      "step": 37600
    },
    {
      "epoch": 19.709119496855347,
      "grad_norm": 0.2675434350967407,
      "learning_rate": 6.465378700352687e-07,
      "loss": 0.352,
      "num_input_tokens_seen": 24597504,
      "step": 37605
    },
    {
      "epoch": 19.71174004192872,
      "grad_norm": 0.15400215983390808,
      "learning_rate": 6.349642277176382e-07,
      "loss": 0.4568,
      "num_input_tokens_seen": 24600128,
      "step": 37610
    },
    {
      "epoch": 19.714360587002098,
      "grad_norm": 0.14740382134914398,
      "learning_rate": 6.23495046868372e-07,
      "loss": 0.3123,
      "num_input_tokens_seen": 24603648,
      "step": 37615
    },
    {
      "epoch": 19.71698113207547,
      "grad_norm": 0.14939863979816437,
      "learning_rate": 6.121303298868286e-07,
      "loss": 0.4735,
      "num_input_tokens_seen": 24606688,
      "step": 37620
    },
    {
      "epoch": 19.719601677148848,
      "grad_norm": 0.12373170256614685,
      "learning_rate": 6.008700791502175e-07,
      "loss": 0.4021,
      "num_input_tokens_seen": 24610688,
      "step": 37625
    },
    {
      "epoch": 19.72222222222222,
      "grad_norm": 0.15040193498134613,
      "learning_rate": 5.8971429701421e-07,
      "loss": 0.3399,
      "num_input_tokens_seen": 24615456,
      "step": 37630
    },
    {
      "epoch": 19.7248427672956,
      "grad_norm": 0.12985913455486298,
      "learning_rate": 5.786629858123283e-07,
      "loss": 0.3639,
      "num_input_tokens_seen": 24618720,
      "step": 37635
    },
    {
      "epoch": 19.72746331236897,
      "grad_norm": 0.1101306676864624,
      "learning_rate": 5.677161478565008e-07,
      "loss": 0.3747,
      "num_input_tokens_seen": 24621184,
      "step": 37640
    },
    {
      "epoch": 19.73008385744235,
      "grad_norm": 0.09042895585298538,
      "learning_rate": 5.56873785436618e-07,
      "loss": 0.6234,
      "num_input_tokens_seen": 24624512,
      "step": 37645
    },
    {
      "epoch": 19.732704402515722,
      "grad_norm": 0.14041784405708313,
      "learning_rate": 5.4613590082081e-07,
      "loss": 0.4606,
      "num_input_tokens_seen": 24626880,
      "step": 37650
    },
    {
      "epoch": 19.7353249475891,
      "grad_norm": 0.11788145452737808,
      "learning_rate": 5.355024962552801e-07,
      "loss": 0.5354,
      "num_input_tokens_seen": 24629888,
      "step": 37655
    },
    {
      "epoch": 19.737945492662472,
      "grad_norm": 0.15346774458885193,
      "learning_rate": 5.249735739644157e-07,
      "loss": 0.3399,
      "num_input_tokens_seen": 24633408,
      "step": 37660
    },
    {
      "epoch": 19.74056603773585,
      "grad_norm": 0.1185070276260376,
      "learning_rate": 5.145491361508436e-07,
      "loss": 0.5043,
      "num_input_tokens_seen": 24636096,
      "step": 37665
    },
    {
      "epoch": 19.743186582809223,
      "grad_norm": 0.1420951634645462,
      "learning_rate": 5.042291849950975e-07,
      "loss": 0.4203,
      "num_input_tokens_seen": 24639872,
      "step": 37670
    },
    {
      "epoch": 19.7458071278826,
      "grad_norm": 0.24854856729507446,
      "learning_rate": 4.940137226560615e-07,
      "loss": 0.3741,
      "num_input_tokens_seen": 24642816,
      "step": 37675
    },
    {
      "epoch": 19.748427672955973,
      "grad_norm": 0.2323131263256073,
      "learning_rate": 4.839027512706928e-07,
      "loss": 0.3093,
      "num_input_tokens_seen": 24645312,
      "step": 37680
    },
    {
      "epoch": 19.75104821802935,
      "grad_norm": 0.15451374650001526,
      "learning_rate": 4.7389627295407743e-07,
      "loss": 0.5277,
      "num_input_tokens_seen": 24648416,
      "step": 37685
    },
    {
      "epoch": 19.753668763102727,
      "grad_norm": 0.2563464939594269,
      "learning_rate": 4.6399428979948534e-07,
      "loss": 0.4159,
      "num_input_tokens_seen": 24651808,
      "step": 37690
    },
    {
      "epoch": 19.7562893081761,
      "grad_norm": 0.1972709745168686,
      "learning_rate": 4.541968038782596e-07,
      "loss": 0.3926,
      "num_input_tokens_seen": 24655232,
      "step": 37695
    },
    {
      "epoch": 19.758909853249477,
      "grad_norm": 0.15467122197151184,
      "learning_rate": 4.445038172399829e-07,
      "loss": 0.8168,
      "num_input_tokens_seen": 24658208,
      "step": 37700
    },
    {
      "epoch": 19.76153039832285,
      "grad_norm": 0.1273563802242279,
      "learning_rate": 4.3491533191225563e-07,
      "loss": 0.4684,
      "num_input_tokens_seen": 24661536,
      "step": 37705
    },
    {
      "epoch": 19.764150943396228,
      "grad_norm": 0.13297386467456818,
      "learning_rate": 4.254313499009177e-07,
      "loss": 0.4644,
      "num_input_tokens_seen": 24664832,
      "step": 37710
    },
    {
      "epoch": 19.7667714884696,
      "grad_norm": 0.1141863465309143,
      "learning_rate": 4.1605187318982664e-07,
      "loss": 0.4439,
      "num_input_tokens_seen": 24667872,
      "step": 37715
    },
    {
      "epoch": 19.769392033542978,
      "grad_norm": 0.1115851178765297,
      "learning_rate": 4.067769037411906e-07,
      "loss": 0.3559,
      "num_input_tokens_seen": 24670976,
      "step": 37720
    },
    {
      "epoch": 19.77201257861635,
      "grad_norm": 0.1357993483543396,
      "learning_rate": 3.9760644349517984e-07,
      "loss": 0.2178,
      "num_input_tokens_seen": 24677568,
      "step": 37725
    },
    {
      "epoch": 19.77463312368973,
      "grad_norm": 0.12236281484365463,
      "learning_rate": 3.885404943700932e-07,
      "loss": 0.3911,
      "num_input_tokens_seen": 24680768,
      "step": 37730
    },
    {
      "epoch": 19.7772536687631,
      "grad_norm": 0.13201649487018585,
      "learning_rate": 3.795790582624692e-07,
      "loss": 0.4579,
      "num_input_tokens_seen": 24684032,
      "step": 37735
    },
    {
      "epoch": 19.77987421383648,
      "grad_norm": 0.1528300940990448,
      "learning_rate": 3.707221370469749e-07,
      "loss": 0.5216,
      "num_input_tokens_seen": 24686976,
      "step": 37740
    },
    {
      "epoch": 19.782494758909852,
      "grad_norm": 0.1653064489364624,
      "learning_rate": 3.6196973257629494e-07,
      "loss": 0.3604,
      "num_input_tokens_seen": 24690560,
      "step": 37745
    },
    {
      "epoch": 19.78511530398323,
      "grad_norm": 0.20291587710380554,
      "learning_rate": 3.533218466813537e-07,
      "loss": 0.38,
      "num_input_tokens_seen": 24693344,
      "step": 37750
    },
    {
      "epoch": 19.787735849056602,
      "grad_norm": 0.2136213630437851,
      "learning_rate": 3.447784811712595e-07,
      "loss": 0.4015,
      "num_input_tokens_seen": 24696160,
      "step": 37755
    },
    {
      "epoch": 19.79035639412998,
      "grad_norm": 0.15255802869796753,
      "learning_rate": 3.363396378331385e-07,
      "loss": 0.4236,
      "num_input_tokens_seen": 24699232,
      "step": 37760
    },
    {
      "epoch": 19.792976939203353,
      "grad_norm": 0.12003538012504578,
      "learning_rate": 3.280053184323006e-07,
      "loss": 0.3899,
      "num_input_tokens_seen": 24703104,
      "step": 37765
    },
    {
      "epoch": 19.79559748427673,
      "grad_norm": 0.10719341039657593,
      "learning_rate": 3.1977552471218476e-07,
      "loss": 0.3598,
      "num_input_tokens_seen": 24706816,
      "step": 37770
    },
    {
      "epoch": 19.798218029350103,
      "grad_norm": 0.13860729336738586,
      "learning_rate": 3.116502583943581e-07,
      "loss": 0.464,
      "num_input_tokens_seen": 24709696,
      "step": 37775
    },
    {
      "epoch": 19.80083857442348,
      "grad_norm": 0.16206565499305725,
      "learning_rate": 3.036295211785722e-07,
      "loss": 0.4955,
      "num_input_tokens_seen": 24713696,
      "step": 37780
    },
    {
      "epoch": 19.803459119496857,
      "grad_norm": 0.0914914682507515,
      "learning_rate": 2.957133147425961e-07,
      "loss": 0.3843,
      "num_input_tokens_seen": 24716768,
      "step": 37785
    },
    {
      "epoch": 19.80607966457023,
      "grad_norm": 0.15353737771511078,
      "learning_rate": 2.879016407425494e-07,
      "loss": 0.3865,
      "num_input_tokens_seen": 24720448,
      "step": 37790
    },
    {
      "epoch": 19.808700209643607,
      "grad_norm": 0.12040124088525772,
      "learning_rate": 2.8019450081240295e-07,
      "loss": 0.3856,
      "num_input_tokens_seen": 24723680,
      "step": 37795
    },
    {
      "epoch": 19.81132075471698,
      "grad_norm": 0.15495409071445465,
      "learning_rate": 2.7259189656447803e-07,
      "loss": 0.4206,
      "num_input_tokens_seen": 24726848,
      "step": 37800
    },
    {
      "epoch": 19.813941299790358,
      "grad_norm": 0.1154552474617958,
      "learning_rate": 2.650938295891692e-07,
      "loss": 0.4365,
      "num_input_tokens_seen": 24730016,
      "step": 37805
    },
    {
      "epoch": 19.81656184486373,
      "grad_norm": 0.21579983830451965,
      "learning_rate": 2.5770030145494395e-07,
      "loss": 0.5266,
      "num_input_tokens_seen": 24732480,
      "step": 37810
    },
    {
      "epoch": 19.819182389937108,
      "grad_norm": 0.22175440192222595,
      "learning_rate": 2.504113137083985e-07,
      "loss": 0.4918,
      "num_input_tokens_seen": 24735712,
      "step": 37815
    },
    {
      "epoch": 19.82180293501048,
      "grad_norm": 0.19447027146816254,
      "learning_rate": 2.4322686787442425e-07,
      "loss": 0.4101,
      "num_input_tokens_seen": 24739008,
      "step": 37820
    },
    {
      "epoch": 19.82442348008386,
      "grad_norm": 0.16523736715316772,
      "learning_rate": 2.3614696545581904e-07,
      "loss": 0.5052,
      "num_input_tokens_seen": 24742432,
      "step": 37825
    },
    {
      "epoch": 19.82704402515723,
      "grad_norm": 0.17869606614112854,
      "learning_rate": 2.2917160793367585e-07,
      "loss": 0.4311,
      "num_input_tokens_seen": 24745632,
      "step": 37830
    },
    {
      "epoch": 19.82966457023061,
      "grad_norm": 0.09903636574745178,
      "learning_rate": 2.2230079676716086e-07,
      "loss": 0.3009,
      "num_input_tokens_seen": 24748960,
      "step": 37835
    },
    {
      "epoch": 19.832285115303982,
      "grad_norm": 0.13526366651058197,
      "learning_rate": 2.1553453339356875e-07,
      "loss": 0.574,
      "num_input_tokens_seen": 24751872,
      "step": 37840
    },
    {
      "epoch": 19.83490566037736,
      "grad_norm": 0.1714310348033905,
      "learning_rate": 2.0887281922826738e-07,
      "loss": 0.4893,
      "num_input_tokens_seen": 24759232,
      "step": 37845
    },
    {
      "epoch": 19.837526205450732,
      "grad_norm": 0.12161611765623093,
      "learning_rate": 2.023156556648642e-07,
      "loss": 0.5262,
      "num_input_tokens_seen": 24762528,
      "step": 37850
    },
    {
      "epoch": 19.84014675052411,
      "grad_norm": 0.19420179724693298,
      "learning_rate": 1.9586304407503975e-07,
      "loss": 0.4317,
      "num_input_tokens_seen": 24765344,
      "step": 37855
    },
    {
      "epoch": 19.842767295597483,
      "grad_norm": 0.2273896336555481,
      "learning_rate": 1.8951498580860315e-07,
      "loss": 0.5094,
      "num_input_tokens_seen": 24768512,
      "step": 37860
    },
    {
      "epoch": 19.84538784067086,
      "grad_norm": 0.1593203842639923,
      "learning_rate": 1.832714821934922e-07,
      "loss": 0.3135,
      "num_input_tokens_seen": 24771776,
      "step": 37865
    },
    {
      "epoch": 19.848008385744233,
      "grad_norm": 0.13968417048454285,
      "learning_rate": 1.7713253453577328e-07,
      "loss": 0.3476,
      "num_input_tokens_seen": 24774656,
      "step": 37870
    },
    {
      "epoch": 19.85062893081761,
      "grad_norm": 0.16518093645572662,
      "learning_rate": 1.7109814411964132e-07,
      "loss": 0.377,
      "num_input_tokens_seen": 24777568,
      "step": 37875
    },
    {
      "epoch": 19.853249475890987,
      "grad_norm": 0.12305354326963425,
      "learning_rate": 1.651683122074754e-07,
      "loss": 0.2937,
      "num_input_tokens_seen": 24780864,
      "step": 37880
    },
    {
      "epoch": 19.85587002096436,
      "grad_norm": 0.14292345941066742,
      "learning_rate": 1.5934304003961675e-07,
      "loss": 0.3414,
      "num_input_tokens_seen": 24784256,
      "step": 37885
    },
    {
      "epoch": 19.858490566037737,
      "grad_norm": 0.235553577542305,
      "learning_rate": 1.5362232883475713e-07,
      "loss": 0.4301,
      "num_input_tokens_seen": 24787296,
      "step": 37890
    },
    {
      "epoch": 19.86111111111111,
      "grad_norm": 0.18994289636611938,
      "learning_rate": 1.4800617978949492e-07,
      "loss": 0.4588,
      "num_input_tokens_seen": 24792320,
      "step": 37895
    },
    {
      "epoch": 19.863731656184488,
      "grad_norm": 0.15449056029319763,
      "learning_rate": 1.424945940787792e-07,
      "loss": 0.3287,
      "num_input_tokens_seen": 24795072,
      "step": 37900
    },
    {
      "epoch": 19.86635220125786,
      "grad_norm": 0.07675658166408539,
      "learning_rate": 1.3708757285552098e-07,
      "loss": 0.5099,
      "num_input_tokens_seen": 24798016,
      "step": 37905
    },
    {
      "epoch": 19.868972746331238,
      "grad_norm": 0.34939172863960266,
      "learning_rate": 1.3178511725076004e-07,
      "loss": 0.4699,
      "num_input_tokens_seen": 24800544,
      "step": 37910
    },
    {
      "epoch": 19.87159329140461,
      "grad_norm": 0.15624532103538513,
      "learning_rate": 1.265872283738312e-07,
      "loss": 0.4705,
      "num_input_tokens_seen": 24803872,
      "step": 37915
    },
    {
      "epoch": 19.87421383647799,
      "grad_norm": 0.20904484391212463,
      "learning_rate": 1.2149390731192033e-07,
      "loss": 0.4422,
      "num_input_tokens_seen": 24806464,
      "step": 37920
    },
    {
      "epoch": 19.87683438155136,
      "grad_norm": 0.11749065667390823,
      "learning_rate": 1.1650515513061955e-07,
      "loss": 0.4208,
      "num_input_tokens_seen": 24814080,
      "step": 37925
    },
    {
      "epoch": 19.87945492662474,
      "grad_norm": 0.2240196317434311,
      "learning_rate": 1.1162097287342743e-07,
      "loss": 0.4407,
      "num_input_tokens_seen": 24817248,
      "step": 37930
    },
    {
      "epoch": 19.882075471698112,
      "grad_norm": 0.13013216853141785,
      "learning_rate": 1.0684136156213775e-07,
      "loss": 0.2873,
      "num_input_tokens_seen": 24820480,
      "step": 37935
    },
    {
      "epoch": 19.88469601677149,
      "grad_norm": 0.18070390820503235,
      "learning_rate": 1.0216632219650634e-07,
      "loss": 0.4112,
      "num_input_tokens_seen": 24823200,
      "step": 37940
    },
    {
      "epoch": 19.887316561844862,
      "grad_norm": 0.19589094817638397,
      "learning_rate": 9.759585575458418e-08,
      "loss": 0.3497,
      "num_input_tokens_seen": 24826112,
      "step": 37945
    },
    {
      "epoch": 19.88993710691824,
      "grad_norm": 0.17448365688323975,
      "learning_rate": 9.312996319238432e-08,
      "loss": 0.4292,
      "num_input_tokens_seen": 24828576,
      "step": 37950
    },
    {
      "epoch": 19.892557651991613,
      "grad_norm": 0.1360258311033249,
      "learning_rate": 8.876864544421493e-08,
      "loss": 0.3143,
      "num_input_tokens_seen": 24832672,
      "step": 37955
    },
    {
      "epoch": 19.89517819706499,
      "grad_norm": 0.11575133353471756,
      "learning_rate": 8.451190342229077e-08,
      "loss": 0.4214,
      "num_input_tokens_seen": 24835616,
      "step": 37960
    },
    {
      "epoch": 19.897798742138363,
      "grad_norm": 0.12150205671787262,
      "learning_rate": 8.035973801717722e-08,
      "loss": 0.3764,
      "num_input_tokens_seen": 24839328,
      "step": 37965
    },
    {
      "epoch": 19.90041928721174,
      "grad_norm": 0.1214115098118782,
      "learning_rate": 7.631215009740178e-08,
      "loss": 0.3333,
      "num_input_tokens_seen": 24842176,
      "step": 37970
    },
    {
      "epoch": 19.903039832285117,
      "grad_norm": 0.1707434207201004,
      "learning_rate": 7.236914050973153e-08,
      "loss": 0.6084,
      "num_input_tokens_seen": 24845088,
      "step": 37975
    },
    {
      "epoch": 19.90566037735849,
      "grad_norm": 0.12401221692562103,
      "learning_rate": 6.853071007895117e-08,
      "loss": 0.3747,
      "num_input_tokens_seen": 24848032,
      "step": 37980
    },
    {
      "epoch": 19.908280922431867,
      "grad_norm": 0.10747253894805908,
      "learning_rate": 6.479685960797399e-08,
      "loss": 0.4574,
      "num_input_tokens_seen": 24851584,
      "step": 37985
    },
    {
      "epoch": 19.91090146750524,
      "grad_norm": 0.15380503237247467,
      "learning_rate": 6.116758987800841e-08,
      "loss": 0.4552,
      "num_input_tokens_seen": 24854464,
      "step": 37990
    },
    {
      "epoch": 19.913522012578618,
      "grad_norm": 0.28621336817741394,
      "learning_rate": 5.7642901648113924e-08,
      "loss": 0.4294,
      "num_input_tokens_seen": 24857152,
      "step": 37995
    },
    {
      "epoch": 19.91614255765199,
      "grad_norm": 0.1566144824028015,
      "learning_rate": 5.422279565570065e-08,
      "loss": 0.4716,
      "num_input_tokens_seen": 24860480,
      "step": 38000
    },
    {
      "epoch": 19.918763102725368,
      "grad_norm": 0.1099814847111702,
      "learning_rate": 5.090727261619632e-08,
      "loss": 0.4104,
      "num_input_tokens_seen": 24863680,
      "step": 38005
    },
    {
      "epoch": 19.92138364779874,
      "grad_norm": 0.13892123103141785,
      "learning_rate": 4.7696333223212765e-08,
      "loss": 0.4689,
      "num_input_tokens_seen": 24866976,
      "step": 38010
    },
    {
      "epoch": 19.92400419287212,
      "grad_norm": 0.1667318493127823,
      "learning_rate": 4.4589978148323884e-08,
      "loss": 0.4049,
      "num_input_tokens_seen": 24870240,
      "step": 38015
    },
    {
      "epoch": 19.92662473794549,
      "grad_norm": 0.19044768810272217,
      "learning_rate": 4.1588208041454244e-08,
      "loss": 0.5993,
      "num_input_tokens_seen": 24874400,
      "step": 38020
    },
    {
      "epoch": 19.92924528301887,
      "grad_norm": 0.2911854088306427,
      "learning_rate": 3.8691023530545985e-08,
      "loss": 0.4446,
      "num_input_tokens_seen": 24878368,
      "step": 38025
    },
    {
      "epoch": 19.931865828092242,
      "grad_norm": 0.2714846432209015,
      "learning_rate": 3.589842522155884e-08,
      "loss": 0.355,
      "num_input_tokens_seen": 24881184,
      "step": 38030
    },
    {
      "epoch": 19.93448637316562,
      "grad_norm": 0.11981278657913208,
      "learning_rate": 3.321041369874767e-08,
      "loss": 0.374,
      "num_input_tokens_seen": 24884704,
      "step": 38035
    },
    {
      "epoch": 19.937106918238992,
      "grad_norm": 0.28520551323890686,
      "learning_rate": 3.0626989524384916e-08,
      "loss": 0.5504,
      "num_input_tokens_seen": 24887456,
      "step": 38040
    },
    {
      "epoch": 19.93972746331237,
      "grad_norm": 0.10813941806554794,
      "learning_rate": 2.8148153238927167e-08,
      "loss": 0.3879,
      "num_input_tokens_seen": 24890592,
      "step": 38045
    },
    {
      "epoch": 19.942348008385743,
      "grad_norm": 0.14627234637737274,
      "learning_rate": 2.5773905360904072e-08,
      "loss": 0.4081,
      "num_input_tokens_seen": 24893856,
      "step": 38050
    },
    {
      "epoch": 19.94496855345912,
      "grad_norm": 0.154570534825325,
      "learning_rate": 2.3504246386918392e-08,
      "loss": 0.2725,
      "num_input_tokens_seen": 24896544,
      "step": 38055
    },
    {
      "epoch": 19.947589098532493,
      "grad_norm": 0.14795808494091034,
      "learning_rate": 2.133917679186803e-08,
      "loss": 0.3229,
      "num_input_tokens_seen": 24898848,
      "step": 38060
    },
    {
      "epoch": 19.95020964360587,
      "grad_norm": 0.16785641014575958,
      "learning_rate": 1.9278697028557447e-08,
      "loss": 0.2934,
      "num_input_tokens_seen": 24901472,
      "step": 38065
    },
    {
      "epoch": 19.952830188679247,
      "grad_norm": 0.12054848670959473,
      "learning_rate": 1.7322807528086238e-08,
      "loss": 0.3705,
      "num_input_tokens_seen": 24904768,
      "step": 38070
    },
    {
      "epoch": 19.95545073375262,
      "grad_norm": 0.15131129324436188,
      "learning_rate": 1.547150869957159e-08,
      "loss": 0.4293,
      "num_input_tokens_seen": 24908512,
      "step": 38075
    },
    {
      "epoch": 19.958071278825997,
      "grad_norm": 0.1744636744260788,
      "learning_rate": 1.3724800930314806e-08,
      "loss": 0.5418,
      "num_input_tokens_seen": 24911488,
      "step": 38080
    },
    {
      "epoch": 19.96069182389937,
      "grad_norm": 0.09919732809066772,
      "learning_rate": 1.2082684585634773e-08,
      "loss": 0.37,
      "num_input_tokens_seen": 24914624,
      "step": 38085
    },
    {
      "epoch": 19.963312368972748,
      "grad_norm": 0.14967738091945648,
      "learning_rate": 1.0545160009145516e-08,
      "loss": 0.4362,
      "num_input_tokens_seen": 24917632,
      "step": 38090
    },
    {
      "epoch": 19.96593291404612,
      "grad_norm": 0.14211545884609222,
      "learning_rate": 9.112227522423133e-09,
      "loss": 0.427,
      "num_input_tokens_seen": 24920768,
      "step": 38095
    },
    {
      "epoch": 19.968553459119498,
      "grad_norm": 0.13957436382770538,
      "learning_rate": 7.783887425172331e-09,
      "loss": 0.5754,
      "num_input_tokens_seen": 24923936,
      "step": 38100
    },
    {
      "epoch": 19.97117400419287,
      "grad_norm": 0.12955746054649353,
      "learning_rate": 6.560139995392955e-09,
      "loss": 0.3197,
      "num_input_tokens_seen": 24927424,
      "step": 38105
    },
    {
      "epoch": 19.97379454926625,
      "grad_norm": 0.16889847815036774,
      "learning_rate": 5.440985488935901e-09,
      "loss": 0.4956,
      "num_input_tokens_seen": 24930080,
      "step": 38110
    },
    {
      "epoch": 19.97641509433962,
      "grad_norm": 0.15875306725502014,
      "learning_rate": 4.426424140058227e-09,
      "loss": 0.4218,
      "num_input_tokens_seen": 24933664,
      "step": 38115
    },
    {
      "epoch": 19.979035639413,
      "grad_norm": 0.17362646758556366,
      "learning_rate": 3.5164561608680424e-09,
      "loss": 0.4523,
      "num_input_tokens_seen": 24936800,
      "step": 38120
    },
    {
      "epoch": 19.981656184486372,
      "grad_norm": 0.45779871940612793,
      "learning_rate": 2.7110817417685953e-09,
      "loss": 0.5252,
      "num_input_tokens_seen": 24940352,
      "step": 38125
    },
    {
      "epoch": 19.98427672955975,
      "grad_norm": 0.13185782730579376,
      "learning_rate": 2.010301051291741e-09,
      "loss": 0.4581,
      "num_input_tokens_seen": 24943808,
      "step": 38130
    },
    {
      "epoch": 19.986897274633122,
      "grad_norm": 0.17999973893165588,
      "learning_rate": 1.4141142359314074e-09,
      "loss": 0.412,
      "num_input_tokens_seen": 24946304,
      "step": 38135
    },
    {
      "epoch": 19.9895178197065,
      "grad_norm": 0.13698172569274902,
      "learning_rate": 9.22521420476663e-10,
      "loss": 0.4079,
      "num_input_tokens_seen": 24949440,
      "step": 38140
    },
    {
      "epoch": 19.992138364779873,
      "grad_norm": 0.15910851955413818,
      "learning_rate": 5.355227077341596e-10,
      "loss": 0.3476,
      "num_input_tokens_seen": 24953376,
      "step": 38145
    },
    {
      "epoch": 19.99475890985325,
      "grad_norm": 0.1007692739367485,
      "learning_rate": 2.5311817863915566e-10,
      "loss": 0.3974,
      "num_input_tokens_seen": 24957984,
      "step": 38150
    },
    {
      "epoch": 19.997379454926623,
      "grad_norm": 0.19931358098983765,
      "learning_rate": 7.53078923110273e-11,
      "loss": 0.3845,
      "num_input_tokens_seen": 24960832,
      "step": 38155
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.5581074953079224,
      "learning_rate": 2.0918859422458526e-12,
      "loss": 0.6004,
      "num_input_tokens_seen": 24964664,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.4879712164402008,
      "eval_runtime": 13.5854,
      "eval_samples_per_second": 62.42,
      "eval_steps_per_second": 15.605,
      "num_input_tokens_seen": 24964664,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "num_input_tokens_seen": 24964664,
      "step": 38160,
      "total_flos": 1.1241475366907412e+18,
      "train_loss": 0.45841949194419807,
      "train_runtime": 5890.6194,
      "train_samples_per_second": 25.902,
      "train_steps_per_second": 6.478
    }
  ],
  "logging_steps": 5,
  "max_steps": 38160,
  "num_input_tokens_seen": 24964664,
  "num_train_epochs": 20,
  "save_steps": 1908,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1241475366907412e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}